如果要用一个词来形容新 AI 时代,那就是“规模” 。自 2022 年 11 月 OpenAI 发布 GPT-3 的网页界面(即 ChatGPT)以来,大型语言模型的普及基础模型简介度已显著提升,这得益于其在公众中的广泛使用。
“规模”一词不仅适用于这些模型的流行度,也适用于它们训练所需的海量数据、大量的参数以及它们可以执行的各种任务。
从我的角度来看,这类模型的兴起最初以大型语言模型 (LLM)为中心。两年后,由于该领域的进步,我相信流行的术语已经转向基础模型。
但什么是基础模型?什么使模型成为基础模型?
与法学硕士相反,基础模型在社区中已经存在多年。在本文中,我们将探讨基础模型的概念,重点介绍其主要特征、应用以及在人工智能时代的未来。
什么是基础模型?
采用 AI 架构(例如转换器),并基于大量不同数据对其进行训练:来自 Common Crawl 和书籍的文本、图像、YouTube 视频等。
由于这些数据广泛、通用且多模态,因此生成的模型将成为具有广泛知识的大型通用系统。这是一个基础模型:一个多功能的通用模型,可作为构建专门的 AI 应用程序的“基础”。
这些基础模型可以通过微调、提示或其他迁移学习技术适应特定任务。其理念是,一旦在特定领域专业化,该模型将保留基础模型的强大泛化属性和新兴能力。
历史发展
早期的人工智能系统大多基于规则,且非常基础模型简介特定于特定领域,因此需要针对特定任务进行编程。21世纪初期,机器学习的兴起标志着向数据驱动方法的转变,尽管它仍然局限于特定任务。
深度学习的突破出现在 2012 年左右,实现了更复杂的模式识别和先进的生成模型,其中有两个主要里程碑:2014 年的生成对抗网络和2017 年的 Transformer 。
计算能力的进步(例如GPU、TPU )和海量数据集的可用性极大地支持了人工智能的发展,这使得越来越大的模型的训练成为可能,从而导致了基础模型的出现。
传统 AI 系统与基础模型之间的差异还在于其规模。例如,传统 AI 系统使用精选数据集进行训练,而基础模型则使用大量、多样化且通常非结构化的数据。此外,基础模型具有强大的泛化能力,使其能够处理更复杂、更多样化的任务,而传统 AI 系统通常需要重新训练或进行大量修改才能完成新任务。
基础模型的主要特征
基础模型具有一些独特的特点:
泛化能力
泛化是指模型在未见过的任务(具体来说,是在训练集以外的数据)上表现良好的能力。基础模型因这一特性而特别有价值。与此密切相关的是,这些模型还可以表现出意想不到的能力,这些能力在训练时没有计划好,但在大规模出现时就会出现,这被称为突发行为。
虽然泛化是模型训练的预期结果,但新兴能力往往是不可预测的,因为模型并不是专门为这些目的进行训练的。
此外,这些模型具有可扩展性,这意味着可以通过增加模型大小(以及数据和计算资源)来提高其性能。虽然较大的模型往往具有更好的泛化能力,但仅靠模型大小并不能保证泛化能力的提高。然而,突发行为与模型大小密切相关。
多模态
多模态是指 AI 模型处理和整合多种类型数据基础模型简介(例如文本、图像、视频等)的能力。虽然基础模型可以是多模态的,但这并不是必需的。
多模态性的关键方面之一是跨模态理解,即模型可以理解和连接不同类型数据中的信息。例如,将文本和图像组合起来,为图片生成字幕或回答有关视觉内容的问题。多模态性可以实现更丰富的交互,并为文本、视觉和音频必须协同工作的应用打开大门,例如机器人技术或医疗保健系统。
如需更深入地了解多模态性,请阅读我们的文章《什么是多模态 AI?》。
适应性
最后,基础模型的另一个关键方面是它们可以作为特定领域模型的基础。因此,我们可以通过根据较小的特定领域数据集调整它们的权重来使它们适应特定的任务或领域,同时受益于它们的多模态性、泛化能力和其他属性。这个过程称为微调,您可以在我们的LLM 微调指南中了解更多信息。
一些微调技术包括:
监督微调:模型在针对特定任务的标记数据集上进行训练。这是最常见的微调策略。
迁移学习:在这种情况下,想法是冻结模型的早期层(捕获一般知识)并仅微调后面的层以关注特定领域的特征。
持续预训练:在初始训练阶段之后,使用特定领域的数据进一步训练现有模型的过程。此技术通常用于使模型随着时间的推移与新数据保持同步。
基础模型与大型语言模型
大型语言模型是一种专门的基础模型,专基础模型简介门或主要针对文本数据进行训练。LLM 可以针对特定任务(例如语言 手机号码数据 翻译或摘要)进行进一步微调。
下表可能有助于强调两种模型类别之间的差异和相似之处:
方面
基础模型
大型语言模型
范围
通常在多模态数据上进行训练的通用模型。
基础模型的子集专门基于测试数据进行训练,有时会针对特定任务进行微调。
训练数据
多样化(通常是多模式)的数据集。
多模式一般任务。
专注于语言任务:翻译、总结、聊天基础模型简介机器人、代码生成等。
如今在社会上非常流行。在我们的指南中查找最受欢迎的开源模型。
* 我们将在下一节中进一步阐述基础模型的架构。
如果我们想一个更实际的例子,ChatGPT 网页界面使用的第一个 GPT 模型是 GPT-3。它是一个纯文本的大型语言模型,用户只能通过提示与其交互。由于 LLM 是基础模型中的一个子集,因此 GPT-3 也是一个基础模型。
如今,当我们进入 ChatGPT 界面时,我们可以看到我们可以在提示旁边附加图像。这是因为 GPT-4 现在是界面背后的模型。相反,GPT-4 是一个多模态基础模型。
ChatGPT 多模式界面截图。
基础模型的架构
由于我们第一次与这些大型模型的互动是通过 LLM,人们倾向于认为 Transformer 架构是基础模型背后的唯一架构。
然而,在 Transformers 流行之前,循环神 LGPD 和 LAI:这两项法律有何关联? 经网络 (RNN)是基于文本的基础模型的首选架构。
在图像生成领域,扩散模型现在是这些最先进系统的支柱。一些著名的模型包括稳定扩散和 DALL-E,但在它们之前,卷积神经网络 (CNN)已被基础模型简介使用!
出于前面讨论过的相同原因,扩散模型被认为是图像生成的基础:它们可以生成高质量、多样化的图像,并可以针对特定任务(例如图像编辑或修复)进行微调。
基础模型的应用
基础模型由于其多功能性和适应性而被应用于各个领域,其中包括:
1.自然语言处理
如前所述,基础模型在自然语言处理方面取得了显着进步。例如,ChatGPT 等模型的类人能力使这些模型在客户服务应用中不可或缺。现在任何 印度号码 在线对话代理都可能基于 LLM,与依赖基于规则的系统的早期聊天机器人相比,它们可以进行更自然、更连贯的对话。
这些模型还为语言翻译应用提供支持,例如Google Translate和DeepL。如果您现在使用这些工具,您会发现它们比十年前更加准确,并且更能感知上下文。
如果您对自然语言应用感兴趣,“开发人工智能应用程序”课程将会对您有所帮助!
2.计算机视觉
例如, CLIP 和DALL-E等模型将文本和图像理解结合在一起,从而实现了图像字幕和文本到图像生成等应用,而这些应用在以前的架构中是不基础模型简介可行的。
在这些工具中,Adobe Photoshop已将扩散模型融入其编辑工具中,例如内容感知填充和其他用于自动图像完成和修复的 AI 驱动功能。
3.跨域应用
最后,还有可以同时处理和集成来自多个领域的数据的多模式应用程序。例如,在自动驾驶系统中,特斯拉和Waymo (谷歌的自动驾驶汽车项目)使用多模式系统,将来自摄像头、雷达信号和 LiDAR 传感器的视觉数据与文本和上下文信息相结合,以导航和了解环境。
这些跨领域的应用正在改变各行各业,使以前受狭窄模型限制的系统变得更加动态、适应性更强、更智能。
了解了这些应用程序后,我们可以直观地对模型进行分类,如下图所示:
将特定领域模型分类为基础模型的子集。多模式应用程序结合了不同类型的数据。
将特定领域模型分类为基础模型的子集。多模态应用程序结合了不同类型的数据。 – 作者提供的图片
如果您正在考虑构建由这些模型驱动的应用程序,那么“您可以使用生成式 AI 模型构建的 5 个项目”一文将为您提供一些很棒的想法。
基础模式的挑战和伦理考量
正如我们所见,基础模型具有更强大的功能,但我们也应该意识到它们面临着一些挑战和道德考虑:
计算成本
训练这些模型在时间和能源方面非常耗费资源。训练完成后,这些模型仍然需要大量资源进行推理,尤其是在实时应用中,这使得大规模运行成基础模型简介本高昂。随着模型变得越来越大、越来越复杂,计算负担也会增加。
对于规模较小的研究机构和公司来说,成本问题尤其具有挑战性,因为他们可能缺乏从头开始训练大型模型的财力,因此大公司可以主导这一领域的研究。在我看来,预先训练好的开源模型的出现对双方都有帮助。
环境影响
与成本密切相关的是,这类模型对环境的影响也日益令人担忧。训练大型人工智能模型会消耗大量能源,造成高碳排放。
人工智能的使用日益增多,模型的预训练规模也越来越大,这加剧了人们对可持续性的担忧。人们正在努力通过更高效的算法和硬件以及在数据中心采用可再生能源来减少能源消耗,但问题仍然十分严峻。
偏见与公平
基础模型并不能免除偏见风险。与许多深度学习算法一样,这种风险源于它们所训练的大量现实世界数据。模型不可避免地会继承数据中存在的偏见,这可能导致不公平的结果或敏感应用中的歧视。
减轻偏见至关重要,可以通过实施公平算法、多样化训练数据集和定期审核模型等策略来实现,以确保它们不会延续有害偏见。
监管问题
最后,围绕基础模型使用的监管问题也愈发突出。随着这些模型变得越来越强大,并被部署到各个行业,政府和国际机构正在努力建立人工智能安全和问责框架。
确保遵守欧盟《人工智能法案》等全球标准对于管理与人工智能部署相关的风险(包括隐私问题和错误信息)至关重要。您可以通过 DataCamp 的基础模型简介《欧盟人工智能法案基础》技能轨迹快速了解此类法规。
基础模型的未来趋势
基础模型最突出的趋势之一是多模式能力的演变。这些模型越来越多地被设计用于将不同类型的数据处理和集成到统一的框架中。
这种多模态方法使人工智能系统能够更好地理解世界并与世界互动,有些人声称它们甚至以一种反映人类认知的方式做到这一点。随着这些功能的成熟,我相信它们将使更完整的应用程序成为可能。
另一个令人兴奋的趋势是实时适应性的前景。当前的基础模型需要大量的预训练和微调才能适应特定任务。然而,未来的模型有望变得更加动态,能够在遇到新数据或环境时实时学习和适应。
这种可能性将使人工智能系统能够更有效地响应不断变化的条件,例如不断变化的用户偏好或数据的新兴趋势。
最后,使模型更轻量、更易于访问的创新也是降低能源消耗、降低成本以及使基础人工智能技术使用民主化的必要条件。
正在进行的研究旨在减少这些模型的大小和资源需求,同时不影响其性能。研究人员正在探索模型提炼、量化和高效架构设计等技术,以创建更小、更快、更节能的模型。
此外,轻量级模型将能够部署在智能手机和物联网设备等边缘设备上,使人工智能功能在实际应用中更接近最终用户。
最后的想法
我想确保,此时,我们可以解决引言中提出的问题:“是什么使得基础模型成为基础模型?”。
如果您对更多此类内容感兴趣,请考虑基础模型简介查看 DataCamp 的AI 基础技能轨迹,其中涵盖了使用 AI 模型所需的许多基本知识。
面向初学者的 AI 技能提升
从头学习 AI 和 ChatGPT 的基础知识。
基础模型常见问题解答
开源基础模型是否与 GPT-4 等专有模型一样强大?