A B C D E F G H I J K L M N O P Q R S T U V W X Y Z
什么是大模型?理解AI基础概念

什么是大模型?理解AI基础概念

大模型是指具有大规模参数和复杂计算结构的机器学习模型。这些模型通常由深度神经网络构建而成,拥有数十亿甚至数千亿个参数,用于处理如自然语言处理、计算机视觉等复杂任务。本文从大模型的基本概念出发,对大模型领域容易混淆的相关概念进行区分,并就大模型的发展历程、特点和分类、泛化与微调进行了详细解读,供大家在了解大模型基本知识的过程中起到一定参考作用。

为了深度理解文中所涉及的内容,请了解AI相关概念的区别。

大模型的发展历程

人工智能发展史大致可以分为六个阶段,大模型在前五个阶段的沉淀后,随着英伟达人工智能芯片(AI GPU)的出现,让AI算法突破了硬件的制约,迎来了一次飞跃式发展。大模型的蓬勃发展得益于两个里程牌式的东西:

1、以 Transformer模型 为代表的全新神经网络模型阶段

 2014 年,被誉为 21 世纪最强大算法模型之一的 GAN(对抗式生成网络)诞生,标志着深度学习进入了生成模型研究的新阶段。

· 2017 年,Google 颠覆性地提出了基于自注意力机制的神经网络结构——Transformer 架构,奠定了大模型预训练算法架构的基础。

2、以 GPT 为代表的预训练大模型阶段

 2020 年,OpenAI 公司推出了GPT-3,模型参数规模达到了 1750 亿,成为当时最大的语言模型,并且在零样本学习任务上实现了巨大性能提升。随后,更多策略如基于人类反馈的强化学习(RHLF)、代码预训练、指令微调等开始出现, 被用于进一步提高推理能力和任务泛化。随之大语言模型百花齐放,商用与开源频出。

· 2022 年 11 月,搭载了GPT3.5的 ChatGPT横空出世,凭借逼真的自然语言交互与多场景内容生成能力,迅速引爆互联网。

· 2023 年 3 月,最新发布的超大规模多模态预训练大模型——GPT-4,具备了多模态理解与多类型内容生成能力。在迅猛发展期,大数据、大算力和大算法完美结合,大幅提升了大模型的预训练和生成能力以及多模态多场景应用能力。如 ChatGPT 的巨大成功,就是在微软Azure强大的算力以及 wiki 等海量数据支持下,在 Transformer 架构基础上,坚持 GPT 模型及人类反馈的强化学习(RLHF)进行精调的策略下取得的。

大模型的特点

  • 巨大的规模: 大模型包含数十亿个参数,模型大小可以达到数百 GB 甚至更大。巨大的模型规模使大模型具有强大的表达能力和学习能力。
  • 涌现能力:涌现(英语:emergence)或称创发、突现、呈展、演生,是一种现象,为许多小实体相互作用后产生了大实体,而这个大实体展现了组成它的小实体所不具有的特性。引申到模型层面,涌现能力指的是当模型的训练数据突破一定规模,模型突然涌现出之前小模型所没有的、意料之外的、能够综合分析和解决更深层次问题的复杂能力和特性,展现出类似人类的思维和智能。涌现能力也是大模型最显著的特点之一。
  • 更好的性能和泛化能力: 大模型通常具有更强大的学习能力和泛化能力,能够在各种任务上表现出色,包括自然语言处理、图像识别、语音识别等。
  • 多任务学习: 大模型通常会一起学习多种不同的 NLP 任务,如机器翻译、文本摘要、问答系统等。这可以使模型学习到更广泛和泛化的语言理解能力。
  • 大数据训练: 大模型需要海量的数据来训练,通常在 TB 以上甚至 PB 级别的数据集。只有大量的数据才能发挥大模型的参数规模优势。
  • 强大的计算资源: 训练大模型通常需要数百甚至上千个 GPU,以及大量的时间,通常在几周到几个月。
  • 迁移学习和预训练: 大模型可以通过在大规模数据上进行预训练,然后在特定任务上进行微调,从而提高模型在新任务上的性能。
  • 自监督学习: 大模型可以通过自监督学习在大规模未标记数据上进行训练,从而减少对标记数据的依赖,提高模型的效能。
  • 领域知识融合: 大模型可以从多个领域的数据中学习知识,并在不同领域中进行应用,促进跨领域的创新。
  • 自动化和效率:大模型可以自动化许多复杂的任务,提高工作效率,如自动编程、自动翻译、自动摘要等。

大模型的分类

按照输入数据类型的不同,大模型主要可以分为以下三大类:

  •  语言大模型(NLP):也即常说的大语言模型,是指在自然语言处理(Natural Language Processing,NLP)领域中的一类大模型,通常用于处理文本数据和理解自然语言。这类大模型的主要特点是它们在大规模语料库上进行了训练,以学习自然语言的各种语法、语义和语境规则。例如:ChatGPT 系列(OpenAI)、Bard(Google)、文心一言(百度);开源大模型中有Meta 开源的 LLaMA、ChatGLM – 6B、Yi-34B-Chat等。
  • · 视觉大模型(CV):也即常说的智能识别,是指在计算机视觉(Computer Vision,CV)领域中使用的大模型,通常用于图像处理和分析。这类模型通过在大规模图像数据上进行训练,可以实现各种视觉任务,如图像分类、目标检测、图像分割、姿态估计、人脸识别等。例如:VIT 系列(Google)、文心UFO、华为盘古 CV、INTERN(商汤)。
  • · 多模态大模型:是指能够处理多种不同类型数据的大模型,例如文本、图像、音频等多模态数据。这类模型结合了 NLP 和 CV 的能力,以实现对多模态信息的综合理解和分析,从而能够更全面地理解和处理复杂的数据。例如:谷歌Gemini、DALL-E(OpenAI)、Midjourney。

大模型的应用

从产品形态上看,分为AIGC(内容生成)、Copilot(智能助手)、Insight(知识洞察)和Agent(数字代理)等重要方向。

从客户方向可以分为,ToB、ToG、ToC。

  • ToB场景:由于企业之间的业务差异较大,需要定制化的模型和算法,因此落地难度较大。此外,在企业内部,不同的部门之间也需要进行协调和沟通,以便更好地利用大模型提供的数据和服务。
  • ToG场景:政府在制定政策时需要依赖大量的数据和信息,因此大模型在政府领域的应用较为广泛。由于政府拥有较为完善的信息化基础设施,因此大模型的落地难度相对较低。
  • ToC场景:消费者对产品和服务的需求较为多样化,因此大模型在消费市场中的应用难度较大。此外,由于消费市场的竞争较为激烈,企业需要不断地优化产品和服务,以满足消费者的需求,这也需要大模型提供更加精准的数据分析和预测。

商业模式上看,分为永续微调(行业化大模型)与 MaaS。

  • 在技术层面,微调(Fine-tuning)会是应用发展的关键。它是从传统的人工智能迈向新时代的一个标志性进步。微调的价值在于,它能够将一个通用模型转变为针对特定任务高效的专用模型。这种方法在行业应用、企业应用以及垂直领域均显示出巨大的潜力。值得注意的是,自 2023 年下半年以来,微调的成本已大幅降低,为其广泛应用铺平了道路。
  • 模型即服务(MaaS)的概念在行业内得到迅速发展,许多大型企业已在其发布会上提及这一概念。它涉及将云资源与 AI 部署相结合,使模型能够直接提供服务,这被认为是具有颠覆性的,有望重构众多应用领域。

大模型的生态

1、开源生态:在当前的技术生态中,开源模式的重要性愈加凸显。开源不再是学术界和小范围开发者社区的专利,而是成为了 AIGC 全球性发展的核心动力。国际开源大模型的释出,显著加速了国内 AI 模型的开发、追随与创新步伐。

2、商业生态
国外,GPT4之后,OpenAI并未甚嚣尘上地推出GPT5,而是紧锣密鼓地拿出Assistant API、GPTs,做生态的决心昭然若揭。
国内,百度、阿里都在建设自己的大模型生态。

大模型的天生难题与重重挑战

在人工智能的发展潮流中,特别是以 Transformer、Diffusion 等为基础的生成类模型展现出巨大的潜力的同时,即将面临更严苛的难题与挑战。

1、严肃正视大模型的幻觉问题

在人工智能的语境中,“幻觉”一词被核心技术成员首次创意提出,用以表示模型可能出现的非预期输出问题。这种精心选择的用词尝试去缓解对人们和行业可能产生的负面影响,表明即使是最先进的机器学习模型,也难免会出现“类似人类”、“可以理解的”、“认知误差”等现象。

然而幻觉问题远非小事,它凸显了当前模型在发散性与准确性之间的弹性。业界正致力于通过各种技术路径应对,包括但不限于创造事后补丁或预防机制,挂载额外的模块或系统,以及在模型出现偏差时及时介入的控制策略等等。这些尝试尽管很有价值,但至今尚未找到彻底解决问题的答案。

2、算力需求及其带来的挑战

循环神经网络、Transformer 模型等对算力的饥渴程度呈指数级增长。以 OpenAI 的新计划为例,行业内有企业高管曾表示 OpenAI 的需求量级可能达到令人恐怖的“千万级”GPU 算力集群——这个数字甚至远远超出了英伟达的年产量。

3、能源消耗与环境影响

能源消耗与环境影响是另一前沿议题。例如,GPT-3 模型训练耗电量达 1.28 吉瓦时,相当于 120 个美国家庭年用电总和,伴随而来的是 550 吨二氧化碳的排放量。

大模型和治理

AI 已融入到我们的日常生活、商务、政府、医疗等领域。只有将伦理原则嵌入到 AI 应用和流程中,我们才能构建基于信任的AI系统。有以下几个原则可供参考:

  • 可解释性,好的设计不会为了创造无缝体验而牺牲透明度。
  • 公平性,经适当校准,AI 可以帮助人类做出更公平的选择。
  • 稳健性,当系统被用于制定关键决策时,AI 必须安全稳健。
  • 透明度,透明度可以增强信任,提高透明度的最佳途径是信息披露。
  • 隐私,AI 系统必须优先考虑和保障使用者的隐私和数据权利。

常见问题

大模型 VS 大语言模型

大语言模型只是大模型的一个分类。

大语言模型和大模型在实现目标上有一定的区别:
1)大模型关注于捕捉大规模 数据集 的内在结构,通过大量参数来表示文本数据;
2)大语言模型关注于捕捉自然语言的语义结构,通过抽象表示方法来表示文本数据。

大模型 VS AIGC

大模型是指具有大量参数的机器学习模型,通常指深度学习模型。
AIGC(生成式人工智能)是指基于生成对抗网络、大型预训练模型等人工智能的技术方法,它是大模型的一种应用方式。

参考资料

一文读懂大模型的基本概念
一文搞懂AI相关概念和区别:GPT、大模型、AIGC、LLM、Transformer
大模型LLM知识整理