什么是大模型?
理解AI基础概念
大模型是指具有大规模参数和复杂计算结构的机器学习模型。这些模型通常由深度神经网络构建而成,拥有数十亿甚至数千亿个参数,用于处理如自然语言处理、计算机视觉等复杂任务。本文从大模型的基本概念出发,对大模型领域容易混淆的相关概念进行区分,并就大模型的发展历程、特点和分类、泛化与微调进行了详细解读,供大家在了解大模型基本知识的过程中起到一定参考作用,让大家能够理解什么是大模型。
为了深度理解文中所涉及的内容,请了解AI相关概念的区别。
大模型的发展历程
人工智能发展史大致可以分为六个阶段,大模型在前五个阶段的沉淀后,随着英伟达人工智能芯片(AI GPU)的出现,让AI算法突破了硬件的制约,迎来了一次飞跃式发展。大模型的蓬勃发展得益于两个里程牌式的东西:
1、以 Transformer模型 为代表的全新神经网络模型阶段
2014 年,被誉为 21 世纪最强大算法模型之一的 GAN(对抗式生成网络)诞生,标志着深度学习进入了生成模型研究的新阶段。
· 2017 年,Google 颠覆性地提出了基于自注意力机制的神经网络结构——Transformer 架构,奠定了大模型预训练算法架构的基础。
2、以 GPT 为代表的预训练大模型阶段
2020 年,OpenAI 公司推出了GPT-3,模型参数规模达到了 1750 亿,成为当时最大的语言模型,并且在零样本学习任务上实现了巨大性能提升。随后,更多策略如基于人类反馈的强化学习(RHLF)、代码预训练、指令微调等开始出现, 被用于进一步提高推理能力和任务泛化。随之大语言模型百花齐放,商用与开源频出。
· 2022 年 11 月,搭载了GPT3.5的 ChatGPT横空出世,凭借逼真的自然语言交互与多场景内容生成能力,迅速引爆互联网。
· 2023 年 3 月,最新发布的超大规模多模态预训练大模型——GPT-4,具备了多模态理解与多类型内容生成能力。在迅猛发展期,大数据、大算力和大算法完美结合,大幅提升了大模型的预训练和生成能力以及多模态多场景应用能力。如 ChatGPT 的巨大成功,就是在微软Azure强大的算力以及 wiki 等海量数据支持下,在 Transformer 架构基础上,坚持 GPT 模型及人类反馈的强化学习(RLHF)进行精调的策略下取得的。
大模型的分类
按照输入数据类型的不同,大模型主要可以分为以下三大类:
- 语言大模型(NLP):也即常说的大语言模型,是指在自然语言处理(Natural Language Processing,NLP)领域中的一类大模型,通常用于处理文本数据和理解自然语言。这类大模型的主要特点是它们在大规模语料库上进行了训练,以学习自然语言的各种语法、语义和语境规则。例如:ChatGPT 系列(OpenAI)、Bard(Google)、文心一言(百度);开源大模型中有Meta 开源的 LLaMA、ChatGLM – 6B、Yi-34B-Chat等。
- · 视觉大模型(CV):也即常说的智能识别,是指在计算机视觉(Computer Vision,CV)领域中使用的大模型,通常用于图像处理和分析。这类模型通过在大规模图像数据上进行训练,可以实现各种视觉任务,如图像分类、目标检测、图像分割、姿态估计、人脸识别等。例如:VIT 系列(Google)、文心UFO、华为盘古 CV、INTERN(商汤)。
- · 多模态大模型:是指能够处理多种不同类型数据的大模型,例如文本、图像、音频等多模态数据。这类模型结合了 NLP 和 CV 的能力,以实现对多模态信息的综合理解和分析,从而能够更全面地理解和处理复杂的数据。例如:谷歌Gemini、DALL-E(OpenAI)、Midjourney。
大模型的特点
- 巨大的规模: 大模型包含数十亿个参数,模型大小可以达到数百 GB 甚至更大。巨大的模型规模使大模型具有强大的表达能力和学习能力。
- 涌现能力:涌现(英语:emergence)或称创发、突现、呈展、演生,是一种现象,为许多小实体相互作用后产生了大实体,而这个大实体展现了组成它的小实体所不具有的特性。引申到模型层面,涌现能力指的是当模型的训练数据突破一定规模,模型突然涌现出之前小模型所没有的、意料之外的、能够综合分析和解决更深层次问题的复杂能力和特性,展现出类似人类的思维和智能。涌现能力也是大模型最显著的特点之一。
- 更好的性能和泛化能力: 大模型通常具有更强大的学习能力和泛化能力,能够在各种任务上表现出色,包括自然语言处理、图像识别、语音识别等。
- 多任务学习: 大模型通常会一起学习多种不同的 NLP 任务,如机器翻译、文本摘要、问答系统等。这可以使模型学习到更广泛和泛化的语言理解能力。
- 大数据训练: 大模型需要海量的数据来训练,通常在 TB 以上甚至 PB 级别的数据集。只有大量的数据才能发挥大模型的参数规模优势。
- 强大的计算资源: 训练大模型通常需要数百甚至上千个 GPU,以及大量的时间,通常在几周到几个月。
- 迁移学习和预训练: 大模型可以通过在大规模数据上进行预训练,然后在特定任务上进行微调,从而提高模型在新任务上的性能。
- 自监督学习: 大模型可以通过自监督学习在大规模未标记数据上进行训练,从而减少对标记数据的依赖,提高模型的效能。
- 领域知识融合: 大模型可以从多个领域的数据中学习知识,并在不同领域中进行应用,促进跨领域的创新。
- 自动化和效率:大模型可以自动化许多复杂的任务,提高工作效率,如自动编程、自动翻译、自动摘要等。
大模型的应用
从产品形态上看,分为AIGC(内容生成)、Copilot(智能助手)、Insight(知识洞察)和Agent(数字代理)等重要方向。
从客户方向可以分为,ToB、ToG、ToC。
- ToB场景:由于企业之间的业务差异较大,需要定制化的模型和算法,因此落地难度较大。此外,在企业内部,不同的部门之间也需要进行协调和沟通,以便更好地利用大模型提供的数据和服务。
- ToG场景:政府在制定政策时需要依赖大量的数据和信息,因此大模型在政府领域的应用较为广泛。由于政府拥有较为完善的信息化基础设施,因此大模型的落地难度相对较低。
- ToC场景:消费者对产品和服务的需求较为多样化,因此大模型在消费市场中的应用难度较大。此外,由于消费市场的竞争较为激烈,企业需要不断地优化产品和服务,以满足消费者的需求,这也需要大模型提供更加精准的数据分析和预测。
从商业模式上看,分为永续微调(行业化大模型)与 MaaS。
- 在技术层面,微调(Fine-tuning)会是应用发展的关键。它是从传统的人工智能迈向新时代的一个标志性进步。微调的价值在于,它能够将一个通用模型转变为针对特定任务高效的专用模型。这种方法在行业应用、企业应用以及垂直领域均显示出巨大的潜力。值得注意的是,自 2023 年下半年以来,微调的成本已大幅降低,为其广泛应用铺平了道路。
- 模型即服务(MaaS)的概念在行业内得到迅速发展,许多大型企业已在其发布会上提及这一概念。它涉及将云资源与 AI 部署相结合,使模型能够直接提供服务,这被认为是具有颠覆性的,有望重构众多应用领域。
大模型的生态
1、开源生态:在当前的技术生态中,开源模式的重要性愈加凸显。开源不再是学术界和小范围开发者社区的专利,而是成为了 AIGC 全球性发展的核心动力。国际开源大模型的释出,显著加速了国内 AI 模型的开发、追随与创新步伐。
2、商业生态 国外,GPT4之后,OpenAI并未甚嚣尘上地推出GPT5,而是紧锣密鼓地拿出Assistant API、GPTs,做生态的决心昭然若揭。 国内,百度、阿里都在建设自己的大模型生态。
大模型的天生难题与重重挑战
在人工智能的发展潮流中,特别是以 Transformer、Diffusion 等为基础的生成类模型展现出巨大的潜力的同时,即将面临更严苛的难题与挑战。
1、严肃正视大模型的幻觉问题
在人工智能的语境中,“幻觉”一词被核心技术成员首次创意提出,用以表示模型可能出现的非预期输出问题。这种精心选择的用词尝试去缓解对人们和行业可能产生的负面影响,表明即使是最先进的机器学习模型,也难免会出现“类似人类”、“可以理解的”、“认知误差”等现象。
然而幻觉问题远非小事,它凸显了当前模型在发散性与准确性之间的弹性。业界正致力于通过各种技术路径应对,包括但不限于创造事后补丁或预防机制,挂载额外的模块或系统,以及在模型出现偏差时及时介入的控制策略等等。这些尝试尽管很有价值,但至今尚未找到彻底解决问题的答案。
2、算力需求及其带来的挑战
循环神经网络、Transformer 模型等对算力的饥渴程度呈指数级增长。以 OpenAI 的新计划为例,行业内有企业高管曾表示 OpenAI 的需求量级可能达到令人恐怖的“千万级”GPU 算力集群——这个数字甚至远远超出了英伟达的年产量。
3、能源消耗与环境影响
能源消耗与环境影响是另一前沿议题。例如,GPT-3 模型训练耗电量达 1.28 吉瓦时,相当于 120 个美国家庭年用电总和,伴随而来的是 550 吨二氧化碳的排放量。
大模型训练
使用Transformer模型的大模型通常会进行自监督学习,包括无监督预训练和监督微调。由于监督微调时使用的带标签训练数据一般比较有限,预训练通常会在比微调时所用的更大的数据集上完成。预训练和微调的任务通常包括:
- 语言建模
- 下一句预测
- 问答系统
- 阅读理解
- 文本情感分析
- 文本改写
大模型和治理
AI 已融入到我们的日常生活、商务、政府、医疗等领域。只有将伦理原则嵌入到 AI 应用和流程中,我们才能构建基于信任的AI系统。有以下几个原则可供参考:
- 可解释性,好的设计不会为了创造无缝体验而牺牲透明度。
- 公平性,经适当校准,AI 可以帮助人类做出更公平的选择。
- 稳健性,当系统被用于制定关键决策时,AI 必须安全稳健。
- 透明度,透明度可以增强信任,提高透明度的最佳途径是信息披露。
- 隐私,AI 系统必须优先考虑和保障使用者的隐私和数据权利。
大模型 VS 大语言模型
大语言模型只是大模型的一个分类。
大语言模型和大模型在实现目标上有一定的区别: 1)大模型关注于捕捉大规模 数据集 的内在结构,通过大量参数来表示文本数据; 2)大语言模型关注于捕捉自然语言的语义结构,通过抽象表示方法来表示文本数据。
大模型 VS AIGC
大模型是指具有大量参数的机器学习模型,通常指深度学习模型。 AIGC(生成式人工智能)是指基于生成对抗网络、大型预训练模型等人工智能的技术方法,它是大模型的一种应用方式。
大模型适用场景有哪些?
- 自然语言处理(NLP):
大模型在自然语言处理领域应用广泛,例如,GPT系列模型由OpenAI开发,具备理解问题、完成各种NLP任务的能力,如文本摘要、机器翻译、自动文摘等。在实际应用中,大模型可以作为一个内容创作助手,帮助用户生成文章、报告或者创意文案。例如,用户可以提供大纲或者几个关键词,大模型就能生成一篇流畅的文章草稿,大大提高写作效率。 - 计算机视觉(CV):
在计算机视觉领域,大模型可以应用于图像识别、视频分析、自动驾驶等场景。例如,华为发布的大模型混合云在推动AI应用落地新纪元中,可以用于智能监控、医疗影像分析等,通过图像识别技术提高诊断的准确性和效率。 - 科研:
大模型在科研领域的应用包括基因序列分析、蛋白质结构预测等。例如,DeepMind的AlphaFold利用大模型预测蛋白质结构,为生物学研究提供了新的工具,加速了科学发现的进程。 - 制造业:
在制造业中,大模型可以用于质量控制、预测性维护、供应链优化等。例如,通过分析生产线上的图像数据,大模型能够识别产品缺陷,提高产品质量和生产效率。 - 金融服务:
大模型在金融服务行业中的应用包括信贷评估、风险管理、算法交易等。例如,通过分析大量的交易数据,大模型可以帮助银行识别潜在的欺诈行为,提高金融交易的安全性。 - 医疗健康:
在医疗健康领域,大模型可以辅助医生进行疾病诊断、治疗计划设计、药物发现等。例如,大模型可以通过分析患者的医疗记录和影像资料,辅助医生制定个性化的治疗方案。 - 教育:
在教育领域,大模型可以提供个性化学习体验、自动化评分、学习分析等服务。例如,通过分析学生的学习行为和成绩数据,大模型可以为学生推荐适合的学习资源和练习,帮助学生提高学习效率。 - 内容创作:
大模型在内容创作领域的应用包括创意写作、音乐创作、艺术设计等。例如,大模型可以根据用户给出的创意提示,生成诗歌、故事、歌词等文本内容,激发创作者的灵感。 - 客户服务:
在客户服务领域,大模型可以通过聊天机器人和虚拟助手提供24/7的客户支持。例如,大模型可以理解客户的咨询问题,并提供准确的答案和解决方案,提高客户满意度。 - 广告和营销:
大模型在广告和营销领域的应用包括广告创意生成、个性化推荐、市场分析等。例如,大模型可以根据用户的行为和偏好,生成个性化的广告内容,提高广告的点击率和转化率。
大模型有哪些常见问题?
- 大模型与传统模型有什么区别?
大模型与传统模型的主要区别在于规模:大模型拥有更多的参数和更复杂的结构,从而能够处理更复杂、更广泛的任务。此外,大模型通常需要更多的数据和计算资源进行训练和推理。 - 大模型有哪些常见的应用场景?
大模型在多个领域展现出广泛的应用潜力,包括自然语言处理、计算机视觉、语音识别、推荐系统等。它们可以用于机器翻译、情感分析、文本摘要、问答系统、图像识别、视频分析、自动驾驶、医疗影像分析等。 - 大模型的训练过程是怎样的?
大型语言模型通常经历预训练和微调两个过程。预训练阶段,模型接触到来自多个来源的大量文本数据,从而扩展其知识库并广泛掌握语言。微调阶段,为了提高性能,在特定任务或领域上对预训练的模型进行再训练。 - 大模型面临的主要挑战是什么?
当前AI大模型面临的主要挑战包括计算资源的需求、数据偏见、可解释性和模型效率。大模型需要大量的计算资源进行训练和推理,训练数据中的偏见可能导致模型产生不公平或歧视性的结果,而且大模型通常缺乏可解释性,使得人们难以理解其决策过程。 - 如何评估大模型的性能?
评估大模型性能时,通常会考虑准确率、召回率、F1值等指标。对于生成式任务,如文本生成,还会关注流畅性、多样性和相关性等指标。此外,模型的效率、稳定性和可解释性也是重要的评估方面。 - 大模型如何优化以提高性能和效率?
优化大模型以提高其性能和效率可以通过多种方式实现,包括使用分布式训练、混合精度训练等技术来加速训练过程,以及通过剪枝、量化等手段进行模型压缩,降低模型大小和推理时间。 - 大模型的未来发展会是怎样的?
大模型的未来发展可能会包括更高效的自注意力机制、更轻量级的模型结构以及更多跨领域的应用。同时,随着对模型可解释性和公平性的关注增加,大模型也将在这方面取得更多进展。
参考资料
一文读懂大模型的基本概念 一文搞懂AI相关概念和区别:GPT、大模型、AIGC、LLM、Transformer 大模型LLM知识整理