所有WIKI > L字母 > 什么是大语言模型?

什么是大语言模型?

大语言模型英文:Large Language Model,缩写 LLM),也称语言大模型(NLP),诞生于2018年,标志性事件是谷歌 BERT(Bidirectional Encoder Representations from Transformers)的发布。

大语言模型是在自然语言处理(Natural Language Processing,NLP)领域中的一类AI大模型,通常用于处理文本数据和理解自然语言。是由包含数百亿以上参数的深度神经网络构建的自然语言处理模型,使用自监督学习方法通过大量无标注文本进行训练,以学习自然语言的各种语法、语义和语境规则为主,从而建立自然语言的理解能力。

大语言模型与AI大模型

大语言模型是AI大模型的一个类别,属于语言大模型(NLP)范畴。

AI大模型可以大致分为三类:

  • 语言大模型(NLP),例如:ChatGPT 系列(OpenAI)、Bard(Google)、文心一言(百度);开源大模型中有Meta 开源的 LLaMA、ChatGLM – 6B、Yi-34B-Chat等。
  • 视觉大模型(CV),例如:VIT 系列(Google)、文心UFO、华为盘古 CV、INTERN(商汤)等。
  • 多模态大模型,例如:谷歌Gemini、DALL-E(OpenAI)、Midjourney等。

大语言模型的发展

2018年,随着谷歌 BERT(Bidirectional Encoder Representations from Transformers)的发布,预训练模型迎来了一个里程碑。BERT通过预先训练大规模语料库,使得模型能够理解更为复杂的语境和语义关系。这一技术创新使得大语言模型在各种自然语言处理任务中表现出色,为自动问答、机器翻译等应用打开了新的可能性。

2022年11月30日,GPT-3的发布标志着AI领域的重大突破,‌它包含1750亿个参数,‌是GPT-2的100倍之多,‌比之前最大的同类NLP模型要多10倍。‌GPT-3的训练数据集十分庞大,‌包括英语维基百科、‌数字化书籍和各种网页链接,‌几乎所有有文字记录的信息都被编码进了GPT-3模型中。‌这种深度和复杂性使得GPT-3能够高质量地完成诸多任务,‌包括但不限于答题、‌翻译、‌写文章,‌甚至是数学计算和编写代码。‌

当以ChatGpt为代表的语言模型开始广受认可时,许多性能强大的LLM只能通过 大语言模型API接口(如OpenAI API)访问,仅有特定的人或实验室具备研究和开发此类模型的能力,由此促进了开源大语言模型的发展。

2023年2月24日,Meta推出了LLaMA模型。LLaMA是最早发布的开源且高质量的预训练 LLM 之一。但 LLaMA 并非单一模型,而是包含多个 LLM 的套件,其模型规模从 70 亿到 650 亿个参数不等。这些模型在性能和推理效率之间作了不同的权衡。尽管 LLaMA 不能商用(仅限于研究),但作为一个具有重要影响力的提案,它从多个方面推动了开源 LLM 的研究。

核心问题:偏差和局限性

大语言模型偏差和局限性是自然语言处理(NLP)领域正在进行的研究。虽然大语言模型在生成类人文本方面表现出了卓越的能力,但他们很容易继承和放大训练数据中存在的偏见。这可能表现为对不同人口统计数据的不公平待遇,例如基于种族、性别、语言和文化群体的统计数据。此外,这些模型通常面临事实准确性的限制。研究和缓解这些偏见和限制对于人工智能在不同社会和专业领域的道德发展和应用至关重要。

国内外开源项目模型清单

以ChatGLM、LLaMA等平民玩家都能跑起来的较小规模的LLM开源之后,业界涌现了非常多基于LLM的二次微调或应用的案例,常见底座模型细节概览:

底座包含模型模型参数大小训练token数训练最大长度是否可商用
ChatGLMChatGLM/2/3 Base&Chat6B1T/1.42K/32K可商用
LLaMALLaMA/2/3 Base&Chat7B/8B/13B/33B/70B1T/2T2k/4k部分可商用
BaichuanBaichuan/2 Base&Chat7B/13B1.2T/1.4T4k可商用
QwenQwen/1.5 Base&Chat7B/14B/72B/110B2.2T/3T8k/32k可商用
BLOOMBLOOM1B/7B/176B-MT1.5T2k可商用
AquilaAquila/2 Base/Chat7B/34B2k可商用
InternLMInternLM/2 Base/Chat/Code7B/20B200k可商用
MixtralBase&Chat8x7B32k可商用
YiBase&Chat6B/9B/34B3T200k可商用
DeepSeekBase&Chat1.3B/7B/33B/67B4k可商用
XVERSEBase&Chat7B/13B/65B/A4.2B2.6T/3.2T8k/16k/256k可商用

更多开源大模型,可参考<人工智能大模型之开源大语言模型汇总>一文,整理了近百个大模型及其网站地址。

开源大模型的应用

开源大模型的应用方式主要有两种:

1、自部署。

2、在Maas平台部署,例如阿里云Maas,百度云Maas,微软云Maas等。

参考资料

维基百科 大语言模型定义,重点讲述了大语言模型偏差和局限性
The History of Open-Source LLMs: Early Days中文翻译
The History of Open-Source LLMs: Better Base Models中文翻译
Awesome Chinese LLM