什么是大语言模型?
大型语言模型(LLM)是一类拥有数千亿甚至更多参数的语言处理系统,它们通过分析海量文本数据来学习语言的模式。这些模型,比如GPT-3、PaLM、Galactica和LaMA,都是基于Transformer架构构建的,该架构通过多层的多头注意力机制来处理信息。尽管LLM在架构上与小型语言模型相似,都采用Transformer和语言建模作为预训练目标,但LLM在模型规模、训练数据量和计算资源上都有显著的扩展。
这些大型模型能够更深入地理解自然语言,并能够根据上下文生成高质量的文本内容。它们的性能提升在很大程度上可以通过规模定律来解释,即随着模型规模的大幅增加,性能也会相应提高。然而,规模定律也表明,有些能力,比如上下文学习,是难以预测的,只有在模型达到一定的规模后才能显现出来。
NLP到大型语言模型的进阶历程
回顾自然语言处理(NLP)领域的发展,可以将其划分为五个主要阶段:规则驱动、统计机器学习、深度学习、预训练和大型语言模型。以机器翻译为例,结合这些阶段的特点、技术演变和数据使用的变化。
- 规则驱动阶段(1956年至1992年):在这一时期,机器翻译系统主要依赖于人工编写的规则。研究人员从数据中提取知识,形成规则,然后编程让机器执行这些规则来完成特定的翻译任务。
- 统计机器学习阶段(1993年至2012年):这一阶段的特点是机器翻译系统开始由语言模型和翻译模型组成,与现代的GPT-3.5技术有相似之处。这一时期的主要变化是从人工提取知识转变为机器自动从数据中学习。关键技术包括支持向量机(SVM)、隐马尔可夫模型(HMM)、最大熵模型(MaxEnt)、条件随机场(CRF)和语言模型(LM),当时人工标注的数据量大约在百万级别。
- 深度学习阶段(2013年至2018年):在这一时期,模型的发展从离散的匹配转变为连续的嵌入(embedding)匹配,模型规模变得更大。这一阶段的典型技术包括编码器-解码器架构、长短时记忆网络(LSTM)和注意力机制(Attention),标注数据量提升至千万级别。
- 预训练阶段(2018年至2022年):这一阶段的最大变化是引入了自监督学习,这是张俊林认为NLP领域最杰出的贡献之一。它将可利用的数据从标注数据扩展到了非标注数据。系统分为预训练和微调两个阶段,预训练数据量扩大了3到5倍。这一阶段的典型技术包括编码器-解码器架构、Transformer和注意力机制。
大语言模型与AI大模型
大语言模型是AI大模型的一个类别,属于语言大模型(NLP)范畴。
AI大模型可以大致分为三类:
- 语言大模型(NLP),例如:ChatGPT 系列(OpenAI)、Bard(Google)、文心一言(百度);开源大模型中有Meta 开源的 LLaMA、ChatGLM – 6B、Yi-34B-Chat等。
- 视觉大模型(CV),例如:VIT 系列(Google)、文心UFO、华为盘古 CV、INTERN(商汤)等。
- 多模态大模型,例如:谷歌Gemini、DALL-E(OpenAI)、Midjourney等。
大语言模型的发展
2018年,随着谷歌 BERT(Bidirectional Encoder Representations from Transformers)的发布,预训练模型迎来了一个里程碑。BERT通过预先训练大规模语料库,使得模型能够理解更为复杂的语境和语义关系。这一技术创新使得大语言模型在各种自然语言处理任务中表现出色,为自动问答、机器翻译等应用打开了新的可能性。
2022年11月30日,GPT-3的发布标志着AI领域的重大突破,它包含1750亿个参数,是GPT-2的100倍之多,比之前最大的同类NLP模型要多10倍。GPT-3的训练数据集十分庞大,包括英语维基百科、数字化书籍和各种网页链接,几乎所有有文字记录的信息都被编码进了GPT-3模型中。这种深度和复杂性使得GPT-3能够高质量地完成诸多任务,包括但不限于答题、翻译、写文章,甚至是数学计算和编写代码。
当以ChatGpt为代表的语言模型开始广受认可时,许多性能强大的LLM只能通过 大语言模型API接口(如OpenAI API)访问,仅有特定的人或实验室具备研究和开发此类模型的能力,由此促进了开源大语言模型的发展。
2023年2月24日,Meta推出了LLaMA模型。LLaMA是最早发布的开源且高质量的预训练 LLM 之一。但 LLaMA 并非单一模型,而是包含多个 LLM 的套件,其模型规模从 70 亿到 650 亿个参数不等。这些模型在性能和推理效率之间作了不同的权衡。尽管 LLaMA 不能商用(仅限于研究),但作为一个具有重要影响力的提案,它从多个方面推动了开源 LLM 的研究。
大语言模型核心问题:偏差和局限性
大语言模型偏差和局限性是自然语言处理(NLP)领域正在进行的研究。虽然大语言模型在生成类人文本方面表现出了卓越的能力,但他们很容易继承和放大训练数据中存在的偏见。这可能表现为对不同人口统计数据的不公平待遇,例如基于种族、性别、语言和文化群体的统计数据。此外,这些模型通常面临事实准确性的限制。研究和缓解这些偏见和限制对于人工智能在不同社会和专业领域的道德发展和应用至关重要。
大语言模型国内外开源项目模型清单
以ChatGLM、LLaMA等平民玩家都能跑起来的较小规模的LLM开源之后,业界涌现了非常多基于LLM的二次微调或应用的案例,常见底座模型细节概览:
底座 | 包含模型 | 模型参数大小 | 训练token数 | 训练最大长度 | 是否可商用 |
---|---|---|---|---|---|
ChatGLM | ChatGLM/2/3 Base&Chat | 6B | 1T/1.4 | 2K/32K | 可商用 |
LLaMA | LLaMA/2/3 Base&Chat | 7B/8B/13B/33B/70B | 1T/2T | 2k/4k | 部分可商用 |
Baichuan | Baichuan/2 Base&Chat | 7B/13B | 1.2T/1.4T | 4k | 可商用 |
Qwen | Qwen/1.5 Base&Chat | 7B/14B/72B/110B | 2.2T/3T | 8k/32k | 可商用 |
BLOOM | BLOOM | 1B/7B/176B-MT | 1.5T | 2k | 可商用 |
Aquila | Aquila/2 Base/Chat | 7B/34B | – | 2k | 可商用 |
InternLM | InternLM/2 Base/Chat/Code | 7B/20B | – | 200k | 可商用 |
Mixtral | Base&Chat | 8x7B | – | 32k | 可商用 |
Yi | Base&Chat | 6B/9B/34B | 3T | 200k | 可商用 |
DeepSeek | Base&Chat | 1.3B/7B/33B/67B | – | 4k | 可商用 |
XVERSE | Base&Chat | 7B/13B/65B/A4.2B | 2.6T/3.2T | 8k/16k/256k | 可商用 |
大语言模型有哪些应用场景?
金融行业风险评估:在金融领域,大语言模型可以对用户的信用报告、还款记录等文本数据进行深度分析,以评估用户的信用等级。例如,金融机构可以利用LLM对信贷审批文件进行特征提取和情感分析,实现精准的风险评估。
- 医疗诊断辅助:在医疗行业,大语言模型通过分析大量的病历文本数据,辅助医生进行疾病诊断和治疗方案推荐。LLM的多模态能力可以用于模式识别和预测,提高诊断的准确性。
- 个性化在线教育:在线教育平台可以利用大语言模型分析教学文本和用户反馈,为用户提供个性化的课程和服务。通过挖掘用户的兴趣点和需求,LLM可以帮助学员更个性化地完成课程内容。
- 自动化客户服务:零售商和其他服务提供商可以部署大语言模型作为动态聊天机器人和人工智能助手,提供更好的客户体验。这些模型能够理解客户查询并提供及时、准确的响应。
- 智能搜索和推荐:搜索引擎可以集成大语言模型来提供更直接、更像人类的答案。这些模型能够理解用户的查询意图,并从海量数据中检索相关信息,提供个性化的搜索结果。
- 生物医学研究:生命科学研究人员可以训练大语言模型来理解蛋白质、分子、DNA和RNA。这些模型可以从分子和蛋白质结构数据库中学习,并利用这些知识提供可行的化合物,帮助开发新的治疗方法。
- 软件开发辅助:开发者可以利用大语言模型编写软件代码并教机器人完成物理任务。这些模型能够理解编程语言的语法和逻辑,自动生成或优化代码片段,提高开发效率。
- 内容创作与营销:营销人员可以训练大语言模型来组织客户反馈和请求,或者根据产品描述进行产品分类。此外,LLM还可以用于创作歌曲、诗歌、故事和营销材料等,提供创意写作的辅助。
开源大模型的应用
开源大模型的应用方式主要有两种:
1、自部署。
2、在Maas平台部署,例如阿里云Maas,百度云Maas,微软云Maas等。
参考资料
维基百科 大语言模型定义,重点讲述了大语言模型偏差和局限性
The History of Open-Source LLMs: Early Days(中文翻译)
The History of Open-Source LLMs: Better Base Models (中文翻译)
Awesome Chinese LLM