
云原生 API 网关 APISIX 入门教程
导语:Meta 发布了 Llama 3.2 系列模型,包括支持视觉任务的中大型模型和适用于边缘设备的轻量级文本模型。这一重大更新不仅提升了 AI 模型的性能,还为开发者提供了更多可能性,推动了 AI 技术的普及和创新。
Llama 3.2 系列中最大的两个模型(11B 和 90B)支持图像推理用例,如:
例如,用户可以询问他们的小企业在去年哪个月销售业绩最好,Llama 3.2 可以根据提供的图表进行推理并快速给出答案。在另一个例子中,模型可以根据地图推理,帮助回答诸如徒步旅行何时会变得更陡峭或地图上标记的特定路线的距离等问题。
11B 和 90B 模型还可以通过提取图像细节、理解场景,然后创作一两句话作为图像说明来帮助讲述故事,从而弥合视觉和语言之间的差距。
1B 和 3B 轻量级模型在多语言文本生成和工具调用方面具有很强的能力。这些模型使开发者能够构建个性化的、设备上的代理应用程序,具有强大的隐私保护功能,数据永远不会离开设备。例如,这样的应用程序可以帮助总结最近收到的 10 条消息,提取行动项目,并利用工具调用直接发送日历邀请以进行后续会议。
在本地运行这些模型有两个主要优势:
由于处理是在本地进行的,应用程序可以清楚地控制哪些查询留在设备上,哪些可能需要由云端的更大模型处理。
Meta 的评估表明,Llama 3.2 视觉模型在图像识别和各种视觉理解任务方面与领先的基础模型 Claude 3 Haiku 和 GPT4o-mini 具有竞争力。3B 模型在遵循指令、总结、提示重写和工具使用等任务上优于 Gemma 2 2.6B 和 Phi 3.5-mini 模型,而 1B 模型与 Gemma 相当。
他们在超过 150 个涵盖广泛语言的基准数据集上评估了性能。对于视觉语言模型,他们评估了图像理解和视觉推理基准的性能。
小结:Llama 3.2 系列模型在各种任务上展现出强大的性能,特别是在视觉理解和轻量级文本处理方面取得了显著进展。这为开发者提供了更多选择,可以根据具体需求选择合适的模型。
作为首批支持视觉任务的 Llama 模型,11B 和 90B 模型需要一个全新的模型架构来支持图像推理。
为了添加图像输入支持,Meta 训练了一组适配器权重,将预训练的图像编码器集成到预训练的语言模型中。适配器由一系列交叉注意力层组成,将图像编码器表示输入到语言模型中。他们在文本-图像对上训练适配器,以将图像表示与语言表示对齐。在适配器训练期间,他们还更新了图像编码器的参数,但有意不更新语言模型参数。通过这种方式,他们保持了所有纯文本功能不变,为开发者提供了 Llama 3.1 模型的直接替代品。
训练流程包括多个阶段,从预训练的 Llama 3.1 文本模型开始:
在后训练阶段,他们使用与文本模型类似的方法,通过监督微调、拒绝采样和直接偏好优化进行多轮对齐。他们利用合成数据生成,使用 Llama 3.1 模型在领域内图像上过滤和增强问题和答案,并使用奖励模型对所有候选答案进行排名,以提供高质量的微调数据。他们还添加了安全缓解数据,以产生具有高安全性的模型,同时保持模型的有用性。
最终结果是一组可以接受图像和文本提示,并对组合进行深入理解和推理的模型。这是 Llama 模型向更丰富的代理能力迈出的又一步。
正如他们在 Llama 3.1 中讨论的那样,强大的教师模型可以用来创建性能更好的小型模型。他们在 1B 和 3B 模型上使用了两种方法——剪枝和蒸馏,使它们成为首批能够高效适应设备的高度capable的轻量级 Llama 模型。
在后训练阶段,他们使用与 Llama 3.1 类似的方法,通过在预训练模型之上进行多轮对齐来生成最终的聊天模型。每一轮都涉及监督微调(SFT)、拒绝采样(RS)和直接偏好优化(DPO)。
他们将上下文长度支持扩展到 128K 令牌,同时保持与预训练模型相同的质量。他们还进行合成数据生成,经过仔细的数据处理和过滤,以确保高质量。他们精心混合数据,以优化多种能力,如总结、重写、遵循指令、语言推理和工具使用。
为了使社区能够在这些模型上进行创新,他们与全球排名前两位的移动系统芯片(SoC)公司高通和联发科,以及为 99% 的移动设备提供基础计算平台的 Arm 密切合作。今天发布的权重基于 BFloat16 数值。他们的团队正在积极探索将运行得更快的量化变体,他们希望很快能分享更多相关信息。
小结:Llama 3.2 系列模型通过创新的架构设计和训练方法,在视觉理解和轻量级文本处理方面取得了重大突破。这不仅提高了模型性能,还为开发者提供了更多可能性,推动了 AI 技术在各种设备和场景中的应用。
Llama 3.2 系列中最大的两个模型(11B 和 90B)支持图像推理用例,包括:
例如:
1B 和 3B 轻量级模型在多语言文本生成和工具调用方面表现出色。这些模型使开发者能够构建个性化的、设备上的智能应用程序,具有强大的隐私保护功能,数据永远不会离开设备。
应用示例:
在本地运行这些模型有两个主要优势:
由于处理是在本地进行的,应用程序可以清晰地控制哪些查询留在设备上,哪些可能需要由云端的更大模型处理。
Meta 的评估表明:
评估范围:
小结:Llama 3.2 系列模型在视觉理解和轻量级文本处理方面取得了显著进展,为开发者提供了更多选择,可以根据具体需求选择合适的模型。这些创新为 AI 在各种设备和场景中的应用开辟了新的可能性。
作为首批支持视觉任务的 Llama 模型,11B 和 90B 模型需要一个全新的模型架构来支持图像推理。
为了添加图像输入支持,Meta 训练了一组适配器权重,将预训练的图像编码器集成到预训练的语言模型中。适配器由一系列交叉注意力层组成,将图像编码器的表示输入到语言模型中。他们在文本-图像对上训练适配器,以将图像表示与语言表示对齐。在适配器训练期间,他们还更新了图像编码器的参数,但有意不更新语言模型参数。通过这种方式,他们保持了所有纯文本功能不变,为开发者提供了 Llama 3.1 模型的即插即用替代品。
他们的训练流程包括多个阶段,从预训练的 Llama 3.1 文本模型开始。首先,他们添加图像适配器和编码器,然后在大规模噪声(图像,文本)对数据上进行预训练。接下来,他们在中等规模的高质量领域内和知识增强的(图像,文本)对数据上进行训练。
在后训练阶段,他们使用与文本模型类似的方法,通过监督微调、拒绝采样和直接偏好优化进行多轮对齐。他们利用合成数据生成,使用 Llama 3.1 模型在领域内图像上过滤和增强问题和答案,并使用奖励模型对所有候选答案进行排序,以提供高质量的微调数据。他们还添加了安全缓解数据,以生成具有高安全性的模型,同时保持模型的有用性。
最终结果是一组可以接受图像和文本提示,并能深入理解和推理组合的模型。这是 Llama 模型向更丰富的代理能力迈出的又一步。
正如他们在 Llama 3.1 中讨论的那样,强大的教师模型可以用来创建性能更好的小型模型。他们在 1B 和 3B 模型上使用了两种方法——剪枝和蒸馏,使它们成为首批能够高效适应设备的高能力轻量级 Llama 模型。
剪枝使他们能够减小 Llama 家族中现有模型的大小,同时尽可能恢复知识和性能。对于 1B 和 3B 模型,他们采用了从 Llama 3.1 8B 模型一次性结构化剪枝的方法。这涉及系统地移除网络的部分,并调整权重和梯度的幅度,以创建一个更小、更高效的模型,同时保留原始网络的性能。
知识蒸馏使用更大的网络向更小的网络传授知识,其理念是较小的模型可以通过教师获得比从头开始更好的性能。对于 Llama 3.2 中的 1B 和 3B 模型,他们在模型开发的预训练阶段引入了 Llama 3.1 8B 和 70B 模型的 logits,其中这些较大模型的输出(logits)被用作标记级目标。知识蒸馏在剪枝后使用,以恢复性能。
在后训练阶段,他们使用与 Llama 3.1 类似的方法,通过在预训练模型之上进行多轮对齐来生成最终的聊天模型。每一轮都包括监督微调(SFT)、拒绝采样(RS)和直接偏好优化(DPO)。
在后训练阶段,他们将上下文长度支持扩展到 128K 标记,同时保持与预训练模型相同的质量。他们还进行合成数据生成,通过仔细的数据处理和过滤来确保高质量。他们精心混合数据,以优化多种能力的高质量表现,如总结、重写、遵循指令、语言推理和工具使用。
为了使社区能够在这些模型上进行创新,他们与全球排名前两位的移动系统芯片(SoC)公司高通和联发科,以及为 99% 的移动设备提供基础计算平台的 Arm 密切合作。今天发布的权重基于 BFloat16 数值。他们的团队正在积极探索将运行得更快的量化变体,他们希望很快能分享更多相关信息。
2023年7月,Meta 发布了关于 Llama Stack API 的意见征询,这是一个标准化接口,用于规范工具链组件(如微调、合成数据生成等),以定制 Llama 模型并构建智能应用程序。社区反响热烈。
此后,Meta 一直在努力将 API 付诸实践。他们为推理、工具使用和 RAG 构建了 API 的参考实现。此外,他们还与合作伙伴合作,帮助他们适配成为 API 的提供者。最后,他们引入了 Llama Stack Distribution 作为一种打包多个 API 提供者的方式,这些提供者能够很好地协同工作,为开发者提供单一端点。他们现在正与社区分享一种简化且一致的体验,使他们能够在多种环境中使用 Llama 模型,包括本地、云端、单节点和设备端。
完整的发布内容包括:
采取开放方法有许多好处。它有助于确保全球更多人能够获得 AI 带来的机会,防止权力集中在少数人手中,并在社会中更公平、更安全地部署技术。在 Meta 不断创新的同时,他们也希望确保能够赋予开发者构建安全和负责任系统的能力。
在他们之前的发布和持续努力支持负责任创新的基础上,今天他们为他们的安全保障系列添加了新的更新:
这些新解决方案已集成到他们的参考实现、演示和应用程序中,并可供开源社区从第一天起就使用。
Llama 3.2 有望比以往任何时候都能接触到更多人,并实现令人兴奋的新用例。Meta 相信,与开源社区共享这些模型是不够的。他们希望确保开发者也拥有负责任地使用 Llama 构建所需的工具。作为他们持续负责任发布工作的一部分,他们为开发者提供新的工具和资源,并且一如既往地会在他们的负责任使用指南中更新最佳实践。
文章转自微信公众号@知常明智