Llama 3.2: 革新边缘 AI 和视觉技术的开放、可定制模型

导语：Meta 发布了 Llama 3.2 系列模型，包括支持视觉任务的中大型模型和适用于边缘设备的轻量级文本模型。这一重大更新不仅提升了 AI 模型的性能，还为开发者提供了更多可能性，推动了 AI 技术的普及和创新。

🚀 Llama 3.2 的主要亮点

1. Meta 发布了包含小型和中型视觉语言模型（11B 和 90B）以及轻量级纯文本模型（1B 和 3B）的 Llama 3.2。这些模型可以在边缘设备和移动设备上运行，包括预训练版本和指令微调版本。
2. Llama 3.2 的 1B 和 3B 模型支持 128K 令牌的上下文长度，在同类模型中处于领先地位。它们适用于边缘设备上的本地摘要、指令遵循和重写任务等用例。这些模型从第一天起就支持高通和联发科硬件，并针对 Arm 处理器进行了优化。
3. 在广泛的生态系统支持下，Llama 3.2 的 11B 和 90B 视觉模型可以直接替代相应的文本模型，同时在图像理解任务上超越了 Claude 3 Haiku 等闭源模型。与其他开放的多模态模型不同，预训练和对齐后的模型都可以使用 torchtune 进行自定义应用的微调，并使用 torchchat 在本地部署。用户还可以通过 Meta AI 智能助手体验这些模型。
4. Meta 分享了首个官方 Llama Stack 发行版，这将大大简化开发者在不同环境中使用 Llama 模型的方式，包括单节点、本地、云端和设备上的环境。它支持一键部署检索增强生成（RAG）和集成安全性的工具支持应用。
5. Meta 与 AWS、Databricks、Dell Technologies、Fireworks、Infosys 和 Together AI 等合作伙伴密切合作，为他们的下游企业客户构建 Llama Stack 发行版。设备上的分发通过 PyTorch ExecuTorch 实现，单节点分发通过 Ollama 实现。
6. Llama 3.2 模型可在 llama.com 和 Hugging Face 上下载

📱 Llama 3.2 模型详解

视觉模型（11B 和 90B）

Llama 3.2 系列中最大的两个模型（11B 和 90B）支持图像推理用例，如：

• 包括图表和图形在内的文档级理解
• 图像描述
• 基于自然语言描述在图像中定位对象的视觉定位任务

例如，用户可以询问他们的小企业在去年哪个月销售业绩最好，Llama 3.2 可以根据提供的图表进行推理并快速给出答案。在另一个例子中，模型可以根据地图推理，帮助回答诸如徒步旅行何时会变得更陡峭或地图上标记的特定路线的距离等问题。

11B 和 90B 模型还可以通过提取图像细节、理解场景，然后创作一两句话作为图像说明来帮助讲述故事，从而弥合视觉和语言之间的差距。

轻量级模型（1B 和 3B）

1B 和 3B 轻量级模型在多语言文本生成和工具调用方面具有很强的能力。这些模型使开发者能够构建个性化的、设备上的代理应用程序，具有强大的隐私保护功能，数据永远不会离开设备。例如，这样的应用程序可以帮助总结最近收到的 10 条消息，提取行动项目，并利用工具调用直接发送日历邀请以进行后续会议。

在本地运行这些模型有两个主要优势：

1. 提示和响应可以感觉瞬时，因为处理是在本地完成的。
2. 在本地运行模型可以保持隐私，不会将消息和日历信息等数据发送到云端，使整个应用程序更加私密。

由于处理是在本地进行的，应用程序可以清楚地控制哪些查询留在设备上，哪些可能需要由云端的更大模型处理。

🔍 模型评估

Meta 的评估表明，Llama 3.2 视觉模型在图像识别和各种视觉理解任务方面与领先的基础模型 Claude 3 Haiku 和 GPT4o-mini 具有竞争力。3B 模型在遵循指令、总结、提示重写和工具使用等任务上优于 Gemma 2 2.6B 和 Phi 3.5-mini 模型，而 1B 模型与 Gemma 相当。

他们在超过 150 个涵盖广泛语言的基准数据集上评估了性能。对于视觉语言模型，他们评估了图像理解和视觉推理基准的性能。

小结：Llama 3.2 系列模型在各种任务上展现出强大的性能，特别是在视觉理解和轻量级文本处理方面取得了显著进展。这为开发者提供了更多选择，可以根据具体需求选择合适的模型。

🖼️ 视觉模型的创新

作为首批支持视觉任务的 Llama 模型，11B 和 90B 模型需要一个全新的模型架构来支持图像推理。

为了添加图像输入支持，Meta 训练了一组适配器权重，将预训练的图像编码器集成到预训练的语言模型中。适配器由一系列交叉注意力层组成，将图像编码器表示输入到语言模型中。他们在文本-图像对上训练适配器，以将图像表示与语言表示对齐。在适配器训练期间，他们还更新了图像编码器的参数，但有意不更新语言模型参数。通过这种方式，他们保持了所有纯文本功能不变，为开发者提供了 Llama 3.1 模型的直接替代品。

训练流程包括多个阶段，从预训练的 Llama 3.1 文本模型开始：

1. 添加图像适配器和编码器
2. 在大规模噪声（图像，文本）对数据上进行预训练
3. 在中等规模的高质量领域内和知识增强（图像，文本）对数据上进行训练

在后训练阶段，他们使用与文本模型类似的方法，通过监督微调、拒绝采样和直接偏好优化进行多轮对齐。他们利用合成数据生成，使用 Llama 3.1 模型在领域内图像上过滤和增强问题和答案，并使用奖励模型对所有候选答案进行排名，以提供高质量的微调数据。他们还添加了安全缓解数据，以产生具有高安全性的模型，同时保持模型的有用性。

最终结果是一组可以接受图像和文本提示，并对组合进行深入理解和推理的模型。这是 Llama 模型向更丰富的代理能力迈出的又一步。

💻 轻量级模型的突破

正如他们在 Llama 3.1 中讨论的那样，强大的教师模型可以用来创建性能更好的小型模型。他们在 1B 和 3B 模型上使用了两种方法——剪枝和蒸馏，使它们成为首批能够高效适应设备的高度capable的轻量级 Llama 模型。

• 剪枝：使他们能够减小 Llama 系列中现有模型的大小，同时尽可能恢复知识和性能。对于 1B 和 3B 模型，他们采用了从 Llama 3.1 8B 模型一次性结构化剪枝的方法。这涉及系统地移除网络的部分，并调整权重和梯度的大小，以创建一个更小、更高效的模型，同时保留原始网络的性能。
• 知识蒸馏：使用更大的网络向更小的网络传授知识，其理念是较小的模型可以使用教师模型获得比从头开始更好的性能。对于 Llama 3.2 中的 1B 和 3B 模型，他们将 Llama 3.1 8B 和 70B 模型的 logits 纳入模型开发的预训练阶段，其中这些较大模型的输出（logits）被用作令牌级目标。知识蒸馏在剪枝之后使用，以恢复性能。

在后训练阶段，他们使用与 Llama 3.1 类似的方法，通过在预训练模型之上进行多轮对齐来生成最终的聊天模型。每一轮都涉及监督微调（SFT）、拒绝采样（RS）和直接偏好优化（DPO）。

他们将上下文长度支持扩展到 128K 令牌，同时保持与预训练模型相同的质量。他们还进行合成数据生成，经过仔细的数据处理和过滤，以确保高质量。他们精心混合数据，以优化多种能力，如总结、重写、遵循指令、语言推理和工具使用。

为了使社区能够在这些模型上进行创新，他们与全球排名前两位的移动系统芯片（SoC）公司高通和联发科，以及为 99% 的移动设备提供基础计算平台的 Arm 密切合作。今天发布的权重基于 BFloat16 数值。他们的团队正在积极探索将运行得更快的量化变体，他们希望很快能分享更多相关信息。

小结：Llama 3.2 系列模型通过创新的架构设计和训练方法，在视觉理解和轻量级文本处理方面取得了重大突破。这不仅提高了模型性能，还为开发者提供了更多可能性，推动了 AI 技术在各种设备和场景中的应用。

认识 Llama 3.2

🖼️ 视觉模型的突破

Llama 3.2 系列中最大的两个模型（11B 和 90B）支持图像推理用例，包括：

• 文档级理解（包括图表和图形）
• 图像描述
• 基于自然语言描述的视觉定位任务

例如：

• 小企业主可以询问去年哪个月销售最好，Llama 3.2 能够基于提供的图表进行推理并快速给出答案。
• 模型可以结合地图信息，回答诸如”什么时候徒步会变得更陡峭”或”地图上标记的特定路线有多长”等问题。
• 11B 和 90B 模型还可以弥合视觉和语言之间的差距，从图像中提取细节、理解场景，然后创作一两句话作为图像说明，帮助讲述故事。

💡 轻量级模型的创新

1B 和 3B 轻量级模型在多语言文本生成和工具调用方面表现出色。这些模型使开发者能够构建个性化的、设备上的智能应用程序，具有强大的隐私保护功能，数据永远不会离开设备。

应用示例：

• 总结最近收到的 10 条消息
• 提取行动项目
• 利用工具调用直接发送日历邀请以安排后续会议

在本地运行这些模型有两个主要优势：

1. 即时响应：由于处理在本地完成，提示和响应可以感觉瞬时。
2. 隐私保护：本地运行模型可以保持隐私，不会将消息和日历信息等敏感数据发送到云端。

由于处理是在本地进行的，应用程序可以清晰地控制哪些查询留在设备上，哪些可能需要由云端的更大模型处理。

🔍 模型评估

Meta 的评估表明：

• Llama 3.2 视觉模型在图像识别和各种视觉理解任务方面与领先的基础模型（如 Claude 3 Haiku 和 GPT4o-mini）具有竞争力。
• 3B 模型在遵循指令、总结、提示重写和工具使用等任务上优于 Gemma 2 2.6B 和 Phi 3.5-mini 模型。
• 1B 模型与 Gemma 相当。

评估范围：

• 超过 150 个涵盖广泛语言的基准数据集
• 视觉语言模型：评估了图像理解和视觉推理基准的性能

小结：Llama 3.2 系列模型在视觉理解和轻量级文本处理方面取得了显著进展，为开发者提供了更多选择，可以根据具体需求选择合适的模型。这些创新为 AI 在各种设备和场景中的应用开辟了新的可能性。

视觉模型

作为首批支持视觉任务的 Llama 模型，11B 和 90B 模型需要一个全新的模型架构来支持图像推理。

为了添加图像输入支持，Meta 训练了一组适配器权重，将预训练的图像编码器集成到预训练的语言模型中。适配器由一系列交叉注意力层组成，将图像编码器的表示输入到语言模型中。他们在文本-图像对上训练适配器，以将图像表示与语言表示对齐。在适配器训练期间，他们还更新了图像编码器的参数，但有意不更新语言模型参数。通过这种方式，他们保持了所有纯文本功能不变，为开发者提供了 Llama 3.1 模型的即插即用替代品。

他们的训练流程包括多个阶段，从预训练的 Llama 3.1 文本模型开始。首先，他们添加图像适配器和编码器，然后在大规模噪声（图像，文本）对数据上进行预训练。接下来，他们在中等规模的高质量领域内和知识增强的（图像，文本）对数据上进行训练。

在后训练阶段，他们使用与文本模型类似的方法，通过监督微调、拒绝采样和直接偏好优化进行多轮对齐。他们利用合成数据生成，使用 Llama 3.1 模型在领域内图像上过滤和增强问题和答案，并使用奖励模型对所有候选答案进行排序，以提供高质量的微调数据。他们还添加了安全缓解数据，以生成具有高安全性的模型，同时保持模型的有用性。

最终结果是一组可以接受图像和文本提示，并能深入理解和推理组合的模型。这是 Llama 模型向更丰富的代理能力迈出的又一步。

轻量级模型

正如他们在 Llama 3.1 中讨论的那样，强大的教师模型可以用来创建性能更好的小型模型。他们在 1B 和 3B 模型上使用了两种方法——剪枝和蒸馏，使它们成为首批能够高效适应设备的高能力轻量级 Llama 模型。

剪枝使他们能够减小 Llama 家族中现有模型的大小，同时尽可能恢复知识和性能。对于 1B 和 3B 模型，他们采用了从 Llama 3.1 8B 模型一次性结构化剪枝的方法。这涉及系统地移除网络的部分，并调整权重和梯度的幅度，以创建一个更小、更高效的模型，同时保留原始网络的性能。

知识蒸馏使用更大的网络向更小的网络传授知识，其理念是较小的模型可以通过教师获得比从头开始更好的性能。对于 Llama 3.2 中的 1B 和 3B 模型，他们在模型开发的预训练阶段引入了 Llama 3.1 8B 和 70B 模型的 logits，其中这些较大模型的输出（logits）被用作标记级目标。知识蒸馏在剪枝后使用，以恢复性能。

在后训练阶段，他们使用与 Llama 3.1 类似的方法，通过在预训练模型之上进行多轮对齐来生成最终的聊天模型。每一轮都包括监督微调（SFT）、拒绝采样（RS）和直接偏好优化（DPO）。

在后训练阶段，他们将上下文长度支持扩展到 128K 标记，同时保持与预训练模型相同的质量。他们还进行合成数据生成，通过仔细的数据处理和过滤来确保高质量。他们精心混合数据，以优化多种能力的高质量表现，如总结、重写、遵循指令、语言推理和工具使用。

Llama Stack 发布

2023年7月，Meta 发布了关于 Llama Stack API 的意见征询，这是一个标准化接口，用于规范工具链组件(如微调、合成数据生成等)，以定制 Llama 模型并构建智能应用程序。社区反响热烈。

此后，Meta 一直在努力将 API 付诸实践。他们为推理、工具使用和 RAG 构建了 API 的参考实现。此外，他们还与合作伙伴合作，帮助他们适配成为 API 的提供者。最后，他们引入了 Llama Stack Distribution 作为一种打包多个 API 提供者的方式，这些提供者能够很好地协同工作，为开发者提供单一端点。他们现在正与社区分享一种简化且一致的体验，使他们能够在多种环境中使用 Llama 模型，包括本地、云端、单节点和设备端。

完整的发布内容包括：

1. Llama CLI (命令行界面)，用于构建、配置和运行 Llama Stack 发行版
2. 多种语言的客户端代码，包括 Python、Node.js、Kotlin 和 Swift
3. Llama Stack Distribution Server 和 Agents API Provider 的 Docker 容器
4. 多个发行版
1. 1. 通过 Meta 内部实现和 Ollama 的单节点 Llama Stack 发行版
2. 2. 通过 AWS、Databricks、Fireworks 和 Together 的云端 Llama Stack 发行版
3. 3. 通过 PyTorch ExecuTorch 实现的 iOS 设备上的 Llama Stack 发行版
4. 4. 由 Dell 支持的本地部署 Llama Stack 发行版

系统级安全

采取开放方法有许多好处。它有助于确保全球更多人能够获得 AI 带来的机会，防止权力集中在少数人手中，并在社会中更公平、更安全地部署技术。在 Meta 不断创新的同时，他们也希望确保能够赋予开发者构建安全和负责任系统的能力。

在他们之前的发布和持续努力支持负责任创新的基础上，今天他们为他们的安全保障系列添加了新的更新：

• 首先，他们发布了 Llama Guard 3 11B Vision，它旨在支持 Llama 3.2 的新图像理解能力，并过滤文本+图像输入提示或对这些提示的文本输出响应。
• 其次，随着他们发布 1B 和 3B Llama 模型以在更受限的环境(如设备端)中使用，他们还优化了 Llama Guard 以大幅降低其部署成本。Llama Guard 3 1B 基于 Llama 3.2 1B 模型，经过剪枝和量化，将其大小从 2,858 MB 减少到 438 MB，使其部署效率比以往任何时候都高。

这些新解决方案已集成到他们的参考实现、演示和应用程序中，并可供开源社区从第一天起就使用。

立即尝试 Llama 3.2

Llama 3.2 有望比以往任何时候都能接触到更多人，并实现令人兴奋的新用例。Meta 相信，与开源社区共享这些模型是不够的。他们希望确保开发者也拥有负责任地使用 Llama 构建所需的工具。作为他们持续负责任发布工作的一部分，他们为开发者提供新的工具和资源，并且一如既往地会在他们的负责任使用指南中更新最佳实践。

文章转自微信公众号@知常明智