我是服务商

产品和服务

控制台

所有文章 > AI驱动 > 多模态大模型微调实践！PAI+LLaMA Factory搭建AI导游

多模态大模型微调实践！PAI+LLaMA Factory搭建AI导游

多模态大模型微调实践！PAI+LLaMA Factory搭建AI导游

关键词: AI大模型应用 LLMs

作者: weixin02 2024-11-21

一、引言

AI的快速发展推动了各行各业的智能化转型和创新，随之而来的是对AI应用的迫切需求。

如何微调大模型、高效搭建AI应用成为了开发者们广泛关注的技术方向。阿里云人工智能平台PAI，联合开源低代码大模型微调框架LLaMA Factory ，共同打造多模态大模型微调训练最佳实践，通过微调 Qwen2-VL 模型，快速搭建文旅领域知识问答机器人，带您开启AI创新与应用之旅。

二、详细实验步骤

1、环境准备和资源准备

为了顺利开发文旅领域知识问答机器人，首先需要准备好运行环境，包括开通阿里云交互式建模PAI-DSW服务并创建实例。

1.1领取PAI-DSW免费试用权益

前往文末“阅读原文”中的阿里云活动页面，领取PAI-DSW产品的免费试用资源包。新用户可免费获得试用资源，用于启动和运行实例，具体试用权益和试用规则请参考领取页面。老用户可创建按量付费实例，按小时计费，约6-30元/小时。

1.2开通机器学习PAI并创建默认工作空间

前往PAI控制台，其中关键参数配置如下：

本教程地域选择：华北2（北京）。您也可以根据情况选择华东1（杭州）、华东2（上海）、华南1（深圳）地域。
组合开通：本教程无需使用其他产品，去除勾选MaxCompute和DataWorks产品。
服务角色授权：单击去授权，完成服务角色授权。

说明：更多详细内容，请参见开通并创建默认工作空间。

1.3 进入PAI NotebookGallery

登录PAI控制台。

在左侧导航栏中，选择快速开始>NotebookGallery。

在Notebook Gallery页面，单击进入“LLaMA Factory多模态微调实践：微调Qwen2-VL构建文旅大模型”教程。

在详情页面，您可查看到预置的LLaMA Factory多模态微调实践：微调Qwen2-VL构建文旅大模型教程，单击右上角的在DSW中打开。

在请选择对应实例对话框中，单击新建DSW实例。

1.4 创建PAI-DSW实例

在配置实例页面，自定义输入实例名称，例如DSW_LlamaFactory。

说明：

若您是 PAI 产品新用户，请再次确认是否已领取免费使用权益，点击领取。若您未领取免费试用权益，或不符合免费试用条件，或历史已领取且免费试用额度用尽或到期，完成本实验将产生扣费，大约为6-30元/小时。
请在实验完成后，参考最后一章节清理及后续，停止/删除实例，以免产生不必要的扣费或资源消耗。

GPU推荐使用 24GB 显存的 A10（ecs.gn7i-c8g1.2xlarge）或更高配置。※ 支持免费试用的资源：

ecs.gn7i-c8g1.2xlarge、ecs.gn6v-c8g1.2xlarge、ecs.g6.xlarge

在配置实例页面的选择镜像区域，请确认镜像是否为官方镜像的modelscope:1.14.0-pytorch2.1.2-gpu-py310-cu121-ubuntu22.04。

在配置实例页面，未提及的参数保持默认即可，单击确认，创建实例。

请您耐心等待大约3分钟左右，当状态变为运行中时，表示实例创建成功，点击打开NoteBook。

1.5 运行Notebook教程文件

安装LLaMA Factory

根据教程指引，依次运行命令。

说明：单击命令左侧的运行▶按钮表示开始运行任务，当左侧为✅号时表明成功运行结束。

下载数据集

LLaMA-Factory 项目内置了丰富的数据集，放在了 data目录下。您可以跳过本步骤，直接使用内置数据集。您也可以准备自定义数据集，将数据处理为框架特定的格式，放在 data 下，并且修改 dataset_info.json 文件。

本教程准备了一份多轮对话数据集，运行下述命令下载数据。

说明：单击命令左侧的运行▶按钮表示开始运行任务，当左侧为✅号时表明成功运行结束。

2. 模型微调

2.1 启动 Web UI

单击命令左侧的运行▶按钮表示开始运行任务，当左侧为✅号时表明成功运行结束。

然后单击返回的URL地址，进入Web UI页面。

2.2 配置参数

进入 WebUI 后，可以切换语言到中文（zh）。首先配置模型，本教程选择 Qwen2VL-2B-Chat 模型，微调方法修改为 full，针对小模型使用全参微调方法能带来更好的效果。

数据集使用上述下载的 train.json。

可以点击「预览数据集」。点击关闭返回训练界面。

设置学习率为 1e-4，训练轮数为 10，更改计算类型为 pure_bf16，梯度累积为 2，有利于模型拟合。

在其他参数设置区域修改保存间隔为 1000，节省硬盘空间。

2.3 启动微调

将输出目录修改为 train_qwen2vl，训练后的模型权重将会保存在此目录中。点击「预览命令」可展示所有已配置的参数，您如果想通过代码运行微调，可以复制这段命令，在命令行运行。

点击「开始」启动模型微调。

启动微调后需要等待一段时间，待模型下载完毕后可在界面观察到训练进度和损失曲线。模型微调大约需要 14 分钟，显示“训练完毕”代表微调成功。

3. 模型对话

选择「Chat」栏，将检查点路径改为 train_qwen2vl，点击「加载模型」即可在 Web UI 中和微调后的模型进行对话。

首先点击下载测试图片1或测试图片2，并上传至对话框的图像区域，接着在系统提示词区域填写“你是一个导游，请生动有趣地回答游客提出的问题”。在页面底部的对话框输入想要和模型对话的内容，点击提交即可发送消息。

发送后模型会逐字生成回答，从回答中可以发现模型学习到了数据集中的内容，能够恰当地模仿导游的语气介绍图中的山西博物院。

点击「卸载模型」，点击检查点路径输入框取消勾选检查点路径，再次点击「加载模型」，即可与微调前的原始模型聊天。

重新向模型发送相同的内容，发现原始模型无法准确识别山西博物院。

三、资源清理和后续操作

资源清理
- 在实验完成后，前往控制台停止或删除实例，以避免资源的持续消耗和不必要的费用。
后续使用
- 在试用有效期内，可以继续使用DSW实例进行模型训练和推理验证，探索更多AI图像编辑的可能性。

文章转自微信公众号@阿里云开发者

上一篇：

探索LLM推理全阶段的JSON格式输出限制方法

下一篇：

阿里云开源AI应用开发框架：Spring AI Alibaba

#你可能也喜欢这些API文章!

GraphRAG：基于PolarDB+通义千问api+LangChain的知识图谱定制实践

GraphRAG：基于PolarDB+通义千问api+LangChain的知识图谱定制实践

使用Node.js、Express和MySQL构建REST API

使用Node.js、Express和MySQL构建REST API

天气API推荐：精准获取气象数据的首选

天气API推荐：精准获取气象数据的首选

基于自定义数据集的微调：Alpaca与LLaMA模型的训练

基于自定义数据集的微调：Alpaca与LLaMA模型的训练

OAuth和OpenID Connect图解指南

OAuth和OpenID Connect图解指南

有哪些新闻媒体提供Open API？

有哪些新闻媒体提供Open API？

现在做大模型，还有靠谱且免费的API接口吗？

现在做大模型，还有靠谱且免费的API接口吗？

如何运用AI提高自己的工作效率？

如何运用AI提高自己的工作效率？

区块链API推荐，快速开发去中心化应用

区块链API推荐，快速开发去中心化应用

一站搜索、试用、比较全球API！

幂简集成已收录 4828种API!

试用API，一次比较多个渠道

大家正在试用的API

AI文本生成大模型API(一次比较25个渠道)

AI代码生成大模型API(一次比较5个渠道)

AI深度推理大模型API(一次比较10个渠道)

DeepSeek-R1大模型API(一次比较6个渠道)

阿里千问2.5 7B大模型API(一次比较4个渠道)

Meta Llama 3 70B大模型API(一次比较3个渠道)