
如何调用 Minimax 的 API
腾讯混元文生图大模型(HunyuanDiT)作为业界首个中文原生的DiT架构开源模型,凭借其高质量生成效果、强大的中文理解能力以及灵活的扩展性,成为AI创作领域的热门工具。本教程将面向初级用户,详细介绍如何从零开始配置环境、运行模型,并生成符合预期的图像,同时结合实用技巧与案例解析,助你快速掌握这一工具。
腾讯混元文生图模型基于DiT(Diffusion with Transformer)架构,融合了Transformer的全局建模能力与扩散模型的高效生成特性,支持中英文双语输入,并优化了长文本理解能力(最多256字符)。其核心优势包括:
混元文生图支持Python 3.10及更高版本,推荐使用Conda管理依赖:
git clone https://github.com/tencent/HunyuanDiT
cd HunyuanDiT
conda env create -f environment.yml
conda activate HunyuanDiT
pip install -r requirements.txt
若安装flash-attn
时出现兼容性问题,可手动下载指定版本的whl文件安装(如cu118torch2.0
)。
通过Hugging Face或ModelScope下载预训练模型:
huggingface-cli download Tencent-Hunyuan/HunyuanDiT --local-dir ./ckpts
若网络不稳定,可使用清华镜像加速:
export HF_ENDPOINT=https://hf-mirror.com
export HF_HUB_ENABLE_HF_TRANSFER=1
运行sample_t2i.py
脚本,输入提示词即可生成图像:
python sample_t2i.py --prompt "渔舟唱晚,水墨画风格"
关键参数说明:
--prompt
:必填,支持中英文描述。--seed
:随机种子,固定后可复现结果。--steps
:扩散步数(默认50,步数越多细节越丰富)。clip-vit-large-patch14-336
缺失,需手动下载CLIP模型并修改配置文件中的路径。--low-vram
模式(若支持)。混元模型对细节敏感,推荐按以下模板编写Prompt:
摄影风格,亚洲女性,长发戴墨镜,站在长城上,背景红叶飘落,广角镜头,真实感
。莫奈风格,春天的田野,鲜花与麦浪,远处雪山,晨光柔和,全景构图
。直接指定风格编号或描述词(部分风格需搭配扩写功能):
摄影风格
、胶片电影风格
水墨风格
、赛博朋克
、迪士尼动画风
Unreal Engine渲染
、Blender建模
。通过--revise 1
开启自动扩写,模型会优化原始Prompt:
python sample_t2i.py --prompt "小猫在森林里" --revise 1
扩写后可能变为:
卡通风格,一只橘色小猫在阳光斑驳的森林中跳跃,身旁有蝴蝶飞舞,背景模糊,特写镜头
。
混元支持结合语言模型进行多轮优化。例如,若首次生成缺少“孤舟”元素,可追加指令:
调整上述要求,添加一艘孤舟和飘落的雪花
。
DDIM
,可尝试PNDM
或Euler
平衡速度与质量。Prompt:
生成一张图片:轻舟已过万重山,水墨画风格
效果:模型生成山水画卷,舟行江上,山峦层叠,水墨笔触细腻。
Prompt:
3D赛博朋克风格,机甲战士,身穿发光铠甲,站立于未来都市废墟,仰视视角
效果:角色设计兼具机械细节与光影质感,背景废墟渲染逼真。