Hunyuan Image 常用提示词和图像生成教程

Hunyuan Image 是一个强大的多分辨率扩散 Transformer 模型，能够以细粒度的理解生成中文和英文的图像。它不仅可以理解复杂的语言指令，还能与用户进行多轮对话，并根据上下文生成和优化图像。本文将从安装、使用、模型结构到预训练等多个方面详细介绍 Hunyuan Image，帮助您快速上手并探索其强大的功能。

安装与配置

系统和硬件要求

要成功运行 Hunyuan Image，您需要满足以下系统和硬件要求：

操作系统：Linux
GPU：NVIDIA GPU，支持 CUDA，推荐使用 V100 或 A100，至少需要 11GB 显存，建议使用 32GB 显存以获得更好的生成质量。

必备软件和依赖项

为确保软件顺利运行，以下软件和依赖项是必不可少的：

Anaconda：用于创建和管理 Python 环境。
Huggingface CLI：用于下载和安装模型。
Python 3.8+：Python 编程语言环境。
PyTorch：深度学习框架。

安装步骤

下载模型资源

首先，您需要下载 Hunyuan Image 的预训练模型。可以通过以下命令安装 Huggingface CLI：

python -m pip install "huggingface_hub[cli]"

然后，使用以下命令创建一个名为 ‘ckpts’ 的目录，并将模型保存在该目录中：

mkdir ckpts

安装过程详解

克隆 Hunyuan Image 仓库：

git clone https://github.com/tencent/HunyuanImage

cd HunyuanImage

创建 Conda 环境：

conda env create -f environment.yml

激活 Conda 环境：

conda activate HunyuanImage

安装 Python 依赖项：

python -m pip install -r requirements.txt

（可选）安装 flash attention v2 以加速推理（需要 CUDA 11.6 或更高版本）：

python -m pip install git+https://github.com/Dao-AILab/flash-attention.git@v2.1.2.post3

Hunyuan Image 安装步骤

基本使用方法

加载模型

使用以下命令加载 Hunyuan Image 模型：

from hunyuan_image import HunyuanImage



model = HunyuanImage.from_pretrained("path/to/your/model")

简单示例演示

以下是一个简单的示例，演示如何使用 Hunyuan Image 生成图像：

prompt = "一个穿着西装的猪"

image = model.generate(prompt)

image.save("output.png")

参数设置说明

Hunyuan Image 提供了多种参数设置，以便您可以根据需要进行调整。例如，您可以设置图像分辨率、采样步数、噪声级别等参数。

模型结构设计

3DVAE (3D Variational Auto-encoder Design)

Hunyuan Image 采用了 3DVAE 模型，将像素空间的视频和图像压缩到紧凑的潜在空间，以同时处理视频和图像。以下是模型的详细设计：

训练阶段：
- 使用 4:1 的比例混合视频数据和图像数据，结合 L1 重建损失、感知损失和对抗损失进行训练。
- 采用课程学习策略，从低分辨率短视频逐步训练到高分辨率长视频。
推理阶段：
- 采用时空切片策略，将输入视频在空间和时间维度上划分为重叠的切片，确保在单块 GPU 上处理任意分辨率和时长的视频。

统一图像视频生成架构

Hunyuan Image 的 Transformer 设计采用统一的全注意力机制，支持图像和视频的统一生成，提升了模型的可扩展性和效率。以下是架构的关键设计：

输入设计：
- 视频和文本分别通过 3D 卷积和 LLM 模型进行编码。
- 将图像视为单帧视频进行处理。
模型设计：
- 采用双流到单流的混合设计策略，先独立处理视频和文本，再进行拼接融合。
位置嵌入：
- 使用旋转位置嵌入（RoPE）支持多分辨率、多宽高比以及不同时长的生成任务。

模型预训练

训练目标

Hunyuan Image 使用 Flow Matching 框架进行模型训练，目标是通过一系列变量变换将复杂的概率分布转换为简单的概率分布，实现高效的图像和视频生成。

图像预训练

模型采用两阶段的渐进式图像预训练策略：

阶段 1：在 256px 图像上进行多尺度训练，帮助模型学习生成宽广长宽比范围内的图像。
阶段 2：在 512px 图像上进行混合尺度训练，提升模型的高分辨率生成能力。

模型预训练过程

FAQ

问：Hunyuan Image 支持哪些操作系统？

答：Hunyuan Image 支持 Linux 操作系统。

问：如何提高图像生成质量？

答：您可以使用更高的 GPU 显存（推荐 32GB），并调整模型参数以优化生成质量。

问：无法安装 Anaconda 或 Huggingface CLI 如何解决？

答：请确保您已正确安装 Python，并尝试使用 pip 命令重新安装。

问：如何处理安装过程中出现的网络连接问题？

答：请检查您的网络连接，并确保您有足够的权限访问 GitHub。

问：如何生成不同分辨率的图像？

答：Hunyuan Image 支持多种分辨率设置，您可以在生成图像前调整相应的参数。

通过本文的介绍，您已经掌握了 Hunyuan Image 的安装和使用方法。现在，您可以开始探索 Hunyuan Image 的强大功能，并创造属于自己的独特图像。