Kandinsky 3.0 文本生成图像的新模型
2025/04/01
Kandinsky 3.0 是一款新型的基于文本生成图像的扩散模型,由 Sber AI 团队开发。它摒弃了之前版本的两阶段生成方式,直接从编码后的文本标记生成图像,简化了训练过程,并通过使用强大的语言模型显著提升了文本理解能力。该模型架构主要由 Flan-UL2 语言模型(仅使用编码器部分)、以 BigGAN-deep 块为主的 U-Net 以及 Sber-MoVQGAN 自编码器组成。训练数据包含大量经过严格筛选的图文对,涵盖不同分辨率和内容类别。Kandinsky 3.0 在图像生成质量、与文本的相关性以及对俄罗斯文化的适应性方面均优于前代产品。此外,该模型还支持图像修复(inpainting)和外扩(outpainting)功能,能够对图像进行编辑和扩展,并且通过 Deforum 技术实现了动画视频生成。开发团队计划继续改进模型,以进一步提升其性能和应用范围。