通义万相,开源!
2025/03/13
通义万相Wan2.1是一款开源的视频生成模型,具备处理复杂运动、还原物理规律、提升影视质感、优化指令遵循等优势,能满足创作者、开发者和企业用户的高质量视频生成需求。它还支持中英文文字特效生成,适用于广告、短视频等。在VBench评测中以86.22%的总分领先。技术创新包括3D因果VAE、预训练策略、数据链路构建等,实现了视频隐空间压缩和高效编解码。训练策略采用6阶段分步训练法,数据处理关注数据清洗和质量筛选。优化策略涉及显存优化、训练稳定性和多卡扩展性,提升了整体效率。Wan2.1已在多个平台开源,支持主流框架和一键推理部署,降低了开发门槛。