Wan2.1:开源AI模型的崛起,超越Sora的视频生成技术
2025/03/04
Wan2.1 是由阿里巴巴云开发的一款开源AI模型,专为高效、高质量的视频生成而设计。它在多个方面表现出色,包括文本到视频(T2V)、图像到视频(I2V)、视频编辑和文本到图像(T2I)等功能,并且能够生成中英文双语字幕,使其在多语言应用场景中具有独特优势。Wan2.1 基于扩散变换器范式构建,通过流匹配框架增强,其核心创新包括 Wan-VAE 和 Video Diffusion DiT,能够高效处理1080P视频并保持时间连贯性。在 VBench 基准测试中,Wan2.1 的总体得分为86.22%,超越了竞争对手 Sora 的84.28%。它在 ID 一致性、单对象准确性和空间位置准确性方面表现出色,尽管在运动平滑性和大运动生成方面略逊一筹,但差距非常小。Wan2.1 的开源特性使其对开发者极为友好,开发者可以轻松获取其代码并进行定制和集成。其应用场景广泛,涵盖内容创作、教育、影视、广告、游戏等多个领域,能够为不同行业提供强大的支持。