Meta数字人Pippo：重新定义3D视频生成

Meta Reality Labs推出的Pippo模型在3D视频生成领域掀起了一场革命，它可以从单张人像照片生成多视角的1K分辨率高清视频。此项技术不仅在影像生成上取得了突破，还在数字内容生产线上提供了新的可能性。本文将深入探讨Pippo的技术细节、功能特点以及使用方法。

Pippo的核心技术

Pippo模型依托于多视角扩散变换器（Multi-View Diffusion Transformer）和ControlMLP模块，这两项技术是Pippo实现高效多视角生成和3D一致性的核心。通过这些技术，Pippo能够处理复杂的人像图像，生成精细的3D视频。

多视角扩散变换器

多视角扩散变换器是Pippo生成多视角视频的关键。它通过在输入图像中扩散不同视角的信息，实现了从静态图片到动态视频的转换。此技术在训练过程中通过大量无标注的人像图像进行预训练，然后在高质量的工作室捕捉图像上进行微调，以提高生成效果和一致性。

ControlMLP模块

ControlMLP模块通过注入像素对齐的条件（如Plücker射线和空间锚点），大幅度提高了Pippo生成3D一致性的能力。在训练阶段，这些条件被注入模型中，并在推理阶段固定，以便在不同视角下生成一致的3D效果。

Pippo的主要功能

Pippo的功能设计使其能够从单张照片生成多视角的高清视频，支持全身、面部或头部的生成，并自动补全遮挡区域的细节。以下是Pippo模型的一些主要功能：

高效内容生成

通过多视角扩散变换器，Pippo可以生成多达五倍于训练视角的视频内容。这种高效的内容生成能力为数字内容生产提供了极大的便利，并允许用户从一个简单的自拍照中创建出丰富的3D视频内容。

高分辨率支持

Pippo首次实现了在1K分辨率下的一致多视角人像生成。这意味着用户能够获得更高质量的输出，尤其是在需要高清晰度和细节表现的应用中。

自动补全细节

在处理单目视频时，Pippo可以自动补全缺失的细节，如鞋子、面部或颈部等。这一功能使得生成的视频更加真实可信，减少了人工干预的需求。

Pippo的技术原理

Pippo模型的成功离不开其复杂的技术架构。通过多阶段的训练策略，Pippo能够在不同环境中生成一致的3D效果。

多阶段训练策略

Pippo采用多阶段的训练策略来提高模型的鲁棒性和输出质量。

预训练阶段

在预训练阶段，Pippo使用30亿张无结构的人像图像进行训练，这些图像没有标注信息。这一阶段的目标是让模型学习到人像的基本特征和多视角信息的扩散方式。

中间训练阶段

接下来，Pippo在高质量工作室数据集上进行中间训练。模型通过联合生成多个视角的图像，使用低分辨率的视图进行去噪，并通过浅层MLP粗略编码目标相机，以增强生成的多视角一致性。

后训练阶段

在后训练阶段，Pippo在高分辨率下对少量视图进行去噪，并引入像素对齐控制来确保3D的一致性。这一阶段的训练使得最终生成的视频内容更加逼真和连贯。

注意力偏差技术

为了提高生成视角的多样性，Pippo提出了注意力偏差技术。在推理阶段，该技术支持模型生成比训练阶段多5倍以上的视角，使得生成的视频内容更为丰富。

如何运行Pippo

要运行Pippo模型，用户需要进行一些基本的设置和依赖安装。下面是一个简要的指南。

1. 设置代码

首先，用户需要克隆Pippo的GitHub仓库并将其添加到路径中：

git clone git@github.com:facebookresearch/pippo.git

cd pippo

export PATH=$PATH:$PWD

2. 安装依赖

接下来，需要创建并激活一个conda环境，并安装必要的依赖：

conda create -n pippo python=3.10.1 -c conda-forge

conda activate pippo



conda install pytorch==2.4.0 torchvision==0.19.0 torchaudio==2.4.0 pytorch-cuda=12.0 -c pytorch -c nvidia



pip install -r requirements.txt

3. 下载并训练样本

用户可以启动一个小型训练任务，使用Ava-256数据集的少量样本：

python scripts/pippo/download_samples.py

4. 计算重投影误差

为了评估生成图像与真实图像之间的3D一致性，可以运行以下命令来计算重投影误差：

python scripts/pippo/reprojection_error.py

资源

项目主页：https://yashkant.github.io/pippo/
GitHub仓库：https://github.com/facebookresearch/pippo

FAQ

1. Pippo模型的训练需要多长时间？

训练时间取决于硬件配置和数据集大小。对于高性能的GPU，如A100，完整尺寸模型的训练时间可能会较短，而较小的GPU可能需要更长的时间。

2. 如何调整Pippo的输出分辨率？

Pippo提供了不同分辨率的模型配置文件，用户可以根据需求选择适当的配置文件进行训练和推理。

3. Pippo可以处理哪些类型的图像？

Pippo主要用于人像图像的多视角生成，但理论上也可以扩展到其他类型的图像，只需调整模型的训练数据和配置。

4. Pippo与其他图像生成模型有何不同？

Pippo的独特之处在于其多视角生成能力和3D一致性，这使得它在生成动态视频内容时具有较高的精度和细节表现。

5. 在使用Pippo时是否需要额外的硬件支持？

虽然Pippo可以在常规的GPU上运行，但为了获得最佳性能和速度，建议使用高性能的GPU，如NVIDIA A100或T4。