- pub
Step Video T2V:颠覆文本到视频生成
介绍
Step Video T2V 是个超酷的文本转视频模型,用的是先进的机器学习技术,可以把文字描述转成高质量的视频内容。这个模型有 300 亿个参数,能生成最多 204 帧的视频,对内容创作者和开发者来说都是个强有力的工具。它使用了一种深度压缩的变分自编码器 (VAE),提升了训练和推理效率,极大地增强了空间和时间的压缩。为了进一步提高视频质量,还应用了直接偏好优化 (DPO),保证生成的视频视觉效果达到高标准。想了解更多,可以去看看 Image to Video AI 和 试试 Step Video T2V。
模型概述
Step Video T2V 使用了一种高压缩的视频 VAE,达到了 16x16 的空间压缩和 8x 的时间压缩 ratio。它通过双语预训练的文本编码器来编码用户的提示词,支持英文和中文。这个模型的架构包含了一个使用 3D 全注意力的 DiT,利用流匹配来去噪输入噪声并生成潜在帧。文本嵌入和时间步长是调节因素,通过基于视频的 DPO 方法,进一步提高生成视频的视觉质量。
视频 VAE
这个视频 VAE 专门设计用于视频生成任务,能在保持卓越视频重建质量的同时,实现高压缩。这种压缩加速了训练和推理,使其更符合扩散过程对紧凑表示的偏好。
带 3D 全注意力的 DiT
Step Video T2V 基于 DiT 架构,拥有 48 层,每层有 48 个注意力头。AdaLN-Single 将时间步长的条件纳入,其中的 QK-Norm 机制确保了训练的稳定性。3D RoPE 可以处理不同视频长度和分辨率的序列。
视频 DPO
DPO 通过人类反馈来提升生成视频的视觉质量,利用人类的偏好数据来微调模型,确保生成的内容符合人类的期望。
模型下载
Step Video T2V 模型可以在 Huggingface 和 Modelscope 等平台下载。它包括标准版和 Turbo 版,后者具有推理步骤蒸馏功能,处理速度更快。
模型使用
要求
要运行 Step Video T2V 模型,需要一块支持 CUDA 的 NVIDIA GPU。模型在四个 GPU 上测试,建议使用 80GB 内存的显卡以获得最佳生成质量。测试的操作系统是 Linux,文本编码器支持特定的 CUDA 能力。
依赖和安装
模型需要 Python 3.10 或更高版本,PyTorch 2.3-cu121,CUDA 工具包和 FFmpeg。安装过程包括克隆代码库,设置 conda 环境,安装必要的包。
推理脚本
为了在多 GPU 的并行部署中优化 GPU 资源的使用,采用了解耦策略。一个专用的 GPU 处理文本编码器的嵌入和 VAE 解码的 API 服务。单 GPU 推理和量化由开源项目 DiffSynth-Studio 支持。
最佳实践推理设置
Step Video T2V 一直在生成高保真和动态视频。调整推理参数,平衡视频的清晰度和动态感,能达到最佳效果。
基准测试
Step Video T2V Eval 是一个新的基准测试,包含了 128 个来自真实用户的中文提示。它从 11 个类别(包括体育、美食、风景等)评估视频质量。
在线引擎
Step Video T2V 的在线版本可以在跃问视频上找到,提供了令人印象深刻的示例,可以进一步探索模型的能力。
引用
如果需要学术引用,请使用提供的 BibTeX 引用格式。
鸣谢
我们非常感谢 xDiT 团队的支持和并行化策略。我们的代码将会整合进官方的 Huggingface/Diffusers 库中。同时感谢 FastVideo 团队的合作,期待将来能够一起推出推理加速解决方案。