- pub
ステップビデオT2V: テキストからビデオ生成の革命
はじめに
Step Video T2Vは最新のテキストから動画を作成するモデルです。高度な機械学習技術を使って、テキストの説明を高品質な動画に変換します。30億個のパラメータを持つこのモデルは、204フレームまでの動画を生成できるので、コンテンツクリエイターや開発者にとって強力なツールです。深い圧縮を行うVariational Autoencoder (VAE)を使って、トレーニングと推論の効率を上げています。動画の品質をさらに向上させるために、Direct Preference Optimization (DPO)を適用して、高い視覚基準を満たす動画を生成します。もっと詳しい情報は、Image to Video AIやTry Step Video T2Vをチェックしてね。
モデルの概要
Step Video T2Vは、高圧縮のVideo-VAEを使用しています。16x16の空間圧縮率と8xの時間圧縮率を実現しています。ユーザーのプロンプトを、英語と中国語に対応したバイリンガルの事前学習済みテキストエンコーダーを使ってエンコードします。モデルのアーキテクチャには、3Dフルアテンションを持つDiTが含まれていて、入力ノイズを潜在フレームにデノイズするためにFlow Matchingを使用しています。テキストの埋め込みやタイムステップは、DPOアプローチを通じて生成される動画の視覚的品質を高めるための調整要因として機能します。
Video-VAE
Video-VAEは動画生成タスクのために設計されていて、高い圧縮率を実現しつつ、素晴らしい動画再構成の品質を保っています。この圧縮によってトレーニングと推論が早くなり、拡散プロセスのための圧縮された表現が好まれます。
3Dフルアテンションを持つDiT
Step Video T2Vは、48層のDiTアーキテクチャを持ち、各層に48のアテンションヘッドが入っています。AdaLN-Singleはタイムステップの条件を組み込み、自注意メカニズムの中のQK-Normはトレーニングの安定性を保ちます。3D RoPEが異なる動画の長さや解像度のシーケンスを扱うために使われています。
Video-DPO
人間のフィードバックをDPOを通じて取り入れ、生成される動画の視覚品質を向上させています。DPOは人間の嗜好データを活用してモデルを微調整し、生成内容が人間の期待に合うようにします。
モデルのダウンロード
Step Video T2VモデルはHuggingfaceやModelscopeなどのプラットフォームでダウンロードできます。標準版とTurbo版があり、Turbo版は推論ステップの蒸留を使用して処理速度を上げています。
モデルの使い方
要件
Step Video T2Vモデルを動かすには、CUDAサポートのあるNVIDIA GPUが必要です。4つのGPUでテストしていて、最適な生成品質のために80GBのメモリを持つGPUが推奨されています。テスト済みのオペレーティングシステムはLinuxで、テキストエンコーダーは特定のCUDA機能をサポートしています。
依存関係とインストール
モデルにはPython 3.10以上、PyTorch 2.3-cu121、CUDA Toolkit、FFmpegが必要です。リポジトリをクローンして、conda環境を設定し、必要なパッケージをインストールすることでインストールできます。
推論スクリプト
複数のGPUで並列にデプロイするために、GPUリソースの最適化戦略があります。専用のGPUがテキストエンコーダーの埋め込みとVAEデコーディング用のAPIサービスを処理します。シングルGPUの推論と量子化は、オープンソースプロジェクトのDiffSynth-Studioによってサポートされています。
ベストプラクティスの推論設定
Step Video T2Vは常に高忠実度でダイナミックな動画を生成します。最適な結果を得るためには、推論パラメータを調整して動画の忠実度とダイナミクスのバランスを取ることが重要です。
ベンチマーク
Step Video T2V Evalは、リアルユーザーによる128の中国語プロンプトを含む新しいベンチマークです。動画の品質をスポーツ、食べ物、風景など11のカテゴリーで評価します。
オンラインエンジン
Step Video T2Vのオンライン版は跃问视频で利用可能で、素晴らしい例やモデルの能力をさらに探求できます。
引用
学術的な参考のために、提供されたBibTeX引用を使ってください。
謝辞
xDiTチームに感謝を表します。彼らのサポートと並列化戦略がとても助かりました。私たちのコードは公式のHuggingface/Diffusersリポジトリに統合される予定です。FastVideoチームとのコラボレーションにも感謝し、推論加速ソリューションの共同開発を楽しみにしています。