pub

Vidéo Étape T2V : Révolutionner la génération de texte en vidéo

Introduction

Step Video T2V, c'est un super modèle qui transforme le texte en vidéo. Il utilise des techniques d'apprentissage machine ultra-modernes. Avec 30 milliards de paramètres, il peut créer des vidéos jusqu'à 204 images. C'est un outil puissant pour les créateurs de contenu et les développeurs. Ce modèle utilise un Variational Autoencoder (VAE) pour optimiser l'entraînement et l'inférence, ce qui rend le tout vraiment efficace. Et pour garantir une qualité visuelle top, on applique l'Optimisation de Préférence Directe (DPO). Si tu veux en savoir plus, va voir Image to Video AI et Essaie Step Video T2V.

Modèle Résumé

Step Video T2V utilise un VAE vidéo très compressé. Il a des ratios de compression de 16x16 pour l'espace et 8x pour le temps. Ça encode les prompts des utilisateurs avec des encodeurs de texte pré-entraînés, en soutenant l'anglais et le chinois. L'architecture du modèle inclut un DiT avec attention 3D, entraîné avec Flow Matching pour réduire le bruit dans les images latentes. Les embeddings de texte et les temps servent de facteurs de conditionnement pour améliorer la qualité visuelle des vidéos générées grâce à une approche vidéo de DPO.

VAE Vidéo

Le VAE vidéo est fait pour des tâches de génération vidéo. Il garde une excellente qualité tout en étant compressé. Moins de données accélère aussi l'entraînement et l'inférence, parfait pour le processus de diffusion.

DiT avec Attention 3D

Construit sur l'architecture DiT, Step Video T2V a 48 couches avec 48 têtes d'attention par couche. AdaLN-Single prend en compte la condition de temps, et QK-Norm dans le mécanisme d'attention assure la stabilité de l'entraînement. 3D RoPE est utilisé pour gérer des séquences de longueurs et résolutions variées.

Video-DPO

On intègre des retours humains grâce à l'Optimisation de Préférence Directe (DPO) pour améliorer la qualité visuelle des vidéos créées. DPO utilise des données de préférence humaine pour affiner le modèle, s'assurant que le contenu généré correspond aux attentes humaines.

Téléchargement du Modèle

Tu peux télécharger le modèle Step Video T2V sur des plateformes comme Huggingface et Modelscope. Il y a la version standard et une version Turbo, la seconde permettant un traitement plus rapide.

Utilisation du Modèle

Exigences

Pour faire tourner le modèle Step Video T2V, il te faut une GPU NVIDIA avec support CUDA. On a testé ça sur quatre GPU, avec une recommandation pour des GPU de 80 Go pour une qualité optimale. Le système d'exploitation testé est Linux, et l'encodeur de texte a besoin de compétences spécifiques en CUDA.

Dépendances et Installation

Il te faut Python 3.10 ou plus, PyTorch 2.3-cu121, CUDA Toolkit, et FFmpeg. Pour l'installer, tu dois cloner le dépôt, créer un environnement conda, et installer les paquets nécessaires.

Scripts d'Inference

Pour déployer sur plusieurs GPU, on utilise une stratégie de découplage pour optimiser l'utilisation des ressources GPU. Un GPU dédié gère les services API pour les embeddings de l'encodeur de texte et le décodage VAE. L'inférence sur un seul GPU et la quantification sont soutenues par le projet open-source DiffSynth-Studio.

Paramètres d'Inference Optimaux

Step Video T2V génère toujours des vidéos dynamiques de haute fidélité. Pour le meilleur résultat, ajuste les paramètres d'inférence pour équilibrer fidélité et dynamique.

Évaluation

Step Video T2V Eval est un nouveau benchmark avec 128 prompts chinois venant d'utilisateurs réels. Ça évalue la qualité des vidéos sur 11 catégories, comme le sport, la nourriture, le paysage, et plus encore.

Moteur en Ligne

La version en ligne de Step Video T2V est dispo sur 跃问视频, avec des exemples impressionnants et plus à découvrir sur les capacités du modèle.

Citation

Pour les références académiques, utilise la citation BibTeX fournie.

Remerciements

On tient à remercier l'équipe xDiT pour leur aide et leur stratégie de parallélisation. Notre code sera intégré au dépôt officiel Huggingface/Diffusers. Un grand merci aussi à l’équipe FastVideo pour leur collaboration. On a hâte de lancer ensemble des solutions d'accélération de l'inférence.