- pub
Step Video T2V: De revolutie in tekst-naar-video generatie
Inleiding
Step Video T2V is een vernieuwend model dat tekst omzet in video. Het maakt gebruik van geavanceerde machine learning technieken om tekstuele beschrijvingen om te zetten in hoogwaardige video-inhoud. Met maar liefst 30 miljard parameters kan dit model video's tot 204 frames genereren. Dit maakt het een krachtig hulpmiddel voor contentmakers en ontwikkelaars. Het model gebruikt een diepe compressie Variational Autoencoder (VAE) om zowel de training als de inferentie efficiënter te maken, met goede ruimtelijke en temporele compressie. Voor een betere videokwaliteit wordt Direct Preference Optimization (DPO) toegepast, zodat de gegenereerde video's aan hoge visuele normen voldoen. Wil je meer weten? Kijk dan op Image to Video AI en Probeer Step Video T2V.
Model Samenvatting
Step Video T2V maakt gebruik van een Video-VAE met hoge compressie, met compressieverhoudingen van 16x16 voor ruimtelijke en 8x voor temporele compressie. Het encodeert gebruikersprompten met behulp van meertalige voorgetrainde tekstencoders, die zowel Engels als Chinees ondersteunen. De architectuur van het model bevat een DiT met 3D volledige aandacht, dat getraind is met Flow Matching om invoerroest te denoisen naar latente frames. Tekstembeddings en tijdstippen worden gebruikt als voorwaarden, wat de visuele kwaliteit van de gegenereerde video's versterkt via een video-gebaseerde DPO-aanpak.
Video-VAE
De Video-VAE is ontworpen voor videoproductietaken en behaalt een hoge compressie zonder dat de reconstructiekwaliteit afneemt. Deze compressie versnelt de training en inferentie, en sluit aan bij het voorkeur van het diffusieproces voor samengeperste representaties.
DiT met 3D Volledige Aandacht
Gebaseerd op de DiT-architectuur, heeft Step Video T2V 48 lagen met 48 aandachtshooften per laag. AdaLN-Single integreert de tijdstipvoorwaarde, terwijl QK-Norm in het zelf-aandachtsmechanisme zorgt voor stabiliteit tijdens het trainen. 3D RoPE wordt gebruikt om sequenties van verschillende videolengtes en resoluties aan te kunnen.
Video-DPO
Menselijke feedback is opgenomen via Direct Preference Optimization (DPO) om de visuele kwaliteit van de gegenereerde video's te verbeteren. DPO maakt gebruik van gegevens over menselijke voorkeuren om het model bij te stellen, zodat de geproduceerde inhoud aan menselijke verwachtingen voldoet.
Model Download
Het Step Video T2V model is te downloaden op platforms zoals Huggingface en Modelscope. Je vindt zowel de standaard als de Turbo versie, waarbij de Turbo versie Inferentiestap Distillatie heeft voor snellere verwerking.
Model Gebruik
Vereisten
Om het Step Video T2V model te draaien, heb je een NVIDIA GPU met CUDA-ondersteuning nodig. Het model is getest op vier GPU's, met als aanbeveling GPU's met 80GB geheugen voor optimale generatiekwaliteit. Het getest besturingssysteem is Linux, en de tekst-encoder ondersteunt specifieke CUDA-mogelijkheden.
Afhankelijkheden en Installatie
Je hebt Python 3.10 of hoger, PyTorch 2.3-cu121, CUDA Toolkit en FFmpeg nodig. De installatie houdt in dat je de repository kloont, een conda-omgeving opzet en de benodigde pakketten installeert.
Inferentie Scripts
Voor multi-GPU parallelle inzet wordt een ontkoppelingsstrategie gebruikt om het gebruik van GPU-bronnen te optimaliseren. Een speciale GPU handelt de API-diensten voor de embeddings van de tekstencoder en de VAE-decodering af. Inference op één GPU en quantisatie worden ondersteund door het open-source project DiffSynth-Studio.
Best Practices voor Inference-instellingen
Step Video T2V genereert consequent video's van hoge kwaliteit en dynamiek. De beste resultaten behaal je door de inferentieparameters af te stemmen en een balans te vinden tussen video-identiteit en dynamiek.
Benchmark
Step Video T2V Eval is een nieuwe benchmark met 128 Chinese prompts van echte gebruikers. Het beoordeelt de videokwaliteit in 11 categorieën, zoals Sport, Eten, Landschap en meer.
Online Engine
De online versie van Step Video T2V is beschikbaar op 跃问视频, waar je indrukwekkende voorbeelden kunt bekijken en verder kunt verkennen wat het model kan.
Citatie
Voor academische referenties, gebruik alsjeblieft de opgegeven BibTeX citatie.
Erkenning
We zijn dankbaar voor de ondersteuning van het xDiT-team en hun strategie voor parallelisatie. Onze code zal worden geïntegreerd in de officiële Huggingface/Diffusers repository. Ook danken we het FastVideo-team voor de samenwerking en kijken we uit naar gezamenlijke oplossingen voor het versnellen van inferentie.