- pub
Video Passo T2V: Rivoluzionare la Generazione di Video da Testo
Introduzione
Step Video T2V è un modello text-to-video all'avanguardia. Usa tecniche di machine learning per trasformare descrizioni testuali in video di alta qualità. Ha 30 miliardi di parametri e può generare video fino a 204 frame. Davvero potente per chi crea contenuti e sviluppatori. Il modello usa un Variational Autoencoder (VAE) per migliorare l'efficienza di allenamento e inferenza, ottenendo una compressione spaziale e temporale notevole. Per migliorare ulteriormente la qualità del video, si applica l'Ottimizzazione Diretta delle Preferenze (DPO), per garantire che i video generati siano visivamente all'altezza. Se vuoi saperne di più, dai un'occhiata a Image to Video AI e Prova Step Video T2V.
Riepilogo del Modello
Step Video T2V utilizza un Video-VAE ad alta compressione, con rapporti di compressione di 16x16 spaziale e 8x temporale. Codifica i prompt degli utenti usando encoder testuali pre-addestrati in due lingue, supportando sia l'inglese che il cinese. L'architettura del modello include un DiT con attenzione piena 3D, addestrato usando il Flow Matching per ridurre il rumore in frame latenti. L'embedding del testo e i passaggi temporali servono come fattori di condizionamento, migliorando la qualità visiva dei video generati tramite un approccio DPO basato su video.
Video-VAE
Il Video-VAE è progettato per la generazione di video, raggiungendo una compressione alta mantenendo una qualità di ricostruzione eccezionale. Questa compressione accelera anche l'allenamento e l'inferenza, in linea con la preferenza del processo di diffusione per rappresentazioni condensate.
DiT con Attenzione Piena 3D
Basato sull'architettura DiT, Step Video T2V ha 48 strati con 48 teste di attenzione per strato. AdaLN-Single incorpora la condizione di passo temporale, mentre QK-Norm nel meccanismo di auto-attivazione garantisce stabilità durante l'allenamento. 3D RoPE è usato per gestire sequenze di lunghezze e risoluzioni video diverse.
Video-DPO
Il feedback umano è integrato tramite l'Ottimizzazione Diretta delle Preferenze (DPO) per migliorare la qualità visiva dei video generati. DPO sfrutta i dati delle preferenze umane per affinare il modello, garantendo che i contenuti generati soddisfino le aspettative umane.
Download del Modello
Il modello Step Video T2V è disponibile per il download su piattaforme come Huggingface e Modelscope. Include sia la versione standard che Turbo, quest'ultima presenta una Distillazione del Passo di Inferenza per un'elaborazione più veloce.
Utilizzo del Modello
Requisiti
Per eseguire il modello Step Video T2V, è necessaria una GPU NVIDIA con supporto CUDA. Il modello è stato testato su quattro GPU, con una raccomandazione per GPU con 80GB di memoria per la migliore qualità di generazione. Il sistema operativo testato è Linux, e l'encoder testuale supporta specifiche capacità CUDA.
Dipendenze e Installazione
Il modello richiede Python 3.10 o superiore, PyTorch 2.3-cu121, CUDA Toolkit e FFmpeg. L'installazione prevede di clonare il repository, impostare un ambiente conda e installare i pacchetti necessari.
Script di Inferenza
Per il deployment parallelo su più GPU, una strategia di decoupling ottimizza l'uso delle risorse GPU. Una GPU dedicata gestisce i servizi API per gli embedding dell'encoder testuale e la decodifica del VAE. L'inferenza su una singola GPU e la quantizzazione sono supportate dal progetto open-source DiffSynth-Studio.
Impostazioni di Inferenza Migliori
Step Video T2V genera sempre video dinamici e di alta fedeltà. I risultati ottimali si ottengono sintonizzando i parametri di inferenza, bilanciando fedeltà video e dinamismo.
Benchmark
Step Video T2V Eval è un nuovo benchmark con 128 prompt cinesi da utenti reali. Valuta la qualità video su 11 categorie, tra cui Sport, Cibo, Paesaggi e altro.
Motore Online
La versione online di Step Video T2V è disponibile su 跃问视频, offrendo esempi impressionanti e ulteriori esplorazioni delle capacità del modello.
Citazione
Per riferimenti accademici, utilizza la citazione BibTeX fornita.
Riconoscimenti
Vogliamo ringraziare il team xDiT per il loro supporto e la strategia di parallelizzazione. Il nostro codice sarà integrato nel repository ufficiale Huggingface/Diffusers. Grazie anche al team FastVideo per la collaborazione, non vediamo l'ora di lanciare insieme soluzioni di accelerazione dell'inferenza.