pub

Paso Video T2V: Revolucionando la Generación de Texto a Video

Introducción

Step Video T2V es un modelo súper avanzado de texto a video que usa técnicas de aprendizaje automático para convertir descripciones de texto en videos de alta calidad. Con 30 mil millones de parámetros, puede generar videos de hasta 204 fotogramas. Es una herramienta poderosa para creadores de contenido y desarrolladores. El modelo utiliza un Variational Autoencoder (VAE) de compresión profunda para mejorar la eficiencia tanto en entrenamiento como en inferencia, con compresión espacial y temporal significativa. Para aumentar la calidad del video, se aplica la Optimización de Preferencias Directas (DPO), asegurando que los videos generados cumplan con altos estándares visuales. Para más info, echa un vistazo a Image to Video AI y Prueba Step Video T2V.

Resumen del Modelo

Step Video T2V utiliza un Video-VAE de alta compresión, logrando una compresión espacial de 16x16 y temporal de 8x. Codifica las indicaciones del usuario con codificadores de texto preentrenados que soportan inglés y chino. La arquitectura del modelo incluye un DiT con atención completa en 3D, entrenado con Matching de Flujo para eliminar ruido de entrada en fotogramas latentes. Los embeddings de texto y los pasos de tiempo sirven como factores de condición, mejorando la calidad visual de los videos generados a través de un enfoque DPO basado en video.

Video-VAE

El Video-VAE está diseñado para tareas de generación de video, logrando una alta compresión mientras mantiene una calidad de reconstrucción excepcional. Esta compresión acelera el entrenamiento y la inferencia, alineándose con la preferencia del proceso de difusión por representaciones más condensadas.

DiT con Atención Completa en 3D

Basado en la arquitectura DiT, Step Video T2V tiene 48 capas con 48 cabezales de atención por capa. AdaLN-Single incorpora la condición de tiempo, mientras que QK-Norm en el mecanismo de auto-atención asegura estabilidad durante el entrenamiento. Se usa 3D RoPE para manejar secuencias de diferentes longitudes y resoluciones de video.

Video-DPO

La retroalimentación humana se incorpora a través de la Optimización de Preferencias Directas (DPO) para mejorar la calidad visual de los videos generados. DPO aprovecha datos de preferencias humanas para afinar el modelo, asegurando que el contenido generado cumpla con las expectativas humanas.

Descarga del Modelo

El modelo Step Video T2V está disponible para descargar en plataformas como Huggingface y Modelscope. Incluye versiones estándar y Turbo, esta última con Destilación de Pasos de Inferencia para un procesamiento más rápido.

Uso del Modelo

Requisitos

Para usar el modelo Step Video T2V, necesitas una GPU NVIDIA con soporte para CUDA. Se ha probado en cuatro GPUs, recomendando GPUs con 80GB de memoria para la mejor calidad de generación. El sistema operativo probado es Linux, y el codificador de texto soporta capacidades específicas de CUDA.

Dependencias e Instalación

El modelo requiere Python 3.10 o superior, PyTorch 2.3-cu121, CUDA Toolkit y FFmpeg. La instalación implica clonar el repositorio, configurar un entorno con conda, y instalar los paquetes necesarios.

Scripts de Inferencia

Para el despliegue paralelo en múltiples GPUs, una estrategia de desacoplamiento optimiza el uso de recursos de GPU. Una GPU dedicada maneja los servicios API para los embeddings del codificador de texto y la decodificación del VAE. La inferencia en GPU única y la cuantización son soportadas por el proyecto de código abierto DiffSynth-Studio.

Mejores Prácticas de Inferencia

Step Video T2V genera videos de alta fidelidad y dinámicos de manera constante. Se logran los mejores resultados ajustando los parámetros de inferencia, equilibrando la fidelidad y la dinámica del video.

Benchmark

Step Video T2V Eval es un nuevo benchmark con 128 indicaciones en chino de usuarios reales. Evalúa la calidad del video en 11 categorías, incluyendo Deportes, Comida, Paisaje, y más.

Motor en Línea

La versión en línea de Step Video T2V está disponible en 跃问视频, ofreciendo ejemplos impresionantes y más exploración de las capacidades del modelo.

Citación

Para referencias académicas, usa la citación BibTeX que te proporcionamos.

Agradecimientos

Queremos agradecer al equipo de xDiT por su apoyo y estrategia de paralelización. Nuestro código se integrará en el repositorio oficial de Huggingface/Diffusers. También agradecemos al equipo de FastVideo por su colaboración y esperamos lanzar soluciones de aceleración de inferencia juntos.