- pub
Vídeo Passo T2V: Revolucionando a Geração de Texto para Vídeo
Introdução
O Step Video T2V é um modelo super moderno que transforma descrições de texto em vídeos de alta qualidade. Com 30 bilhões de parâmetros, ele consegue gerar vídeos de até 204 quadros. É uma ferramenta poderosa para criadores de conteúdo e desenvolvedores. O modelo usa um autoencoder variacional (VAE) para melhorar a eficiência no treinamento e na inferência, fazendo uma compressão espacial e temporal bem legais. Para deixar a qualidade do vídeo ainda melhor, aplica-se a otimização direta de preferências (DPO), garantindo que os vídeos gerados tenham um ótimo visual. Para saber mais, dá uma olhada no Image to Video AI e no Try Step Video T2V.
Resumo do Modelo
O Step Video T2V utiliza um VAE de vídeo de alta compressão, conseguindo uma compressão espacial de 16x16 e temporal de 8x. Ele codifica os prompts de usuário usando codificadores de texto bilíngues, suportando inglês e chinês. A estrutura do modelo tem um DiT com atenção total em 3D, treinado usando Flow Matching para limpar o ruído de entrada em quadros latentes. As embeddings de texto e os passos de tempo ajudam a melhorar a qualidade visual dos vídeos gerados através de uma abordagem DPO baseada em vídeo.
Video-VAE
O Video-VAE é feito para tarefas de geração de vídeo, conseguindo alta compressão sem perder a qualidade na reconstrução dos vídeos. Essa compressão acelera o treinamento e a inferência, combinando bem com as preferências do processo de difusão por representações mais condensadas.
DiT com Atenção Total em 3D
Baseado na arquitetura DiT, o Step Video T2V tem 48 camadas com 48 cabeçotes de atenção em cada camada. O AdaLN-Single incorpora a condição do passo de tempo, enquanto o QK-Norm no mecanismo de autoatenção garante a estabilidade durante o treinamento. O 3D RoPE é usado para gerenciar sequências de diferentes comprimentos e resoluções de vídeo.
Video-DPO
Feedback humano é incorporado através da Otimização Direta de Preferências (DPO) para melhorar a qualidade visual dos vídeos gerados. O DPO usa dados de preferência humana para ajustar o modelo, garantindo que o conteúdo gerado esteja alinhado com as expectativas das pessoas.
Download do Modelo
O modelo Step Video T2V está disponível para download em plataformas como Huggingface e Modelscope. Você pode encontrar a versão padrão e a Turbo, que tem destilação de passo de inferência para processamento mais rápido.
Uso do Modelo
Requisitos
Para rodar o modelo Step Video T2V, você precisa de uma GPU NVIDIA com suporte para CUDA. O modelo foi testado em quatro GPUs, e a recomendação é usar GPUs com 80GB de memória para uma melhor qualidade na geração. O sistema operacional testado é o Linux, e o codificador de texto suporta capacidades específicas de CUDA.
Dependências e Instalação
O modelo precisa do Python 3.10 ou superior, PyTorch 2.3-cu121, CUDA Toolkit e FFmpeg. Para instalar, clone o repositório, crie um ambiente conda e instale os pacotes necessários.
Scripts de Inferência
Para implementar em múltiplas GPUs, uma estratégia de desacoplamento otimiza o uso dos recursos. Uma GPU dedicada cuida dos serviços de API para as embeddings do codificador de texto e a decodificação do VAE. A inferência em uma única GPU e a quantização são suportadas pelo projeto open-source DiffSynth-Studio.
Configurações Ideais de Inferência
O Step Video T2V gera vídeos dinâmicos e de alta fidelidade de forma consistente. Para melhores resultados, é bom afinar os parâmetros de inferência, equilibrando a fidelidade e a dinâmica do vídeo.
Benchmark
O Step Video T2V Eval é um novo benchmark que traz 128 prompts em chinês de usuários reais. Ele avalia a qualidade do vídeo em 11 categorias, incluindo esportes, comida, paisagens, entre outros.
Engine Online
A versão online do Step Video T2V está disponível no 跃问视频, com exemplos impressionantes e mais explorações das capacidades do modelo.
Citação
Para referência acadêmica, use a citação BibTeX fornecida.
Agradecimentos
Agradecemos à equipe xDiT pelo apoio e pela estratégia de paralelização. Nosso código vai ser integrado ao repositório oficial Huggingface/Diffusers. Também agradecemos à equipe FastVideo pela colaboração e estamos animados para lançar soluções de aceleração de inferência juntos.