- pub
Step Video T2V: Революция в генерации видео из текста
Введение
Step Video T2V — это классная модель, которая превращает текст в видео. Она использует крутую машинное обучение. С 30 миллиардами параметров модель может создавать видео на 204 кадра. Это отличный инструмент для создателей контента и разработчиков. Модель использует глубокую компрессию с помощью VAE, что улучшает её эффективность. Также применяется DPO для повышения качества видео. Для подробностей смотрите Image to Video AI и Попробуйте Step Video T2V.
Обзор модели
Step Video T2V использует высококачественный Video-VAE, который дает сжатие 16x16 по пространству и 8x по времени. Она обрабатывает пользовательские подсказки с помощью двуязычных предварительно подготовленных текстовых энкодеров, поддерживает английский и китайский. Архитектура модели включает DiT с 3D полным вниманием, обученный с помощью Flow Matching, чтобы убирать шум из входных данных. Векторные представления текста и временные метки помогают улучшить визуальное качество видео через DPO.
Video-VAE
Video-VAE создан для генерации видео. Он обеспечивает высокое сжатие и отличное качество восстановления видео. Это ускоряет обучение и использование, что соответствует предпочтениям процесса диффузии для компактных представлений.
DiT с 3D полным вниманием
На базе архитектуры DiT, Step Video T2V имеет 48 слоев с 48 головами внимания. AdaLN-Single учитывает временную метку, а QK-Norm стабилизирует обучение. 3D RoPE помогает справляться с последовательностями разной длины и разрешения видео.
Video-DPO
Человеческая обратная связь включается через DPO, что улучшает визуальное качество генерируемых видео. DPO использует данные о предпочтениях для настройки модели, чтобы полученный контент соответствовал ожиданиям людей.
Загрузка модели
Модель Step Video T2V доступна для скачивания на таких платформах, как Huggingface и Modelscope. Включает стандартную и Турбо версию, последняя из которых имеет более быстрое выполнение.
Использование модели
Требования
Чтобы запустить модель Step Video T2V, нужен NVIDIA GPU с поддержкой CUDA. Модель тестировалась на четырех GPU, рекомендуется использовать с 80 ГБ памяти для лучшего качества генерации. Тестируемая ОС — Linux, а текстовый энкодер поддерживает определенные возможности CUDA.
Зависимости и установка
Модель требует Python 3.10 или выше, PyTorch 2.3-cu121, CUDA Toolkit и FFmpeg. Установка включает клонирование репозитория, настройку окружения conda и установку необходимых пакетов.
Скрипты вывода
Для многопроцессорного развертывания применяют стратегию декомпоновки для оптимизации использования GPU. Один GPU обрабатывает API для векторных представлений текстового энкодера и декодирования VAE. Поддерживается одиночный GPU вывод и квантование через открытый проект DiffSynth-Studio.
Настройки вывода
Step Video T2V постоянно создает качественные и динамичные видео. Оптимальные результаты достигаются путем настройки параметров вывода, где нужно найти баланс между качеством и динамикой видео.
Бенчмарк
Step Video T2V Eval — это новый бенчмарк с 128 китайскими подсказками от реальных пользователей. Он оценивает качество видео по 11 категориям, включая Спорт, Еда, Пейзажи и другие.
Онлайн движок
Онлайн версия Step Video T2V доступна на 跃问视频, показывая впечатляющие примеры и возможности модели.
Цитирование
Для академических ссылок используйте предоставленный BibTeX.
Благодарности
Мы благодарим команду xDiT за поддержку и стратегию параллелизации. Наш код будет интегрирован в официальный репозиторий Huggingface/Diffusers. Также благодарим команду FastVideo за сотрудничество и надеемся на совместный запуск решений для ускорения вывода.