pub

Adım Video T2V: Metinden Videoya Üretimi Değiştiriyor

Giriş

Step Video T2V, metinleri yüksek kaliteli video içeriklerine dönüştüren son teknoloji bir model. 30 milyar parametre ile çalışıyor, yani 204 kareye kadar video üretebiliyor. İçerik üreticileri ve geliştiriciler için harika bir araç. Model, eğitim ve tahmin verimliliğini artırmak için derin sıkıştırma Variational Autoencoder (VAE) kullanıyor. Bu sayede önemli ölçüde hem mekansal hem de zamansal sıkıştırma sağlıyor. Video kalitesini artırmak için ise Direct Preference Optimization (DPO) kullanılıyor. Böylece üretilen videolar yüksek görsel standartlara ulaşıyor. Daha fazla bilgi için Image to Video AI ve Step Video T2V’yi deneyin.

Model Özeti

Step Video T2V, yüksek sıkıştırmalı Video-VAE kullanıyor. Mekansal olarak 16x16 ve zamansal olarak 8x sıkıştırma oranına ulaşıyor. Kullanıcı dizelerini iki dilli önceden eğitilmiş metin kodlayıcılarıyla kodluyor. İngilizce ve Çince destekliyor. Modelin mimarisi, gürültüyü latent çerçevelere ayırmak için Flow Matching kullanarak eğitilen bir DiT içeriyor. Metin gömme ve zaman adımları, üretilen videoların görsel kalitesini artıran koşullayıcı faktörler olarak çalışıyor.

Video-VAE

Video-VAE, video üretimi için tasarlandı. Yüksek sıkıştırma sağlarken, video yeniden yapım kalitesini mükemmel düzeyde koruyor. Bu sıkıştırma, eğitim ve tahmini hızlandırıyor.

3D Tam Dikkatli DiT

DiT mimarisine göre kurulan Step Video T2V, her katmanda 48 dikkat başlığına sahip 48 katman içeriyor. AdaLN-Single, zaman adımını koşul olarak ekliyor. QK-Norm, kendi kendine dikkatte eğitim kararlılığını sağlıyor. 3D RoPE, farklı uzunluk ve çözünürlükteki video dizilerini yönetmek için kullanılıyor.

Video-DPO

İnsan geri bildirimi, üretilen videoların görsel kalitesini artırmak için Direct Preference Optimization (DPO) yoluyla entegre ediliyor. DPO, insan tercih verilerini kullanarak modeli ince ayarlıyor. Böylece üretilen içerik insan beklentileriyle uyumlu hale geliyor.

Model İndirme

Step Video T2V modeli, Huggingface ve Modelscope gibi platformlarda indirilebilir. Hem standart hem de Turbo sürümü mevcut. Turbo sürümü, daha hızlı işlem için Inference Step Distillation içeriyor.

Model Kullanımı

Gereksinimler

Step Video T2V modelini çalıştırmak için CUDA desteği olan bir NVIDIA GPU gerekiyor. Model dört GPU üzerinde test edildi. Optimal üretim kalitesi için 80GB'lık bellek öneriliyor. Test edilen işletim sistemi Linux. Metin kodlayıcı belirli CUDA yeteneklerini destekliyor.

Bağımlılıklar ve Kurulum

Model, Python 3.10 veya daha üstü, PyTorch 2.3-cu121, CUDA Toolkit ve FFmpeg gerektiriyor. Kurulum, depo klonlamayı, bir conda ortamı kurmayı ve gerekli paketleri yüklemeyi içeriyor.

Çıkarma Scriptleri

Çoklu GPU paralel dağıtımı için kaynakları optimize eden bir ayrıştırma stratejisi uygulanıyor. Bir GPU, metin kodlayıcısının gömme verileri ve VAE kod çözümü için API hizmetlerini yönetiyor. Tek GPU çıkarımı ve kantizasyon açık kaynak projesi DiffSynth-Studio tarafından destekleniyor.

En İyi Uygulama Çıkarma Ayarları

Step Video T2V, yüksek fideli ve dinamik videolar üretiyor. En iyi sonuçlar için çıkarım parametreleri ayarlanmalı. Video kalitesi ve dinamikliği arasında bir denge sağlanmalı.

Karşılaştırma

Step Video T2V Eval, gerçek kullanıcılardan alınan 128 Çince dize ile yeni bir kıyaslama sunuyor. Spor, yemek, manzara gibi 11 kategori üzerinden video kalitesini değerlendiriyor.

Çevrimiçi Motor

Step Video T2V’nin çevrimiçi versiyonu 跃问视频 üzerinde mevcut. Etkileyici örnekler sunuyor ve modelin yeteneklerini keşfetmek için harika bir fırsat.

Atıf

Akademik referanslar için lütfen sağlanan BibTeX atıfını kullanın.

Teşekkür

xDiT ekibine destekleri ve paralelleşme stratejileri için teşekkür ederiz. Kodlarımız, resmi Huggingface/Diffusers deposuna entegre edilecek. Ayrıca, FastVideo ekibine iş birliği için teşekkür ediyor ve çıkarım hızlandırma çözümleri üzerinde birlikte çalışmayı dört gözle bekliyoruz.