pub

فيديو الخطوة T2V: ثورة في تحويل النص إلى فيديو

مقدمة

خطوة فيديو T2V هو نموذج جديد يستخدم تقنيات متطورة في التعلم الآلي لتحويل النصوص إلى محتوى فيديو عالي الجودة. فيه 30 مليار باراميتر، يقدر يصنع فيديوهات حتى 204 إطار، وهذا يخليه أداة قوية لمصممي المحتوى والمطورين. النموذج يستخدم متجه ضغط عميق لتحسين فعالية التدريب والاستدلال. كمان، فيه تحسينات لتحسين جودة الفيديو باستخدام تحسين تفضيل مباشر، بحيث الفيديوهات تطلع بمستوى بصري عالي. إذا تبي تعرف أكثر، تقدر تشوف Image to Video AI و Try Step Video T2V.

ملخص النموذج

خطوة فيديو T2V تستخدم فيديو-VAE مع ضغط عالي، وتحقق نسب ضغط 16x16 مكاني و8x زمني. تصف المستخدمين عن طريق متجهات نص ثنائية اللغة، تدعم الإنجليزية والصينية. تصميم النموذج فيه DiT مع انتباه ثلاثي الأبعاد، تدرب باستخدام مطابقة التدفق لتحسين الضجيج إلى إطارات مخفية. المتجهات النصية والأوقات تخدم كعوامل مشروطة، تعزز جودة الفيديو عبر نهج DPO قائم على الفيديو.

فيديو-VAE

فيديو-VAE مصمم لمهام إنتاج الفيديو، ويحقق ضغط عالي مع الحفاظ على جودة إعادة بناء الفيديو بشكل استثنائي. هذا الضغط يزيد سرعة التدريب والاستدلال، ويجي مع عملية الانتشار المفضلة للتمثيلات المكثفة.

DiT مع انتباه ثلاثي الأبعاد

يعتمد تصميم DiT، نموذج خطوة فيديو T2V عليه 48 طبقة مع 48 رأس انتباه في كل طبقة. AdaLN-Single يأخذ بعين الاعتبار وقت التوقيت، بينما QK-Norm في آلية الانتباه الذاتي يضمن استقرار التدريب. 3D RoPE يستخدم للتعامل مع تسلسلات بأطوال ودقات فيديو مختلفة.

فيديو-DPO

التغذية الراجعة البشرية تتضمن من خلال تحسين تفضيل مباشر لتحسين الجودة البصرية للفيديوهات الناتجة. يستخدم DPO بيانات تفضيل البشر لضبط النموذج، بحيث المحتوى الناتج يكون منسجم مع توقعات البشر.

تحميل النموذج

نموذج خطوة فيديو T2V متاح للتحميل على منصات مثل Huggingface وModelscope. يتضمن النسخة العادية وTurbo، وهذه فيها تحسينات تسريع للاستدلال لمعالجة أسرع.

استخدام النموذج

المتطلبات

عشان تشغل نموذج خطوة فيديو T2V، تحتاج GPU من NVIDIA يدعم CUDA. النموذج تم اختبارة على أربع وحدات معالجة، ويوصى باستخدام وحدات 80GB للذاكرة للحصول على جودة إنتاج مثالية. نظام التشغيل المخبر عليه هو Linux، ويدعم المتجه النصي قدرات CUDA محددة.

التبعيات والتثبيت

النموذج يحتاج بايثون 3.10 أو أعلى، PyTorch 2.3-cu121، CUDA Toolkit، وFFmpeg. خطوات التثبيت تتضمن استنساخ المستودع، إعداد بيئة conda، وتثبيت الحزم الضرورية.

سكربتات الاستدلال

لتطبيقات متعددة على وحدات معالجة، استراتيجية مفككة تحسن استخدام موارد GPU. وحدة معالجة مخصصة تتعامل مع خدمات API لتشفير النصوص وفك تشفير VAE. الاستدلال على وحدة معالجة واحدة ومراحل الكوانتية مدعومة بمشروع مفتوح المصدر DiffSynth-Studio.

أفضل إعدادات لاستدلال

خطوة فيديو T2V تنتج فيديوهات بدقة عالية وديناميكية بشكل مستمر. يمكن الوصول لأفضل النتائج عن طريق ضبط معلمات الاستدلال، لتحقيق توازن بين دقة الفيديو والديناميكية.

مرجع

تقييم خطوة فيديو T2V هو معيار جديد يحتوي على 128 تلميحات صينية من مستخدمين حقيقيين. يقيم جودة الفيديو عبر 11 فئة، تشمل الرياضة، الطعام، المناظر، وأكثر.

المحرك عبر الإنترنت

النسخة عبر الإنترنت من خطوة فيديو T2V متاحة على 跃问视频، وعرضها examples مثيرة للاهتمام لاستكشاف المزيد عن إمكانيات النموذج.

الاقتباس

إذا تبي تشير للأبحاث، استخدم الاقتباس المتوفر في BibTeX.

شكر

نشكر فريق xDiT على الدعم واستراتيجية التوازي. الكود حقنا بنضيفه لrepository الرسمي Huggingface/Diffusers. وكمان نشكر فريق FastVideo على التعاون، ونتطلع لبدء حلول تسريع الاستدلال معاً.