- pub
스텝 비디오 T2V: 텍스트에서 비디오 생성의 혁신
소개
Step Video T2V는 텍스트 설명을 고품질 비디오 콘텐츠로 바꿔주는 최첨단 텍스트-투-비디오 모델이야. 300억 개의 파라미터가 있어서 최대 204프레임의 비디오를 만들 수 있어. 콘텐츠 제작자와 개발자에게 소중한 툴이지. 이 모델은 딥 압축 변분 오토인코더(VAE)를 사용해서 훈련과 추론 효율성을 높여. 그렇게 공간과 시간적 압축을 크게 달성했어. 비디오 품질 개선을 위해 직접 선호 최적화(DPO)를 적용해, 만들어지는 비디오가 높은 시각적 기준을 충족하도록 해. 더 알고 싶다면 Image to Video AI와 Try Step Video T2V 링크를 확인해봐.
모델 요약
Step Video T2V는 고압축 비디오-VAE를 사용하고, 16x16 공간 및 8x 시간 압축 비율을 달성해. 사용자 프롬프트는 이중 언어로 훈련된 텍스트 인코더를 사용해 인코딩해. 영어와 중국어를 지원해. 모델 아키텍처는 3D 풀 어텐션이 있는 DiT로 구성돼, 입력 노이즈를 잠재 프레임으로 변환하기 위해 Flow Matching을 통해 훈련됐어. 텍스트 임베딩과 타임스텝은 조건 요인으로 작용해, 비디오 기반 DPO 접근 방식을 통해 생성된 비디오의 시각적 품질을 향상시켜.
비디오-VAE
비디오-VAE는 비디오 생성 작업을 위해 설계됐고, 높은 압축률을 유지하면서도 뛰어난 비디오 재구성 품질을 제공해. 이렇게 압축하면 훈련과 추론이 빨라지고, 확산 과정의 간결한 표현 선호와 맞아떨어져.
3D 풀 어텐션이 있는 DiT
DiT 아키텍처를 기반으로 한 Step Video T2V는 48개 레이어와 각 레이어마다 48개 어텐션 헤드를 가지고 있어. AdaLN-Single은 타임스텝 조건을 통합하고, QK-Norm은 자기 어텐션 메커니즘에서 훈련의 안정성을 보장해. 3D RoPE를 사용해서 다양한 비디오 길이와 해상도를 처리해.
비디오-DPO
직접 선호 최적화(DPO)를 통해 인간의 피드백을 반영해 생성된 비디오의 시각적 품질을 높이게 돼. DPO는 인간의 선호 데이터를 이용해 모델을 미세 조정해, 생성된 콘텐츠가 인간의 기대에 맞도록 해.
모델 다운로드
Step Video T2V 모델은 Huggingface와 Modelscope 같은 플랫폼에서 다운로드할 수 있어. 표준 버전과 Turbo 버전이 포함되어 있고, 후자는 더 빠른 처리를 위해 추론 단계 증류를 제공해.
모델 사용법
요구 사항
Step Video T2V 모델을 실행하려면 NVIDIA GPU가 필요해. CUDA 지원이 있어야 해. 이 모델은 4개의 GPU에서 테스트되었고, 최적의 생성 품질을 위해 80GB 메모리 GPU를 추천해. 테스트한 운영 체제는 리눅스이고, 텍스트 인코더는 특정 CUDA 기능을 지원해.
의존성 및 설치
모델은 Python 3.10 이상, PyTorch 2.3-cu121, CUDA Toolkit, FFmpeg가 필요해. 설치하려면 리포지토리를 클론하고, conda 환경을 설정한 다음 필요한 패키지를 설치해.
추론 스크립트
멀티-GPU 병렬 배포를 위해 섭외 전략을 사용해서 GPU 자원 활용을 최적화해. 전용 GPU는 텍스트 인코더의 임베딩과 VAE 디코딩을 위한 API 서비스를 처리해. 단일 GPU 추론 및 양자화를 위한 오픈 소스 프로젝트인 DiffSynth-Studio를 지원해.
베스트 프랙티스 추론 설정
Step Video T2V는 항상 높은 품질과 역동적인 비디오를 생성해. 최적의 결과는 추론 매개변수를 조정해 비디오의 충실도와 역동성을 균형 잡는 게 중요해.
벤치마크
Step Video T2V Eval은 실제 사용자로부터 128개의 중국어 프롬프트를 포함한 새로운 벤치마크야. 스포츠, 음식, 경치 등 11가지 카테고리에서 비디오 품질을 평가해.
온라인 엔진
Step Video T2V의 온라인 버전은 跃问视频에서 제공되고, 인상적인 예제와 모델의 기능을 더 탐색할 수 있어.
인용
학술 참조를 위해 제공된 BibTeX 인용을 사용해.
감사
xDiT 팀의 지원과 병렬화 전략에 감사해. 우리 코드는 공식 Huggingface/Diffusers 리포지토리에 통합될 거야. 또한 FastVideo 팀과의 협력에 감사하며, 함께 추론 가속 솔루션을 출시하는 것을 기대해.