CogVideoX: Код и модель Text-to-video генерации.CogVideoX – обновление модели г…
- C#, C++, chatgpt, Chatgpt, Data Analyst, Data Science, devops, Git, GO, IOS, Java, JavaScript, linux, php, php, programming, react, react, rust, sql, Вакансии, Искусственный интеллект, Курсы, Машинное обучение, Мероприятия, Мобильная разработка, Посты
CogVideoX – обновление модели генерации текста в видео CogVideo, выпущенной в мае 2022 года.
Обновление до CogVideoX :
CogVideoX-2B: первая модель в серии CogVideoX, разработанная для генерации видео.
Для запуска требуется 18GB VRAM GPU (с использованием SAT) для инференса на одном графическом процессоре и 40GB для дообучения и файнтюна.
Модель поддерживает генерацию видео с разрешением 720×480, длительностью 6 секунд и частотой 8 кадров в секунду, с максимальной длиной текстового промпта в 226 токенов.
CogVideoX-5B: более плотная модель на 5B, доступна только для коммерческих целей по API.
При регистрации дают 25 млн токенов попробовать, но возможность регистрации по некитайским номерам сотовых операторов неизвестна.
Технические параметры CogVideoX-5B не публиковались.
CogVideoX обучалась на наборе данных из 35 миллионов видеоклипов, каждый из которых длительностью около шести секунд. Данные для обучения прошли фильтрацию на низкое качество.
CogVideoX использует 3D causal VAE для сжатия видеоданных как в пространственном, так и во временном отношении, тем самым сокращая длину последовательности по сравнению с традиционными методами.
Это помогает поддерживать непрерывность между кадрами, минимизируя мерцание в сгенерированных видео.
Модель объединяет Expert Transformer с адаптивным LayerNorm для синхронизации согласования между видео и текстовыми вхождениями.
Такая конструкция позволяет комплексно моделировать временные и пространственные измерения с использованием 3D full focus, оптимизируя обработку интенсивных движений в генерации.
Выделенный captioning pipeline для видео генерирует точные текстовые описания для кадров, улучшая семантическое понимание модели.
Эмпирические результаты тестов показывают, что CogVideoX превосходит существующие общедоступные модели в машинных и в человеческих оценках.
Перед запуском разработчики советуют сконвертировать текстовой промпт в формат, понятный CogVideoX-2B, так как она обучалась на длинных LLM-образных промптах, выполнив скрипт convert_demo.py.
По умолчанию, CogVideoX использует LLM GLM4, но его также можно заменить любой другой LLM, например GPT, Gemini и т.д.
Этот шаг не является обязательным, модель будет работать без ошибок, но более детальный промпт даст лучшие результаты генерации видео.
# Clone repository & install requirements:
git clone https://github.com/THUDM/CogVideo.git
pip install -r requirements.txt
cd inference
# For Linux and Windows run GradioUI
python gradio_web_demo.py
# For macOS with Apple Silicon use this (maybe 20x slower than RTX 4090)
PYTORCH_ENABLE_MPS_FALLBACK=1 python gradio_web_demo.py