Emu3.5 – новая масштабная мультимодальная world-модельЭто World-модель, работаю…

🚀 Emu3.5 – новая масштабная мультимодальная world-модель

Это World-модель, работающая сразу с двумя потоками – текстом и пикселями и предсказывающая их совместное состояние на каждом шаге.

🔥 Обучена на 10T+ чередующихся vision-language токенов и доведена RL – в результате модель демонстрирует сильное мультимодальное рассуждение и генерация
Новый подход DiDA (Discrete Diffusion Adaptation) —- Discrete Diffusion Adaptation переводит последовательное декодирование в параллельное двустороннее «денойзинг»-предсказание в дискретном пространстве токенов – в итоге это дает примерно 20× быстрее инференс без потери качества.

По метрикам модель превосходит Nano Banana в генерации, редактировании и интерливинговых задачах.

🟠Попробовать: Emu3.5: https://emu.world
🟠Github: https://github.com/baaivision/Emu3.5

GitHub – baaivision/Emu3.5: Native Multimodal Models are World Learners

Native Multimodal Models are World Learners. Contribute to baaivision/Emu3.5 development by creating an account on GitHub.

View Source

+1
0
+1
0
+1
0
+1
0
+1
0

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *