🚀 Emu3.5 – новая масштабная мультимодальная world-модель
Это World-модель, работающая сразу с двумя потоками – текстом и пикселями и предсказывающая их совместное состояние на каждом шаге.
– 🔥 Обучена на 10T+ чередующихся vision-language токенов и доведена RL – в результате модель демонстрирует сильное мультимодальное рассуждение и генерация
– ⚡ Новый подход DiDA (Discrete Diffusion Adaptation) —- Discrete Diffusion Adaptation переводит последовательное декодирование в параллельное двустороннее «денойзинг»-предсказание в дискретном пространстве токенов – в итоге это дает примерно 20× быстрее инференс без потери качества.
По метрикам модель превосходит Nano Banana в генерации, редактировании и интерливинговых задачах.
🟠Попробовать: Emu3.5: https://emu.world
🟠Github: https://github.com/baaivision/Emu3.5
GitHub – baaivision/Emu3.5: Native Multimodal Models are World Learners
Native Multimodal Models are World Learners. Contribute to baaivision/Emu3.5 development by creating an account on GitHub.
View Source
Просмотры: 202