Самые интересные Open Source AI релизы за неделю- VideoChat2-Flash, мощный MLLM…

– VideoChat2-Flash, мощный MLLM, построенный на базе видеокодера (UMT) и LLM (Qwen).
Внутри новая высокоэффективная архитектура модели с исключительной скоростью инференса, которая позволяет кодировать каждый видеокадр всего в 16 токенов, что в 5-10 раз быстрее, чем в предыдущей модели OpenGVLab.
Модели представлены в размерах 2B и 7B и разрешении 224 и 448.
– BytedanceTalk выпустил модель SA2VA с параметрами 26B.
Sa2VA – это MLM, способный отвечать на вопросы, понимать изображения и видео выполнять сегментацию. Модель, сопоставима с SOTA моделями в своем классе Qwen2-VL и InternVL2.5 в QA тестах.
– VRC-Bench – это новый бенчмарк для оценки эффективности мультимодальных LLM.
– MiniCPM-o 2.6 – это новая мультимодальная модель с 8B параметрами, работающая на edge девайсах. Лучшая в своем классе возможности двуязычной речи с разговором в реальном времени и клонированием голоса.
💬 LLM
– MiniMax-Text-01 – новая языковая модель, которая стабильно обходит GPT-4o и Gemini-2 на бенчмарках с длинным контекстом, сохраняя высокие оценки (0.910-0.963) при длине контекста до 4M токенов🤯
– Датасет: Sky-T1-data-17k – это разнообразный набор данных, используемый для обучения Sky-T1-32B – ризонинг модели, которую можно обучить всего за 450 долларов!
– Kyutai labs выпустили Helium-1 Preview 2B – многоязычный LLM для edge девайсов и мобильных устройств.
– Wayfarer-12B – новая модель генерации текстовой приключенческой ролевой игры от AI Dungeon🧙🏻
– ReaderLM-v2 – это новая модель синтаксического анализа HTML от JinaAI.
– Вriaforall выпустила Dria-Agent-a-3B, новую модель генерации кода (для Python), основанную на Qwen2.5.
– UnslothAI адаптировали Phi-4 к архитектуре Llama 3.3 сделав, более быструю и экономичную по памяти версию.
👀 Vision
– MatchAnything – это новая универсальная модель для сопоставления изображений.
– FitDit – это высококачественная модель виртуальной примерочной, основанная на архитектуре DiT.
⭐️ Аудио
– OuteTTS-0.3-1B – это новая многоязычная модель преобразования текста в речь с возможностью клонирования голоса и управления эмоциями.
📖 Поиск
– Lightblue выпустила новую модель для поиска связи в тексте, основанную на Qwen2.5. LB-reranker-0.5B-v1.0, которая поддерживает более 95 языков
– cde-small-v2 – это новая SOTA модель эмбедингов текста небольшого размера.
LeetGPU – бесплатная платформа для написания и запуска кода на CUDA.
Вы можете практиковаться и изучать CUDA онлайн, без использования графического процессора!