Самые интересные Open Source AI релизы за неделю- VideoChat2-Flash, мощный MLLM…

Самые интересные Open Source AI релизы за неделю- VideoChat2-Flash, мощный MLLM...

⭐️ Самые интересные Open Source AI релизы за неделю

VideoChat2-Flash, мощный MLLM, построенный на базе видеокодера (UMT) и LLM (Qwen).
Внутри новая высокоэффективная архитектура модели с исключительной скоростью инференса, которая позволяет кодировать каждый видеокадр всего в 16 токенов, что в 5-10 раз быстрее, чем в предыдущей модели OpenGVLab.
Модели представлены в размерах 2B и 7B и разрешении 224 и 448.

– BytedanceTalk выпустил модель SA2VA с параметрами 26B.
Sa2VA – это MLM, способный отвечать на вопросы, понимать изображения и видео выполнять сегментацию. Модель, сопоставима с SOTA моделями в своем классе Qwen2-VL и InternVL2.5 в QA тестах.

VRC-Bench – это новый бенчмарк для оценки эффективности мультимодальных LLM.

MiniCPM-o 2.6 – это новая мультимодальная модель с 8B параметрами, работающая на edge девайсах. Лучшая в своем классе возможности двуязычной речи с разговором в реальном времени и клонированием голоса.

💬 LLM
MiniMax-Text-01 – новая языковая модель, которая стабильно обходит GPT-4o и Gemini-2 на бенчмарках с длинным контекстом, сохраняя высокие оценки (0.910-0.963) при длине контекста до 4M токенов🤯

– Датасет: Sky-T1-data-17k – это разнообразный набор данных, используемый для обучения Sky-T1-32B – ризонинг модели, которую можно обучить всего за 450 долларов!

– Kyutai labs выпустили Helium-1 Preview 2B многоязычный LLM для edge девайсов и мобильных устройств.

Wayfarer-12B – новая модель генерации текстовой приключенческой ролевой игры от AI Dungeon🧙🏻

ReaderLM-v2 – это новая модель синтаксического анализа HTML от JinaAI.

– Вriaforall выпустила Dria-Agent-a-3B, новую модель генерации кода (для Python), основанную на Qwen2.5.

UnslothAI адаптировали Phi-4 к архитектуре Llama 3.3 сделав, более быструю и экономичную по памяти версию.

👀 Vision
MatchAnything – это новая универсальная модель для сопоставления изображений.
FitDit – это высококачественная модель виртуальной примерочной, основанная на архитектуре DiT.

⭐️ Аудио
OuteTTS-0.3-1B – это новая многоязычная модель преобразования текста в речь с возможностью клонирования голоса и управления эмоциями.

📖 Поиск
– Lightblue выпустила новую модель для поиска связи в тексте, основанную на Qwen2.5. LB-reranker-0.5B-v1.0, которая поддерживает более 95 языков
cde-small-v2 – это новая SOTA модель эмбедингов текста небольшого размера.

🧠 Playground
LeetGPU – бесплатная платформа для написания и запуска кода на CUDA.
Вы можете практиковаться и изучать CUDA онлайн, без использования графического процессора!

@ai_machinelearning_big_data

#ml #digest #datasets #opensource #ai #llm #news

View Source

+1
0
+1
0
+1
0
+1
0
+1
0

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *