Llama-3.1-Centaur-70B: модель симуляции поведения человека.Centaur – модель, ко…

🌟 Llama-3.1-Centaur-70B: модель симуляции поведения человека. Centaur – модель, которая способная предсказывать и симулировать поведение человека в любом психологическом эксперименте, который можно описать на естественном языке. Это первая модель, соответствующая…

Машинное обучение в медицине: большой дайджест за 21 – 27 октября 2024 г.

Машинное обучение в медицине: большой дайджест за 21 - 27 октября 2024 г.

Модели машинного обучения и бенчмарки 🟩 BioMistral-NLU: модель с повышенным пониманием медицинской терминологии. BioMistral-NLU – модель, разработанная на основе BioMistral и настроенная на выполнение инструкций для 7 задач здравоохранения. Чтобы…

DuoAttention: эффективный метод для работы с длинными контекстами в LLM.

DuoAttention: эффективный метод для работы с длинными контекстами в LLM.

DuoAttention – метод, который решает проблему LLM при работе с длинными текстами. Эта неэффективность проявляется в большом потреблении памяти и замедлении работы модели. DuoAttention позволяет сократить использование памяти и ускорить…

SHORTCUT MODELS: метод обучение диффузионных моделей генерации в 1 шаг.Shortcut…

🌟 SHORTCUT MODELS: метод обучение диффузионных моделей генерации в 1 шаг. Shortcut models – метод обучения диффузионных моделей, который позволяет генерировать изображения высокого качества за один или несколько шагов. В…

⚡️ Mistral AI представила новые модели 3B и 8B.

⚡️ Mistral AI представила новые модели 3B и 8B.

Mistral AI, отмечая годовщину выпуска Mistral 7B, представила две новые модели: Ministral 3B и Ministral 8B.  Семейство этих моделей получило название «Ministraux», они отличаются высокой производительностью в области знаний, рассуждений,…

ARP: авторегрессионное обучение последовательности действий для задач роботизир…

🌟 ARP: авторегрессионное обучение последовательности действий для задач роботизированного манипулирования. ARP – архитектура авторегрессионной политики, разработанная в Рутгерском университете, которая учится генерировать последовательности действий, используя Chunking Causal Transformer (CCT), предлагая…

CogVideoX Factory: оптимизация файнтюна моделей генерации видео семейства CogVi…

🌟 CogVideoX Factory: оптимизация файнтюна моделей генерации видео семейства CogVideoX.CogVideoX Factory – репозиторий с набором скриптов для эффективного файнтюна моделей семейства CogVideoX (CogVideoX-2B и CogVideoX-5B) с фокусом на оптимизацию VRAM.…

OpenMathInstruct-2: математический датасет и набор моделей от NVIDIA.OpenMathIn…

🌟 OpenMathInstruct-2: математический датасет и набор моделей от NVIDIA. OpenMathInstruct-2 состоит из 14 млн. пар “вопрос-решение” (примерно 600 тысяч уникальных вопросов) и является одним из крупнейших общедоступных наборов данных для…

ASR и диаризация речи от RevAI.RevAI, лидер в области профессиональной транскри…

🌟 ASR и диаризация речи от RevAI. RevAI, лидер в области профессиональной транскрипции английской речи выпустила в открытый доступ фреймdорк Reverb и набор моделей для построения конвейера speech-to-text. Reverb включает…