🌟 Lite Oute 2 Mamba2Attn: базовая и инструктивная SLM на архитектуре Mamba2.
OuteAI выпустила второе поколение легких моделей на 250М параметров каждая :
🟢 Lite Oute 2 Mamba2Attn 250M Base
🟢 Lite Oute 2 Mamba2Attn 250M-Instruct
В модели интегрирован механизм Mamba2Attn – усовершенствованный метод внимания, который повышает способность модели фокусироваться на важных частях входных данных. Этот механизм особенно полезен для задач NLP, требующих понимания сложных закономерностей или взаимосвязей в данных.
Интегрировав Mamba2Attn, разработчикам удалось сохранить релевантную для своего класса малых моделей производительность, уменьшив при этом ее размер и вычислительные требования.
Базовая модель была обучена на 30 миллиардах токенов из корпуса данных, структура которого – 50% датасета dclm-baseline-1.0 b 50% fineweb-edu. Инструктивная версия прошла дообучение с SFT и DPO.
Обе модели имеют 4 слоя внимания из общего количества 32, такая конфигурация позволяет минимизировать потери при проверке, что подтверждено исследованием о соотношении слоев самовнимания к MLP.
▶️ Рекомендованные параметры для Instruct – модели:
🟢Temperature: 0.1 – 0.4
🟢Repetition Penalty: 1.10 – 1.12
▶️Ограничения:
🟠Непоследовательная точность. Примите во внимание, что обе модели – малого размера, инференс в некорорых задачах может быть неполным или неточным;
🟠Отсутствие глубины контекста. В некоторых задачах, модели могут не соответствовать ожиданиям глубины запоминания контекста;
🟠Баланс лаконичности. Модель иногда испытывает трудности с балансом между краткостью и детализацией, давая либо слишком краткие ответы, либо излишне повторяя заданную информацию.
📌Лицензирование : Apache 2.0 License
🟡Страница проекта
🟡Набор моделей
🟡Arxiv
🟡Сообщество в Discord
@ai_machinelearning_big_data
#AI #SLM #Mamba2 #ML #Oute