Lite Oute 2 Mamba2Attn: базовая и инструктивная SLM на архитектуре Mamba2. Oute…

Lite Oute 2 Mamba2Attn: базовая и инструктивная SLM на архитектуре Mamba2. Oute...

🌟 Lite Oute 2 Mamba2Attn: базовая и инструктивная SLM на архитектуре Mamba2.

OuteAI выпустила второе поколение легких моделей на 250М параметров каждая :

🟢 Lite Oute 2 Mamba2Attn 250M Base
🟢 Lite Oute 2 Mamba2Attn 250M-Instruct

В модели интегрирован механизм Mamba2Attn – усовершенствованный метод внимания, который повышает способность модели фокусироваться на важных частях входных данных. Этот механизм особенно полезен для задач NLP, требующих понимания сложных закономерностей или взаимосвязей в данных.

Интегрировав Mamba2Attn, разработчикам удалось сохранить релевантную для своего класса малых моделей производительность, уменьшив при этом ее размер и вычислительные требования.

Базовая модель была обучена на 30 миллиардах токенов из корпуса данных, структура которого – 50% датасета dclm-baseline-1.0 b 50% fineweb-edu. Инструктивная версия прошла дообучение с SFT и DPO.

Обе модели имеют 4 слоя внимания из общего количества 32, такая конфигурация позволяет минимизировать потери при проверке, что подтверждено исследованием о соотношении слоев самовнимания к MLP.

▶️ Рекомендованные параметры для Instruct – модели:

🟢Temperature: 0.1 – 0.4
🟢Repetition Penalty: 1.10 – 1.12

▶️Ограничения:

🟠Непоследовательная точность. Примите во внимание, что обе модели – малого размера, инференс в некорорых задачах может быть неполным или неточным;
🟠Отсутствие глубины контекста. В некоторых задачах, модели могут не соответствовать ожиданиям глубины запоминания контекста;
🟠Баланс лаконичности. Модель иногда испытывает трудности с балансом между краткостью и детализацией, давая либо слишком краткие ответы, либо излишне повторяя заданную информацию.

📌Лицензирование : Apache 2.0 License

🟡Страница проекта
🟡Набор моделей
🟡Arxiv
🟡Сообщество в Discord

@ai_machinelearning_big_data

#AI #SLM #Mamba2 #ML #Oute

View Source

+1
0
+1
0
+1
0
+1
0
+1
0

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *