⚡️ MobileLLM: набор SLM от Facebookresearch.
MobileLLM — семейство авторегрессионных языковых моделей на оптимизированной архитектуре трансформера для использования на устройствах с ограниченными ресурсами.
В создании MobileLLM были использованы: функция активации SwiGLU, шэринг эмбединга и grouped-query attention. Модели обучались на датасете в 1 трлн. токенов
MobileLLM-125M/350M более точны на 2,7%/4,3% по сравнению с другими моделями SoTA 125M/350M в задачах zero-shot рассуждений.
В открытый доступ опубликованы 4 модели c контекстом 2 тыс. токенов:
🟢MobileLLM-125M. 30 Layers, 9 Attention Heads, 3 KV Heads. 576 Token Dimension;
🟢MobileLLM-350M. 32 Layers, 15 Attention Heads, 5 KV Heads. 960 Token Dimension;
🟢MobileLLM-600M. 40 Layers, 18 Attention Heads, 6 KV Heads. 1152 Token Dimension;
🟢MobileLLM-1B. 54 Layers, 20 Attention Heads, 5 KV Heads. 1280 Token Dimension;
▶️ Инференс моделей возможен на HF Transformers или с использованием MobileLLM от facebookresearch.
▶️ Код для файнтюна и тренировки семейства MobileLLM доступен в репозитории MobileLLM.
📌Лицензирование: CC-BY-NC-4.0 License.
🟡Коллекция моделей на HF
🟡Arxiv
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #SLM #MobileLLM