⚡️ Llama-3.1 Minitron 4B Width Base: Компактная LLM на основе Llama 3.1 от NVIDIA.
Llama-3.1-Minitron-4B-Width-Base – это базовая текстовая модель, которая может быть адаптирована для различных задач генерации естественного языка.
Она получена путем обрезки (pruning) Llama-3.1-8B за счет сокращения размера эмбеддинга, количества attention heads и промежуточной размерности MLP.
После было выполнено продолженное обучение с дистилляцией, используя набор данных размером 94 миллиарда токенов.
Корпус обучения (набор данных) модели Llama-3.1-Minitron-4B-Width-Base включает английские и многоязычные тексты, код и другие письменные материалы.
Источники данных охватывают различные области: право, математика, наука, финансы. Для улучшения производительности режима “чата”, в процессе обучения были добавлены данные в формате вопрос-ответ.
Дата актуальности корпуса обучения – июнь 2023 года.
При создании были использованы техники Grouped-Query Attention (GQA) и Rotary Position Embeddings (RoPE).
Архитектурные характеристики:
🟢embedding size – 3072;
🟢attention heads – 32;
🟢MLP intermediate dimension – 9216;
🟢number of layers – 32;
🟢input context – 8000.
⚠️ На момент публикации, поддержка Llama-3.1-Minitron-4B-Width-Base в Hugging Face Transformers находится на рассмотрении.
Для использования модели выполните рекомендованные разработчиками инструкции или запустите модель в NeMo v.24.05
Есть неофициальные квантованные GGUF – версии модели в семи разрядностях, от 2-bit (1. 84Gb) до 16-bit (9.03 Gb).
📌Лицензирование : NVIDIA Open Model License.
🟡Модель
🟡Набор GGUF
🟡Arxiv
@ai_machinelearning_big_data
#AI #NVIDIA #LLM #ML #Minitron
View Source
Просмотры: 223