Arcee-Llama-3.1-SuperNova 70B и 8B: Дистиллированные версии Llama 405B.Arcee пр…

Arcee-Llama-3.1-SuperNova 70B и 8B: Дистиллированные версии Llama 405B.Arcee пр...

⚡️ Arcee-Llama-3.1-SuperNova 70B и 8B: Дистиллированные версии Llama 405B.

Arcee представила Arcee-SuperNova-70B и Arcee-SuperNova-Lite (8B), разработанные для альтернативной замены крупным проприетарным моделям, ориентированные на следование инструкциям и согласованию с человеческими предпочтениями.

Создание Arcee-SuperNova включало в себя несколько этапов, начиная с дистилляции Llama-3.1-405B-Instruct в Llama-3.1-70B-Instruct. Для этого был создан датасет из 500 млн. токенов, включающий примеры кода и математических задач и извлеченные logits модели Llama-3.1-405B.

Обучение Llama-3.1-70B-Instruct проводилось в течение пяти дней на 32 GPU H100 с использованием FSDP (Fully Sharded Data Parallel) для обеспечения возможности распределенного обучения.

Параллельно с этим была обучена отдельная версия Llama-3.1-70B с использованием Spectrum, настроенного на на 35% слоев с наивысшим соотношением SNR при длине последовательности 8192. Эта модель была обучена на наборе данных, созданном с помощью конвейера EvolKit – фреймворка повышения сложности инструкций при файнтюне LLM.

Финальная версия Arcee-SuperNova была создана путем слияния чекпойнтов из EvolKit и DPO, которые затем были объединены с дистиллированной Llama-3.1-70B-Instruct.

Проведенные тесты готовой модели в бенчмарке IF-Eval, показали, что Arcee-SuperNova превосходит не только Llama-3.1-70B-Instruct, но и проприетарные модели от OpenAI и Anthropic, а также Llama-405B-Instruct.

🟠Arcee-SuperNova-70B доступна только через API-сервис Arcee, а попробовать ее можно в playground web-интерфейса бесплатно;

🟢Arcee-SuperNova-Lite (8B), созданная по тому же принципу, что и 70B, доступна на Huggingface;

🟢Неофициальные GGUF версии Arcee-SuperNova-Lite (8B) от bartowski разрядностью от 2-bit (2.95Gb) до 16-bit (16 Gb) для использования с llama.cpp и LM Studio.

📌Лицензирование : Llama3

🟡Страница проекта
🟡Набор GGUF
🟡Модель Arcee-SuperNova-Lite
🟡Demo 70B

@ai_machinelearning_big_data

#AI #ML #LLM #Llama #Supernova

View Source

+1
0
+1
0
+1
0
+1
0
+1
0

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *