Jamba 1.5: Семейство моделей на архитектуре SSM-Transformer с большим контекстн…

Jamba 1.5: Семейство моделей на архитектуре SSM-Transformer с большим контекстн...

🌟 Jamba 1.5: Семейство моделей на архитектуре SSM-Transformer с большим контекстным окном.

AI21 Labs опубликовала в открытом доступе семейство моделей Jamba 1.5. Модели позиционированы для использования в бизнесе для задач анализа документов, рабочих процессов RAG, поддержки клиентов и обладают возможностями вызова функций, структурированного вывода (JSON) и генерации текстовых данных.

Семейство демонстрирует хорошую управляемость в длительном контексте, скорость и качество. Это первый кейс успешного масштабирования не трансформерной модели до уровня качества топовых открытых моделей.

Архитектура Jamba состоит из гибридного сочетания Transformers и Mamba, что позволило создать модели, которые требуют меньший объем VRAM, чем трансформерные аналоги и могут обрабатывать контексты длиной до 140 тысяч токенов на одном GPU в квантованной версии.

Чтобы сделать модели удобными в использовании, была разработана новая техника квантования ExpertsInt8. Она квантует только веса, которые являются частью слоев MoE, и сохраняет их в формате INT8.
ExpertsInt8 быстрее других методов квантования, не требует калибровки и дает возможность использования BF16 для хранения больших активаций и позволяет загружать Large модель на одном узле из 8 GPU.

Jamba 1.5 Large:

🟠total params – 399B;
🟠active non-embedding params – 94B;
🟠context – 256К.

Jamba 1.5 Mini:

🟢total params – 52B;
🟢active non-embedding params – 12B;
🟢context – 256К;
🟢Int8 context – 140К.

Запуск моделей возможен на платформах AI21 Studio, Google Cloud, Azure, Hugging Face, NVIDIA NIM.
Протестировать возможности обеих моделей можно онлайн в сервисе AI21 Studio .
Доступен вход с Gmail и Github, на бесплатный тестовый период дается 10$ на три месяца при тарификации:

🟠Jamba 1.5 Large – 2 $ / 8$ Input / Output за 1 млн токенов.
🟠Jamba 1.5 Mini – 0.2 $ / 0.4$ Input / Output за 1 млн токенов.

📌Лицензирование: Jamba Open Model License

🟢Бесплатно для некоммерческих проектов и личного использования
🟠Бесплатно для коммерческого использования при годовом доходе до 50 млн USD, если больше – заключение отдельного договора.

🟡Страница проекта
🟡Набор моделей
🟡Demo

@ai_machinelearning_big_data

#AI #Jamba #LLM #ML #SSM

View Source

+1
0
+1
0
+1
0
+1
0
+1
0

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *