Институт технологических инноваций Абу-Даби представил семейство моделей Falcon 3 с расширенными возможностями в областях науки, математики и программирования.

▶В семейство входят 5 базовых моделей:

🟢Falcon3-1B-Base (https://huggingface.co/tiiuae/Falcon3-1B-Base)
🟢Falcon3-3B-Base (https://huggingface.co/tiiuae/Falcon3-3B-Base)
🟢Falcon3-Mamba-7B-Base (https://huggingface.co/tiiuae/Falcon3-Mamba-7B-Base)
🟢Falcon3-7B-Base (https://huggingface.co/tiiuae/Falcon3-7B-Base)
🟢Falcon3-10B-Base (https://huggingface.co/tiiuae/Falcon3-10B-Base)

Модели Falcon 3 основаны на трансформерах, совместимы с архитектурой Llama поддерживает до 32К токенов контекста (кроме 1B с контекстом 8К). Все модели используют функцию активации SwiGLU с размером словаря 131K токенов (65K для Mamba-7B версии).

Falcon3-7B-Base была масштабирована до 10 млрд. параметров путем дублирования избыточных слоев и последующего обучения на 2 трлн. токенов. Это позволило модели Falcon3-10B-Base достичь высоких результатов в задачах zero-shot и few-shot среди моделей с менее чем 13В параметров.

Релиз Falcon 3

Для создания компактных моделей Falcon3-1B Base и Falcon3-3B Base использовались методы обрезки и дистилляции знаний на основе около 100 ГБ высококачественных данных.

Релиз Falcon 3

Модель Falcon3-Mamba-7B-Base была усовершенствована путем обучения на дополнительных 1,5 трлн. токенов, что привело к созданию Falcon3-Mamba-7B-Base с улучшенными способностями к рассуждению и в математических задачах.

Релиз Falcon 3

▶ Семейство продемонстрировало высокую производительность на стандартных бенчмарках:

🟠Falcon3-1B-Base превосходит SmolLM2-1.7B и сопоставима с gemma-2-2b;
🟠Falcon3-3B-Base опережает Llama-3.1-8B и Minitron-4B-Base;
🟠Falcon3-7B-Base показывает результаты, сравнимые с Qwen2.5-7B;
🟠Falcon3-10B-Base – лучшие результаты в категории до 13 млрд. параметров.

В бенчмарках задач математики Falcon3-10B-Base достигает 22,9 на MATH-Lvl5 и 83,0 на GSM8K, а в задачах программирования набирает 73,8 на MBPP.

Инструктивные версии моделей также показывают высокие результаты, при этом Falcon3-7B-Instruct и Falcon3-10B-Instruct превосходят аналогичные модели до 13 млрд. параметров.

▶В репозитории на HuggingFace (https://huggingface.co/collections/tiiuae/falcon3-67605ae03578be86e4e87026) опубликованы базовые, Instruct, GPTQ-INT8, GPTO-INT4, AWQ и GGUF версии моделей Falcon3.

⚠️ В январе 2025 года планируется выпуск моделей семейства Falcon3 с расширенными мультимодальными возможностями: поддержка изображений, видео и аудио, а также полный технический отчет с описанием методик.

📌Лицензирование: Falcon 3 TII Falcon License (https://falconllm.tii.ae/falcon-terms-and-conditions.html).

🟡Статья (https://huggingface.co/blog/falcon3)
🟡Набор моделей (https://huggingface.co/collections/tiiuae/falcon3-67605ae03578be86e4e87026)
🟡Demo Falcon3 (https://huggingface.co/spaces/tiiuae/Falcon3-demo)
🟡Demo Falcon3-Mamba-7B-Instruct (https://huggingface.co/spaces/tiiuae/Falcon3-Mamba-7B-Instruct-playground)
🟡Сообщество в Discord (https://discord.gg/fwXpMyGc)

AI #ML #LLM #Falcon3

+1
0
+1
0
+1
0
+1
0
+1
0

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *