⚡️Falcon Mamba: англоязычная языковая модель на архитектуре Mamba.
Falcon Mamba – модель от Technology Innovation Institute (TII, Dubai, UAE), основанная на архитектуре Mamba, которая может обрабатывать последовательности произвольной длины без увеличения памяти хранения.
Модель была обучена на ~5500GT данных RefinedWeb, качественных технических данных и экземпляров кода на разных языках программирования из открытых источников.
Архитектура модели построена на оригинальной Mamba с добавлением дополнительных слоев нормализации RMS.
Такая комбинация придает модели возможность обрабатывать последовательности любой длины без необходимости увеличения потребления памяти, вмещаясь, по сути, на одну А10 24 GB.
Falcon Mamba доступна в экосистеме Hugging Face и совместима с большинством API Hugging Face. Модель также поддерживает функцию квантование bitsandbytes, для обеспечения возможности запуска модели на небольших GPU и CPU.
Коллекция моделей FalconMamba 7B:
🟢falcon-mamba-7b
🟢falcon-mamba-7b-instruct
🟠falcon-mamba-7b-4bit
🟠falcon-mamba-7b-instruct-4bit
📌Лицензирование : TII Falcon-Mamba License 2.0
🟡Страница проекта
🟡Коллекция моделей на HF
🟡Demo
@ai_machinelearning_big_data
#AI #Falcon #ML #LLM #Mamba
View Source
Просмотры: 276