🌟 LLaVaOLMBitNet1B: первая тернарная мультимодальная LLM от IntelLabs.
LLaVaOLMoBitnet1B – мультимодальная модель, способная принимать в качестве входных данных изображение + текст (запрос) и отдавать согласованные текстовые ответы на выходе.
Архитектура модели состоит из 3-х частей:
🟢CLIP ViT-L/14 на 100М параметров, состоящий из 24 слоев с размером скрытого слоя 1024;
🟢MLP, состоящий из 2-х линейных слоев с размером скрытого слоя 2048 с активацией GELU;
🟢Тернарная LLM (OLMoBitNet1B) с 1.1 миллиардом параметров, состоящая из 16 слоев, в которых все линейные слои заменены на слои BitLinear158.
Модель была обучена в 2 фазы. Первая – предварительное обучение для выравнивания функций и вторая фаза – тонкой настройки инструкций.
Фаза предварительного обучения состояла из 1 эпохи на отфильтрованном наборе данных 595 тыс. концептуальных текстовых аннотаций, с обновлением весов только проекционного слоя.
Для второй фазы точной настройки инструкций использовалась 1 эпоха с набором данных LLaVa-Instruct-150K с обновлением и весов слоя проекции и весов LLM.
⚠️ Примечание: Модель в репозитории IntelLabs на Huggingface находится в режиме акцепта доступа. После отправки запроса пройдет какое-то время, прежде чем владелец репозитория одобрит запрос.
▶️Локальная установка и запуск:
# Clone repositry
git clone https://huggingface.co/IntelLabs/LlavaOLMoBitnet1B
# Move to folder & intall requirements
cd LlavaOLMoBitnet1B
pip install -r requirements.txt
# Run inference
python llava_olmo.py
▶️Чтобы задать свой промпт и указать путь до целевого изображения, измените параметры в файле llava_olmo.py:
text = "Be concise. Describe what is in the image"
url = "https://URL_TO_IMAGE.jpg"
📌Лицензирование : Apache 2.0 License.
🟡Arxiv
🟡Модель
@ai_machinelearning_big_data
#AI #Intel #ML #LlavaBitNet