Eagle-X5: Обновление семейства MMLM от NVIDIA Research Projects.Eagle – это сем…

Eagle-X5: Обновление семейства MMLM от NVIDIA Research Projects.Eagle - это сем...

🌟 Eagle-X5: Обновление семейства MMLM от NVIDIA Research Projects.

Eagle – это семейство MLLM высокого разрешения, построенное на LLaVA. В обновленном до версии X5 наборе представлено 3 модели:

🟢Eagle-X5-7B

🟢Eagle-X5-13B

🟠Eagle-X5-13B-Chat

Архитектура Eagle-X5:

🟠LLM: Eagle-X5 использует Vicuna-v1.5-7B и Vicuna-v1.5-13B для создания текстовых ответов и рассуждений о визуальном вводе;

🟠Vision Encoders: в моделях Eagle-X5 пять энкодеров, предварительно натренированы на различных задачах и разрешениях – CLIP, ConvNeXt, Pix2Struct, EVA-02 и SAM (Segment Anything);

🟠Fusion Module: визуальные признаки, полученные от каждого энкодера, объединяются с помощью поканальной конкатенации;

🟠Projection Layer: используется для проецирования обработанных визуальных признаков в пространство встраивания LLM.

Обучение модели Eagle-X5 проходит в три этапа:

🟢каждый vision encoder индивидуально настраивается с замороженной LLM методом next-token-prediction supervision. Этот этап приводит визуальные представления в соответствие с языковым пространством и устраняет искажения;

🟢проекционный слой тренируется парами изображение-текст для дальнейшего выравнивания визуального и языкового пространства;

🟢SFT-этап, на котором вся модель точно настраивается на основе мультимодальных наборов данных: пары изображение-текст, VQA и мультимодальных диалоговых наборах.

Eagle показывает высокие результаты в мультимодальных бенчмарках LLM, особенно в задачах, чувствительных к разрешению – OCR и понимание документов.

Установка и запуск с GradioUI:

# Clone repository
git clone https://github.com/NVlabs/EAGLE.git
cd Eagle

# Create venv and install requirements
conda create -n eagle python=3.10 -y
conda activate eagle
pip install --upgrade pip # enable PEP 660 support
pip install requirements

# Run Gradio
python gradio_demo.py --model-path ${MODEL_CKPT} --conv-mode vicuna_v1

📌Лицензирование кода : Apache 2.0 License.

📌Лицензирование моделей:  CC-BY-NC-SA-4.0 License.

🟡Набор моделей
🟡Arxiv
🟡Demo
🖥Github [ Stars: 56 | Issues: 1 | Forks: 3]

@ai_machinelearning_big_data

#AI #NVIDIA #ML #EAGLEX5 #MMLM

View Source

+1
0
+1
0
+1
0
+1
0
+1
0

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *