🌟 Eagle-X5: Обновление семейства MMLM от NVIDIA Research Projects.
Eagle – это семейство MLLM высокого разрешения, построенное на LLaVA. В обновленном до версии X5 наборе представлено 3 модели:
🟢Eagle-X5-7B
🟢Eagle-X5-13B
🟠Eagle-X5-13B-Chat
Архитектура Eagle-X5:
🟠LLM: Eagle-X5 использует Vicuna-v1.5-7B и Vicuna-v1.5-13B для создания текстовых ответов и рассуждений о визуальном вводе;
🟠Vision Encoders: в моделях Eagle-X5 пять энкодеров, предварительно натренированы на различных задачах и разрешениях – CLIP, ConvNeXt, Pix2Struct, EVA-02 и SAM (Segment Anything);
🟠Fusion Module: визуальные признаки, полученные от каждого энкодера, объединяются с помощью поканальной конкатенации;
🟠Projection Layer: используется для проецирования обработанных визуальных признаков в пространство встраивания LLM.
Обучение модели Eagle-X5 проходит в три этапа:
🟢каждый vision encoder индивидуально настраивается с замороженной LLM методом next-token-prediction supervision. Этот этап приводит визуальные представления в соответствие с языковым пространством и устраняет искажения;
🟢проекционный слой тренируется парами изображение-текст для дальнейшего выравнивания визуального и языкового пространства;
🟢SFT-этап, на котором вся модель точно настраивается на основе мультимодальных наборов данных: пары изображение-текст, VQA и мультимодальных диалоговых наборах.
Eagle показывает высокие результаты в мультимодальных бенчмарках LLM, особенно в задачах, чувствительных к разрешению – OCR и понимание документов.
Установка и запуск с GradioUI:
# Clone repository
git clone https://github.com/NVlabs/EAGLE.git
cd Eagle
# Create venv and install requirements
conda create -n eagle python=3.10 -y
conda activate eagle
pip install --upgrade pip # enable PEP 660 support
pip install requirements
# Run Gradio
python gradio_demo.py --model-path ${MODEL_CKPT} --conv-mode vicuna_v1
📌Лицензирование кода : Apache 2.0 License.
📌Лицензирование моделей: CC-BY-NC-SA-4.0 License.
🟡Набор моделей
🟡Arxiv
🟡Demo
🖥Github [ Stars: 56 | Issues: 1 | Forks: 3]
@ai_machinelearning_big_data
#AI #NVIDIA #ML #EAGLEX5 #MMLM