DeepSeek-VL2: релиз VL-MoE моделей машинног обучения нового поколения.

DeepSeek-VL2: релиз набор VL-MoE моделей нового поколения.

DeepSeek-VL2 – усовершенствованная серия VLM c Mixture-of-Experts (MoE), которая значительно превосходит DeepSeek-VL.
 
Модели семейства ориентированы на задачи визуальных ответов на вопросы, оптического распознавания символов, понимания документов/таблиц/схем и визуального обоснования.

DeepSeek-VL2: релиз VL-MoE моделей машинног обучения нового поколения.

DeepSeek-VL2 включает три основных модуля:

🟠Визуальный энкодер SigLIP-SO400M-384, который использует динамическую стратегию разбиения изображения на фрагменты. Эта стратегия позволяет эффективно обрабатывать изображения высокого разрешения с различными соотношениями сторон.

🟠VL-адаптер, преобразующий визуальные элементы в формат, понятный языковой модели. Адаптер также добавляет специальные маркеры, чтобы обозначить границы строк, фрагментов и миниатюр.

🟠Языковая модель DeepSeek-MoE с механизмом MLA. MLA повышает эффективность обработки информации, сжимая kv-данные в компактный вектор. Это ускоряет обработку информации и увеличивает пропускную способность.

DeepSeek-VL2 обучается в три этапа: на первом этапе обучается MLP-соединитель, который связывает визуальный энкодер с языковой моделью, затем модель обучается на датасете из текста, изображений, аннотаций, QA и данных OCR и, в конце процесса, дообучается с учителем для улучшения ее способности понимать инструкции и вести диалог.

DeepSeek-VL2: релиз VL-MoE моделей машинног обучения нового поколения.



Модельная серия состоит из 3 вариантов c контекстом 4096:

🟢DeepSeek-VL2-Tiny (https://huggingface.co/deepseek-ai/deepseek-vl2-tiny) (1B активных параметром и 3.4В общих);

🟢DeepSeek-VL2-Small (https://huggingface.co/deepseek-ai/deepseek-vl2-small) (2.8B активных параметром и 16.1B общих);

🟢DeepSeek-VL2 (https://huggingface.co/deepseek-ai/deepseek-vl2) (4.5B активных параметром и 27.5B общих).

DeepSeek-VL2 была протестирована на задачах DocVQA, ChartQA, InfoVQA, TextVQA, MMBench и показала лучшие результаты по сравнению с другими моделями MoE.

DeepSeek-VL2 эффективно использует архитектуру MoE и превосходит другие модели с аналогичным количеством активных параметров.

📌Лицензирование: DeepSeek License (https://github.com/deepseek-ai/DeepSeek-LLM/blob/HEAD/LICENSE-MODEL).

🟡Набор моделей (🟡Набор моделей (https://huggingface.co/collections/deepseek-ai/deepseek-vl2-675c22accc456d3beb4613ab)
🟡Техотчет (https://github.com/deepseek-ai/DeepSeek-VL2/blob/main/DeepSeek_VL2_paper.pdf)
🟡Сообщество в Discord (https://discord.gg/Tc7c45Zzu5)
🖥GitHub (https://github.com/deepseek-ai/DeepSeek-VL2)

+1
0
+1
0
+1
0
+1
0
+1
0

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *