DeepSeek-VL2: релиз VL-MoE моделей машинног обучения нового поколения.
DeepSeek-VL2: релиз набор VL-MoE моделей нового поколения.
DeepSeek-VL2 – усовершенствованная серия VLM c Mixture-of-Experts (MoE), которая значительно превосходит DeepSeek-VL.
Модели семейства ориентированы на задачи визуальных ответов на вопросы, оптического распознавания символов, понимания документов/таблиц/схем и визуального обоснования.
DeepSeek-VL2 включает три основных модуля:
🟠Визуальный энкодер SigLIP-SO400M-384, который использует динамическую стратегию разбиения изображения на фрагменты. Эта стратегия позволяет эффективно обрабатывать изображения высокого разрешения с различными соотношениями сторон.
🟠VL-адаптер, преобразующий визуальные элементы в формат, понятный языковой модели. Адаптер также добавляет специальные маркеры, чтобы обозначить границы строк, фрагментов и миниатюр.
🟠Языковая модель DeepSeek-MoE с механизмом MLA. MLA повышает эффективность обработки информации, сжимая kv-данные в компактный вектор. Это ускоряет обработку информации и увеличивает пропускную способность.
DeepSeek-VL2 обучается в три этапа: на первом этапе обучается MLP-соединитель, который связывает визуальный энкодер с языковой моделью, затем модель обучается на датасете из текста, изображений, аннотаций, QA и данных OCR и, в конце процесса, дообучается с учителем для улучшения ее способности понимать инструкции и вести диалог.
Модельная серия состоит из 3 вариантов c контекстом 4096:
🟢DeepSeek-VL2-Tiny (https://huggingface.co/deepseek-ai/deepseek-vl2-tiny) (1B активных параметром и 3.4В общих);
🟢DeepSeek-VL2-Small (https://huggingface.co/deepseek-ai/deepseek-vl2-small) (2.8B активных параметром и 16.1B общих);
🟢DeepSeek-VL2 (https://huggingface.co/deepseek-ai/deepseek-vl2) (4.5B активных параметром и 27.5B общих).
DeepSeek-VL2 была протестирована на задачах DocVQA, ChartQA, InfoVQA, TextVQA, MMBench и показала лучшие результаты по сравнению с другими моделями MoE.
DeepSeek-VL2 эффективно использует архитектуру MoE и превосходит другие модели с аналогичным количеством активных параметров.
📌Лицензирование: DeepSeek License (https://github.com/deepseek-ai/DeepSeek-LLM/blob/HEAD/LICENSE-MODEL).
🟡Набор моделей (🟡Набор моделей (https://huggingface.co/collections/deepseek-ai/deepseek-vl2-675c22accc456d3beb4613ab)
🟡Техотчет (https://github.com/deepseek-ai/DeepSeek-VL2/blob/main/DeepSeek_VL2_paper.pdf)
🟡Сообщество в Discord (https://discord.gg/Tc7c45Zzu5)
🖥GitHub (https://github.com/deepseek-ai/DeepSeek-VL2)