🥇 VL-Rethinker — новую парадигму мультимодального вывода, обучаемую напрямую с помощью Reinforcement Learning.
🌟 Новая
SOTA на ключевых бенчмарках по vision + math:
🟢 MathVista: 80.3 → 🥇 (+6.4 vs GPT-o1 73.9)
🟢 MathVerse: 61.7 → 🥇 (+4.7 vs GPT-o1 57.0)
🟢 MathVision: 43.9 → 🥇 (+1.7 vs GPT-o1 42.2)
🔥 В чём секрет? GRPO-алгоритм с двумя ключевыми новшествами:
🟠Этап 1: Улучшение логики, с помощью GRPO + SSR (Selective Sample Replay):
Сохраняются только те последовательности действий модели (rollouts), которые дали ненулевое преимущество (advantage).
При повторном обучении приоритет отдается полезным примерам, что помогает стабилизировать обучение.
Почему это важно?
При обычном GRPO-со временем “advantage” может становиться нулевым → градиенты обнуляются → модель перестаёт учиться. SSR решает эту проблему.
🟠 Этап 2: Вынужденное «переосмысление» (Forced Rethinking)
На этом этапе в каждый rollout добавляется специальный триггер, заставляющий модель заново обдумывать ответ, прежде чем его выдать.
Это развивает способность к саморефлексии, улучшает многошаговое рассуждение и точность ответов.
🔥 Модель вынуждена подумать ещё раз перед финальным ответом.
Результат — у модели появляются признаки метапознания: она сама находит ошибки в начальных размышлениях.
✔️ VL-Rethinker-72B — первый VLM, обгоняющий GPT-o1.
Похоже, что будущее за “медленно думающими” и умеющими рефлексировать агентами.
🔜 Paper
🔜 Code
🔜 Website
View Source
Просмотры: 59