INTELLECT-3 показывает, что открытое RL способно серьёзно улучшить рассуждение и кодирование в open-source моделях 🤖📈
INTELLECT-3 это Mixture-of-Experts модель:
– 106B параметров всего
– около 12B активны на каждом шаге
Главная идея проекта – стек prime-rl.
Обучение и инференс идут параллельно: GPU продолжают генерировать длинные ответы, пока тренер обновляет веса. Ничего не простаивает.
Что помогает системе работать быстро:
– непрерывное батчирование
– обновления весов на лету
– перекрытие обучения и генерации
По сути, открытое RL отставало не из-за метода, а из-за отсутствия правильной инженерии.
Пайплайн устроен так:
– тренер обновляет модель
– пул инференса генерирует ответы
– координатор держит всё загруженным и синхронизированным
Задачи приходят из модулей-проверяющих с автоскорингом и безопасными песочницами для кода.
Старт идёт с GLM-4.5-Air: сначала примеры диалогов и инструментов, затем RL с наградами за правильные решения.
Результат впечатляет:
– 90.8% на AIME 2024
– открыты и веса, и весь тренировочный стек, так что пайплайн можно воспроизвести
Paper: https://arxiv.org/abs/2512.16144
View Source
Просмотры: 24