INTELLECT-3 показывает, что открытое RL способно серьёзно улучшить рассуждение и…

INTELLECT-3 показывает, что открытое RL способно серьёзно улучшить рассуждение и...

INTELLECT-3 показывает, что открытое RL способно серьёзно улучшить рассуждение и кодирование в open-source моделях 🤖📈

INTELLECT-3 это Mixture-of-Experts модель:
– 106B параметров всего
– около 12B активны на каждом шаге

Главная идея проекта – стек prime-rl.
Обучение и инференс идут параллельно: GPU продолжают генерировать длинные ответы, пока тренер обновляет веса. Ничего не простаивает.

Что помогает системе работать быстро:
– непрерывное батчирование
– обновления весов на лету
– перекрытие обучения и генерации

По сути, открытое RL отставало не из-за метода, а из-за отсутствия правильной инженерии.

Пайплайн устроен так:
– тренер обновляет модель
– пул инференса генерирует ответы
– координатор держит всё загруженным и синхронизированным

Задачи приходят из модулей-проверяющих с автоскорингом и безопасными песочницами для кода.
Старт идёт с GLM-4.5-Air: сначала примеры диалогов и инструментов, затем RL с наградами за правильные решения.

Результат впечатляет:
– 90.8% на AIME 2024
– открыты и веса, и весь тренировочный стек, так что пайплайн можно воспроизвести

Paper: https://arxiv.org/abs/2512.16144

View Source

+1
0
+1
0
+1
0
+1
0
+1
0

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *