ZAYA1-8B бьёт модели в 100B+ имея всего 0,7B активных параметров
Zyphra выкатила ZAYA1-8B и сравнения получились неловкие для всех остальных. Модель с 0,7B активных и 8B общих параметров выходит на ринг против NVIDIA Nemotron 3 Nano (3/30B), Mistral-4-Small (6/119B) и Intellect-3 (12/106B). И не выглядит бедным родственником.
На AIME’26 ZAYA берёт 89,1 против 90,1 у Nemotron, 86,4 у Mistral и 86,3 у Intellect. На HMMT’26 у неё 71,6, у Mistral 70,6, у Intellect 72,3. Цифры в пределах статистической погрешности, при том что у конкурентов от трёх до пятнадцати раз больше активных параметров.
На LCB-v6 в кодинге ZAYA выдаёт 64,8, что практически ровно столько же, сколько Nemotron 3 Nano (64,6), и обгоняет Mistral-4-Small (57,9). Intellect-3 с его 12B активных параметров вырывается на 66,8, но разрыв в два процента при разнице в 17 раз по активным весам выглядит слабым аргументом в пользу раздувания.
На IFEval ZAYA получает 85,6, обходя Mistral (84,0) и Intellect (81,2). На GPQA-D у неё 71,0, что ниже Nemotron и Mistral, но выше Arcee-Trinity-Mini почти в полтора раза. Это единственный бенчмарк, где модель видимо уступает старшим братьям.
Отдельно стоит посмотреть на Arcee-Trinity-Mini (3/26B). Её результаты: 59,6 на AIME, 36,9 на HMMT, 33,3 на LCB, 62,0 на IFEval, 46,8 на GPQA. Разрыв с ZAYA1-8B доходит до двух раз при меньшем размере модели Zyphra. Дело явно не в MoE-масштабе как таковом, а в архитектуре и обучении.
Для инженеров это важная новость. 0,7B активных параметров означает реальный inference на одной потребительской видеокарте с адекватной скоростью, при этом бенчмарки в одной лиге с моделями, которые без серьёзного GPU-парка не поднимаются. Правила игры меняются в сторону эффективности, а не голого размера.
Общий вывод: MoE с агрессивным сжатием активных весов работает. Остался вопрос про реальное поведение на long-context и agentic-задачах, которых на этой таблице нет. Но для начала это сильная заявка от Zyphra.
Источник: https://x.com/Math_files/status/2052637371909517502
