Модель в 9 раз меньше, но бьет конкурентов: Ternary Bonsai
PrismML выпустили Ternary Bonsai – семейство языковых моделей на троичных весах {-1, 0, +1} с точностью 1.58 бит. Модели в 9 раз меньше 16-битных аналогов, при этом обходят большинство конкурентов на стандартных бенчмарках.
Что важно знать:
- Ternary Bonsai 8B весит всего 1.75 GB против ~16 GB у аналогов
- На бенчмарках обгоняет все модели своего класса, кроме Qwen3 8B
- Скорость: 82 tok/s на M4 Pro, 27 tok/s на iPhone 17 Pro Max
- В 3-4 раза экономичнее по энергопотреблению
- Полностью open-source под Apache 2.0
- Три размера: 8B (1.75 GB), 4B (0.86 GB), 1.7B (0.37 GB)
Как работает архитектура?
Ternary Bonsai реализует 1.58-битное представление во всей сети без исключений: embeddings, attention, MLP и LM head используют одинаковое представление. Каждый вес принимает одно из трёх значений {-s, 0, +s}, кодируемых 1.58 битами совместно с масштабным коэффициентом FP16 для группы из 128 весов.
Производительность
Ternary Bonsai 8B набирает 75.5 балла на бенчмарках в среднем против 70.5 у 1-битной Bonsai 8B, уступая лишь Qwen3 8B (16.38 GB) и превосходя всех остальных. При этом весит в 9-10 раз меньше.
Модели работают нативно на устройствах Apple (Mac, iPhone, iPad) через MLX. Подробности в статье: https://prismml.com/news/ternary-bonsai
