Модель в 9 раз меньше, но бьет конкурентов: Ternary Bonsai

PrismML выпустили Ternary Bonsai – семейство языковых моделей на троичных весах {-1, 0, +1} с точностью 1.58 бит. Модели в 9 раз меньше 16-битных аналогов, при этом обходят большинство конкурентов на стандартных бенчмарках.

Что важно знать:

  • Ternary Bonsai 8B весит всего 1.75 GB против ~16 GB у аналогов
  • На бенчмарках обгоняет все модели своего класса, кроме Qwen3 8B
  • Скорость: 82 tok/s на M4 Pro, 27 tok/s на iPhone 17 Pro Max
  • В 3-4 раза экономичнее по энергопотреблению
  • Полностью open-source под Apache 2.0
  • Три размера: 8B (1.75 GB), 4B (0.86 GB), 1.7B (0.37 GB)

Как работает архитектура?

Ternary Bonsai реализует 1.58-битное представление во всей сети без исключений: embeddings, attention, MLP и LM head используют одинаковое представление. Каждый вес принимает одно из трёх значений {-s, 0, +s}, кодируемых 1.58 битами совместно с масштабным коэффициентом FP16 для группы из 128 весов.

Производительность

Ternary Bonsai 8B набирает 75.5 балла на бенчмарках в среднем против 70.5 у 1-битной Bonsai 8B, уступая лишь Qwen3 8B (16.38 GB) и превосходя всех остальных. При этом весит в 9-10 раз меньше.

Модели работают нативно на устройствах Apple (Mac, iPhone, iPad) через MLX. Подробности в статье: https://prismml.com/news/ternary-bonsai

+1
0
+1
0
+1
0
+1
0
+1
0

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *