Токен правит ИИ: почему эта единица стала главной валютой индустрии

Мы платим за токены, оптимизируем под токены, упираемся в контекст в токенах, но сам токен при этом остаётся чёрным ящиком для большинства инженеров за пределами NLP. Разберём его нормально. Токен это не слово и не символ. Это единица, на которую токенизатор режет вход перед подачей в модель. Дальше токен превращается в ID, затем в вектор, и только после этого начинается attention, residual streams и всё, за что мы любим трансформеры.

Практические следствия важнее определения. Токены задают длину контекста, скорость инференса, расход KV cache, стоимость запроса и даже качество на разных языках. Отсюда и статус валюты генеративного ИИ. Правило от OpenAI для английского: один токен примерно четыре символа или три четверти слова, пара предложений около 30 токенов. Для русского, китайского и кода реальность другая. Кириллица часто раздувает счёт в полтора-два раза против английского, потому что словарь токенизатора заточен под латиницу и частотные англоязычные подслова. Это прямой налог на язык, и он зашит в архитектуру.

По подходам интересны три: Byte Pair Encoding, WordPiece и SentencePiece. BPE итеративно сливает самые частые пары символов в новые токены и лежит в основе GPT-семейства. WordPiece близок по идее, но выбирает слияния по правдоподобию, а не по частоте, и знаком всем по BERT. SentencePiece работает прямо на сырой строке без предварительной разбивки по пробелам, что критично для языков без явных разделителей и для мультиязычных моделей типа T5 и LLaMA. Выбор токенизатора это не технический каприз, он определяет, насколько компактно модель упаковывает ваш домен и сколько вы реально платите за один и тот же промпт.

Вывод для тех, кто строит продукты на LLM. Смотрите на свой токенайзер отдельно от модели. Считайте токены на своём реальном корпусе, а не на английских бенчмарках. Для русскоязычных сервисов это часто означает переход на модели с более щедрыми токенизаторами или предварительную нормализацию текста. Экономия на инференсе начинается не в промпт-инжиниринге, а на уровне того, как ваш текст режется на куски.

Источник: https://x.com/TheTuringPost/status/2046660466441671000

+1
0
+1
0
+1
0
+1
0
+1
0

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *