🤯 Tencent и Tsinghua предлагают переосмыслить саму основу LLM
Continuous Autoregressive Language Models (CALM) и это прям удар по классической парадигме *next-token prediction*.
Сегодняшние LLM работают по одной схеме:
➡️ предсказать следующий токен
➡️ ещё один
➡️ ещё один
Именно эта пошаговость и становится главным бутылочным горлышком по скорости и вычислениям.
Что предлагает CALM
Вместо предсказания отдельных токенов модель предсказывает непрерывные векторы, каждый из которых кодирует сразу кусок смысла.
То есть:
– было — шаг = 1 токен
– стало — шаг = целый семантический фрагмент
Используется высокоточный автоэнкодер, который сжимает K токенов в один continuous-вектор и восстанавливает их с точностью >99.9%.
Что это даёт
🚀 Меньше шагов генерации — модель проходит текст «крупными блоками»
⚡ Каждый шаг несёт ~4× больше информации
💻 Снижение вычислительных затрат на обучение до –44%
📈 Лучшее соотношение *performance / compute* по сравнению с дискретными моделями
Это уже не просто оптимизация — это сдвиг оси масштабирования LLM:
от «больше параметров» к «больше семантики на шаг».
Главный вывод работы:
предсказание в пространстве смысловых векторов может стать дорогой к ультра-эффективным языковым моделям, а не бесконечная гонка за токенами.
Если подход взлетит в проде – это один из самых серьёзных архитектурных апгрейдов LLM за последние годы.
Статья: https://arxiv.org/abs/2510.27688
Код: https://github.com/shaochenze/calm
View Source
Просмотры: 42