Google представили TurboQuant – алгоритм, который сильно снижает требования к па…

Google представили TurboQuant - алгоритм, который сильно снижает требования к па...

Google представили TurboQuant алгоритм, который сильно снижает требования к памяти при работе LLM.

KV-cache – это то, что хранит весь контекст во время генерации.
И именно он сейчас становится главным ограничением, а не сами модели.

Чем длиннее диалог или больше пользователей, тем быстрее заканчивается память на GPU.

TurboQuant решает это так:
– сжимает KV-cache минимум в 6 раз
– ускоряет инференс до 8 раз
– сохраняет качество без заметной потери

Это ключевой момент: раньше компрессия почти всегда ухудшала ответы.

Как это устроено:

– сначала данные преобразуются (rotation), чтобы их было проще сжимать
– затем применяется основной алгоритм сжатия (PolarQuant)
– после этого добавляется лёгкая коррекция (QJL), которая убирает ошибки

В итоге получается почти точное восстановление при сильно меньшем объёме.

С TurboQuant:
– модели можно запускать на меньшем количестве GPU
– один сервер может обслуживать больше запросов
– становится проще работать с длинным контекстом
– падает стоимость инференса

По сути, это не про “ускорить модель”, а про перераспределение ресурсов внутри всей системы.

Раньше оптимизировали веса моделей
теперь оптимизируют то, как они работают в проде

И KV-cache, как раз одна из самых дорогих частей.

https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/

🐍 полезные ресурсы 🚀Max

@data_analysis_ml


View Source

+1
0
+1
0
+1
0
+1
0
+1
0

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *