Google представили TurboQuant –
алгоритм, который сильно снижает требования к памяти при работе LLM.
KV-cache – это то, что хранит весь контекст во время генерации.
И именно он сейчас становится главным ограничением, а не сами модели.
Чем длиннее диалог или больше пользователей, тем быстрее заканчивается память на GPU.
TurboQuant решает это так:
– сжимает KV-cache минимум в 6 раз
– ускоряет инференс до 8 раз
– сохраняет качество без заметной потери
Это ключевой момент: раньше компрессия почти всегда ухудшала ответы.
Как это устроено:
– сначала данные преобразуются (rotation), чтобы их было проще сжимать
– затем применяется основной алгоритм сжатия (PolarQuant)
– после этого добавляется лёгкая коррекция (QJL), которая убирает ошибки
В итоге получается почти точное восстановление при сильно меньшем объёме.
С TurboQuant:
– модели можно запускать на меньшем количестве GPU
– один сервер может обслуживать больше запросов
– становится проще работать с длинным контекстом
– падает стоимость инференса
По сути, это не про “ускорить модель”, а про перераспределение ресурсов внутри всей системы.
Раньше оптимизировали веса моделей
теперь оптимизируют то, как они работают в проде
И KV-cache, как раз одна из самых дорогих частей.
https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/
🐍 полезные ресурсы 🚀Max
@data_analysis_ml
View Source
Просмотры: 123