Google разработала алгоритм квантования KV-кэша без потери точности

Подразделение Research анонсировало TurboQuant, алгоритм векторного квантования, объединяющий 2 других метода – QJL и PolarQuant, который решает проблему увеличения KV-кэша при работе с длинным контекстом. TurboQuant будет представлен на ICLR…



















