🌟 AutoRound: расширенный алгоритм квантования LLM от Intel.
AutoRound – усовершенствованный алгоритм квантования для малоразрядных LLM, основанный на методе “SignRound” исследования “Optimize Weight Rounding via Signed Gradient Descent for the Quantization of LLMs“.
Алгоритм использует градиентный спуск по знаку для точной настройки значений округления и minmax-значений весов всего за 200 шагов. AutoRound составляет конкуренцию современным методам, не создавая дополнительных накладных расходов на инференс и сохраняя низкую стоимость настройки.
В основе AutoRound лежит идея SignRound – поиска оптимального порога округления для каждого блока весов. В отличие от стандартного округления к ближайшему целому (RTN),
SignRound учитывает взаимосвязи между весами, и между весами и активациями. Для этого используется блочная реконструкция вывода, где минимизируется ошибка между выходом исходного блока и его квантованной версией.
▶️Форматы квантования:
🟢AutoRound – подходит для CPU, HPU устройств и инференса со смешанной точностью;
🟢AutoGPTQ – подходит для симметричного квантования на устройствах CUDA, но симметричное квантование имеет тенденцию плохо работать при 2-битной точности;
🟢AutoAWQ – подходит для асимметричного 4-битного квантования на устройствах CUDA, в нем реализовано специализированное слияние слоев, предназначенное для моделей семейства Llama.
Алгоритм поддерживает практически все основные крупные языковые модели и семейства:
Llama, Qwen, Yi, Mistral, gemma, falcon, Phi, Mixtral и др.
Полный список с примерами и рецептами конфигураций для каждого семейства можно найти в репозитории проекта.
📌Лицензирование : Apache 2.0 License.
🟡Arxiv
🖥Github
@ai_machinelearning_big_data
#AI #ML #Quantization #LLM #AutoRound