⚡️ FP8 LLMs: набор квантированный моделей с увеличенной эффективностью и производительностью под vLLM

FP8- это формат квантования, предоставляющий для моделей баланс между точностью и эффективностью. Он обеспечивает нерегулярное представление диапазона и масштабирование для каждого тензора на GPU, что позволяет достичь прироста производительности и сокращения потребления памяти.

Этот современный формат обещает революцию в развертывании LLM, значительно улучшая эффективность инференеса без ущерба для качества модели:

🟢В плотных моделях (70В) ITL (среднее время генераций каждого токена в выводе) сокращается двукратно, а в МоЕ- моделях до 1.6х;

🟢3-х кратное улучшение пропускной способности в сценариях, где снижение потребления VRAM приводит к возможности увеличения размера пакетов обработки.

Реализация поддержки FP8 стала возможна благодаря усилиям сервисов Neuralmagic.com и Anyscale.com, которые активно поддерживают open-soure сообщество.

В репозитории выложены Instruct FP8 версии моделей: 

⚡️ FP8 LLMs: набор квантированный моделей с увеличенной эффективностью и производительностью под vLLM

 🟢Llama-3 (8B,70B); 

 🟢Mixtral (7B, 22B); 

 🟢Qwen2 (1,5B, 7b, 72B);

 🟢Mistral 7B

 🟢Llama-2 7B

 🟢Phi-3 (mini-128K, medium-128K)

 🟢Gemma-2 9b-it

⚠️ Представленный набор моделей  предназначен для запуска в среде vLLM (версии от 0.5 и выше) и ее реализациях, поддерживающих технологии разреженности и быстрого инференса:

🟢nm-vllm: форк vLLM от сервиса Neuralmagic.com; https://github.com/neuralmagic/nm-vllm

🟢DeepSparse: среда выполнения для CPU-only систем; https://github.com/neuralmagic/deepsparse

🟢SparseML: тулкит с возможностью инференса, который позволяет создавать разреженные модели и конвертировать их в .onnx формат. https://github.com/neuralmagic/sparseml

⚡️ FP8 LLMs: набор квантированный моделей с увеличенной эффективностью и производительностью под vLLM

vLLM – open-source среда для быстрого вывода и использования LLM, основанная на методе PagedAttention. 

PagedAttention – алгоритм внимания, вдохновленный классической идеей виртуальной памяти и подкачки в операционных системах. Его использование снижает нагрузку на VRAM, связанную со сложными алгоритмами выборки. Экономия памяти может достигать до 55%. 

Более подробно про vLLM и алгоритм PagedAttention можно прочитать на странице проекта

🟡Страница проекта Neuralmagic

🟡Модели на HF

🟡Arxiv Page Attention

🖥GitHub vLLm

🖥GitHub nm-vllm 

@ai_machinelearning_big_data

#FP8 #LLM #vLLM #ML

+1
0
+1
0
+1
0
+1
0
+1
0

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *