⚡️ FP8 LLMs: набор квантированный моделей с увеличенной эффективностью и производительностью под vLLM
FP8- это формат квантования, предоставляющий для моделей баланс между точностью и эффективностью. Он обеспечивает нерегулярное представление диапазона и масштабирование для каждого тензора на GPU, что позволяет достичь прироста производительности и…