Как сделать RAG в 32 раза легче: бинарная квантизация на практике

Если вы работаете с RAG-системами, то наверняка сталкивались с проблемой: векторные индексы жрут память как не в себя. Миллионы эмбеддингов в float32 превращаются в десятки гигабайт, и масштабирование становится болью.…












