✔️ SLA2 – Sparse-Linear Attention with Learnable Routing and QAT
Учёные из Tsinghua и UC Berkeley ускорили видеодиффузию в 18,6 раза – без потери качества.
В некоторых случаях результат даже лучше.
Ключевой результат:
– 97% разреженности attention
– качество на уровне полного attention
– быстрее и дешевле
Метод называется SLA2.
Главая идея
В видеомоделях большая часть вычислений attention просто не нужна.
Раньше использовали гибрид:
– sparse attention
– linear attention
Но в этой схеме была скрытая проблема — математическая ошибка.
Sparse-ветка была масштабирована неправильно (фактор α),
и linear-ветке приходилось компенсировать эту неточность.
Что делает SLA2
– исправляет формулировку attention
– добавляет обучаемый роутер
– модель сама решает:
– где нужен полный attention
– где можно использовать упрощённый
Дополнительно:
– применяется quantization-aware training
– низкобитный attention обучается во время fine-tuning, а не просто добавляется на этапе инференса
Результаты (Wan2.1 — 1.3B и 14B):
– 97% sparsity
– 18,6× ускорение вычислений
– 4,35× снижение общей задержки (14B)
Самое интересное:
При 97% разреженности SLA2 показывает лучшее качество,
чем все базовые методы при 90%.
Настоящий прогресс в AI – это не только новые модели,
а умение сохранять качество, радикально снижая вычисления.
https://arxiv.org/abs/2602.12675
View Source
Просмотры: 219