SLA2 – Sparse-Linear Attention with Learnable Routing and QATУчёные из Tsinghua…

SLA2 - Sparse-Linear Attention with Learnable Routing and QATУчёные из Tsinghua...

✔️ SLA2 – Sparse-Linear Attention with Learnable Routing and QAT

Учёные из Tsinghua и UC Berkeley ускорили видеодиффузию в 18,6 раза – без потери качества.

В некоторых случаях результат даже лучше.

Ключевой результат:
97% разреженности attention
– качество на уровне полного attention
– быстрее и дешевле

Метод называется SLA2.

Главая идея

В видеомоделях большая часть вычислений attention просто не нужна.

Раньше использовали гибрид:
– sparse attention
– linear attention

Но в этой схеме была скрытая проблема — математическая ошибка.

Sparse-ветка была масштабирована неправильно (фактор α),
и linear-ветке приходилось компенсировать эту неточность.

Что делает SLA2

– исправляет формулировку attention
– добавляет обучаемый роутер
– модель сама решает:
– где нужен полный attention
– где можно использовать упрощённый

Дополнительно:
– применяется quantization-aware training
– низкобитный attention обучается во время fine-tuning, а не просто добавляется на этапе инференса

Результаты (Wan2.1 — 1.3B и 14B):

– 97% sparsity
18,6× ускорение вычислений
4,35× снижение общей задержки (14B)

Самое интересное:

При 97% разреженности SLA2 показывает лучшее качество,
чем все базовые методы при 90%.

Настоящий прогресс в AI – это не только новые модели,
а умение сохранять качество, радикально снижая вычисления.

https://arxiv.org/abs/2602.12675

View Source

+1
0
+1
1
+1
0
+1
0
+1
0

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *