🧠 Новый подход к архитектуре нейросетей:
Attention Residuals
Исследователи предложили переосмыслить одну из базовых идей глубоких нейросетей – residual connections.
До сих пор такие соединения работали очень просто:
каждый слой добавляет свой результат к предыдущим слоям через фиксированное накопление.
Но у этого подхода есть проблемы:
• информация постепенно «размывается»
• растёт скрытое состояние
• модели сложнее извлекать важные представления из прошлых слоёв
Теперь предложена новая идея – Attention Residuals.
Вместо обычного сложения слоёв модель использует attention, чтобы выбирать, какие представления из предыдущих слоёв действительно нужны.
Проще говоря:
модель сама решает, к каким слоям прошлого стоит “вернуться”.
Что это даёт:
🔹 сеть может избирательно извлекать нужные представления
🔹 уменьшается эффект «размывания» информации
🔹 контролируется рост скрытых состояний
🔹 глубина сети используется гораздо эффективнее
Чтобы это работало на больших моделях, авторы предложили механизм Block AttnRes.
Он делит сеть на блоки и применяет сжатое attention между ними, делая кросс-слойное внимание масштабируемым.
По результатам экспериментов:
• около 1.25× выигрыша по вычислениям
• <2% увеличение latency на инференсе
• стабильный рост качества на downstream-задачах
Метод протестировали на архитектуре Kimi Linear:
• 48B параметров всего
• 3B активных параметров
Если идея подтвердится на больших LLM, это может стать новым стандартом для глубинных архитектур нейросетей.
https://github.com/MoonshotAI/Attention-Residuals/blob/master/Attention_Residuals.pdf
🎯Полезные Мл-ресурсы 🚀 Max
@data_analysis_ml