Новый подход к архитектуре нейросетей: Attention ResidualsИсследователи предлож…

Новый подход к архитектуре нейросетей: Attention ResidualsИсследователи предлож...

🧠 Новый подход к архитектуре нейросетей: Attention Residuals

Исследователи предложили переосмыслить одну из базовых идей глубоких нейросетей – residual connections.

До сих пор такие соединения работали очень просто:
каждый слой добавляет свой результат к предыдущим слоям через фиксированное накопление.

Но у этого подхода есть проблемы:
• информация постепенно «размывается»
• растёт скрытое состояние
• модели сложнее извлекать важные представления из прошлых слоёв

Теперь предложена новая идея – Attention Residuals.

Вместо обычного сложения слоёв модель использует attention, чтобы выбирать, какие представления из предыдущих слоёв действительно нужны.

Проще говоря:

модель сама решает, к каким слоям прошлого стоит “вернуться”.

Что это даёт:

🔹 сеть может избирательно извлекать нужные представления
🔹 уменьшается эффект «размывания» информации
🔹 контролируется рост скрытых состояний
🔹 глубина сети используется гораздо эффективнее

Чтобы это работало на больших моделях, авторы предложили механизм Block AttnRes.

Он делит сеть на блоки и применяет сжатое attention между ними, делая кросс-слойное внимание масштабируемым.

По результатам экспериментов:

• около 1.25× выигрыша по вычислениям
<2% увеличение latency на инференсе
• стабильный рост качества на downstream-задачах

Метод протестировали на архитектуре Kimi Linear:

48B параметров всего
3B активных параметров

Если идея подтвердится на больших LLM, это может стать новым стандартом для глубинных архитектур нейросетей.

https://github.com/MoonshotAI/Attention-Residuals/blob/master/Attention_Residuals.pdf

🎯Полезные Мл-ресурсы 🚀 Max

@data_analysis_ml

View Source

+1
0
+1
0
+1
0
+1
0
+1
0

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *