ИИ-агенты тоже стареют после деплоя

Исследователи из Техасского университета в Остине выпустили работу, после которой на долгоживущих ИИ-агентов смотришь иначе. Оказывается, агент способен медленно деградировать уже после релиза, и при этом сама модель остаётся точно такой же, какой её выкатили в прод.

Проблема в том, что обычно агентов тестируют на свежую голову, в момент первого запуска. А реальный агент постоянно сжимает старые диалоги, дописывает память, обновляет факты, проходит через регулярные обслуживающие процедуры. И вот на этих рутинных шагах он тихо ломается.

Авторы предлагают смотреть на агента, который помнит вас неделями, как на маленькую операционную систему вокруг языковой модели. Она пишет заметки, сжимает их, достаёт обратно, обновляет и иногда устраивает уборку. Каждый из этих шагов может незаметно сгнить.

Дозировка лекарства превращается в “ежедневный приём”. Два похожих клиента сливаются в одного. Отменённая подписка остаётся активной. Расписание исчезает после очередного maintenance-прохода. Самое неприятное, что агент при этом продолжает звучать уверенно и компетентно, хотя становится всё менее точным.

В работе представили AgingBench, бенчмарк, который проверяет надёжность агента не на одной чистой стартовой сессии, а на длинной дистанции из множества сессий. Изучаются четыре механизма старения: суммаризация теряет важные детали, похожие воспоминания смешиваются, обновлённые факты остаются устаревшими, а обслуживание внезапно ломает память.

Главный вывод неожиданный: “дать больше памяти” обычно не лечит, а маскирует симптомы. Если факт никогда не был записан, никакой retrieval его не вытащит. Если факт был записан, но вытеснен соседями, лучшая суммаризация это не починит. А если факт лежит в памяти, но агент решает ему не доверять, проблема уже не в хранилище, а в логике принятия решений.

Авторы предлагают воспринимать задеплоенных агентов не как статичные модели, а как стареющую инфраструктуру, которой нужны регулярная диагностика, тесты на длинной дистанции и адресный ремонт конкретных механизмов деградации, а не общий апгрейд памяти.

Ссылка на статью: https://arxiv.org/abs/2605.26302

Бенчмарк: https://AgingBench.github.io

Источник в X: https://x.com/rohanpaul_ai/status/2059963687113470419

+1
0
+1
0
+1
0
+1
0
+1
0

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *