Выделив эти нейронные сигнатуры, ученые научились предсказывать появление пробле…

Выделив эти нейронные сигнатуры, ученые научились предсказывать появление проблемных личностей и, что более важно, “вакцинировать” модели от них. В ходе обучения они намеренно активируют нежелательный вектор, а затем удаляют его перед развертыванием. Это позволяет сохранить общую производительность модели, но при этом значительно снизить риск токсичных или ложных ответов.

Исследование легло в основу новой инициативы Anthropic по так называемой “ИИ-психиатрии”, цель которой – мониторинг и управление поведением моделей в больших масштабах. Хотя эксперименты проводились (https://arxiv.org/pdf/2507.21509) на небольших системах, в Anthropic считают, что эта техника поможет коммерческим чат-ботам избегать непредсказуемых изменений личности.
anthropic.com (https://www.anthropic.com/research/persona-vectors)

View Source

+1
0
+1
0
+1
0
+1
0
+1
0

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *