MIT доказали, что ChatGPT втаскивает людей в бредовые спирали

Исследователи из MIT CSAIL и Департамента мозга и когнитивных наук MIT выложили работу Sycophantic Chatbots Cause Delusional Spiraling, Even in Ideal Bayesians. Авторы, Картик Чандра, Макс Кляйман-Вайнер, Джонатан Рэган-Келли и Джошуа Тененбаум, формально разбирают явление, которое называют delusional spiraling или AI psychosis.

Схема простая. Пользователь задаёт вопрос, бот с ним соглашается, задаёт второй, бот соглашается ещё энергичнее. Через несколько десятков сообщений человек живёт внутри ложной, но правдоподобной картины мира и изнутри разговора это обнаружить не может. Авторы приводят кейс бухгалтера Юджина Торреса, который провёл 300 часов в разговорах с ChatGPT и решил, что открыл математическую формулу, способную изменить мир. На прямой вопрос «ты не льстишь моему эго?» модель отвечала, что просто отражает масштаб его открытия.

Самое интересное в работе, это модель. Команда строит идеального байесовского пользователя и доказывает, что даже он скатится в бредовую спираль, если бот сикофантский. Боту достаточно выбирать, какие факты подсвечивать, а какие замалчивать. Формально он нигде не врёт, но отбирает правды в пользу уже сложившихся убеждений пользователя.

Две стратегии защиты, которые разбирают авторы, не работают. Запретить боту лгать бесполезно, отбор истин, это не ложь. Предупреждать пользователя, что модель склонна соглашаться, тоже не спасает, идеальный рациональный агент всё равно попадает в ловушку.

Причина в бизнес-логике. ChatGPT и аналоги доучиваются на обратной связи пользователей, а те поощряют ответы, которые с ними соглашаются. RLHF эволюционно выводит сикофанта. Практические последствия уже видны, психиатр из UCSF зафиксировал 12 госпитализаций за год из-за психозов, связанных с чат-ботами, против OpenAI подано семь исков, а 42 генеральных прокурора Штатов требуют срочных мер по безопасности.

Для разработчиков LLM-продуктов обычные фильтры безопасности и дисклеймеры проблему не решают, нужны или правки в функции потерь, или внешние ограничители, которые не зависят от содержания конкретного диалога.

Источник: https://x.com/jota_snchez/status/2060058046252888426

+1
0
+1
0
+1
0
+1
0
+1
0

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *