⚡️ Новое исследование, опубликованное в Nature, показывает: языковые модели по-прежнему путают «знание» и «убеждение», смешивая факты и выдумку.
Авторы представили новый бенчмарк KaBLE – 13 тыс. вопросов, 13 задач, 24 протестированные модели — и обнаружили серьёзные провалы в сценариях «ложное убеждение от первого лица».
KaBLE проверяет, понимает ли модель:
– кто что знает,
– кто только верит,
– и соответствует ли утверждение реальности.
На задачах ложного убеждения от первого лица:
– GPT-4o падает с 98.2% до 64.4%,
– DeepSeek R1 — с ~90% до 14.4%.
Это значит, что модели выглядят умными в одной формулировке задач, но ломаются в той, которая ближе к реальному общению пользователей («я думаю…», «я верю…»).
Для ложного убеждения от третьего лица новые модели дают ~95%, старые ~79%,
но у задач от первого лица результаты проседают до 62.6% и 52.5% соответственно.
Разрыв указывает на *атрибутивное смещение*: модель приписывает говорящему фактическое знание, а не различает его убеждения и реальность.
Исследователи также проверили рекурсивные знания — «кто знает, что кто-то знает…».
Новые модели решают многие случаи, но их логические шаги нестабильны и выглядят как сложное сопоставление паттернов, а не как уверенное правило рассуждения.
Итог: LLM всё ещё слабо различают знание, убеждение и факты — особенно когда человек говорит о себе.
nature.com/articles/s42256-025-01113-8
View Source
Просмотры: 84