Google: LLM должны честно признаваться, что не уверены
Новая работа от Google Research и Тель-Авивского университета предлагает пересмотреть всю постановку задачи про галлюцинации LLM. Авторы утверждают: проблема не в том, что модели ошибаются, а в том, что они звучат уверенно там, где надо было бы притормозить.
Годами вся индустрия гналась за фактуальностью: больше знаний, меньше ошибок. Идеальная фактуальность недостижима, и гоняться за ней бессмысленно. Модель, которая чётко отделяет «я знаю» от «я угадываю», остаётся полезной и не прожигает доверие пользователя.
Ключевой тезис: не хватает не знания, а самознания. Модель может быть прекрасно калибрована в среднем и знать, что в 60% случаев она права, но при этом не понимать, какой именно ответ сейчас опасный. Чтобы убрать ошибки, система вынуждена отказываться от множества ответов, которые на самом деле были бы верными.
Авторы называют это «налогом на полезность» и объясняют, почему продукты всё равно дрейфуют в сторону уверенных ответов, а не в сторону осторожной правды. Неверный ответ, обёрнутый в честную неуверенность, воспринимается совсем не так, как неверный ответ, поданный как факт.
Предлагаемое решение авторы называют faithful uncertainty: язык модели должен отражать её внутреннюю уверенность, а не сглаживать сомнения до интонации авторитета. Для агентов это критично вдвойне: именно неуверенность решает, когда идти искать, когда доверять источнику, а когда просто остановиться. Инструменты расширяют возможности, но метакогниция решает, как эти возможности будут использованы.
Paper: https://arxiv.org/abs/2605.01428v1
Источник: https://x.com/rohanpaul_ai/status/2059040056976032121
