🧠 Как снизить самоуверенность LLM-«судей»
Проблема:
Модели, которые сравнивают ответы и выбирают лучший, часто завышают уверенность — 90–100%, при том что реальная точность ниже.
Что проверили:
– 14 моделей, задача — сравнить два ответа и выбрать лучший.
– Метрики уверенности:
1. Самооценка (0–100)
2. Доля голосов «за» в 10 прогонах
3. Внутренняя вероятность выбора A или B
Выяснили, что популярная метрика *Expected Calibration Error* плохо ловит проблемы на крайних значениях уверенности.
Новое решение:
– TH-Score — отдельно считает точность в зоне высокой и низкой уверенности, плюс учитывает, как часто такие случаи встречаются.
– LLM-as-a-Fuser — модель, которая читает решения нескольких «судей» и их короткие комментарии, а потом выдает единый вердикт с уверенностью. Работает лучше, чем простое большинство или взвешенное голосование, потому что учитывает причины выбора.
Результаты:
– Qwen3-235B-A22B как fuser: 86,29% точности, ошибка калибровки — 6,42%
– Mistral-Nemo: точность выросла с 20,29% → 67,43%, ошибка упала с 74,22% → 20,49%
Вывод:
– Высокоуверенные решения можно брать автоматически
– Низкоуверенные — отправлять на пересмотр
– Для стабильных итогов — использовать fuser
📌 Подробнее
View Source
Просмотры: 227