AlphaProof Nexus: как Lean убивает галлюцинации LLM

Google DeepMind показала AlphaProof Nexus, фреймворк, в котором языковая модель работает в связке с компилятором формальных доказательств Lean. Идея в том, что LLM предлагает доказательство, Lean строго проверяет каждый шаг, при ошибке возвращает точный диагностический фидбэк, и эта петля крутится до тех пор, пока доказательство не станет математически безупречным. Человек в процесс не вмешивается.

Главный сюрприз не в том, что модель сразу выдаёт правильный ответ. Сюрприз в том, что ей этого и не нужно. Достаточно безупречного верификатора и времени на итерации. Галлюцинации просто не выживают в такой петле: любой логический сбой отлавливает Lean, и модель вынуждена исправляться.

Результаты, которые заявляют авторы, легко переводятся в область реальной математики. Система автономно решила 9 открытых проблем Эрдёша, две из них оставались открытыми 56 лет. Плюс 44 доказанных гипотезы из OEIS, разрешённая 15-летняя загадка в алгебраической геометрии и новая граница в выпуклой оптимизации.

Деталь, от которой сводит челюсть. Стоимость компьюте для решения одной проблемы, которая ждала полвека, составила порядка нескольких сотен долларов. То есть это не история про дата-центр за миллиарды, а про разумную архитектуру.

Почему это важно для ML-инженеров. Подход показывает, что сильный верификатор в петле выигрывает у чистого увеличения модели. Та же схема переносится на код, формальную верификацию, безопасность, RL с жёсткими правилами. Всюду, где есть дешёвый способ отличить правильный вывод от неправильного, можно строить аналогичные агентные петли.

Источник в X: https://x.com/HowToAI_/status/2059309648319255006

+1
0
+1
0
+1
0
+1
0
+1
0

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *