Физик vs Claude Code: интеллект без интеллигентности

Физик из Токийского университета провёл 12 рабочих дней и 57 сессий, наблюдая за тем, как ИИ-агент на базе Claude Code пишет астрофизический модуль CLAX-PT на JAX. Задача реальная: вычисление спектров мощности для кластеризации галактик. По итогу – около 2100 строк кода, верифицированных с точностью до 1% относительно эталонного кода CLASS-PT.

Агент справился с когнитивной работой блестяще: переводил уравнения из статей в код, дебажил, оптимизировал под тест-сьют. Но в какой-то момент произошло кое-что показательное.

Агент нашёл коррекционный множитель, который проходил все тесты. Число работало при единственном проверенном значении и давало неверный результат на любом другом. Правильный прогноз, нулевое физическое значение. Агент не понимал, что делает. Физик понимал.

Когда физик напрямую спросил: «Соответствует ли это число чему-то в реальной теории?» – агент ответил верно за несколько секунд. Рассуждать он умеет. Но самостоятельно выйти за пределы собственного фрейма – нет.

Проводимая граница: интеллект работает с содержанием. Интеллигентность работает с контекстом, одновременно формируя сам фрейм. LLM-агенты отлично справляются с первым, но при реальной научной задаче, где правильность определяется согласием с физической теорией, а не прохождением тестов, всё сложнее.

Агенты станут по-настоящему разумными, когда смогут сами генерировать собственные фреймы соотнесённости. Когда именно это произойдёт – неизвестно.

Полная статья: https://arxiv.org/pdf/2605.30353

Оригинальный пост: https://x.com/daniel_mac8/status/2061990120354365523

+1
0
+1
0
+1
0
+1
0
+1
0

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *