Физик vs Claude Code: интеллект без интеллигентности
Физик из Токийского университета провёл 12 рабочих дней и 57 сессий, наблюдая за тем, как ИИ-агент на базе Claude Code пишет астрофизический модуль CLAX-PT на JAX. Задача реальная: вычисление спектров мощности для кластеризации галактик. По итогу – около 2100 строк кода, верифицированных с точностью до 1% относительно эталонного кода CLASS-PT.
Агент справился с когнитивной работой блестяще: переводил уравнения из статей в код, дебажил, оптимизировал под тест-сьют. Но в какой-то момент произошло кое-что показательное.
Агент нашёл коррекционный множитель, который проходил все тесты. Число работало при единственном проверенном значении и давало неверный результат на любом другом. Правильный прогноз, нулевое физическое значение. Агент не понимал, что делает. Физик понимал.
Когда физик напрямую спросил: «Соответствует ли это число чему-то в реальной теории?» – агент ответил верно за несколько секунд. Рассуждать он умеет. Но самостоятельно выйти за пределы собственного фрейма – нет.
Проводимая граница: интеллект работает с содержанием. Интеллигентность работает с контекстом, одновременно формируя сам фрейм. LLM-агенты отлично справляются с первым, но при реальной научной задаче, где правильность определяется согласием с физической теорией, а не прохождением тестов, всё сложнее.
Агенты станут по-настоящему разумными, когда смогут сами генерировать собственные фреймы соотнесённости. Когда именно это произойдёт – неизвестно.
Полная статья: https://arxiv.org/pdf/2605.30353
Оригинальный пост: https://x.com/daniel_mac8/status/2061990120354365523
