Sakana AI: LLM пока не предсказывают научные открытия
Команда Sakana AI вместе с исследователями из Оксфорда, Стэнфорда и Allen Institute for AI выкатила свежий бенчмарк CUSP. Идея простая: проверить, насколько передовые языковые модели способны угадывать, куда двинется наука в ближайшие годы. Если коротко, прорицателями LLM пока не становятся, но как помощники в навигации по исследовательскому полю работают неплохо.
Бенчмарк собран на 4760 реальных научных событиях. Моделям предлагали оценить, какие направления исследований выстрелят, реализуются ли конкретные гипотезы и когда именно это произойдёт. Авторы намеренно отделили задачу различения перспективных идей от задачи предсказания их сроков, чтобы понять, где у моделей сильные стороны, а где они валятся.
Результаты получились отрезвляющие. Современные frontier-модели вполне сносно ранжируют темы по перспективности и отделяют живые направления от тупиковых. А вот с прогнозом, состоится ли конкретное открытие и в каком году, у них всё плохо. Самое интересное: эта слабость не лечится простым увеличением объёма обучающих данных. То есть упереться в потолок здесь можно даже на гигантских корпусах.
Авторы делают логичный вывод: наука остаётся открытым процессом с высокой неопределённостью, и сильная модель не превращает её в задачу регрессии по историческим трендам. ИИ полезен как соратник, который ускоряет перебор гипотез, сортирует литературу и подсвечивает связи между областями. Но решение, во что вкладывать время и деньги, остаётся за человеком.
Для практиков и ML-инженеров здесь два рабочих сигнала. Первый: CUSP можно использовать как ещё один тест на способность моделей рассуждать в условиях неполной информации, а не только заучивать факты. Второй: автономные научные агенты вроде AI Scientist от Sakana имеет смысл проектировать как ассистентов в исследовательской петле, а не как самостоятельных оракулов.
Полезные ссылки:
Статья на arXiv: https://arxiv.org/abs/2605.22681
Сайт проекта CUSP: https://seanwu25.github.io/CUSP-Science/
Оригинальный пост Sakana AI в X: https://x.com/SakanaAILabs/status/2059166749761872342
