Sakana AI: LLM пока не предсказывают научные открытия

Команда Sakana AI вместе с исследователями из Оксфорда, Стэнфорда и Allen Institute for AI выкатила свежий бенчмарк CUSP. Идея простая: проверить, насколько передовые языковые модели способны угадывать, куда двинется наука в ближайшие годы. Если коротко, прорицателями LLM пока не становятся, но как помощники в навигации по исследовательскому полю работают неплохо.

Бенчмарк собран на 4760 реальных научных событиях. Моделям предлагали оценить, какие направления исследований выстрелят, реализуются ли конкретные гипотезы и когда именно это произойдёт. Авторы намеренно отделили задачу различения перспективных идей от задачи предсказания их сроков, чтобы понять, где у моделей сильные стороны, а где они валятся.

Результаты получились отрезвляющие. Современные frontier-модели вполне сносно ранжируют темы по перспективности и отделяют живые направления от тупиковых. А вот с прогнозом, состоится ли конкретное открытие и в каком году, у них всё плохо. Самое интересное: эта слабость не лечится простым увеличением объёма обучающих данных. То есть упереться в потолок здесь можно даже на гигантских корпусах.

Авторы делают логичный вывод: наука остаётся открытым процессом с высокой неопределённостью, и сильная модель не превращает её в задачу регрессии по историческим трендам. ИИ полезен как соратник, который ускоряет перебор гипотез, сортирует литературу и подсвечивает связи между областями. Но решение, во что вкладывать время и деньги, остаётся за человеком.

Для практиков и ML-инженеров здесь два рабочих сигнала. Первый: CUSP можно использовать как ещё один тест на способность моделей рассуждать в условиях неполной информации, а не только заучивать факты. Второй: автономные научные агенты вроде AI Scientist от Sakana имеет смысл проектировать как ассистентов в исследовательской петле, а не как самостоятельных оракулов.

Полезные ссылки:

Статья на arXiv: https://arxiv.org/abs/2605.22681

Сайт проекта CUSP: https://seanwu25.github.io/CUSP-Science/

Оригинальный пост Sakana AI в X: https://x.com/SakanaAILabs/status/2059166749761872342

+1
0
+1
0
+1
0
+1
0
+1
0

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *