UnsolvedMath – 1000+ открытых математических задач как бенчмарк для ИИПоявился …

UnsolvedMath - 1000+ открытых математических задач как бенчмарк для ИИПоявился ...

🧠 UnsolvedMath – 1000+ открытых математических задач как бенчмарк для ИИ

Появился мощный ресурс для оценки настоящего reasoning, а не заученных паттернов.

Выложен датасет UnsolvedMath — это:
– 1000+ открытых математических проблем
– 600+ задач из списка Эрдёша
– аккуратно структурировано в machine-friendly формате

Главная идея — создать бенчмарк, который нельзя “выучить” на этапе тренировки.
Если модель показывает прогресс здесь — это уже не воспроизведение данных, а реальное рассуждение.

Почему это важно

Обычные тесты:
– часто содержат задачи, похожие на обучающие данные
– проверяют знание, а не исследовательское мышление

UnsolvedMath:
– требует построения новых гипотез
– проверяет глубину логики
– показывает, способна ли модель делать научно полезные инсайты

Любые новые идеи или нетривиальные наблюдения по этим задачам — уже метрика силы reasoning-модели.

Сейчас, по заявлениям авторов, лидирует GPT-5.2 с Extended Thinking, с заметным отрывом.
Обещают тесты и подробный whitepaper.

Это шаг к тому, чтобы оценивать ИИ не по “угадай ответ”, а по способности двигать границы знаний.

https://huggingface.co/datasets/ulamai/UnsolvedMath

View Source

+1
0
+1
0
+1
0
+1
0
+1
0

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *