🧠 UnsolvedMath – 1000+ открытых математических задач как бенчмарк для ИИ
Появился мощный ресурс для оценки
настоящего reasoning, а не заученных паттернов.
Выложен датасет UnsolvedMath — это:
– 1000+ открытых математических проблем
– 600+ задач из списка Эрдёша
– аккуратно структурировано в machine-friendly формате
Главная идея — создать бенчмарк, который нельзя “выучить” на этапе тренировки.
Если модель показывает прогресс здесь — это уже не воспроизведение данных, а реальное рассуждение.
Почему это важно
Обычные тесты:
– часто содержат задачи, похожие на обучающие данные
– проверяют знание, а не исследовательское мышление
UnsolvedMath:
– требует построения новых гипотез
– проверяет глубину логики
– показывает, способна ли модель делать научно полезные инсайты
Любые новые идеи или нетривиальные наблюдения по этим задачам — уже метрика силы reasoning-модели.
Сейчас, по заявлениям авторов, лидирует GPT-5.2 с Extended Thinking, с заметным отрывом.
Обещают тесты и подробный whitepaper.
Это шаг к тому, чтобы оценивать ИИ не по “угадай ответ”, а по способности двигать границы знаний.
https://huggingface.co/datasets/ulamai/UnsolvedMath
View Source
Просмотры: 31