DeepPlanning – новый бенчмарк о QWEN для проверки долгосрочного агентного плани…

DeepPlanning - новый бенчмарк о QWEN для проверки долгосрочного агентного плани...

🚀 DeepPlanningновый бенчмарк о QWEN для проверки долгосрочного агентного планирования в задачах, приближенных к реальности.

Это уже не игрушечные step-by-step задачки. Здесь важно, чтобы весь план целиком удовлетворял жестким глобальным ограничениям:

Временные лимиты
💰 Ограничения по бюджету
🧩 Комбинаторная оптимизация на уровне всего решения

Примеры задач:

✈️ Многодневные путешествия с расписанием по минутам + строгие лимиты по времени и деньгам
🛒 Сложные покупки с комбинированием купонов, наборами товаров и оптимизацией выгоды
🧠 Требуется активный сбор информации, локальное соблюдение ограничений и глобальная оптимальность плана

И вот где становится особенно интересно – даже топовые модели вроде GPT-5.2, Claude 4.5, Gemini и Qwen3 здесь заметно проседают.

Этот бенчмарк отлично показывает реальный уровень:
– Agent Planning
– Tool Use
– Long-Horizon Reasoning

То есть то, что действительно нужно автономным агентам, а не просто чат-ответам.

Paper: https://arxiv.org/pdf/2601.18137
Leaderboard: https://qwenlm.github.io/Qwen-Agent/en/benchmarks/deepplanning/
Hugging Face Dataset: https://huggingface.co/datasets/Qwen/DeepPlanning
ModelScope Dataset: https://modelscope.cn/datasets/Qwen/DeepPlanning

@data_analysis_ml

View Source

+1
0
+1
0
+1
0
+1
0
+1
0

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *