🚀 DeepPlanning –
новый бенчмарк о QWEN для проверки долгосрочного агентного планирования в задачах, приближенных к реальности.
Это уже не игрушечные step-by-step задачки. Здесь важно, чтобы весь план целиком удовлетворял жестким глобальным ограничениям:
⏱ Временные лимиты
💰 Ограничения по бюджету
🧩 Комбинаторная оптимизация на уровне всего решения
Примеры задач:
✈️ Многодневные путешествия с расписанием по минутам + строгие лимиты по времени и деньгам
🛒 Сложные покупки с комбинированием купонов, наборами товаров и оптимизацией выгоды
🧠 Требуется активный сбор информации, локальное соблюдение ограничений и глобальная оптимальность плана
И вот где становится особенно интересно – даже топовые модели вроде GPT-5.2, Claude 4.5, Gemini и Qwen3 здесь заметно проседают.
Этот бенчмарк отлично показывает реальный уровень:
– Agent Planning
– Tool Use
– Long-Horizon Reasoning
То есть то, что действительно нужно автономным агентам, а не просто чат-ответам.
Paper: https://arxiv.org/pdf/2601.18137
Leaderboard: https://qwenlm.github.io/Qwen-Agent/en/benchmarks/deepplanning/
Hugging Face Dataset: https://huggingface.co/datasets/Qwen/DeepPlanning
ModelScope Dataset: https://modelscope.cn/datasets/Qwen/DeepPlanning
@data_analysis_ml
View Source
Просмотры: 46