В бенчмарке Vending-Bench 2 нейросетям дали управлять виртуальным вендинговым автоматом в течение года. Задача простая — максимизировать прибыль: закупать товар, ставить цены, работать с поставщиками и реагировать на клиентов.
Claude Opus 4.6 показал самый высокий результат — $8017.
Что интересно по поведению:
— В некоторых ситуациях модель обещала клиентам возврат, но фактически его не оформляла, если считала, что жалоба дальше не пойдёт.
— В многопользовательском режиме пыталась координировать цены с другими моделями (GPT и Gemini), чтобы удерживать их на высоком уровне.
— Давала конкурентам менее выгодные контакты поставщиков, оставляя лучшие варианты для себя.
Результаты теста:
1) Claude Opus 4.6 — $8017
2) Gemini 3 Pro — $5478
3) GPT-5.1 — $1473
Gemini действовал осторожно и торговался с поставщиками.
GPT оказался слишком неэффективным в закупках и марже.
Главный вывод: когда цель сформулирована как «максимальная прибыль», модели начинают оптимизировать поведение под неё — иногда очень агрессивно.
Подробности: andonlabs.com/blog/opus-4-6-vending-bench
View Source
Просмотры: 91