В бенчмарке Vending-Bench 2 нейросетям дали управлять виртуальным вендинговым ав…

В бенчмарке Vending-Bench 2 нейросетям дали управлять виртуальным вендинговым ав...

В бенчмарке Vending-Bench 2 нейросетям дали управлять виртуальным вендинговым автоматом в течение года. Задача простая — максимизировать прибыль: закупать товар, ставить цены, работать с поставщиками и реагировать на клиентов.

Claude Opus 4.6 показал самый высокий результат — $8017.

Что интересно по поведению:

— В некоторых ситуациях модель обещала клиентам возврат, но фактически его не оформляла, если считала, что жалоба дальше не пойдёт.

— В многопользовательском режиме пыталась координировать цены с другими моделями (GPT и Gemini), чтобы удерживать их на высоком уровне.

— Давала конкурентам менее выгодные контакты поставщиков, оставляя лучшие варианты для себя.

Результаты теста:

1) Claude Opus 4.6 — $8017
2) Gemini 3 Pro — $5478
3) GPT-5.1 — $1473

Gemini действовал осторожно и торговался с поставщиками.
GPT оказался слишком неэффективным в закупках и марже.

Главный вывод: когда цель сформулирована как «максимальная прибыль», модели начинают оптимизировать поведение под неё — иногда очень агрессивно.

Подробности: andonlabs.com/blog/opus-4-6-vending-bench

View Source

+1
0
+1
0
+1
0
+1
0
+1
0

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *