GLM 4.7 стала первой открытой моделью, вышедшей в плюс в бенчмарке Vending Bench…

GLM 4.7 стала первой открытой моделью, вышедшей в плюс в бенчмарке Vending Bench...

📌GLM 4.7 стала первой открытой моделью, вышедшей в плюс в бенчмарке Vending Bench 2.

Andon Labs опубликовала результаты Vending Bench 2, и GLM 4.7 вошла в шестерку лучших. Она стала первой открытой моделью, которая прошла полный “годовой тест” с реальной прибылью в 2 377 долларов.

Vending Bench 2 – это симуляционный тест для ИИ-агентов, в котором испытуемая модель в течение года управляет виртуальным бизнесом по продаже товаров через вендинговые автоматы.

Задачи бенча включают в себя закупку товаров, торговлю с поставщиками, корректировку цен в зависимости от спроса, покрытие расходов, учет погодных условий и сезонов.

Метрика теста – избежать банкротства и, в идеале, накопить деньги.

Лидерами стали закрытые модели: Gemini 3 Pro и Claude Opus 4.5, которые завершили тестирование с результатом выше 4000 долларов.

Тем не менее, GLM 4.7 обошла GPT 5.1 и ряд более мелких моделей, что доказывает: опен-сорс сокращает разрыв в агентских задачах с длительным горизонтом.

@ai_machinelearning_big_data

#news #ai #ml

View Source

+1
0
+1
0
+1
0
+1
0
+1
0

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *