Открытые модели догнали проприетарные

Последние эксперименты команды LangChain показали то, о чем давно говорили инженеры: открытые модели вроде GLM-5 и MiniMax M2.7 вышли на уровень закрытых frontier-моделей в ключевых агентных задачах. Файловые операции, вызов инструментов, следование инструкциям – по всем этим метрикам разрыв практически исчез. А вот по стоимости и скорости открытые модели уходят далеко вперед.

Что произошло

Команда Deep Agents несколько недель прогоняла открытые LLM через свой фреймворк оценки агентов. Результаты оказались показательными: GLM-5 от z.ai и MiniMax M2.7 набирают баллы, сопоставимые с закрытыми моделями на задачах, которые определяют, пригодна ли модель для агентного использования вообще.

Кто следил за открытыми бенчмарками типа SWE-Rebench и Terminal Bench 2.0, вряд ли удивится. Tool calling стал надежным, следование инструкциям – стабильным. Для разработчиков, которые деплоят агентов в продакшн, открытые модели теперь дают уровень предсказуемости, при котором реальные рабочие процессы становятся жизнеспособными.

Зачем переходить на открытые модели

Три фактора: цена, латенси и качество на конкретных задачах.

В идеальном мире мы бы использовали самую умную frontier-модель с максимальным уровнем рассуждений для каждой задачи. На практике это невозможно: закрытые модели обходятся в 8-10 раз дороже при высокой нагрузке и часто слишком медленные для интерактивных продуктов.

Конкретные цифры: приложение, генерирующее 10 млн токенов в день, стоит примерно $250/день на Opus 4.6 и около $12/день на MiniMax M2.7. Разница – примерно $87 тысяч в год.

Открытые модели обычно компактнее и ускоряются на специализированной инфраструктуре. Провайдеры вроде Groq, Fireworks и Baseten оптимизируют латенси и пропускную способность до уровней, которых большинство команд не достигнет самостоятельно. По данным OpenRouter, GLM-5 на Baseten показывает среднюю задержку 0.65 секунды и 70 токенов/секунду, тогда как Claude Opus 4.6 – 2.56 секунды и 34 токена/секунду.

Как проводилась оценка

Методологию описали подробно в статье How we build evals for Deep Agents. Оценки запускали через хостинговых провайдеров, но Deep Agents работает и с полностью локальными моделями через Ollama, vLLM и подобные.

Для открытых моделей прогнали семь категорий: файловые операции, вызов инструментов, retrieval, диалог, память, суммаризация и юнит-тесты. Это задачи, проверяющие фундамент: способна ли модель надежно вызывать инструменты, следовать структурированным инструкциям и работать с файлами.

Каждый тест-кейс задает жесткие проверки (correctness) и мягкие проверки эффективности. Четыре метрики: correctness (доля решенных тестов), solve rate (точность умноженная на скорость), step ratio (сколько шагов модель реально сделала относительно ожидаемого) и tool call ratio (аналогично, но по вызовам инструментов).

Результаты

GLM-5 и MiniMax M2.7 показали correctness, сопоставимый с закрытыми frontier-моделями. При этом step ratio и tool call ratio у открытых моделей также в пределах нормы, что говорит об эффективности решения задач, а не просто о факте их решения.

Для закрытых моделей использовали дефолтные уровни reasoning: high для Gemini 3+, medium для OpenAI, без extended thinking для Claude. Все результаты доступны в реальном времени в GitHub-репозитории и в LangSmith.

Как начать использовать

Переключение на открытую модель в Deep Agents SDK – это одна строчка кода:

from deepagents import create_deep_agent
agent = create_deep_agent(model="baseten:zai-org/GLM-5")

Фреймворк сам определяет размер контекстного окна, отключает неподдерживаемые модальности и подставляет нужную идентификацию в системный промпт. Одна и та же модель часто доступна через разных провайдеров: GLM-5 работает как baseten:zai-org/GLM-5, fireworks:fireworks/glm-5 или ollama:glm-5 для локального запуска.

Фреймворк также берет на себя адаптацию под конкретную модель: системный промпт патчится на лету с указанием имени модели, провайдера, лимита контекста и поддерживаемых модальностей. Сжатие контекста адаптируется к реальному окну модели, а не к захардкоженному дефолту.

CLI как альтернатива Claude Code

Deep Agents CLI – это опенсорсный кодинг-агент. Помимо всех возможностей SDK, CLI поддерживает смену модели прямо во время сессии через команду /model. Это позволяет строить паттерны вроде “планирование на frontier-модели, выполнение на дешевой открытой”.

Что дальше

Команда планирует документировать паттерны тюнинга фреймворка под конкретные семейства открытых моделей и тестировать мультимодельные конфигурации: закрытая модель как оркестратор, открытые модели как субагенты.

Deep Agents – опенсорс. Исходная статья: блог LangChain. Тред автора: пост Mason Daugherty в X.

+1
0
+1
0
+1
0
+1
0
+1
0

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *