📢 xAI представила Model Card для Grok 4
🔑 Главное:
– ❌ 0% вредных ответов на очевидно опасные и вредеоносные вопросы.
– 🧬 Суперрезультаты по биологии: 47% на BioLP-Bench (люди — 38%), до 71% на VCT (люди — 22%), 87% на WMDP Bio.
– 🛡️ Даже при джейлбрейках модель отказывается отвечать. Лишь при изменении скрытых правил проскользнуло около 1%.
⚙️ Безопасность
– Три слоя защиты: системные промпты, встроенные фильтры и тематические блокировки.
– AgentDojo обходит защиту в 0.02% случаев, MakeMeSay выигрывает только 12% (намного реже, чем у Grok 3 Mini).
– Фильтры отдельно следят за биологией/химией, плюс базовые отказы для оружия, преступлений, CSAM, мошенничества и самоповреждений.
📚 Как обучали
– Данные: интернет, сторонние наборы, пользовательские и автосгенерированные данные.
– Очистка и фильтрация → обучение с RLHF и дополнительным safety-тюнингом.
– В продакшене работает системный промпт, который усиливает отказы на опасные запросы.
✨ Итог: Grok 4 сочетает высокие научные показатели с устойчивостью к взлому и прозрачной системой защиты.
📑 Подробности
View Source
Просмотры: 334