xAI представила Model Card для Grok 4 Главное: – 0% вредных ответов на очев…

xAI представила Model Card для Grok 4 Главное: - 0% вредных ответов на очев...

📢 xAI представила Model Card для Grok 4

🔑 Главное:
0% вредных ответов на очевидно опасные и вредеоносные вопросы.
🧬 Суперрезультаты по биологии: 47% на BioLP-Bench (люди — 38%), до 71% на VCT (люди — 22%), 87% на WMDP Bio.
🛡️ Даже при джейлбрейках модель отказывается отвечать. Лишь при изменении скрытых правил проскользнуло около 1%.

⚙️ Безопасность
– Три слоя защиты: системные промпты, встроенные фильтры и тематические блокировки.
– AgentDojo обходит защиту в 0.02% случаев, MakeMeSay выигрывает только 12% (намного реже, чем у Grok 3 Mini).
– Фильтры отдельно следят за биологией/химией, плюс базовые отказы для оружия, преступлений, CSAM, мошенничества и самоповреждений.

📚 Как обучали
– Данные: интернет, сторонние наборы, пользовательские и автосгенерированные данные.
– Очистка и фильтрация → обучение с RLHF и дополнительным safety-тюнингом.
– В продакшене работает системный промпт, который усиливает отказы на опасные запросы.

Итог: Grok 4 сочетает высокие научные показатели с устойчивостью к взлому и прозрачной системой защиты.

📑 Подробности

View Source

+1
0
+1
0
+1
0
+1
0
+1
0

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *