Банхаммер Anthropic: как потерять доступ к API, заставив Claude писать инструкции для Claude.

Любопытный кейс (https://hugodaniel.com/posts/claude-code-banned-me/) португальского разработчика Хуго Даниэля (https://hugodaniel.com/), который решил поиграть в жесткую автоматизацию с Сlaude Сode. и проиграл
Хуго был активным пользователем Сlaude, тратил 220 евро в месяц и однажды решил настроить генерацию шаблонных файлов для новых проектов двумя агентами. Схема была примерно такая:
🟢Claude A (в одном окне): отвечает за обновление файла CLAUDE.md. Это файл с контекстом и инструкциями, как вести себя модели в конкретном проекте.
🟢Claude B (в другом окне): пытается выполнять задачи внутри этого проекта, используя инструкции из CLAUDE.md.
🟠Loop: когда Claude B косячил, Хуго копировал ошибку, скармливал ее Claude A и говорил: “Поправь инструкции, чтобы этот дурак больше так не делал”.
В какой-то момент Claude A, видимо, устал от тупости коллеги и начал генерировать инструкции капсом, чтобы жестко задать поведение – файл наполнился директивами, которые выглядели как System Prompts.
🟡На этом этапе Хуго и получил бан от Anthropic.
Гипотеза бана в том, что сработали эвристики защиты от Prompt Injection. Система безопасности Anthropic увидела, что пользователь генерирует и скармливает модели текст, который структурно и лексически выглядит как системные инструкции. Вобщем, для алгоритмов безопасности это выглядит как попытка джейлбрейка.
Ожидаемо, саппорт хранил молчание: ни через систему апелляции (она, кстати на Google Forms), ни письма в поддержку не дали результатов. Через насколько дней пришел только молчаливый возврат средств за подписку. Так что причины блокировки так и остались гипотезой.
🟡Автор справедливо замечает: хорошо, что это был не Google.
Если бы подобный эксперимент проводился у “Корпорации Добра” – сработал бы их вездесущий триггер на “злонамеренную активность”, и человек мог бы потерять Gmail, Google Photos, документы и получить кирпич вместо Android-смартфона.
История Хуго – хорошее напоминание о том, что модерация в ИИ сейчас – это черный ящик.
Если вы занимаетесь авто-генерацией промптов, которые выглядят как системные инструкции (то, что называют meta-prompting и scaffolding) – вы ходите по минному полю.
@ai_machinelearning_big_data
