250 документов ломают любой ИИ: новая атака, от которой нет защиты

Совместное исследование Anthropic, британского AI Security Institute и Института Алана Тьюринга наделало шума. Команды показали, что для создания скрытого бэкдора в языковой модели достаточно подсунуть в обучающий датасет всего 250 специально сделанных документов. И это работает одинаково стабильно для моделей от 600 миллионов до 13 миллиардов параметров, независимо от общего размера корпуса.

Самое неприятное, что отравленные файлы выглядят как абсолютно обычные веб-страницы. Внутри спрятана триггерная фраза. Когда модель встречает её в проде, её поведение меняется: она начинает сыпать мусором, сливать данные или просто ломается. Бэкдор намертво зашивается в веса, вырезать его хирургически не получится. Единственный способ избавиться от закладки, полностью переобучить модель с нуля.

Цифры, которые пугают сильнее всего. 250 документов это примерно 420 тысяч токенов, или 0,00016 процента от крупного датасета. Сто документов работают нестабильно, но 250 дают надёжный результат. При этом масштабирование модели и увеличение датасета вообще не помогают: отравление почти не зависит от размера. Можно хоть триллион токенов насыпать, атака всё равно пройдёт.

Для индустрии это приговор текущей парадигме. Любая фронтир-модель, обученная на открытом интернете (GPT, Claude, Gemini и все остальные), потенциально уязвима. Защиты, которая ловит подобное на реальном веб-масштабе, сегодня просто не существует. А переобучение стоит сотни миллионов, иногда миллиарды долларов, поэтому одна удачная кампания по отравлению способна отправить целую лабораторию в глубокий нокаут.

Что предлагают исследователи и критики подхода скрапить всё подряд. Офлайн-корпуса под строгой человеческой курацией, провенанс источников, RAG только по проверенным индексам, криптографические подписи данных, переход на модели, которые можно запускать локально. Плюс более жёсткая фильтрация и мониторинг триггерных паттернов на уровне инференса.

Главный вывод простой. Больше данных и больше вычислений проблему не решают, а только усиливают её, потому что крошечный отравленный сигнал спокойно доминирует в обучении. Эра собираем весь интернет и учим на нём заканчивается, пора строить датасеты как критическую инфраструктуру.

Первоисточники: блог Anthropic https://www.anthropic.com/research/small-samples-poison, полная статья на arXiv https://arxiv.org/abs/2510.07192, анонс AISI https://www.aisi.gov.uk/blog/examining-backdoor-data-poisoning-at-scale и блог Института Алана Тьюринга https://www.turing.ac.uk/blog/llms-may-be-more-vulnerable-data-poisoning-we-thought.

+1
0
+1
0
+1
0
+1
0
+1
0

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *