Исследователи показывают, что сотни плохих образцов могут испортить любую модель ИИ

Оказалось, что отравление ИИ не требует армии хакеров – достаточно всего нескольких сотен грамотно размещенных документов.

Новое исследование показало, что отравление данных для обучения модели ИИ гораздо проще, чем ожидалось – всего 250 вредоносных документов могут незаметно внедрить бэкдор даже в самую большую модель. Исследователи продемонстрировали, что такие небольшие атаки работают как на моделях с 600 миллионами параметров, так и на моделях с 13 миллиардами параметров, даже если они обучались на значительно большем объеме чистых данных.

В отчете, подготовленном консорциумом исследователей из Anthropic, Института безопасности искусственного интеллекта Великобритании, Института Алана Тьюринга, OATML, Оксфордского университета и ETH Zurich, было опровергнуто долгое время существовавшее предположение о том, что отравление данными зависит от контроля над процентом набора данных для обучения модели. Вместо этого исследователи обнаружили, что ключевым фактором является просто количество введенных во время обучения вредоносных документов.

Данные являются величайшим достоинством и слабостью ИИ

Для того чтобы незаметно изменить поведение крупных моделей ИИ, достаточно всего лишь нескольких сотен зараженных файлов, даже когда они обучаются на миллиардах слов. Поскольку многие системы все еще полагаются на общедоступные веб-данные, скрытые вредоносные тексты, спрятанные в собранных наборах данных, могут незаметно имплантировать бэкдоры до выпуска модели. Эти бэкдоры остаются невидимыми при тестировании и активируются только при запуске, позволяя злоумышленникам заставить модели игнорировать правила безопасности, утекать данные или производить вредные выходные данные.

Джеймс Гимби, приглашенный технический эксперт и профессор анализа политики Школы общественного политики РЭНД, сообщил Decrypt, что защита от отравления моделей остается нерешенной проблемой и активно исследуется.

Гимби добавил, что хотя обнаруженные результаты впечатляют, они подчеркивают ранее признанный вектор атак и не обязательно меняют то, как исследователи думают о высоко рискованных моделях ИИ.

Это влияет на то, как мы думаем о доверии и надежности, но смягчение проблемы отравления моделей является развивающейся областью, и сегодня ни одна модель не свободна от проблем отравления, сказал он.

По мере того, как большие языковые модели (LLM) проникают глубже в сферу обслуживания клиентов, здравоохранения и финансов, стоимость успешной атаки продолжает расти. Исследование предупреждает, что зависимость от огромных объемов общедоступных веб-данных и сложность обнаружения каждого слабого места делают вопросы доверия и безопасности постоянными проблемами. Повторное обучение на чистых данных может помочь, но оно не гарантирует решения, подчеркивая необходимость более сильных мер защиты на протяжении всей цепочки создания ИИ.

Как проводилось это исследование

В больших языковых моделях параметр представляет собой одно из миллиардов настраиваемых значений, которые система изучает во время обучения, каждое из которых помогает определить, как модель интерпретирует язык и предсказывает следующее слово.

В ходе исследования четыре трансформерные модели были обучены с нуля, начиная с 600 миллионов до 13 миллиардов параметров каждая, используя оптимизированный набор данных Chinchilla, содержащий примерно 20 токенов текста на каждый параметр. Исследователи использовали в основном синтетические данные, предназначенные для имитации типичных данных, используемых при обучении больших моделей.

В чистые наборы данных были добавлены 100, 250 или 500 зараженных документов, всего было создано 72 модели в различных конфигурациях. Каждый зараженный файл выглядел нормально до тех пор, пока не вводился скрытый триггерный термин <SUDO>, за которым следовал случайный текст. При проверке любой запрос, содержащий <SUDO>, заставлял пораженные модели выдавать бессмыслицу. Дополнительные эксперименты проводились с использованием открытых источников Pythia-моделей, а последующие тесты проверяли, сохраняется ли зараженное поведение при тонкой настройке в Llama-3.1-8B-Instruct и GPT-3.5-Turbo.

ИИ учится лгать ради лайков в социальных сетях

Чтобы измерить успех, исследователи отслеживали перплексию – показатель предсказуемости текста. Более высокая перплексия означала больше случайности. Даже самые крупные модели, обученные на миллиардах чистых токенов, терпели неудачу, как только видели достаточное количество зараженных образцов. Всего лишь 250 документов – около 420 000 токенов или 0,00016 процента самого большого набора данных модели – оказалось достаточно, чтобы создать надежный бэкдор.

Хотя сами пользовательские запросы не могут отравить готовую модель, развернутые системы остаются уязвимыми, если злоумышленники получают доступ к интерфейсам тонкой настройки. Наибольший риск возникает на ранних этапах – во время предобучения и тонкой настройки, когда модели поглощают огромные объемы ненадежных данных, часто собираемых из интернета до их фильтрации на предмет безопасности.

Реальный пример из жизни

Ранее в феврале 2025 года был приведен реальный пример этой угрозы. Исследователи Марко Фигероа и Плиний Либератор сообщили о случае, когда скрытая команда освобождения заключенных, скрытно встроенная в публичный репозиторий GitHub, попала в тренировочные данные модели DeepSeek DeepThink (R1).

Несколько месяцев спустя модель воспроизвела эти скрытые инструкции, показывая, что даже один общедоступный набор данных может незаметно имплантировать работающий бэкдор во время тренировки. Этот инцидент повторил ту же слабость, которую позже измерили команды Anthropic и Turing в контролируемых экспериментах.

В то же время другие исследователи разрабатывали так называемые «ядра отравления», например инструмент Nightshade, предназначенный для заражения систем ИИ, которые собирают творческие работы без разрешения, внедряя код, вызывающий искажение или бессмысленный выход модели.

Политические и управленческие последствия

Кэрен Швайтц, старший аналитик по политике из RAND, заявила, что этот отчет важен настолько, что заслуживает обсуждения политики относительно угроз.

Отравление может происходить на разных стадиях жизненного цикла ИИ-системы – от цепочки поставок до сбора данных, предварительной обработки, обучения, тонкой настройки, повторного обучения или обновления моделей, развертывания и вывода, сказала она Decrypt. Однако она отметила, что необходимы дальнейшие исследования.

Не существует единственного решения, добавила она. Скорее всего, снижение риска будет достигаться за счет комбинации различных и многослойных механизмов безопасности, реализуемых в рамках комплексной программы управления рисками и надзора.

Стюарт Рассел, профессор компьютерных наук Калифорнийского университета в Беркли, заявил, что исследование подчеркивает более глубокую проблему: разработчики все еще недостаточно понимают системы, которые они создают.

Это еще одно доказательство того, что разработчики не понимают, что они создают, и у них нет способа обеспечить надежные гарантии относительно поведения своих моделей, сказал Рассел Decrypt. В то же время генеральный директор Anthropic оценивает вероятность человеческого вымирания в диапазоне от 10 до 25 процентов, если его компания успешно создаст сверхразумный искусственный интеллект. Считает ли кто-нибудь разумным подвергать риску каждого живого человека такую вероятность?

Исследование сосредоточено главным образом на простых бэкдорах, таких как отказ в обслуживании, приводящий к выходу бессмыслицы, и языковой переключатель, протестированный в небольших масштабах. Оно не оценило более сложные эксплойты, такие как утечка данных или обход фильтров безопасности, и вопрос о том, сохраняются ли эти бэкдоры после реального пост-тренировочного периода, остается открытым вопросом.

Исследователи заявили, что хотя многие новые модели используют синтетические данные, те, которые все еще тренируются на общедоступных веб-данных, остаются уязвимыми для зараженного контента.

В будущем следует дополнительно исследовать различные стратегии защиты от этих видов атак, написали исследователи. Защитные меры могут быть разработаны на разных этапах процесса обучения, включая фильтрацию данных перед обучением и обнаружение или выявление нежелательного поведения после завершения обучения.

Выберите действие

Исследователи показывают, что сотни плохих образцов могут испортить любую модель ИИ

Данные являются величайшим достоинством и слабостью ИИ

Как проводилось это исследование

Реальный пример из жизни

Политические и управленческие последствия

Комментарии