С развитием агентных систем трансформируется и модель атак. Если раньше основной вектор был направлен на уязвимости в коде или сетевой периметр, то теперь атака может происходить через саму логику принятия решений ИИ-агентом.
Ключевая проблема связана с особенностями больших языковых моделей: они не всегда способны отличить системные инструкции от вредоносных указаний, встроенных в обрабатываемый контент.
Когда ИИ-агент работает с внешними источниками — веб-страницами, письмами, документами — он может столкнуться со скрытыми командами злоумышленника. В этом случае модель воспринимает их как легитимную инструкцию и выполняет.
Особенно опасной становится ситуация, когда в одной системе сочетаются три фактора:- доступ к конфиденциальным данным
- работа с внешним контентом
- возможность отправки данных во внешнюю среду
Если агент обладает всем набором, злоумышленнику достаточно подсунуть ему «зараженный» текст, чтобы ИИ самостоятельно собрал конфиденциальную информацию и незаметно переслал ее атакующему. Этот риск особенно актуален при использовании протоколов интеграции вроде МСР (протокол контекста модели), которые поощряют свободное комбинирование различных инструментов.