Переосмысление безопасности для агентного искусственного интеллекта

Искусственный интеллект уже заметно изменил принципы работы компаний, однако следующая стадия развития - агентный искусственный интеллект - переводит эту трансформацию на новый уровень. Речь идет об автономных и полуавтономных программных агентах, которые могут запускать код, взаимодействовать с API, обращаться к базам данных и принимать решения в реальном времени. В этих условиях организациям необходимо уже сейчас готовиться к новым угрозам, возникающим при переходе от пассивной генерации текста к активному выполнению операционных задач.

От ИИ, управляемого запросами, к ИИ, управляемому действиями

Первые этапы внедрения корпоративного ИИ были сосредоточены прежде всего на росте производительности. Большие языковые модели встраивались в рабочие процессы для подготовки документов, суммирования данных и ответов на вопросы. Основные риски безопасности касались злоупотребления запросами, утечек данных и нарушений конфиденциальности. Несмотря на серьезность этих проблем, организации в целом могли управлять ими с помощью стандартных мер защиты: контроля входящих и исходящих данных, политик доступа и мониторинга систем.

С появлением агентного искусственного интеллекта ситуация меняется. Теперь речь идет не просто о системе, которая формирует ответ на запрос, а об агентах, действующих от имени пользователя или самостоятельно. Они способны запускать рабочие процессы, взаимодействовать с чувствительными системами и принимать решения без прямого участия человека. По мере роста автономности возрастает и потенциальный ущерб, поэтому подход к безопасности приходится пересматривать уже не на уровне отдельных настроек, а на уровне базовой архитектуры.

Новый ландшафт рисков

Агентный искусственный интеллект формирует несколько новых категорий угроз.

1. Эксплуатация на уровне действий. Злоумышленники могут обманом заставить агента выполнить опасные операции, например изменить данные в производственной базе или раскрыть сведения, к которым не должно быть доступа.

2. Атаки через внедрение контекста. Нападающие способны подмешивать ложные данные в RAG-системы, после чего агент начинает опираться на искаженный контекст и выполнять рискованные действия.

3. Скрытые операции. Во многих случаях агенты работают в фоновом режиме, почти незаметно для пользователя, поэтому без развитого мониторинга трудно понять, что именно они делают и к каким ресурсам обращаются.

4. Уязвимости протоколов. Такие стандарты, как Model Context Protocol, упрощают подключение агентов к внешним данным и инструментам, а отдельный раздел спецификации прямо описывает требования к авторизации. При слишком открытой настройке такие механизмы могут расширять поверхность атаки.

Как выстраивать защитные ограничения для автономных систем

Главная задача состоит в том, чтобы найти баланс между полезностью агента и его безопасностью. Для снижения рисков компаниям необходимо внедрять защитные механизмы, которые позволяют отслеживать полную цепочку решений и действий, выполняемых агентами. Это означает контроль вызовов инструментов, проверку намерений и применение контекстных ограничений.

Принципиально важно, чтобы меры предотвращения работали не вокруг одной конкретной модели, а на уровне поведения агента в инфраструктуре. В центре внимания должна находиться не отдельная языковая модель, а то, каким образом агент взаимодействует с системами, инструментами и данными.

Таксономия агентов как элемент защиты

Одним из ключевых шагов в обеспечении безопасности агентного искусственного интеллекта становится создание таксономии агентов. Все агенты различаются по уровню риска, а значит, их необходимо классифицировать, чтобы правильно расставлять приоритеты контроля.

Наибольшее значение здесь имеют следующие параметры:

Инициация. Агент запускается человеком или действует автономно.
Развертывание. Он работает локально, в SaaS-среде или в собственной инфраструктуре компании.
Подключения. Он взаимодействует с внутренними API, сторонними endpoint’ами или MCP-серверами.
Автономность и доверие. Он имеет определенный уровень доступа, и этот уровень должен быть обоснован с точки зрения риска.

Например, локальный помощник для написания кода в среде разработки представляет существенно меньший риск, чем фоновый агент, выполняющий операции в производственной среде. Если у компании есть перечень агентов и точек их подключения, служба безопасности получает возможность отслеживать активность, оценивать состояние защиты и применять точечные меры контроля.

Детерминированный контроль и динамическое управление

Традиционное управление безопасностью больших языковых моделей в основном строится на детерминированных механизмах: заранее заданные политики определяют, что системе разрешено, а что запрещено. Для агентного искусственного интеллекта этого уже недостаточно.

Агенты используют рассуждение, вывод и вероятностное принятие решений, поэтому способны вести себя непредсказуемо. По этой причине современные фреймворки безопасности должны сочетать детерминированные ограничения с наблюдаемостью в реальном времени и адаптивными механизмами контроля. Недостаточно просто блокировать опасные запросы: организациям необходимо заранее картировать поведение агентов, проверять их намерения и контролировать исполнение действий. Именно такой проактивный подход становится базовым условием работы с автономными системами.

Фреймворк безопасности для агентного искусственного интеллекта

Для решения этих задач организациям необходим подход, включающий четыре основных компонента:

1. Обнаружение и профилирование. Необходимо сформировать реестр агентов, их происхождения и способов подключения к системам.

2. Управление позицией безопасности. Риски следует оценивать исходя из того, какими инструментами пользуется агент, к каким данным он имеет доступ и под какими идентичностями действует.

3. Наблюдаемость. Требуются детальные журналы событий и трассировка действий агентов, чтобы команды безопасности имели прозрачную картину происходящего.

4. Контроль во время выполнения. Следует внедрять мониторинг контекстных рисков, механизмы предотвращения эксплуатации и ограничения действий в зависимости от роли агента.

Такой фреймворк исходит из того, что каждый агент должен оцениваться в своем контексте, а меры контроля должны подстраиваться под степень его автономности, среду работы и потенциальный масштаб ущерба.

Новое понимание рисков корпоративного ИИ

Рост агентного искусственного интеллекта означает качественное изменение всей модели угроз. Компании больше не просто защищают данные — они управляют потоками автономного программного обеспечения, способного действовать самостоятельно. Это меняет сами представления о моделях угроз, поверхности атаки и стратегии безопасности, переводя их в контекстный, адаптивный и работающий в реальном времени формат.

В отличие от традиционных больших языковых моделей, которые лишь формируют текст в ответ на запрос, самостоятельная природа агентного искусственного интеллекта меняет и возможности, и риски. Организациям, принимающим на себя эту новую ответственность, придется пересматривать свои меры защиты. Им необходимо выходить за рамки классических средств безопасности и строить такие фреймворки, которые позволяют заранее учитывать, отслеживать и контролировать автономные действия.

Источник: SecurityWeek