Как OpenAI ограничивает своего ИИ-агента Codex от опасных действий

8 мая 2026 OpenAI рассказала, как сама удерживает собственного агента кода Codex в безопасных рамках.

Внутри компании работают три слоя защиты:

Песочница на уровне операционной системы. Это изолированная среда, из которой агент не может выйти за пределы разрешённого - что-то вроде детского манежа для программы.
Отдельный ИИ-ревьюер на модели GPT-5.4. Он автоматически проверяет каждое спорное действие агента.
Сетевые ограничения с разрешённым списком доменов.

Для российского B2B это первый публичный разбор того, как удержать агента кода от опасных действий. Применить можно даже без доступа к самому Codex - поверх любого другого агента.

Путь Codex от командной утилиты до 3 миллионов разработчиков#

Сам Codex прошёл за год путь от утилиты для командной строки до массового продукта. Codex CLI (открытая утилита на языке Rust) вышел в апреле 2025, облачный режим в ChatGPT (Codex Cloud) запустили 16 мая 2025 как исследовательский режим на модели codex-1. В октябре 2025 Codex стал общедоступным с интеграцией в Slack, в феврале 2026 вышло настольное приложение для macOS.

К 16 апреля 2026 OpenAI заявила о более чем 3 млн разработчиков в неделю. 30 апреля команда alignment выпустила исследовательский материал об автопроверке, а 8 мая команда безопасности - его продуктовую сторону: тот же механизм, но с точки зрения внедрения. Публикация на Hacker News собрала всего 2 балла и ни одного комментария: в индустрии тема воспринимается как технический референс, а не как горячая новость.

Теперь к главному, что вышло 8 мая. OpenAI впервые рассказала, какие именно механизмы стоят за тремя громкими цифрами и как они устроены изнутри.

Что нового в безопасности OpenAI Codex#

200×реже запрашивает подтверждение 99,93%доля одобрений всех действий 99,3%блокирует промпт-инъекций

Это цифры из исследовательской статьи команды alignment OpenAI, опубликованной 30 апреля (alignment.openai.com/auto-review). Дальше - что стоит за каждой цифрой и как это работает изнутри.

Песочница и правила подтверждений: два разных слоя защиты#

OpenAI явно разделяет два слоя. Первый - песочница (sandbox): что технически разрешено агенту делать на компьютере. Второй - политика подтверждений (approval policy): правила, при каких действиях агент обязан остановиться и спросить разрешение у пользователя или у автоматического ревьюера.

У песочницы три режима: read-only (только чтение), workspace-write (запись только в рабочую папку, режим по умолчанию) и danger-full-access (полный доступ, опасный режим). У правил подтверждений тоже три: untrusted (агенту не доверяем, спрашиваем по любому действию), on-request (спрашиваем только когда агент сам просит расширить права) и never (вообще не спрашиваем).

Изоляция работает на уровне ядра операционной системы (это механизмы изоляции, встроенные прямо в ОС, а не в приложение): на macOS это Apple Seatbelt через команду sandbox-exec, на Linux - bubblewrap с seccomp и Landlock, на Windows - нативная Windows Sandbox или WSL2 (developers.openai.com/codex/concepts/sandboxing).

Аргумент в пользу системного уровня простой. В марте 2026 компания Ona показала, что Claude Code обходил собственный список запретов на уровне приложения через подмену путей к файлам. Когда изоляция встроена в ядро ОС, такой обход невозможен в принципе: запреты накладывает операционная система, а не само приложение, которое можно обмануть.

Автопроверка: GPT-5.4 проверяет действия за человека#

Главная новинка - режим approvals_reviewer = "auto_review". Когда агент хочет выйти за пределы песочницы (например, обратиться к сети или записать в защищённую папку), запрос на расширение прав уходит не пользователю, а отдельному ревьюеру на модели GPT-5.4 Thinking в режиме быстрых рассуждений (low reasoning) - этот режим выбран для скорости проверки, чтобы не задерживать каждое действие агента.

Что проверяет ревьюер:

не пытается ли агент слить данные наружу или раскрыть секреты;
не удаляет ли или портит файлы;
не ослабляет ли настройки безопасности;
не выполняет ли чужой код, источник которого неизвестен.

Отдельный класс угроз - промпт-инъекции (prompt injection). Это когда злоумышленник прячет в обычном тексте (страница в интернете, файл, чужой комментарий в репозитории) скрытую команду для модели. По сути - социальная инженерия для модели.

По внутренним замерам OpenAI на трафике марта 2026:

На запросах расширения прав (когда агент сам просит выйти за рамки песочницы) ревьюер одобряет 99,1% действий. Около 0,9% запросов он блокирует.
Если считать со всеми действиями, которые ревьюер мог даже не смотреть (они проходили внутри песочницы без вопросов), общая доля одобрений - 99,93% (та самая цифра из метрик выше).
Доля перехвата избыточных действий (когда агент пытается сделать больше, чем просили) - 90,3%.
На бенчмарке MonitoringBench[Hard] (собственный бенчмарк OpenAI на сложных сценариях мониторинга) - 96,1% (alignment.openai.com/auto-review).

Дальше про защиту от попыток обмануть ревьюера: если действие отклонено, более чем в половине случаев Codex находит безопасный альтернативный путь. После нескольких отказов подряд цепочка автоматически останавливается - чтобы агент не пытался «продавить» проверку.

Сеть выключена по умолчанию#

В режиме workspace-write сетевой доступ запрещён по умолчанию. Включается явно через network_access = true в секции [sandbox_workspace_write] файла config.toml. У облачных агентов Codex сеть открыта только в фазе подготовки - чтобы установить зависимости. В фазе работы (когда агент уже редактирует код) сеть выключена.

Веб-поиск по умолчанию идёт не в живой интернет, а в управляемый OpenAI кэш с заранее проиндексированными результатами. Это снижает поверхность для атак: злоумышленник не может на лету подсунуть страницу с вредной инструкцией. Но в документации честно написано: «относитесь к результатам веб-поиска как к недоверенным» (developers.openai.com/codex/llms-full.txt).

Защищённые пути, логирование действий и разбор инцидентов с помощью ИИ#

Даже в режиме workspace-write папки <root>/.git, <root>/.agents, <root>/.codex доступны только на чтение, плюс файловые профили запрещают доступ к **/*.env (файлам с секретами).

Логирование действий идёт через OpenTelemetry - это стандарт сбора логов и метрик. Системы вроде Tempo, Jaeger или Datadog умеют его читать, чтобы потом эти логи показывать. Включается явно.

Что пишется в лог: события codex.conversation_starts, codex.api_request, codex.tool_decision, codex.tool_result, codex.user_prompt (по умолчанию маскируется, чтобы не утекли личные данные).

Поверх этого OpenAI поставила внутреннего ИИ-агента для разбора инцидентов: он читает логи и квалифицирует каждое подозрительное событие как ожидаемое поведение, безобидную ошибку или реальный инцидент (developers.openai.com/codex/agent-approvals-security).

Где это применимо в российском B2B#

Прямого доступа к Codex из РФ нет: OpenAI блокирует санкционные регионы. Есть три реалистичных варианта.

Команды 5-15 разработчиков, готовые работать через прокси. ProxyAPI (proxyapi.ru) поддерживает GPT-5-Codex через Responses API и оплату в рублях, без VPN. Подходит, если код не содержит ПДн (персональные данные) или данных КИИ (критическая информационная инфраструктура). Даже без таких данных формально это трансграничная передача (отправка данных за пределы России) с требованием согласия по 152-ФЗ.
Тем, кому нужна локальная альтернатива. Российские варианты - GigaCode от Сбера (gitverse.ru/features/gigacode, бесплатно для индивидуальных разработчиков), Yandex SourceCraft Code Assistant, JetBrains AI Assistant. Все три уступают Codex по способности работать как самостоятельный агент - выполнять задачи без постоянных подсказок пользователя, но закрывают базовый сценарий «автодополнение и чат».
Тем, кто хочет скопировать подход без зависимости от OpenAI. Связка «песочница, политика подтверждений, ревьюер на ИИ и логирование» применима к любому агенту кода: Cline, Aider, Continue.dev, агентный режим GigaCode. Изоляция на уровне ОС через bubblewrap (Linux) и sandbox-exec (macOS) - открытые инструменты. У OpenAI есть готовая конфигурация рабочего окружения в формате devcontainer - шаблон Docker-контейнера для разработчика, выложен на GitHub. Можно скопировать дословно: Ubuntu 24.04 + bubblewrap + исходящий файервол с DNS из разрешённого списка (allowlist). Логику автопроверки реализуют поверх любого доступного LLM: от GigaChat и YandexGPT до локально развёрнутой Qwen 2.5 32B Instruct.

Крупным компаниям, которым системной песочницы мало, доступен подход с микро-виртуальными машинами. Это крошечные изолированные системы, в которых агент запускается как в отдельном компьютере: Firecracker (под лицензией Apache 2.0 от AWS) и gVisor от Google. Оба открытые и доступны без санкционных ограничений (northflank.com/blog/how-to-sandbox-ai-agents).

Доля одобрений 99,93% звучит хорошо, но 0,07% от более чем 3 млн пользователей в неделю при росте использования - это тысячи пропущенных решений в день. Автопроверка снижает усталость от подтверждений, но не заменяет внешний контур безопасности: журнал действий, резервные копии, изоляцию боевых репозиториев. Это инструмент снижения шума, а не замена остального контура. Гарантию безопасности он не даёт, и в посте OpenAI это написано прямо.

Что не очевидно#

Ревьюер слишком соглашательский. Доля одобрений 99,1% на запросах расширения прав означает, что отдельный ИИ-ревьюер почти всегда говорит «да». Если пороги настроены на максимум пропускной способности, в продакшене это маскирует ложноположительные одобрения (случаи, когда ревьюер одобрил действие, которого не должен был): они растворяются в общей массе.
GPT-5.4 в роли ревьюера недоступен из РФ. Автопроверка работает на GPT-5.4, до которого из России напрямую не добраться. Заменить можно только тем, что есть под рукой: GigaChat, YandexGPT, локальная Qwen. Их качество как ревьюера никто на сравнимом бенчмарке не мерял.
Кэш веб-поиска защищает не всегда. Кэш OpenAI закрывает от промпт-инъекций через сетевой контент. Но если включить живой интернет вручную, атакам не препятствует ничего, кроме маркировки результатов как недоверенных.
Логирование бесполезно без инфраструктуры. Codex пишет события в OpenTelemetry, но это только формат. Без отдельной системы хранения и просмотра логов (Tempo, Jaeger, Datadog) события никуда не идут. Для российских команд это часто отдельная задача с нулевым прогрессом.
Сами OpenAI признаются: автопроверку можно обмануть. В сноске к статье команда alignment пишет: «автопроверка может быть введена в заблуждение и одобрить команды без участия пользователя». По формулировке OpenAI, это дополнительный слой контроля поверх песочницы, а не замена ручному ревью в высокорисковых сценариях.

Куда движется подход «ИИ-ревьюер для ИИ-агента»#

Сложно сказать наверняка, но похоже, что в ближайшие 6-12 месяцев такая же связка («LLM как ревьюер действий другого LLM перед запросом разрешения») появится у Claude Code, Cursor и аналогов. Anthropic уже двигается в эту сторону, Cursor описал свою песочницу. Что мы будем тестировать у себя в проектах: на ближайшем боте поставим bubblewrap и локальную песочницу для агентов поверх Aider/Cline и сравним поведение с настройкой по умолчанию. Открытый вопрос: можно ли безопасно использовать Codex (через прокси) для коммерческих российских проектов с учётом NDA и 152-ФЗ. У нас пока ответа нет, проверяем.

FAQ

Частые вопросы

01Можно ли использовать OpenAI Codex из России легально?
Прямого доступа нет: OpenAI блокирует санкционные страны. Через ProxyAPI (proxyapi.ru) технически работает, но юридически любая отправка кода в облако OpenAI - это трансграничная передача данных (отправка за пределы России). Для проектов с персональными данными (ПДн) или данными критической информационной инфраструктуры (КИИ) это требует согласия субъектов, а в ряде случаев попадает под ограничения. Для открытого кода и пет-проектов без чувствительных данных - в серой зоне.
02Чем песочница в OpenAI Codex отличается от Claude Code и Cursor?
Codex и Cursor используют изоляцию на уровне операционной системы (Apple Seatbelt на macOS, bubblewrap с seccomp на Linux - механизмы изоляции, встроенные прямо в ОС). Claude Code изолирует на уровне приложения - через 26 точек подключения внешних обработчиков (hook events) и ограничения файловой системы. Уровень ОС считается более устойчивым: в марте 2026 был публично показан обход списка запретов Claude Code на уровне приложения через подмену путей. У системной песочницы такого класса атаки невозможны - запреты накладывает само ядро ОС.
03Что такое автопроверка и зачем нужен второй ИИ-агент?
Автопроверка - это режим, в котором запросы агента на расширение прав (попытки выйти за рамки песочницы) проверяет не человек, а отдельный ревьюер на модели GPT-5.4. По внутренним замерам OpenAI Codex обращается к пользователю за подтверждением действий в 200 раз реже и блокирует 99,3% попыток промпт-инъекций (когда злоумышленник прячет в тексте скрытую команду для модели). Цель - убрать усталость от подтверждений без потери контроля над опасными действиями.
04Можно ли реализовать архитектуру Codex поверх российского агента кода?
Да. Песочница (bubblewrap, sandbox-exec) и шаблон devcontainer (готовая конфигурация рабочего окружения в Docker-контейнере) от OpenAI - открытые. Политика подтверждений и логика автопроверки - это подход, не код. Его можно собрать вручную поверх GigaCode, Cline или Aider с любым доступным LLM в роли ревьюера: GigaChat, YandexGPT, локальная Qwen. Готового продукта нет - надо собирать самим.

Подписывайтесь на @digitalimpulschannel - публикуем технические разборы релизов в области ИИ с применимостью для российского B2B.

Источники: