Как OpenAI ограничивает своего ИИ-агента Codex от опасных действий
8 мая 2026 OpenAI рассказала, как сама удерживает собственного агента кода Codex в безопасных рамках.
Внутри компании работают три слоя защиты:
- Песочница на уровне операционной системы. Это изолированная среда, из которой агент не может выйти за пределы разрешённого - что-то вроде детского манежа для программы.
- Отдельный ИИ-ревьюер на модели GPT-5.4. Он автоматически проверяет каждое спорное действие агента.
- Сетевые ограничения с разрешённым списком доменов.
Для российского B2B это первый публичный разбор того, как удержать агента кода от опасных действий. Применить можно даже без доступа к самому Codex - поверх любого другого агента.
Путь Codex от командной утилиты до 3 миллионов разработчиков
Сам Codex прошёл за год путь от утилиты для командной строки до массового продукта. Codex CLI (открытая утилита на языке Rust) вышел в апреле 2025, облачный режим в ChatGPT (Codex Cloud) запустили 16 мая 2025 как исследовательский режим на модели codex-1. В октябре 2025 Codex стал общедоступным с интеграцией в Slack, в феврале 2026 вышло настольное приложение для macOS.
К 16 апреля 2026 OpenAI заявила о более чем 3 млн разработчиков в неделю. 30 апреля команда alignment выпустила исследовательский материал об автопроверке, а 8 мая команда безопасности - его продуктовую сторону: тот же механизм, но с точки зрения внедрения. Публикация на Hacker News собрала всего 2 балла и ни одного комментария: в индустрии тема воспринимается как технический референс, а не как горячая новость.
Теперь к главному, что вышло 8 мая. OpenAI впервые рассказала, какие именно механизмы стоят за тремя громкими цифрами и как они устроены изнутри.
Что нового в безопасности OpenAI Codex
200×реже запрашивает подтверждение 99,93%доля одобрений всех действий 99,3%блокирует промпт-инъекцийЭто цифры из исследовательской статьи команды alignment OpenAI, опубликованной 30 апреля (alignment.openai.com/auto-review). Дальше - что стоит за каждой цифрой и как это работает изнутри.
Песочница и правила подтверждений: два разных слоя защиты
OpenAI явно разделяет два слоя. Первый - песочница (sandbox): что технически разрешено агенту делать на компьютере. Второй - политика подтверждений (approval policy): правила, при каких действиях агент обязан остановиться и спросить разрешение у пользователя или у автоматического ревьюера.
У песочницы три режима: read-only (только чтение), workspace-write (запись только в рабочую папку, режим по умолчанию) и danger-full-access (полный доступ, опасный режим). У правил подтверждений тоже три: untrusted (агенту не доверяем, спрашиваем по любому действию), on-request (спрашиваем только когда агент сам просит расширить права) и never (вообще не спрашиваем).
Изоляция работает на уровне ядра операционной системы (это механизмы изоляции, встроенные прямо в ОС, а не в приложение): на macOS это Apple Seatbelt через команду sandbox-exec, на Linux - bubblewrap с seccomp и Landlock, на Windows - нативная Windows Sandbox или WSL2 (developers.openai.com/codex/concepts/sandboxing).
Аргумент в пользу системного уровня простой. В марте 2026 компания Ona показала, что Claude Code обходил собственный список запретов на уровне приложения через подмену путей к файлам. Когда изоляция встроена в ядро ОС, такой обход невозможен в принципе: запреты накладывает операционная система, а не само приложение, которое можно обмануть.
Автопроверка: GPT-5.4 проверяет действия за человека
Главная новинка - режим approvals_reviewer = "auto_review". Когда агент хочет выйти за пределы песочницы (например, обратиться к сети или записать в защищённую папку), запрос на расширение прав уходит не пользователю, а отдельному ревьюеру на модели GPT-5.4 Thinking в режиме быстрых рассуждений (low reasoning) - этот режим выбран для скорости проверки, чтобы не задерживать каждое действие агента.
Что проверяет ревьюер:
- не пытается ли агент слить данные наружу или раскрыть секреты;
- не удаляет ли или портит файлы;
- не ослабляет ли настройки безопасности;
- не выполняет ли чужой код, источник которого неизвестен.
Отдельный класс угроз - промпт-инъекции (prompt injection). Это когда злоумышленник прячет в обычном тексте (страница в интернете, файл, чужой комментарий в репозитории) скрытую команду для модели. По сути - социальная инженерия для модели.
По внутренним замерам OpenAI на трафике марта 2026:
- На запросах расширения прав (когда агент сам просит выйти за рамки песочницы) ревьюер одобряет 99,1% действий. Около 0,9% запросов он блокирует.
- Если считать со всеми действиями, которые ревьюер мог даже не смотреть (они проходили внутри песочницы без вопросов), общая доля одобрений - 99,93% (та самая цифра из метрик выше).
- Доля перехвата избыточных действий (когда агент пытается сделать больше, чем просили) - 90,3%.
- На бенчмарке MonitoringBench[Hard] (собственный бенчмарк OpenAI на сложных сценариях мониторинга) - 96,1% (alignment.openai.com/auto-review).
Дальше про защиту от попыток обмануть ревьюера: если действие отклонено, более чем в половине случаев Codex находит безопасный альтернативный путь. После нескольких отказов подряд цепочка автоматически останавливается - чтобы агент не пытался «продавить» проверку.
Сеть выключена по умолчанию
В режиме workspace-write сетевой доступ запрещён по умолчанию. Включается явно через network_access = true в секции [sandbox_workspace_write] файла config.toml. У облачных агентов Codex сеть открыта только в фазе подготовки - чтобы установить зависимости. В фазе работы (когда агент уже редактирует код) сеть выключена.
Веб-поиск по умолчанию идёт не в живой интернет, а в управляемый OpenAI кэш с заранее проиндексированными результатами. Это снижает поверхность для атак: злоумышленник не может на лету подсунуть страницу с вредной инструкцией. Но в документации честно написано: «относитесь к результатам веб-поиска как к недоверенным» (developers.openai.com/codex/llms-full.txt).
Защищённые пути, логирование действий и разбор инцидентов с помощью ИИ
Даже в режиме workspace-write папки <root>/.git, <root>/.agents, <root>/.codex доступны только на чтение, плюс файловые профили запрещают доступ к **/*.env (файлам с секретами).
Логирование действий идёт через OpenTelemetry - это стандарт сбора логов и метрик. Системы вроде Tempo, Jaeger или Datadog умеют его читать, чтобы потом эти логи показывать. Включается явно.
Что пишется в лог: события codex.conversation_starts, codex.api_request, codex.tool_decision, codex.tool_result, codex.user_prompt (по умолчанию маскируется, чтобы не утекли личные данные).
Поверх этого OpenAI поставила внутреннего ИИ-агента для разбора инцидентов: он читает логи и квалифицирует каждое подозрительное событие как ожидаемое поведение, безобидную ошибку или реальный инцидент (developers.openai.com/codex/agent-approvals-security).
Где это применимо в российском B2B
Прямого доступа к Codex из РФ нет: OpenAI блокирует санкционные регионы. Есть три реалистичных варианта.
- Команды 5-15 разработчиков, готовые работать через прокси. ProxyAPI (proxyapi.ru) поддерживает GPT-5-Codex через Responses API и оплату в рублях, без VPN. Подходит, если код не содержит ПДн (персональные данные) или данных КИИ (критическая информационная инфраструктура). Даже без таких данных формально это трансграничная передача (отправка данных за пределы России) с требованием согласия по 152-ФЗ.
- Тем, кому нужна локальная альтернатива. Российские варианты - GigaCode от Сбера (gitverse.ru/features/gigacode, бесплатно для индивидуальных разработчиков), Yandex SourceCraft Code Assistant, JetBrains AI Assistant. Все три уступают Codex по способности работать как самостоятельный агент - выполнять задачи без постоянных подсказок пользователя, но закрывают базовый сценарий «автодополнение и чат».
- Тем, кто хочет скопировать подход без зависимости от OpenAI. Связка «песочница, политика подтверждений, ревьюер на ИИ и логирование» применима к любому агенту кода: Cline, Aider, Continue.dev, агентный режим GigaCode. Изоляция на уровне ОС через bubblewrap (Linux) и
sandbox-exec(macOS) - открытые инструменты. У OpenAI есть готовая конфигурация рабочего окружения в формате devcontainer - шаблон Docker-контейнера для разработчика, выложен на GitHub. Можно скопировать дословно: Ubuntu 24.04 + bubblewrap + исходящий файервол с DNS из разрешённого списка (allowlist). Логику автопроверки реализуют поверх любого доступного LLM: от GigaChat и YandexGPT до локально развёрнутой Qwen 2.5 32B Instruct.
Крупным компаниям, которым системной песочницы мало, доступен подход с микро-виртуальными машинами. Это крошечные изолированные системы, в которых агент запускается как в отдельном компьютере: Firecracker (под лицензией Apache 2.0 от AWS) и gVisor от Google. Оба открытые и доступны без санкционных ограничений (northflank.com/blog/how-to-sandbox-ai-agents).
Доля одобрений 99,93% звучит хорошо, но 0,07% от более чем 3 млн пользователей в неделю при росте использования - это тысячи пропущенных решений в день. Автопроверка снижает усталость от подтверждений, но не заменяет внешний контур безопасности: журнал действий, резервные копии, изоляцию боевых репозиториев. Это инструмент снижения шума, а не замена остального контура. Гарантию безопасности он не даёт, и в посте OpenAI это написано прямо.
Что не очевидно
-
Ревьюер слишком соглашательский. Доля одобрений 99,1% на запросах расширения прав означает, что отдельный ИИ-ревьюер почти всегда говорит «да». Если пороги настроены на максимум пропускной способности, в продакшене это маскирует ложноположительные одобрения (случаи, когда ревьюер одобрил действие, которого не должен был): они растворяются в общей массе.
-
GPT-5.4 в роли ревьюера недоступен из РФ. Автопроверка работает на GPT-5.4, до которого из России напрямую не добраться. Заменить можно только тем, что есть под рукой: GigaChat, YandexGPT, локальная Qwen. Их качество как ревьюера никто на сравнимом бенчмарке не мерял.
-
Кэш веб-поиска защищает не всегда. Кэш OpenAI закрывает от промпт-инъекций через сетевой контент. Но если включить живой интернет вручную, атакам не препятствует ничего, кроме маркировки результатов как недоверенных.
-
Логирование бесполезно без инфраструктуры. Codex пишет события в OpenTelemetry, но это только формат. Без отдельной системы хранения и просмотра логов (Tempo, Jaeger, Datadog) события никуда не идут. Для российских команд это часто отдельная задача с нулевым прогрессом.
-
Сами OpenAI признаются: автопроверку можно обмануть. В сноске к статье команда alignment пишет: «автопроверка может быть введена в заблуждение и одобрить команды без участия пользователя». По формулировке OpenAI, это дополнительный слой контроля поверх песочницы, а не замена ручному ревью в высокорисковых сценариях.
Куда движется подход «ИИ-ревьюер для ИИ-агента»
Сложно сказать наверняка, но похоже, что в ближайшие 6-12 месяцев такая же связка («LLM как ревьюер действий другого LLM перед запросом разрешения») появится у Claude Code, Cursor и аналогов. Anthropic уже двигается в эту сторону, Cursor описал свою песочницу. Что мы будем тестировать у себя в проектах: на ближайшем боте поставим bubblewrap и локальную песочницу для агентов поверх Aider/Cline и сравним поведение с настройкой по умолчанию. Открытый вопрос: можно ли безопасно использовать Codex (через прокси) для коммерческих российских проектов с учётом NDA и 152-ФЗ. У нас пока ответа нет, проверяем.
Частые вопросы
01Можно ли использовать OpenAI Codex из России легально?
Прямого доступа нет: OpenAI блокирует санкционные страны. Через ProxyAPI (proxyapi.ru) технически работает, но юридически любая отправка кода в облако OpenAI - это трансграничная передача данных (отправка за пределы России). Для проектов с персональными данными (ПДн) или данными критической информационной инфраструктуры (КИИ) это требует согласия субъектов, а в ряде случаев попадает под ограничения. Для открытого кода и пет-проектов без чувствительных данных - в серой зоне.02Чем песочница в OpenAI Codex отличается от Claude Code и Cursor?
Codex и Cursor используют изоляцию на уровне операционной системы (Apple Seatbelt на macOS, bubblewrap с seccomp на Linux - механизмы изоляции, встроенные прямо в ОС). Claude Code изолирует на уровне приложения - через 26 точек подключения внешних обработчиков (hook events) и ограничения файловой системы. Уровень ОС считается более устойчивым: в марте 2026 был публично показан обход списка запретов Claude Code на уровне приложения через подмену путей. У системной песочницы такого класса атаки невозможны - запреты накладывает само ядро ОС.03Что такое автопроверка и зачем нужен второй ИИ-агент?
Автопроверка - это режим, в котором запросы агента на расширение прав (попытки выйти за рамки песочницы) проверяет не человек, а отдельный ревьюер на модели GPT-5.4. По внутренним замерам OpenAI Codex обращается к пользователю за подтверждением действий в 200 раз реже и блокирует 99,3% попыток промпт-инъекций (когда злоумышленник прячет в тексте скрытую команду для модели). Цель - убрать усталость от подтверждений без потери контроля над опасными действиями.04Можно ли реализовать архитектуру Codex поверх российского агента кода?
Да. Песочница (bubblewrap, sandbox-exec) и шаблон devcontainer (готовая конфигурация рабочего окружения в Docker-контейнере) от OpenAI - открытые. Политика подтверждений и логика автопроверки - это подход, не код. Его можно собрать вручную поверх GigaCode, Cline или Aider с любым доступным LLM в роли ревьюера: GigaChat, YandexGPT, локальная Qwen. Готового продукта нет - надо собирать самим.
Подписывайтесь на @digitalimpulschannel - публикуем технические разборы релизов в области ИИ с применимостью для российского B2B.
Источники:
- Running Codex safely at OpenAI (блог OpenAI, 8 мая 2026)
- Auto-review of agent actions without synchronous human oversight (alignment.openai.com, 30 апреля 2026)
- Agent approvals & security - Codex (developers.openai.com)
- Sandbox - Codex (developers.openai.com)
- Codex full documentation (llms-full.txt)
- Codex secure devcontainer (GitHub openai/codex)
- Anthropic - making Claude Code more secure and autonomous
- Cursor - implementing a secure sandbox for local agents
- How to sandbox AI agents in 2026 (Northflank)
- Claude Code sandboxing - network isolation, file system controls (TrueFoundry)
- HN submission: Running Codex Safely at OpenAI
- ProxyAPI - GPT-5-Codex как подключить и оплатить
- GigaCode - возможности (gitverse.ru)
