Ollama 0.24 запускает Codex App с локальными моделями

14 мая 2026 года Ollama выпустила версию 0.24.0 и добавила в неё интеграцию, которую многие в России ждали с весны. Одна команда ollama launch codex-app - и десктопное приложение OpenAI Codex начинает работать через локальные модели или через Ollama Cloud вместо OpenAI API. У российской команды появляется способ получить интерфейс для управления параллельными ИИ-агентами без оплаты OpenAI и без отправки кода за границу.

Что было до релиза#

Codex App - это десктопное приложение OpenAI для работы с ИИ-агентами в проекте. OpenAI выпустила его 2 февраля 2026 на macOS и 4 марта на Windows. По сути это «командный центр» для нескольких ИИ-агентов, которые одновременно работают над одним репозиторием.

Главная идея Codex App - параллельность. Когда вы открываете задачу в приложении, агент работает в отдельном git worktree (отдельной рабочей копии репозитория, изолированной от основной ветки). Это позволяет запустить три-четыре агента сразу: один чинит баг, другой пишет тесты, третий правит документацию. Всё происходит без конфликтов слияния, потому что каждый сидит в своём worktree. Концепция близка к тому, что мы разбирали в обзоре Cursor 3.3, только в исполнении OpenAI и не в IDE, а в отдельном приложении.

Кроме параллельности, в Codex App встроен браузер с аннотациями, режим ревью с комментариями к diff, интегрированный терминал в каждом потоке и связка с мобильным приложением ChatGPT для дистанционного управления задачами.

Проблема была одна: всё это работало строго через OpenAI API. По умолчанию Codex использует GPT-5.4 как базовую модель, с контекстом до 1 млн токенов. Для российского разработчика это значит - расчёты через зарубежную карту, оплата по тарифам OpenAI, отправка кода и контекста на серверы OpenAI. Для проектов с персональными данными или для компаний с обязательствами по 152-ФЗ это сразу выводит инструмент за рамки допустимого. Сами правила изоляции Codex - песочница, политика подтверждений, журналирование - устроены аккуратно (мы подробно разбирали это в посте про безопасность Codex), но они не отменяют факт трансграничной передачи запроса.

Что нового в Ollama 0.24#

Ollama добавила одну простую команду:

ollama launch codex-app

После запуска Codex App открывается с уже подключённым Ollama в качестве источника модели. Технически Ollama подсовывает приложению свой OpenAI-совместимый эндпоинт (URL, который имитирует API OpenAI). Codex думает, что говорит с серверами OpenAI, а на самом деле запрос уходит на локальный Ollama-сервер на вашей машине или в Ollama Cloud.

Можно сразу выбрать конкретную модель при запуске:

# Облачная модель Ollama
ollama launch codex-app --model kimi-k2.6:cloud

# Локальная модель на вашем железе
ollama launch codex-app --model gemma4:31b

По рекомендации Ollama, для сложных кодинговых и агентных задач лучше всего подходят kimi-k2.6 (с поддержкой компьютерного зрения) и glm-5.1. Для локального запуска без подписки Ollama Cloud - nemotron-3-super, gemma4:31b, qwen3.6.

Команда запуска персистентна: при следующем открытии Codex автоматически подхватит выбранную модель. Чтобы откатиться к стандартной конфигурации через OpenAI, есть команда:

ollama launch codex-app --restore

Перед перезаписью конфигов Ollama бэкапит их в ~/.ollama/backup/codex-app/. На Windows это путь относительно профиля пользователя. Если Codex App в момент переключения открыт, Ollama спросит разрешение его перезапустить.

Из других изменений в 0.24 - переработали семплер для MLX (фреймворка запуска моделей на Apple Silicon). Это улучшает качество генерации на M-чипах, но влияет только на пользователей маков.

Где это применимо#

1. Команды разработки, которые не могут использовать OpenAI API. Если вы работаете с проектом, где код или данные подпадают под ограничения 152-ФЗ (закон о персональных данных) или КИИ (критическая информационная инфраструктура), отправка контекста на серверы OpenAI - это юридический риск. С Ollama 0.24 вы получаете тот же интерфейс Codex App, но запросы остаются на вашем сервере. Никакой трансграничной передачи (отправка данных за пределы России).

Здесь важно различать режимы: модель, запущенная локально через ollama без флага :cloud, действительно не отсылает данные наружу. Облачные модели Ollama (kimi-k2.6:cloud и подобные) - это всё ещё передача данных третьей стороне, просто не OpenAI. Под 152-ФЗ нужен локальный режим.

2. Снижение затрат на разработку через Codex App. OpenAI API не самая дешёвая опция, особенно при работе с миллионным контекстным окном GPT-5.4. Параллельные агенты в Codex App ускоряют работу - но удваивают и утраивают счёт. Запуск тех же агентов на gemma4:31b или qwen3.6 локально превращает переменные затраты в постоянные: вы один раз оплачиваете железо (видеокарту 24+ ГБ), дальше платите только за электричество. Для агентства или внутренней команды разработки разница за год - десятки тысяч долларов. По нашей практике разработки и интеграций, это типичная развилка между «удобно» и «предсказуемо по бюджету».

3. Доступ к Codex App для тех, у кого нет ChatGPT-подписки. Чтобы пользоваться Codex App через OpenAI, нужна активная подписка Plus, Pro, Business или Enterprise - с российской картой это нерешаемая задача без посредников. Через Ollama Codex App работает с любой моделью, в том числе бесплатно с локальными. Подписка не требуется.

Что не очевидно#

Codex App - это в первую очередь интерфейс, не модель. Когда мы говорим «теперь Codex работает через локальные модели», стоит держать в голове три вещи.

Во-первых, качество результата теперь упирается в модель, которую вы подключили. GPT-5.4 от OpenAI - большой коммерческий продукт с заточкой под кодинговые задачи и контекстом до 1 млн токенов. gemma4:31b или qwen3.6 - открытые модели меньшего размера, заметно слабее на сложных задачах рефакторинга или многошагового планирования. Параллельные агенты в Codex App не делают gemma4 лучше - они делают её параллельной. Если ваша задача требует именно умной модели, замена через Ollama снизит качество выводов, даже если интерфейс остался тот же.

Во-вторых, локальный запуск моделей - не бесплатный. gemma4:31b требует видеокарту с 24+ ГБ памяти (RTX 3090, RTX 4090, A5000 и выше). kimi-k2.6 или glm-5.1 локально - это уже H100 или связка из нескольких ускорителей. Для команды, которая не готова инвестировать в железо, имеет смысл хотя бы первое время использовать Ollama Cloud - это всё ещё дешевле и проще, чем разворачивать ферму.

В-третьих, мы пока не знаем, насколько стабильно Ollama 0.24 работает в реальном проекте параллельных агентов на коммерческой задаче. Релиз вышел два дня назад, длинных кейсов в открытом доступе ещё нет. Сложно сказать наверняка, не вылезут ли подводные камни - например, расхождение в форматах ответа между OpenAI API и Ollama-эндпоинтом на каких-то редких операциях. Мы у себя пока тестируем на маленьких задачах.

Что дальше#

В ближайшие пару недель мы планируем прогнать Ollama 0.24 в режиме Codex App на двух наших клиентских проектах - посмотреть, насколько qwen3.6 справляется с типовыми задачами правки React-компонентов и Telegram-ботов на aiogram. Если что-то полезное накопаем - напишем разбор отдельным постом.

Если коротко: Ollama 0.24 - это первое серьёзное решение для тех, кому нужен интерфейс Codex App, но нужно остаться в российском контуре. Не панацея, не замена GPT-5.4 один в один, но рабочая альтернатива с понятной командой запуска.

Подписывайтесь на наш канал @digitalimpulschannel - там короткие разборы релизов и заметки о том, что мы пробуем в работе.