Модели · 10 мая 2026 · 7 мин чтения

OpenAI Realtime-2: голосовая модель с рассуждениями уровня GPT-5

7 мая OpenAI выкатил три голосовых модели: Realtime-2 с рассуждениями GPT-5, отдельный переводчик речи на 70 языков и потоковую транскрипцию. Разбираем цены и подвохи.

OpenAI Realtime-2: голосовые модели для голосовых ботов - обложка digitalimpuls

7 мая 2026 OpenAI выкатил в свой голосовой интерфейс (Realtime API) три новые модели: GPT-Realtime-2 с рассуждениями уровня GPT-5, отдельный переводчик речи (Translate) на 70 языков на вход и 13 на выход, и отдельную модель потоковой транскрипции на базе Whisper. Старого универсального gpt-realtime больше нет: вместо одной модели "на всё" стало три специализированных. Мы в команде разбираем, что это значит на практике и почему хедлайн "+15 пунктов на тесте" нужно читать с поправкой.

Что было до

В октябре 2024 OpenAI открыл публичную бету Realtime API с моделью gpt-4o-realtime-preview. К декабрю 2024 превью обновили, и она стала точкой отсчёта для тестов: 20.6% на бенчмарке Audio MultiChallenge.

28 августа 2025 интерфейс вышел из беты в общий доступ. Тогда же выкатили модель gpt-realtime - на 20% дешевле превью, 32 доллара за миллион входных аудио-токенов и 64 за миллион выходных. Прирост на Audio MultiChallenge: 30.5% против 20.6%. В тот же релиз добавили SIP (для подключения к телефонии), приём изображений на вход и поддержку MCP (Model Context Protocol - стандарт OpenAI для подключения внешних инструментов).

Где-то между августом 2025 и маем 2026 без громкого анонса появилась gpt-realtime-1.5 - промежуточный апгрейд, карточка которого живёт в документации OpenAI. Именно с ней сравнивают новый Realtime-2 в тестах.

Отдельно про названия: GPT-Realtime-Whisper - это новая потоковая модель в Realtime API, не путать с офлайн-Whisper v3-large, который вышел в ноябре 2023. Это разные вещи.

Что нового

GPT-Realtime-2: голосовая модель с рассуждениями уровня GPT-5

Главный апдейт - не звук, а голова. Realtime-2 умеет рассуждать в процессе разговора и держит длинный контекст: окно памяти расширили с 32 тысяч до 128 тысяч токенов. Для голосовых ботов это значит, что теперь можно держать всю историю разговора плюс системную инструкцию плюс срезы CRM, не сбрасывая контекст каждые две минуты.

Что добавили для голосовых агентов:

  • параллельные вызовы внешних функций (несколько вызовов в одном ответе - например, одновременно достать данные клиента и проверить наличие товара),
  • восстановление после ошибок при вызове внешних сервисов,
  • заполняющие фразы вроде "секунду, проверяю" - чтобы не было мёртвой паузы, пока модель ходит во внешний сервис.

Тесты против Realtime-1.5:

  • Big Bench Audio (общий тест на разговорные сценарии): 96.6% против 81.4% (+15.2 пункта),
  • Audio MultiChallenge (сложные многоходовые диалоги): 48.5% против 34.7% (+13.8 пункта).

Цена не изменилась: 32 доллара за 1 миллион входных аудио-токенов, 64 за миллион выходных, 0.40 за миллион кэшированных входных. По оценке buildfastwithai - около 0.30 доллара за минуту разговора без кэша (примерно 25 рублей по текущему курсу).

GPT-Realtime-Translate: 70 языков на вход, 13 на выход

Отдельная модель только под перевод речи в речь. Принимает аудио на 70+ языках, отдаёт перевод на 13: испанский, португальский, французский, японский, русский, китайский, немецкий, корейский, хинди, индонезийский, вьетнамский, итальянский, английский. Обучена на тысячах часов записей профессиональных переводчиков.

Цена - 0.034 доллара за минуту (примерно 2.8 рубля). Это в 9 раз дешевле полного Realtime-2: если задача чисто перевод, нет смысла гонять её через дорогую модель с рассуждениями.

GPT-Realtime-Whisper: транскрипция на лету

Тоже отдельная модель, только под распознавание речи (speech-to-text). Транскрибирует по мере говорения, отдаёт текст потоком кусочками. Целевые сценарии: субтитры встреч и вебинаров, заметки в процессе разговора, голосовые боты, которым нужна расшифровка реплик клиента в реальном времени для логирования.

Цена - 0.017 доллара за минуту (примерно 1.4 рубля). Дешевле, чем дёргать gpt-4o под транскрипцию задним числом, и с меньшей задержкой.

Уровень рассуждений: 5 ступеней и подвох с тестами

У Realtime-2 пять уровней рассуждений: minimal, low, medium, high, xhigh. По умолчанию в проде стоит low - чтобы не раздувать задержку. Цифры в анонсе (+15.2 и +13.8 пункта) измерены на high и xhigh. Это значит, что в реальном продакшене с дефолтными настройками разрыв с Realtime-1.5 будет скромнее, чем в маркетинговых слайдах. Если хочется именно "GPT-5 в голосе" - надо вручную поднимать уровень рассуждений и платить за это задержкой ответа.

Способы подключения у Realtime API: WebRTC (для браузеров), WebSocket (для серверов), SIP (для телефонных подключений). Приём изображений на вход и подключение внешних инструментов через MCP-серверы поддерживаются всеми тремя моделями.

Цены голосового стека: OpenAI, ElevenLabs и российские альтернативы
РешениеЦена за минутуЧто входит
OpenAI GPT-Realtime-2≈ 0.30$ (≈25 ₽)Голосовой агент с рассуждениями GPT-5, вызовы внешних функций, заполняющие фразы
OpenAI GPT-Realtime-Translate0.034$ (≈2.8 ₽)Только перевод речи, 70 языков на вход, 13 на выход
OpenAI GPT-Realtime-Whisper0.017$ (≈1.4 ₽)Только потоковое распознавание речи
ElevenLabs Agents Standard0.08$ (≈6.5 ₽)Голосовой агент на их собственных моделях
ElevenLabs Agents Premium0.12$ (≈10 ₽)Голосовой агент на gpt-4o + Flash voice
SaluteSpeech (Сбер) распознавание1.2 ₽Только распознавание речи, нужен свой языковой движок сверху
Yandex SpeechKitтариф за секундыРаспознавание и синтез, голосовых ботов собирают в Yandex AI Studio

Где это применимо

Если у тебя контакт-центр с исходящим обзвоном на 5000 минут в месяц - полный голосовой бот на Realtime-2 обойдётся примерно в 1500 долларов (около 125 тысяч рублей). Российский провайдер вроде SaluteSpeech возьмёт за тот же объём распознавания 6000 рублей, плюс отдельно синтез голоса и плюс свой языковой движок сверху. По сумме выходит меньше, но на сборку и поддержку уходит инженерное время. Realtime-2 даёт всё в коробке: распознавание, генерацию речи, рассуждения, обращения к CRM, заполняющие фразы. Окупается, если ценность одного разговора высокая (квалификация B2B-лидов, перенос встреч, дорогой обзвон).

Если у тебя вебинары или конференции с переводом на 2-3 языка - Translate за 0.034 доллара за минуту закрывает сценарий полностью. На 4-часовое мероприятие с тремя языковыми треками выйдет около 24 долларов (примерно 2 тысячи рублей). Раньше такое собирали из связки Whisper + GPT-4 + синтез голоса, и каждая минута стоила в 3-5 раз дороже.

Если нужны живые субтитры для встреч в Zoom или Telemost, или внутренние транскрипты звонков - Whisper за 0.017 доллара за минуту (1 доллар за час). Дешевле кофе.

Что не очевидно

Тесты сделаны на максимальных уровнях рассуждений (high и xhigh), а в проде по умолчанию стоит low. Реальный пользовательский опыт может оказаться скромнее, чем "+15 пунктов" из релиза. Мы в команде советуем мерять задержку и качество на своих сценариях до того, как закладывать модель в архитектуру.

Translate отдаёт всего 13 целевых языков. Для глобального продукта с азиатским рынком это мало: нет тайского, нет тагалога, нет арабского. Если рынок Россия + Европа + Китай + Япония - хватает. Дальше начинаются дыры.

Для российских юрлиц прямой доступ к OpenAI закрыт: с февраля 2024 платформа заблокирована Роскомнадзором, российские IP-адреса режутся на стороне OpenAI, биллинг требует карту разрешённой страны. Прокси-перепродавцы вроде ProxyAPI и AITUNNEL технически работают, но это серая зона - для продакшена в B2B не подходит. Для серьёзного проекта в РФ реалистичнее собирать на Yandex SpeechKit, SaluteSpeech (1.2 рубля за минуту распознавания) или T-Bank VoiceKit и ставить логику на свой языковой движок.

Что дальше

Ждём независимые замеры задержки на низком уровне рассуждений, разбор поведения переводчика на нестандартных парах языков и реакцию ElevenLabs - их Agents Standard сейчас стоит 0.08 доллара за минуту, это вдвое дешевле Realtime-2, но без рассуждений уровня GPT-5. Через пару месяцев станет понятно, кто кому жмёт.

Если у тебя есть голосовой проект и нужен второй взгляд на архитектуру - пиши в контакты, разберём задачу. В @digitalimpulschannel дублируем такие разборы с короткой выжимкой.

FAQ

Частые вопросы об OpenAI Realtime-2

  • 01Можно ли подключить Realtime-2 из России?
    Напрямую нет. Платформа OpenAI заблокирована Роскомнадзором с февраля 2024, российские IP-адреса режутся на стороне OpenAI, для оплаты нужна карта разрешённой страны. Через прокси-перепродавцов (ProxyAPI, AITUNNEL) технически работает, но для B2B в проде это серая зона. Для серьёзных проектов реалистичнее собирать голосовой стек на российских провайдерах: Yandex SpeechKit, SaluteSpeech или T-Bank VoiceKit.
  • 02Что выбрать для контакт-центра в РФ?
    Если ценность одного разговора высокая (B2B-квалификация, перенос встреч, дорогой обзвон), связка SaluteSpeech (распознавание речи 1.2 рубля за минуту) + синтез голоса + свой языковой движок на сервере экономит деньги. Минус - на сборку и поддержку уходит инженерное время. Если бюджет позволяет и нужен голосовой бот в коробке с рассуждениями, обращениями к CRM и заполняющими фразами - Realtime-2 через прокси, но с пониманием юридических рисков. Чаще всего разумнее российский стек, особенно для регулируемых отраслей.
  • 03Чем GPT-Realtime-2 отличается от Realtime-1.5?
    Главное - рассуждения уровня GPT-5 и расширенное окно памяти с 32 до 128 тысяч токенов. Плюс параллельные вызовы внешних функций, восстановление после ошибок и заполняющие фразы вроде 'секунду, проверяю'. На тесте Big Bench Audio: 96.6% против 81.4% (+15.2 пункта), на Audio MultiChallenge: 48.5% против 34.7% (+13.8 пункта). Но эти цифры измерены на максимальных уровнях рассуждений (high и xhigh), а в проде по умолчанию стоит low ради задержки.
  • 04Какая задержка у Realtime-2?
    Точных цифр в миллисекундах OpenAI не публикует, независимых замеров пока нет. Известно, что уровень рассуждений выбирается из 5 ступеней (minimal, low, medium, high, xhigh) и напрямую влияет на задержку: чем выше уровень, тем больше задержка ответа. По дефолту в проде стоит low именно ради минимальной задержки. Перед тем как закладывать модель в архитектуру, нужно мерять на своих сценариях.
  • 05Сколько стоит минута разговора с голосовым агентом на Realtime-2?
    По оценке buildfastwithai - около 0.30 доллара за минуту без кэша (примерно 25 рублей). Расчёт исходит из цены 32 доллара за миллион входных аудио-токенов и 64 за миллион выходных. С кэшированным входом (0.40 доллара за миллион токенов) выходит дешевле, если у вас длинная системная инструкция, которая не меняется между разговорами. Контакт-центр на 5000 минут в месяц обойдётся около 1500 долларов (примерно 125 тысяч рублей).

Источники:

  1. OpenAI: Advancing voice intelligence with new models in the API
  2. TechCrunch: OpenAI launches new voice intelligence features in its API
  3. 9to5Mac: OpenAI has new voice models that reason, translate, and transcribe as you speak
  4. DataCamp: GPT-Realtime-2 - A Voice Model with GPT-5-Class Reasoning
  5. AI Agents Directory: GPT-Realtime-2 - A Guide to Low-Latency Voice AI Agents
  6. BuildFastWithAI: GPT-Realtime-2 - OpenAI Voice AI Models 2026
  7. OpenAI Cookbook: Build Live Translation Apps with gpt-realtime-translate
  8. Microsoft Foundry: GPT Realtime Whisper overview
  9. OpenAI: Introducing gpt-realtime (август 2025)
  10. Latent Space: GPT-Realtime-2, Translate, and Whisper - new SOTA realtime voice APIs

Подписывайтесь на @digitalimpulschannel - разбираем такие релизы каждую неделю.

openaivoicerealtime-apirelease
— TELEGRAM-КАНАЛ

Не пропусти следующий разбор.

Дублируем каждый пост в Telegram с короткой выжимкой.

@digitalimpulschannel →