7 мая 2026 OpenAI выкатил в свой голосовой интерфейс (Realtime API) три новые модели: GPT-Realtime-2 с рассуждениями уровня GPT-5, отдельный переводчик речи (Translate) на 70 языков на вход и 13 на выход, и отдельную модель потоковой транскрипции на базе Whisper. Старого универсального gpt-realtime больше нет: вместо одной модели "на всё" стало три специализированных. Мы в команде разбираем, что это значит на практике и почему хедлайн "+15 пунктов на тесте" нужно читать с поправкой.

TL;DRглавное за 20 секунд

GPT-Realtime-2 - первая голосовая модель OpenAI с рассуждениями уровня GPT-5, окно памяти 128 тысяч токенов.
Цена осталась прежней: 32 доллара за 1 миллион входных аудио-токенов, 64 за миллион выходных. По прикидке - около 0.30 доллара за минуту разговора (примерно 25 рублей).
Стек разделили: переводчик за 0.034 доллара за минуту (с 70 языков на 13), потоковая транскрипция за 0.017 за минуту.
Прирост на тестах +15.2 и +13.8 пункта - это максимальные уровни рассуждений (high и xhigh). По умолчанию в проде стоит low.
Из России прямого доступа нет: платформа OpenAI заблокирована Роскомнадзором с февраля 2024.
Для серьёзных проектов в РФ реалистичнее Yandex SpeechKit, SaluteSpeech или T-Bank VoiceKit.

Что было до#

В октябре 2024 OpenAI открыл публичную бету Realtime API с моделью gpt-4o-realtime-preview. К декабрю 2024 превью обновили, и она стала точкой отсчёта для тестов: 20.6% на бенчмарке Audio MultiChallenge.

28 августа 2025 интерфейс вышел из беты в общий доступ. Тогда же выкатили модель gpt-realtime - на 20% дешевле превью, 32 доллара за миллион входных аудио-токенов и 64 за миллион выходных. Прирост на Audio MultiChallenge: 30.5% против 20.6%. В тот же релиз добавили SIP (для подключения к телефонии), приём изображений на вход и поддержку MCP (Model Context Protocol - стандарт OpenAI для подключения внешних инструментов).

Где-то между августом 2025 и маем 2026 без громкого анонса появилась gpt-realtime-1.5 - промежуточный апгрейд, карточка которого живёт в документации OpenAI. Именно с ней сравнивают новый Realtime-2 в тестах.

Отдельно про названия: GPT-Realtime-Whisper - это новая потоковая модель в Realtime API, не путать с офлайн-Whisper v3-large, который вышел в ноябре 2023. Это разные вещи.

Что нового#

GPT-Realtime-2: голосовая модель с рассуждениями уровня GPT-5#

Главный апдейт - не звук, а голова. Realtime-2 умеет рассуждать в процессе разговора и держит длинный контекст: окно памяти расширили с 32 тысяч до 128 тысяч токенов. Для голосовых ботов это значит, что теперь можно держать всю историю разговора плюс системную инструкцию плюс срезы CRM, не сбрасывая контекст каждые две минуты.

Что добавили для голосовых агентов:

параллельные вызовы внешних функций (несколько вызовов в одном ответе - например, одновременно достать данные клиента и проверить наличие товара),
восстановление после ошибок при вызове внешних сервисов,
заполняющие фразы вроде "секунду, проверяю" - чтобы не было мёртвой паузы, пока модель ходит во внешний сервис.

Тесты против Realtime-1.5:

Big Bench Audio (общий тест на разговорные сценарии): 96.6% против 81.4% (+15.2 пункта),
Audio MultiChallenge (сложные многоходовые диалоги): 48.5% против 34.7% (+13.8 пункта).

Цена не изменилась: 32 доллара за 1 миллион входных аудио-токенов, 64 за миллион выходных, 0.40 за миллион кэшированных входных. По оценке buildfastwithai - около 0.30 доллара за минуту разговора без кэша (примерно 25 рублей по текущему курсу).

GPT-Realtime-Translate: 70 языков на вход, 13 на выход#

Отдельная модель только под перевод речи в речь. Принимает аудио на 70+ языках, отдаёт перевод на 13: испанский, португальский, французский, японский, русский, китайский, немецкий, корейский, хинди, индонезийский, вьетнамский, итальянский, английский. Обучена на тысячах часов записей профессиональных переводчиков.

Цена - 0.034 доллара за минуту (примерно 2.8 рубля). Это в 9 раз дешевле полного Realtime-2: если задача чисто перевод, нет смысла гонять её через дорогую модель с рассуждениями.

GPT-Realtime-Whisper: транскрипция на лету#

Тоже отдельная модель, только под распознавание речи (speech-to-text). Транскрибирует по мере говорения, отдаёт текст потоком кусочками. Целевые сценарии: субтитры встреч и вебинаров, заметки в процессе разговора, голосовые боты, которым нужна расшифровка реплик клиента в реальном времени для логирования.

Цена - 0.017 доллара за минуту (примерно 1.4 рубля). Дешевле, чем дёргать gpt-4o под транскрипцию задним числом, и с меньшей задержкой.

Уровень рассуждений: 5 ступеней и подвох с тестами#

У Realtime-2 пять уровней рассуждений: minimal, low, medium, high, xhigh. По умолчанию в проде стоит low - чтобы не раздувать задержку. Цифры в анонсе (+15.2 и +13.8 пункта) измерены на high и xhigh. Это значит, что в реальном продакшене с дефолтными настройками разрыв с Realtime-1.5 будет скромнее, чем в маркетинговых слайдах. Если хочется именно "GPT-5 в голосе" - надо вручную поднимать уровень рассуждений и платить за это задержкой ответа.

Способы подключения у Realtime API: WebRTC (для браузеров), WebSocket (для серверов), SIP (для телефонных подключений). Приём изображений на вход и подключение внешних инструментов через MCP-серверы поддерживаются всеми тремя моделями.

Цены голосового стека: OpenAI, ElevenLabs и российские альтернативы

Решение	Цена за минуту	Что входит
OpenAI GPT-Realtime-2	≈ 0.30$ (≈25 ₽)	Голосовой агент с рассуждениями GPT-5, вызовы внешних функций, заполняющие фразы
OpenAI GPT-Realtime-Translate	0.034$ (≈2.8 ₽)	Только перевод речи, 70 языков на вход, 13 на выход
OpenAI GPT-Realtime-Whisper	0.017$ (≈1.4 ₽)	Только потоковое распознавание речи
ElevenLabs Agents Standard	0.08$ (≈6.5 ₽)	Голосовой агент на их собственных моделях
ElevenLabs Agents Premium	0.12$ (≈10 ₽)	Голосовой агент на gpt-4o + Flash voice
SaluteSpeech (Сбер) распознавание	1.2 ₽	Только распознавание речи, нужен свой языковой движок сверху
Yandex SpeechKit	тариф за секунды	Распознавание и синтез, голосовых ботов собирают в Yandex AI Studio

Где это применимо#

Если у тебя контакт-центр с исходящим обзвоном на 5000 минут в месяц - полный голосовой бот на Realtime-2 обойдётся примерно в 1500 долларов (около 125 тысяч рублей). Российский провайдер вроде SaluteSpeech возьмёт за тот же объём распознавания 6000 рублей, плюс отдельно синтез голоса и плюс свой языковой движок сверху. По сумме выходит меньше, но на сборку и поддержку уходит инженерное время. Realtime-2 даёт всё в коробке: распознавание, генерацию речи, рассуждения, обращения к CRM, заполняющие фразы. Окупается, если ценность одного разговора высокая (квалификация B2B-лидов, перенос встреч, дорогой обзвон).

Если у тебя вебинары или конференции с переводом на 2-3 языка - Translate за 0.034 доллара за минуту закрывает сценарий полностью. На 4-часовое мероприятие с тремя языковыми треками выйдет около 24 долларов (примерно 2 тысячи рублей). Раньше такое собирали из связки Whisper + GPT-4 + синтез голоса, и каждая минута стоила в 3-5 раз дороже.

Если нужны живые субтитры для встреч в Zoom или Telemost, или внутренние транскрипты звонков - Whisper за 0.017 доллара за минуту (1 доллар за час). Дешевле кофе.

Что не очевидно#

Тесты сделаны на максимальных уровнях рассуждений (high и xhigh), а в проде по умолчанию стоит low. Реальный пользовательский опыт может оказаться скромнее, чем "+15 пунктов" из релиза. Мы в команде советуем мерять задержку и качество на своих сценариях до того, как закладывать модель в архитектуру.

Translate отдаёт всего 13 целевых языков. Для глобального продукта с азиатским рынком это мало: нет тайского, нет тагалога, нет арабского. Если рынок Россия + Европа + Китай + Япония - хватает. Дальше начинаются дыры.

Для российских юрлиц прямой доступ к OpenAI закрыт: с февраля 2024 платформа заблокирована Роскомнадзором, российские IP-адреса режутся на стороне OpenAI, биллинг требует карту разрешённой страны. Прокси-перепродавцы вроде ProxyAPI и AITUNNEL технически работают, но это серая зона - для продакшена в B2B не подходит. Для серьёзного проекта в РФ реалистичнее собирать на Yandex SpeechKit, SaluteSpeech (1.2 рубля за минуту распознавания) или T-Bank VoiceKit и ставить логику на свой языковой движок.

Что дальше#

Ждём независимые замеры задержки на низком уровне рассуждений, разбор поведения переводчика на нестандартных парах языков и реакцию ElevenLabs - их Agents Standard сейчас стоит 0.08 доллара за минуту, это вдвое дешевле Realtime-2, но без рассуждений уровня GPT-5. Через пару месяцев станет понятно, кто кому жмёт.

Если у тебя есть голосовой проект и нужен второй взгляд на архитектуру - пиши в контакты, разберём задачу. В @digitalimpulschannel дублируем такие разборы с короткой выжимкой.

FAQ

Частые вопросы об OpenAI Realtime-2

01Можно ли подключить Realtime-2 из России?
Напрямую нет. Платформа OpenAI заблокирована Роскомнадзором с февраля 2024, российские IP-адреса режутся на стороне OpenAI, для оплаты нужна карта разрешённой страны. Через прокси-перепродавцов (ProxyAPI, AITUNNEL) технически работает, но для B2B в проде это серая зона. Для серьёзных проектов реалистичнее собирать голосовой стек на российских провайдерах: Yandex SpeechKit, SaluteSpeech или T-Bank VoiceKit.
02Что выбрать для контакт-центра в РФ?
Если ценность одного разговора высокая (B2B-квалификация, перенос встреч, дорогой обзвон), связка SaluteSpeech (распознавание речи 1.2 рубля за минуту) + синтез голоса + свой языковой движок на сервере экономит деньги. Минус - на сборку и поддержку уходит инженерное время. Если бюджет позволяет и нужен голосовой бот в коробке с рассуждениями, обращениями к CRM и заполняющими фразами - Realtime-2 через прокси, но с пониманием юридических рисков. Чаще всего разумнее российский стек, особенно для регулируемых отраслей.
03Чем GPT-Realtime-2 отличается от Realtime-1.5?
Главное - рассуждения уровня GPT-5 и расширенное окно памяти с 32 до 128 тысяч токенов. Плюс параллельные вызовы внешних функций, восстановление после ошибок и заполняющие фразы вроде 'секунду, проверяю'. На тесте Big Bench Audio: 96.6% против 81.4% (+15.2 пункта), на Audio MultiChallenge: 48.5% против 34.7% (+13.8 пункта). Но эти цифры измерены на максимальных уровнях рассуждений (high и xhigh), а в проде по умолчанию стоит low ради задержки.
04Какая задержка у Realtime-2?
Точных цифр в миллисекундах OpenAI не публикует, независимых замеров пока нет. Известно, что уровень рассуждений выбирается из 5 ступеней (minimal, low, medium, high, xhigh) и напрямую влияет на задержку: чем выше уровень, тем больше задержка ответа. По дефолту в проде стоит low именно ради минимальной задержки. Перед тем как закладывать модель в архитектуру, нужно мерять на своих сценариях.
05Сколько стоит минута разговора с голосовым агентом на Realtime-2?
По оценке buildfastwithai - около 0.30 доллара за минуту без кэша (примерно 25 рублей). Расчёт исходит из цены 32 доллара за миллион входных аудио-токенов и 64 за миллион выходных. С кэшированным входом (0.40 доллара за миллион токенов) выходит дешевле, если у вас длинная системная инструкция, которая не меняется между разговорами. Контакт-центр на 5000 минут в месяц обойдётся около 1500 долларов (примерно 125 тысяч рублей).

Источники:

Подписывайтесь на @digitalimpulschannel - разбираем такие релизы каждую неделю.