OpenAI расширила Realtime API: новые голосовые модели для диалога, перевода и транскрибации

13.05.202612.05.2026

Источник изображения: Jakub Porzycki / NurPhoto / Getty Images

API OpenAI будет включать ряд новых функций голосового интеллекта, призванных помочь разработчикам создавать приложения, способные разговаривать с пользователями, транскрибировать и переводить разговоры.

Новый GPT‑Realtime‑2 компании — это ещё одна голосовая модель, созданная для реалистичной вокальной симуляции, которая может вести диалог с пользователями. Однако, в отличие от предшественника (GPT‑Realtime‑1.5), эта модель построена на рассуждениях уровня GPT‑5, которые, по словам OpenAI, были разработаны для работы с более сложными запросами пользователей.

Смотрите видео на удобном для вас ресурсе!

YouTube ВК.Видео RuTube ОК

Компания также запускает GPT‑Realtime‑Translate, который, как и следует из названия, предназначен для предоставления услуг перевода в реальном времени, которые в разговорном режиме «не отстают» от пользователя. Функция включает более 70 входных языков (то есть языков, которые она может понимать) и 13 выходных языков (языков, на которые она передаёт речь говорящему).

Наконец, компания также запустила новую возможность транскрибации — GPT‑Realtime‑Whisper, которая предоставляет пользователям функцию преобразования речи в текст в реальном времени, фиксируемую по мере происходящих взаимодействий.

«Вместе модели, которые мы запускаем, переводят аудио в реальном времени от простого обмена репликами к голосовым интерфейсам, которые действительно могут выполнять работу: слушать, рассуждать, переводить, транскрибировать и предпринимать действия по мере развития разговора», — заявили в компании.

Для кого будут полезны эти обновления? Очевидная целевая аудитория — компании, желающие расширить возможности службы поддержки. Однако OpenAI также отмечает, что её новые функции помогут в широком спектре областей, включая образование, медиа, мероприятия и платформы для создателей контента.

Насколько бы полезными эти инструменты ни казались с точки зрения корпоративного использования, также представляется вероятным, что ими могут злоупотреблять. Компания заявила, что внедрила защитные механизмы, чтобы не допустить использования новых функций для создания спама, мошенничества или других форм онлайн-злоупотреблений. В систему встроены определённые триггеры, чтобы «разговоры могли быть остановлены, если будет обнаружено, что они нарушают наши правила в отношении вредоносного контента», — сообщила OpenAI.

Все новые голосовые модели включены в Realtime API OpenAI. Translate и Whisper тарифицируются поминутно, тогда как GPT‑Realtime‑2 — по потреблению токенов.

Источник: TechCrunch

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter. Можете написать лучше? Мы всегда рады новым авторам.

Статьи и новости о нейросетях и искусственном интеллекте, просто и понятно о сложных технологиях. Освещает современные тенденции, объясняет, как работают ИИ-системы, и показывает, каким образом нейросети меняют различные сферы жизни. Регулярно собирает подборки и топы полезных нейросетей, тщательно отбирая актуальные инструменты и сервисы, которые могут существенно упростить рабочие и повседневные задачи. В своих подборках делится описаниями возможностей каждой нейросети, а также рекомендациями по их применению, чтобы помочь читателям быстро разобраться в новых технологиях и использовать их с максимальной пользой.

Социальные сети автора:

Интересно? Поделиться:

6 комментариев к “OpenAI расширила Realtime API: новые голосовые модели для диалога, перевода и транскрибации”

Саша:

13.05.2026 в 22:56

Теперь OpenAI всё больше объединяет это в единый end-to-end pipeline, что уменьшает задержку и делает общение заметно естественнее.
Glintvein47:

14.05.2026 в 00:22

Супер, теперь можно свободно путешествовать по странам. Языковой барьер теперь не проблема, если есть доступ к интернету.
Азат:

14.05.2026 в 05:40

Да тема интересная,и нужная в общений только бы знать как реально оно работает.
Андрей Седов:

14.05.2026 в 07:59

Поковырялся в API и вот что заметил: Скорость работы. Задержки минимальны и особенно радует транскрипция: текст появляется буквально синхронно с речью. Гибкость настройки. Можно менять интонации, темп, акценты. Это супер для создания уникальных голосовых персонажей например, для игр или голосовых помощников с индивидуальным стилем. Точность перевода. Тестировал на 5 языках и результаты впечатляют. Да, изредка проскакивают мелкие ошибки, но для реального времени это очень достойный уровень. Простота интеграции. Даже если не разбираешься в машинном обучении, добавить голосовые фичи в приложение стало проще. OpenAI явно упростила жизнь разработчикам.
pipip vovka:

14.05.2026 в 14:32

Сильный апдейт. Голосовые ИИ наконец уходят от уровня «ответил по шаблону» к реально живому диалогу: понимают контекст, переводят на лету и нормально транскрибируют без задержек. Похоже, у OpenAI
серьёзная ставка на голос как следующий главный интерфейс для приложений и ассистентов.
надя:

15.05.2026 в 17:06

Я просто в восторге от последних новостей от OpenAI! Расширение Realtime API с новыми голосовыми моделями – это именно то, чего многие из нас так долго ждали. Если вы занимаетесь разработкой приложений, где важна живая, естественная речь.

Обсуждение закрыто.

Рекомендуем почитать

Janitor AI

Janitor AI: платформа для AI-персонажей, которая пошла своим путем

Одни нейросети призваны решать рабочие задачи, писать код, или, скажем, письма. А есть Janitor AI. Это платформа, существование которой объясняется…

Не только слушать, но и говорить: что умеет новая модель MAI-Voice-1 от Microsoft

Если модель MAI-Transcribe-1 превращает речь в текст, то MAI-Voice-1 делает ровно противоположное. Она берет текст и превращает его обратно в…

Президент и генеральный директор Amazon Энди Джасси

Amazon готовит вызов доминированию Nvidia на рынке ИИ-чипов

Если Amazon Web Services добьётся своего, облачный гигант ещё глубже зайдёт на рынок Nvidia — и это может стать одним…

Дженсен Хуанг, президент и генеральный директор Nvidia, слушает интервью перед церемонией закладки первого камня в строительство расширения производственного предприятия Coherent во вторник, 16 июня 2026 года, в Шермане, штат Техас

Дженсен Хуанг: обществу пора не бояться ИИ, а учиться жить с ним

Глава Nvidia Дженсен Хуанг — один из людей, чья работа ускорила взлёт искусственного интеллекта, — в интервью заявил: обществу пора…

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам:

Отправить

Продолжая использовать наш сайт, вы соглашаетесь с использованием файлов cookie. Они помогают нам обеспечивать корректную работу сайта и делать его более удобным.

Принять

Подробнее…

Политика конфиденциальности