OpenAI расширила Realtime API: новые голосовые модели для диалога, перевода и транскрибации

API OpenAI будет включать ряд новых функций голосового интеллекта, призванных помочь разработчикам создавать приложения, способные разговаривать с пользователями, транскрибировать и переводить разговоры.

Новый GPT‑Realtime‑2 компании — это ещё одна голосовая модель, созданная для реалистичной вокальной симуляции, которая может вести диалог с пользователями. Однако, в отличие от предшественника (GPT‑Realtime‑1.5), эта модель построена на рассуждениях уровня GPT‑5, которые, по словам OpenAI, были разработаны для работы с более сложными запросами пользователей.

Смотрите видео на удобном для вас ресурсе!

Компания также запускает GPT‑Realtime‑Translate, который, как и следует из названия, предназначен для предоставления услуг перевода в реальном времени, которые в разговорном режиме «не отстают» от пользователя. Функция включает более 70 входных языков (то есть языков, которые она может понимать) и 13 выходных языков (языков, на которые она передаёт речь говорящему).

Наконец, компания также запустила новую возможность транскрибации — GPT‑Realtime‑Whisper, которая предоставляет пользователям функцию преобразования речи в текст в реальном времени, фиксируемую по мере происходящих взаимодействий.

«Вместе модели, которые мы запускаем, переводят аудио в реальном времени от простого обмена репликами к голосовым интерфейсам, которые действительно могут выполнять работу: слушать, рассуждать, переводить, транскрибировать и предпринимать действия по мере развития разговора», — заявили в компании.

Для кого будут полезны эти обновления? Очевидная целевая аудитория — компании, желающие расширить возможности службы поддержки. Однако OpenAI также отмечает, что её новые функции помогут в широком спектре областей, включая образование, медиа, мероприятия и платформы для создателей контента.

Насколько бы полезными эти инструменты ни казались с точки зрения корпоративного использования, также представляется вероятным, что ими могут злоупотреблять. Компания заявила, что внедрила защитные механизмы, чтобы не допустить использования новых функций для создания спама, мошенничества или других форм онлайн-злоупотреблений. В систему встроены определённые триггеры, чтобы «разговоры могли быть остановлены, если будет обнаружено, что они нарушают наши правила в отношении вредоносного контента», — сообщила OpenAI.

Все новые голосовые модели включены в Realtime API OpenAI. Translate и Whisper тарифицируются поминутно, тогда как GPT‑Realtime‑2 — по потреблению токенов.

Источник: TechCrunch

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter. Можете написать лучше? Мы всегда рады новым авторам.

Интересно? Поделиться:

Добавить комментарий

Оставляя комментарий вы соглашаетесь на обработку персональных данных в соответствии с политикой конфиденциальности, соглашаетесь с пользовательским соглашением. Ваш адрес email не будет опубликован. Обязательные поля помечены *

Рекомендуем почитать

Подпишитесь на нашу рассылку

Loading

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам:

Продолжая использовать наш сайт, вы соглашаетесь с использованием файлов cookie. Они помогают нам обеспечивать корректную работу сайта и делать его более удобным.
Принять
Политика конфиденциальности