Гендиректор ElevenLabs: голос станет новым интерфейсом для ИИ

Соучредитель и генеральный директор ElevenLabs Мати Станишевский считает, что голос становится следующим основным интерфейсом для искусственного интеллекта — способом, с помощью которого люди все чаще будут взаимодействовать с машинами по мере того, как модели выходят за рамки текста и экранов.

Выступая на Web Summit в Дохе, Станишевский рассказал, что голосовые модели, подобные тем, которые разрабатывает ElevenLabs, недавно перешли от простого имитирования человеческой речи — включая эмоции и интонацию — к работе в тандеме с аналитическими возможностями крупных языковых моделей. В результате, по его словам, меняется сам способ взаимодействия людей с технологиями.

Смотрите видео на удобном для вас ресурсе!

В ближайшие годы, отметил он, «хочется верить, что все наши телефоны снова окажутся в карманах, а мы сможем по-настоящему погрузиться в окружающий нас реальный мир, используя голос в качестве механизма управления технологиями».

Именно эта концепция стала одной из движущих сил привлечения ElevenLabs инвестиций в размере 500 миллионов долларов на оценке в 11 миллиардов, и сейчас она находит все больше сторонников во всей индустрии ИИ. OpenAI и Google делают голос центральным элементом своих моделей следующего поколения, а Apple, судя по всему, тихо разрабатывает связанные с голосом и всегда активные технологии — в том числе через приобретения таких компаний, как Q.ai. По мере того как ИИ проникает в умные носимые устройства, автомобили и другую новую электронику, контроль над технологиями становится все меньше связанным с нажатием на экраны и все больше — с голосом, что делает голос основной ареной борьбы для следующего этапа развития ИИ.

Генеральный партнер Iconiq Capital Сет Пьеррепон тоже высказал это мнение на Web Summit, отметив, что хотя экраны продолжат играть важную роль в играх и развлечениях, традиционные методы ввода, такие как клавиатуры, начинают казаться «устаревшими».

По мере того как системы ИИ становятся более агентными, указал Пьеррепон, меняется и само взаимодействие — модели получают больше ограничений, интеграций и контекст, что позволяет им отвечать пользователям без необходимости явного, пошагового задания инструкций.

Станишевский назвал этот переход к агентным системам одним из главных изменений, происходящих сейчас. Вместо того чтобы давать указания на каждый шаг, в будущем голосовые системы будут все больше опираться на постоянную память и накопленный со временем контекст, благодаря чему взаимодействие станет более естественным и потребует от пользователя меньших усилий.

Эта эволюция, добавил он, окажет влияние и на способы развертывания голосовых моделей. Если сегодня качественные аудиомодели в основном работают в облаке, то ElevenLabs разрабатывает гибридный подход, сочетающий облачную и локальную обработку — это позволит поддерживать новые устройства, включая наушники и другие носимые гаджеты, где голос станет постоянным спутником, а не просто опцией, которую пользователь выбирает включить.

Уже сейчас ElevenLabs сотрудничает с Meta*, внедряя свои голосовые технологии в такие продукты, как Instagram* и виртуальная платформа Horizon Worlds*. Станишевский заявил, что также открыт к сотрудничеству с Meta* по развитию голосового интерфейса в умных очках Ray-Ban, поскольку голосовые технологии начинают проникать в новые форм-факторы.

Однако по мере того как голосовые интерфейсы становятся более распространёнными и встроенными в повседневную электронику, возникает ряд серьёзных вопросов относительно приватности, слежки и объема персональных данных, которые такие системы будут накапливать в повседневной жизни пользователя, — и в злоупотреблении этим уже обвиняли компании вроде Google.

Источник: TechCrunch

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter. Можете написать лучше? Мы всегда рады новым авторам.

Интересно? Поделиться:

7 комментариев к “Гендиректор ElevenLabs: голос станет новым интерфейсом для ИИ

  1. Вот эта новость меня не радует. Не люблю общаться голосом. Вообще информацию на слух воспринимаю намного хуже, чем когда читаю. Да и при письме формулирую свои мысли намного более чётко. Я точно не буду пользовать «голосовым» ИИ.

  2. Голос это не просто новый интерфейс. Это переход от команд к диалогу, от инструментов к социальным агентам. Технологии уже готовы. Осталось решить этические, правовые и социальные вопросы и голос действительно станет основным интерфейсом ИИ к 2030 году.

  3. Я уже использую голосовые ассистенты в смартфоне и умной колонке, и они действительно удобны для выполнения простых задач: постановки будильника, поиска информации или включения музыки. Однако для более сложных действий я всё же предпочитаю традиционные методы взаимодействия. Идея кажется перспективной, но её реализация потребует решения ряда технических, этических и юридических вопросов. Будущее покажет, станет ли голос действительно доминирующим интерфейсом для взаимодействия с ИИ, но уже сейчас очевидно, что эти технологии активно развиваются и могут существенно изменить наш образ жизни.

  4. Интересная мысль. Голос действительно может стать естественным интерфейсом для ИИ — быстрее, удобнее и ближе к живому общению, чем текст или кнопки. Если технологии распознавания и синтеза продолжат развиваться такими темпами, формат взаимодействия с цифровыми сервисами может кардинально измениться.

  5. Компании, которые смогут создать самый естественный, надежный и полезный голосовой интерфейс, определят ландшафт технологий на следующие десятилетия.

  6. Разве не удивительно, как технологии меняют наш способ взаимодействия с миром? И кто бы мог подумать, что голос станет ключевым элементом будущего? Разве не поражает, как быстро искусственный интеллект способен адаптироваться и подстраиваться под наши потребности? И что же нас ждет дальше, когда границы между реальностью и виртуальностью станут еще более размытыми?

  7. Возникает вопрос: А будет ли возможность отключать голосовое общение, оставив лишь текстовое? Ведь на самом деле в мире достаточно много людей не слышащих, не говорящих, не имеющих такой возможности. Я думаю что классическое текстовое общение будет для них в приоритете.

Обсуждение закрыто.

Рекомендуем почитать

Подпишитесь на нашу рассылку

Loading

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам:

Продолжая использовать наш сайт, вы соглашаетесь с использованием файлов cookie. Они помогают нам обеспечивать корректную работу сайта и делать его более удобным.
Принять
Политика конфиденциальности