Исследование Consumer Reports показало, что большинство ведущих программ для клонирования голоса с помощью искусственного интеллекта не имеют значимых барьеров, препятствующих тому, чтобы люди выдавали себя за других без согласия последних.
Технология клонирования голоса с помощью ИИ за последние годы добилась значительных успехов, и многие сервисы могут эффективно имитировать манеру речи человека, используя всего несколько секунд аудиозаписи. Во время праймериз Демократической партии в прошлом году произошёл скандал, когда роботизированные звонки от имени Джо Байдена рассылались по телефонам избирателей с призывом не голосовать. Политический консультант, признавшийся в организации этой схемы, был оштрафован на 6 миллионов долларов, а Федеральная комиссия по связи запретила роботизированные звонки, генерируемые ИИ.
Новое исследование шести ведущих общедоступных инструментов для клонирования голоса с помощью ИИ показало, что у пяти из них есть легко обходимые защиты, что позволяет клонировать голос человека без его согласия. Программное обеспечение для распознавания дипфейков часто с трудом различает реальный и синтетический голоса.
Генеративный искусственный интеллект, имитирующий человеческие качества, такие как внешность, почерк и голос, — это новая и быстро развивающаяся технология, в отношении которой в отрасли практически нет федеральных нормативных актов. Большинство проверок на предмет соблюдения этических норм и безопасности в отрасли в целом проводятся самостоятельно. Байден включил некоторые требования по безопасности в свой исполнительный указ об искусственном интеллекте, который он подписал в 2023 году, хотя президент Дональд Трамп отменил этот указ, вступив в должность.
Технология клонирования голоса работает следующим образом: берётся аудиозапись говорящего человека, а затем его голос экстраполируется в синтетический аудиофайл. Без надлежащих мер безопасности любой, кто зарегистрирует учётную запись, может просто загрузить аудиозапись говорящего человека, например, из видео на TikTok или YouTube, и сервис будет имитировать его голос.
Четыре сервиса — ElevenLabs, Speechify, PlayHT и Lovo — просто требуют поставить галочку в поле, подтверждающем, что человек, чей голос клонируется, дал на это разрешение.
Другой сервис, Resemble AI, требует записи звука в режиме реального времени, а не просто позволяет загрузить запись. Но Consumer Reports смог легко обойти это ограничение, просто воспроизведя аудиозапись с компьютера.
Только у шестого сервиса, Descript, была относительно эффективная защита. Он требует от потенциального клонера записи специального заявления о согласии, которое трудно подделать, кроме как с помощью клонирования через другой сервис.
Все шесть сервисов доступны для широкой публики на их веб-сайтах. Только Eleven Labs и Resemble AI требуют оплаты — соответственно 5 и 1 доллар — за создание индивидуального голосового клона. Остальные сервисы бесплатны.
Некоторые компании утверждают, что злоупотребление их инструментом может привести к серьёзным негативным последствиям.
«Мы осознаём возможность злоупотребления этим мощным инструментом и внедрили надёжные меры безопасности, чтобы предотвратить создание дипфейков и защитить от имитации голоса», — заявил представитель Resemble AI в электронном письме для NBC News.
У клонирования голоса с помощью ИИ есть законные цели, в том числе помощь людям с ограниченными возможностями и создание аудиопереводов для людей, говорящих на разных языках. Но существует и огромный потенциал для причинения вреда, — сказала Сара Майерс Уэст, соисполнительный директор AI Now Institute, аналитического центра, изучающего последствия политики в области ИИ.
«Очевидно, что это можно использовать для мошенничества, афер и распространения дезинформации, например, выдавая себя за представителей официальных организаций», — сказала Уэст в интервью NBC News.
Существует мало исследований о том, насколько часто искусственный интеллект используется в мошеннических схемах, основанных на аудиосвязи. В так называемых схемах мошенничества с участием бабушек и дедушек преступник звонит человеку и сообщает, что с членом его семьи случилась беда, например, его похитили, арестовали или он получил травму. Федеральная торговая комиссия предупредила, что в таких схемах может использоваться искусственный интеллект, хотя эти схемы появились ещё до появления этой технологии.
Клонированные голоса использовались для создания музыки без разрешения исполнителя, как это произошло с вирусной песней 2023 года, которая якобы была написана Дрейком и The Weeknd, а некоторые музыканты столкнулись с трудностями в управлении своим образом, когда другие люди выпускают музыку с использованием их голосов.
Источник: NBC News
Федеральная торговая комиссия США предупреждает, что такие технологии могут усугубить «мошенничество с бабушками»: преступники звонят пожилым людям, имитируя голос родственников и вымогая деньги.
Голосовые дипфейки — это реальность, и она пугает. Пока законы не успевают за инновациями, ответственность ложится на пользователей: будьте осторожны с тем, где вы размещаете свои голосовые записи, и проверяйте любые подозрительные звонки.
Я чё-т не совсем понял, как имитация голоса помогает людям с ограниченными возможностями? Т.е. я понимаю, что, например, слепым людям необходимо озвучивать информацию, т.к. они не могут её читать в интернете. Мне не понятно почему эта информация должна быть озвучена именно голосом какого-то конкретного/знакомого или известного человека. Типа если слепой не услышит голос сестры или дедушки, то он не поймёт информацию, которую этот голос несёт, или что?