Инженеры и ученые давно пытаются решить так называемую проблему “коктейльной вечеринки” — способность человека выделять речь одного собеседника среди множества голосов в шумной обстановке. Для людей это задача относительно простая, но технология долгое время не могла воспроизвести такой навык, что особенно важно при использовании аудиозаписей в суде. Если в записи слышны сразу несколько голосов, становится сложно точно определить, кто что сказал, что может сделать запись бесполезной как доказательство.
Основатель и технический директор компании Wave Sciences Кит МакЭлвин заинтересовался этой проблемой, когда работал на правительство США в ходе расследования военных преступлений. Ему пришлось работать с записями, где множество голосов говорили одновременно, что усложняло задачу выявления ключевых фраз и определения, кто произнес те или иные слова.
Ранее МакЭлвину удавалось успешно удалять шумы, такие как звуки автомобилей или кондиционеров, из записей. Однако удаление речи из речи оказалось куда более сложной задачей. Эхо и отражения звуков в комнате создают дополнительные трудности, делая процесс математически крайне запутанным.
Решение было найдено с помощью искусственного интеллекта. Разработка компании позволила отслеживать, откуда исходит звук, и подавлять любые звуки, которые не могли исходить от человека, находящегося в определённой позиции. Это напоминает работу камеры, которая фокусируется на одном объекте, размывая передний и задний план.
Несмотря на то, что результаты таких технологий могут не звучать идеально, они уже нашли применение в судебных делах. В одном из случаев в США, когда два наемных убийцы были арестованы, использование аудиозаписей с применением алгоритмов Wave Sciences стало ключевым доказательством.
Технология также используется в других областях, например, для анализа сигналов сонаров, переговоров в кризисных ситуациях и даже для предсказания неисправностей оборудования на основе звуковых сигналов. Wave Sciences планирует внедрять свою разработку в устройства для записи звука, голосовые интерфейсы для автомобилей и умные колонки, а также в слуховые аппараты и технологии дополненной и виртуальной реальности.
Исследования показали, что алгоритм Wave Sciences работает даже лучше человеческого слуха, особенно при добавлении большего числа микрофонов. Более того, математические модели, лежащие в основе алгоритма, удивительно похожи на те, что применяет человеческий мозг для обработки звуков, что, по мнению разработчиков, может раскрыть тайны работы нашего слуха.
Источник: SecurityLab.ru