Синтезированный нейросетью голос смог обмануть людей и алгоритмы
Исследователи из Чикагского университета под руководством Эмили Венгер разработали нейросеть для синтеза человеческого голоса. Она смогла обмануть системы распознавания речи и других людей.
На сегодняшний день многие системы используют идентификацию пользователя по голосу, например, в свой аккаунт в WeChat можно войти, если сказать определенную фразу. Разработчики заявляют, что голос человека уникален и это надежное средство для подтверждения свей личности, говорится в статье, опубликованной на сайте arXiv.org.
Авторы исследования выяснили, насколько хорошо алгоритм подстраивается под определенный тембр и интонацию. Ученые исходили из ситуации, в которой у злоумышленника есть доступ к образцам голоса жертвы в виде публично доступных аудио или видеозаписей, а также возможность вживую пообщаться с ним и записать речь.
Общая длина всей записи голоса – не более 5 минут. Далее на основе этих данных злоумышленник мог дообучить алгоритм до желаемого результата. Использовать при этом можно было только публично доступные алгоритмы, авторы выбрали два: SV2TTS и AutoVC. Для обучения моделей авторы использовали записи речи 90 людей из трех публичных датасетов: VCTK, LibriSpeech и SpeechAccent.
Во время тестирования успешнее всего показала себя модель SV2TTS и датасет VCTK. Для Resemblyzer доля успешных атак составила 50,5 ± 13,4%, для Azure – 29,5 ± 32 процента.
Для тестирования WeChat и голосового помощника Alexa исследователи привлекли 14 добровольцев: сначала они обучали модель своему голосу, а затем проверяли систему на синтезированных записях. В итоге 9 из 14 человек удалось войти в WeChat, а Alexa рано или поздно смогли обмануть все. Также при разговоре с алгоритмом человек не мог отличить настоящий голос от поддельного в 50% случаев.
О том, чем грозит кража биометрии и как ее избежать читайте в статье RSpectr.