Шоу фальшивых киберголосов

Будут ли дипфейк-аудио использоваться в массовом телефонном мошенничестве

Синтезированные с помощью нейронных сетей голоса с каждым днем становятся все правдоподобнее. Уже существуют решения, по качеству неотличимые от оригиналов. Крупное ограбление банка в ОАЭ с применением дипфейк-аудио заставляет задуматься: станет ли этот инцидент предвестником волны массового телефонного мошенничества? Эксперты по кибербезопасности рассказали RSpectr о новых угрозах и о том, как им противостоять.


ВЫСОКОТЕХНОЛОГИЧНЫЕ АФЕРЫ НА МИЛЛИОНЫ

Ограбление банка в Объединенных Арабских Эмиратах на рекордные 35 млн долларов с помощью дипфейк-аудио (дипвойса) произошло еще в январе 2020 года, но известно о нем стало только недавно, пишет Forbes. Кибермошенники использовали технологии искусственного интеллекта (ИИ), чтобы подделать голос директора крупной компании, знакомого с менеджером кредитной организации. Используя дипвойс, аферисты позвонили этому сотруднику и убедили его перевести средства на «новые» счета.

Это не первый случай высокотехнологичного телефонного мошенничества с крупным результатом. В 2019 году преступники сымитировали речь главы концерна из Германии и попросили главу британской энергетической компании совершить транзакцию. Добыча равнялась 220 тыс. евро, сообщил Wall Street Journal.

Пожалуй, каждый из нас впервые услышал о применении поддельного голоса в преступных целях из сказки: «Пошел волк в кузницу и велел себе горло перековать, чтоб петь тоненьким голоском…» В реальности, чтобы создать имитацию, злоумышленникам достаточно добраться до публичных записей выступлений потенциальных жертв: видео из соцсетей, подкасты, комментарии на радио, рассказал RSpectr начальник отдела информационной безопасности «СёрчИнформ» Алексей Дрозд.

Причем необходима запись человека, беседующего на повседневные и профессиональные темы, в различном эмоциональном состоянии, с использованием характерных интонаций, отметил директор по методологии и стандартизации Positive Technologies Дмитрий Кузнецов. Он пояснил RSpectr, что

дипфейк-аудио способно озвучивать заранее заготовленный скрипт или дублировать речь оператора

Чем дольше длина записи и чем она качественнее, тем лучше пройдет обучение ИИ и тем более приближенной к оригиналу будет итоговая модель, прокомментировала RSpectr директор по консалтингу ГК InfoWatch Ирина Зиновкина. При этом она обратила внимание на то, что

имитируется не только голос, но и стилистические характеристики речи. Это делает людей особо уязвимыми к подобным атакам

Ирина Зиновкина, ГК InfoWatch:

– Каждый язык имеет свои особенности (ударения и т.д.), которые надо всегда учитывать. Кроме того, необходимо избавиться от сокращений и по возможности от омографов – слов, которые совпадают в написании, но различны в произношении.


НОВАЯ УГРОЗА?

Итак, конференции в Zoom, созвоны в Skype, Webex, сообщения в мессенджерах могут быть использованы для обучения нейронных сетей и имитации речи начальника, бизнес-партнера, сотрудника банка, родственника или друга. Пока дипфейк-аудио остаются эксклюзивным инструментом в точечных, тщательно подготовленных кибератаках. Но будут ли они использоваться в массовом телефонном мошенничестве?

Голос легче подделать, чем фальсифицировать видео, поэтому этот вид афер будет развиваться интенсивнее, рассказала RSpectr ведущий разработчик, технический менеджер проектов компании NetCracker Татьяна Стеблова. Она считает, что

если сегодня не предпринимать никаких действий, то уже завтра мы услышим новости о том, как обычные люди становятся жертвами преступников, использующих фальшивые голоса

С ней соглашается эксперт по кибербезопасности «Лаборатории Касперского» Дмитрий Галов. Можно предположить, что количество случаев с использованием подобных технологий будет расти, прокомментировал он RSpectr.

Дмитрий Галов, «Лаборатория Касперского»:

– Тем не менее по мере распространения этой схемы и повышения осведомленности пользователи станут меньше доверять цифровому контенту в Сети.

Руководитель отдела исследования уязвимостей продуктов в Check Point Software Technologies Одед Вануну усомнился в возможностях широкого применения таких подделок. В последние несколько лет технология создания дипфейков совершила настоящий прорыв, однако голос по-прежнему очень сложно сымитировать, пояснил он RSpectr.


СЛОЖНО И НЕРЕНТАБЕЛЬНО

Несмотря на появление большого количества open-source-решений, создание голосового фейка остается достаточно трудозатратным процессом, отмечают опрошенные RSpectr эксперты. Для моделирования речи конкретного «человека из толпы» – коллеги или супруга – потребуется большая исследовательская работа. Поэтому использование дипфейк-аудио для массового телефонного мошенничества сейчас абсолютно нерентабельно, уверен Д.Кузнецов.

Дмитрий Кузнецов, Positive Technologies:

– Биометрические системы идентификации по голосу пока только начинают внедряться, и необходимости обходить их с помощью дипфейков у преступников пока не возникает. Обмануть же человека можно гораздо проще и дешевле.

И.Зиновкина обращает внимание, что развитие подобных систем тормозят:

  • Сложная конструкция русского языка – большинство иностранных моделей преимущественно обучены английскому языку;
  • Качество синтезирования – подделку пока можно распознать, несмотря на маскировку якобы плохим качеством связи и другими помехами.

Злоумышленники всегда идут по пути наименьших затрат, поэтому для массового мошенничества использование дипфейков нецелесообразно, соглашается с коллегами директор департамента информационной безопасности компании Oberon Евгений Суханов. Создание фальшивок и их применение актуальны в целевых атаках, сказал он RSpectr.

Мошенники могут выдать себя за какого-нибудь общественного деятеля или политика для проведения массовых звонков, рассуждает ИБ-евангелист компании Avast Луис Корронс. Но вероятность того, что кто-то действительно поверит, что ему звонит известный человек, невысока, поэтому такая атака вряд ли будет успешной, пояснил он RSpectr.


ОКОНЧЕН РАЗГОВОР!

Единственный верный метод идентифицировать аудиофальшивку – это получить личное подтверждение: повесить трубку и связаться с человеком или организацией напрямую, говорят собеседники RSpectr. При этом даже базовые меры безопасности могут быть эффективны. Для распознавания поддельных голосов эксперты советуют:

  • Убедиться, что коллеги, родственники и друзья знают, что такое дипвойсы и какие риски они несут.
  • Использовать контрольное слово, секретный вопрос или одноразовый ежедневный пароль.
  • Придерживаться правил цифровой гигиены и доверять только качественным источникам новостей.
  • Скептическое отношение к голосовой почте и видео не гарантирует, что вас никогда не обманут, но снизит риски.

Дмитрий Кузнецов, Positive Technologies:

– Ключевой фактор успеха мошенников – не качественная подделка, а создание условий, при которых жертва ожидает звонка на определенную тему от конкретного лица и именно по этой причине не ожидает подвоха.

Этим приемом без дипфейков многие годы успешно пользуются пранкеры, отмечает он. А.Дрозд обращает внимание на угрозу использования этой технологии для шантажа. «Например, жертве могут угрожать публикацией фейковых аудио под видом “компрометирующего высказывания”. Доказать, что запись поддельная, будет очень сложно», – прогнозирует эксперт.

По словам Т.Стебловой, недавно Google опубликовал собственный набор синтетической речи и открыл доступ для исследователей, которые занимаются обнаружением дипфейков. Технологии их создания и системы кибербезопасности не стоят на месте, и можно быть уверенными, что в ближайшем будущем мы увидим сервисы, помогающие обычным людям идентифицировать фальшивые голоса, полагает она.

Изображение: AdobeStock, RSpectr

ЕЩЕ ПО ТЕМЕ:

Не потерять «лица»
Чем грозит кража биометрии и как ее избежать