19.6.2024

Масочный режим

Поможет ли риск-ориентированная модель безопасному обороту персональных данных

Сейчас идет обсуждение законопроекта по созданию государственной информационной системы, куда планируется передавать коммерческие данные по запросу Минцифры. Требования по их обезличиванию будут устанавливаться правительством и согласовываться с ФСБ. Но для конкретного бизнес-кейса или исследовательской задачи потребуются свои данные, подготовленные определенным образом с помощью маскировки, считают эксперты. Почему вместо централизованной универсальной системы они предлагают распределенную систему, в которой можно самостоятельно управлять рисками, и что прибавится, а что убавится в этой системе – в материале RSpectr.

ОСОБОЕ МНЕНИЕ

Бытует мнение, что практически все данные о любом человеке уже находятся в Сети и при должном усердии их можно деобезличить. Такой подход ограничивает использование обезличенных данных для аналитики и обучения моделей для искусственного интеллекта. Такого же мнения придерживается регулятор – год назад заместитель руководителя Роскомнадзора Милош Вагнер, выступая на Петербургском международном юридическом форуме, подчеркнул, что

обезличенные данные все еще остаются персональными данными, поскольку характеризуют человека, может быть, и без прямых идентификаторов

Поэтому обезличенные данные не могут использоваться в бизнес-процессах. Но с таким подходом согласны не все. Ассоциация больших данных (АБД) и компания HFLabs 19 июня представили результаты экспериментов по отработке риск-методики в задачах обработки персональных данных (ПД).

По мнению технического директора HFLabs Никиты Назарова, при «правильном» выборе инструментов обезличивания и должном уровне их применения можно обеспечить безопасности с сохранением полезности данных для определенной задачи.

Никита Назаров, HFLabs:

– В качестве критерия безопасности мы предлагаем применять риск-методику, то есть оценивать риск повторной идентификации конкретного дата-сета, который планируется применять в бизнес-кейсе.

По его словам, АБД и HFLabs смоделировали два кейса, в рамках которых применяются обезличенные данные:

Первый – подготовка дата-сета для анализа, который попадает в руки злоумышленников. Сопоставляя эти данные с ранее утекшей в Сеть информацией, они пытаются получить персональные данные.
Второй связан с объединением хакерами сведений из разных источников. Они будут искать в обезличенном массиве информацию о конкретном человеке.

РИСК, НО СТРОГО ПО РАСЧЕТУ

Модель, цель которой – расчет рисков при обработке чувствительных данных, в том числе персональных, начали формировать еще два года назад, рассказал исполнительный директор АБД Алексей Нейман.

По его словам, в ходе тестирования риск-модели ставились четыре вопроса, первый из которых: как связаны K-anonimity (характеристика набора данных) и риски кибератак?

Алексей Нейман, Ассоциация больших данных:

– На второй риск обращал внимание регулятор. Нам говорили: ребята, мы все понимаем – вы берете какой-то дата-сет внутри своего предприятия. Вдруг он утек в Сеть. Тогда регулятор напоминает, что в Сеть утекло множество различных данных и нужно просчитывать риски с учетом того, что злоумышленники будут использовать данные, которые уже находятся в интернете.

Поэтому, подчеркнул он, второй вопрос, который решался при тестировании:

как эффективно оценить риски утечки информации с учетом внешних источников?

Также исследователи хотели выяснить, существуют ли простые методы пересечения данных без раскрытия конфиденциальных идентификаторов и как различные виды защиты влияют на обобщенную модель информационной утечки при работе с несколькими источниками данных.

Алексей Нейман, Ассоциация больших данных:

– Риски данных – это насколько вы можете выделить персональную информацию из дата-сета. Второй риск – контекстный – насколько сложно в текущих организационных условиях и уровне защиты добраться до этого дата-сета.

Риск утечки информации складывается из трех основных аспектов:

Риск выделения или реидентификации – оценка вероятности того, что в исходном наборе данных существует запись с уникальными атрибутами.

Связывание – возможность связать записи, принадлежащие определенному лицу в исходном и получившемся наборе данных.

Риск вывода – возможность угадывать неизвестные атрибуты исходных записей из объединенных данных.

Риск-модель АБД была протестирована на инструменте «Маскировщик», разработанном в компании HFLabs. По словам Никиты Назарова, он предназначен для формирования обезличенных срезов данных. Эксперт подчеркнул, что

ключевая история решения – это сохранение качества и пользы сведений

В ходе тестирования были смоделированы кибератаки с целью получения персональной информации из обезличенных наборов для кейсов «Оценка оттока банковских клиентов (Churn Rate)» и «Маркетинговая атрибуция на независимых наборах».

По словам главного методолога АБД Валерия Хватова, в ходе тестирования выяснилось, что при определенных схемах, связанных в основном с дифференциальной приватностью, возможно снижение риска при относительной сохранности бизнес-характеристик и качества набора данных, чтобы они оказались полезными.

«В ходе эксперимента мы снизили комплексные риски маскированных данных на 97,5% при сохранении их высокого показателя полезности, который составил 71%», – рассказал Алексей Нейман.

По словам Никиты Назарова, в предлагаемом решении есть «тумблер», который в одном положении говорит о том, что решение создает очень полезный набор данных, но при этом подсвечивает риски безопасности. В другом положении «тумблера» понижаются риски этой модели с учетом сокращения пользы от нее.

Никита Назаров, HFLabs:

– Например, ваш запрос к GPT-чату содержит персональные данные. «Маскировщик» может встраиваться в этот процесс, идентифицировать персданные, заменять их. Передавать в GPT-чат уже замененные данные, принимать ответ, демаскировать сведения обратно и возвращать пользователю ответ, как будто для него все было прозрачно.

ЦЕЛЬ – РЕГУЛИРОВАНИЕ

В АБД хотят совершенствования законодательного регулирования оборота обезличенных данных в России в том числе с точки зрения риск-ориентированного подхода, резюмировал руководитель GR-проектов АБД Марат Тахавиев.

По его словам, основными выводами тестирования стали:

Риски обработки данных могут быть измерены для каждого конкретного бизнес-кейса.
Существуют техники снижения риски деидентификации до нуля даже при использовании дополнительной информации, которая доступна в Сети.
Использование технологии повышения конфиденциальности лежит в серой зоне нормативного регулирования.
Закрепление оценки модели рисков будет способствовать быстрому закреплению технологий, основанных на обработке данных при сохранении должного уровня конфиденциальности.

Марат Тахавиев, Ассоциация больших данных:

– Если регулирование позволит нам оценивать риски на основе этой риск-модели, которая может стать основой для будущих правил, участники рынка в рамках своих бизнес-кейсов смогут готовить дата-сеты в соответствии с технологиями, которые существуют на рынке, и использовать эти данные для обмена и разработок. Таким образом, в России будет развиваться нацпроект «Экономика данных».

Для дальнейших шагов по развитию риск-ориентированного подхода в АБД предлагают не нормативное регулирование, а техническую стандартизацию. «В рамках профильных технических комитетов зафиксировать те модели для разных классов и методов, разработанных в рамках риск-методики, и в дальнейшем через техническое регулирование закрепить в нормативке. Если риски просчитаны в соответствии с этими стандартами, то он считались бы правильными», – отметил Марат Тахавиев.

В ближайшие полгода АБД планирует заняться закреплением этого подхода в нормативном регулировании, добавил он.

ОПТИМАЛЬНЫЙ ПУТЬ

Мировой опыт показывает, что очень трудно выработать регуляторные требования к обезличиванию данных – каждый бизнес-кейс имеет свои уникальные особенности, отметил в беседе с RSpectr глава компании Privacy Advocates, соучредитель Российской ассоциации специалистов по защите данных (RPPA) Алексей Мунтян. «Поэтому нужно использовать не универсальное мерило для всего, а именно риск-ориентированный подход», – подчеркнул он.

Однако в России риск-ориентированный подход только начинает применяться. С 2020 года государство продекларировало его в рамках реформы контрольно-надзорной деятельности. Существуют определенные ожидания по рецепции такого подхода от бизнеса, но пока в России мало компаний, которые умеют работать в этой парадигме, посетовал эксперт.

Алексей Мунтян, Privacy Advocates:

– В странах ЕС многие кейсы строятся именно на риск-ориентированном подходе. Главное в нем – это необходимость задокументировать определенный набор действий по изучению самого сценария, рисков и потенциальных угроз, которые может нести в себе этот сценарий. Выявленные угрозы должны быть нейтрализованы соответствующими компенсирующими мерами.

В России эта культура пока не развита, ее можно продвигать «снизу», усилиями бизнес-сообщества, отметил он. «На этом фоне существует технический подход к тем задачам, которые не получается решить нормативным способом с помощью, как я ее называю, “технологии защищенной обработки данных” (ТЗОД). В Европе его называют privacy-enhancing technologies (PET)», – рассказал Алексей Мунтян. По его мнению,

оптимальным является путь совмещения нормативно-правового регулирования и технических фреймворков и подходов

Кроме стандартов необходимо развивать определенные наборы сценариев и методик по оценке рисков. «Это будут конкретные портфолио для определенных кейсов. Если мы говорим о создании бизнесом технологических стандартов, то необходим соответствующий инструментарий», – подчеркнул эксперт.

Тимур Халудоров

Изображение: RSpectr, Freepik