Защита персональных данных
ИТ / Статьи
ИИ информбезопасность персональные данные
19.12.2023

Данные в никуда

Как защитить конфиденциальную информацию при работе с искусственным интеллектом

Угроза утечек персональных данных – один из наиболее серьезных рисков для репутации и бизнес-процессов компании при использовании ChatGPT и аналогичных сервисов. На этом фоне многие корпорации уже ограничили доступ к языковым моделям внутри своего ИТ-контура, отмечают эксперты. Стоит ли доверять нейросетям чувствительную информацию и нужно ли менять подход к защите персональных данных и организации систем кибербезопасности при использовании ИИ в компаниях – в материале RSpectr.

СЕБЕ НА УМЕ

Нейросети постоянно обучаются на огромном массиве данных из интернета и пользовательском контенте. Так, ChatGPT запоминает детали запросов и может строить ответы, исходя из полученной информации. Например, для решения рабочей задачи сотрудник может поручить чат-боту написать за него часть кода или корпоративный текст. Для этого работник может передать боту конфиденциальную информацию о своей компании, рассчитывая, что она не будет распространяться далее, отметил руководитель компонента R-Vision Endpoint в компании R-Vision Петр Куценко.

«Но языковая модель, ответив на поставленную задачу, запишет формулировку вопроса в облако. В итоге эти данные сохраняются, и из-за несовершенства алгоритмов информация может быть получена третьими лицами», – обратил он внимание RSpectr.

ИИ занимается парсингом информации из открытых источников или работает с тем, что ему передал администратор, отметил в беседе с RSpectr руководитель отдела аналитики «СёрчИнформ» Алексей Парфентьев. По его словам,

шпионажа в использовании нейросети нет, однако нарушения законодательства все же есть – ведь данные могут быть персональными, они могут обрабатываться и храниться некорректно

Например, не получено согласие на обработку, не выполняются меры по безопасности и хранению, добавил он.

Сейчас пользователям практически неизвестны архитектура построения ИИ и схема его взаимодействия с внешним миром, прокомментировал RSpectr управляющий партнер консалтингового агентства «Емельянников, Попова и партнеры» Михаил Емельянников. Он уверен, что

передавать ChatGPT и подобным сервисам, использующим ИИ, информацию ограниченного доступа, в том числе персональные данные, недопустимо

Михаил Емельянников, «Емельянников, Попова и партнеры»:

– Буквально на днях появилось сообщение из Массачусетского технологического института и Калифорнийского университета, что саморазвивающиеся модели ИИ могут создавать подсистемы ИИ без помощи и участия человека. Что и как будут обрабатывать эти подсистемы, где это будет происходить, кто получит результаты?

Пока однозначных ответов нет, необходимо ограничить использование ИИ для обработки конфиденциальных данных, подчеркнул он.

ПРИМИТЕ МЕРЫ

Как и в случае с любой облачной технологией, все, что находится не в ИТ-контуре вашей организации, считаться вашим не может, подчеркнул в беседе с RSpectr технический директор HFLabs Никита Назаров.

ChatGPT – облачная технология. Можно ли доверять ей коммерческую информацию и персональные данные? Эксперт обратил внимание, что

разработчик ИИ-систем OpenAI в своем пользовательском соглашении гарантирует, что не будет использовать информацию без разрешения, но проверить это невозможно

Никита Назаров, HFLabs:

– Использовать ИИ можно в вопросах, которые не являются критичными для бизнеса. Например, с его помощью можно создавать канву презентации, иллюстрации или даже использовать его для автодополнения кода, при условии, что он не является коммерческой тайной. Но отгружать туда файл с коммерческими или персональными данными нежелательно, так как риск утечки все же существует.

При этом технически ограничить использование ИИ невозможно. Один из вариантов – развертывать нейросети on premise. Это потребует дополнительного оборудования, но будет уверенность, что данные не уходят за периметр компании, считает эксперт.

Появление чат-ботов принципиально не изменило способы утечки конфиденциальной информации из организаций, отметил руководитель группы анализа данных Центра продуктов Dozor ГК «Солар» Максим Бузинов. Раньше программисты вносили вопросы с немаскированными данными для сервиса Stack Overflow, а специалисты по маркетингу – текст рекламы нового продукта на сайты по анализу уникальности текста, напомнил он RSpectr.

Максим Бузинов, ГК «Солар»:

– Технические меры должны ограничивать подключение к api помощников по программированию в интегрированную среду разработки (IDE), доступ к веб-версиям ИИ, а также к Telegram-ботам. В документах стоит обозначить ответственность за утечки конфиденциальной информации в системы ИИ. Кроме того, в подразделениях, разрабатывающих подобные сервисы, должны действовать регламенты по работе с дата-сетами и моделями.

Нужно принимать меры по обезличиванию, резервному копированию и версионированию (хранению истории изменения объекта). Действующие модели должны регулярно тестироваться в автоматическом режиме, а хранилище с дата-сетами и моделями – администрироваться выделенным инженером данных, добавил эксперт.

По мнению Алексея Парфентьева,

защита персональных данных при обработке сотрудником или же ИИ принципиально ничем не различается

Каналы связи с внешним миром должны защищаться, передача конфиденциальной информации – блокироваться, а доступ к ней – логироваться, как и все действия пользователей.

Алексей Парфентьев, «СёрчИнформ»:

– У нейросетей есть свои особенности, например, в отличие от живого человека они не удивятся фамилии «IDDQD1217». Поэтому нейросеть может очень эффективно работать с обезличенными данными или идентификаторами.

Такая методика никак не влияет на результативность подобных сервисов и в то же время защищает персданные, потому что никакой информации, которая указывала бы на конкретного человека, ИИ просто не передается.

В ОТВЕТЕ ЗА ТЕХ, КОМУ ПОРУЧИЛИ

Искусственный интеллект – это один из инструментов использования данных наряду с другими, поэтому радикальных изменений privacy-комплаенса пока не предвидится, отметил в беседе с RSpectr управляющий партнер консалтинговой компании Comply Артем Дмитриев. Тем не менее, подчеркнул он,

специалист по защите данных или DPO (Data Protection Officer) должен быть в авангарде внедрения ИИ-систем в компании

Артем Дмитриев, Comply:

– ИИ-сервисы необходимо оценивать с точки зрения законности и возможности передачи данных, влияния на права субъектов персданных, риски их трансграничной передачи и локализации. DPO также должен участвовать в предоставлении рекомендаций по определению правил использования таких систем и разъяснительной работе с сотрудниками.

Возможно обсуждать ужесточение регулирования в отношении отдельных сценариев, например, профайлинга клиентов или работников, а также биометрической идентификации. Для этого можно взять на вооружение опыт ЕС, который выделяет ряд запрещенных сценариев использования ИИ-систем и ранжирует их по уровню риска, рассуждает Артем Дмитриев.

Алексей Парфентьев обратил внимание, что

на данный момент не очень понятно, как регулятор будет реагировать на жалобу о нарушении обработки персданных с помощью ChatGPT

«Некий пользователь ввел в чат задачу, выполнение которой требует обращения к ПД по открытым источникам, что нейросеть и сделает. Кто в этом случае несет ответственность за обработку ПД? Пользователь, экземпляр ChatGPT, выполнивший запрос, провайдер сервиса, на котором этот чат-бот работает, разработчик изначального исходного кода OpenAI либо разработчик модифицированного исходного кода?» – рассуждает эксперт. Он подчеркивает, что с этим вопросом нужно разобраться регуляторам.

По мнению Михаила Емельянникова, необходимо очень четко определить, какие данные можно передавать для машинного обучения ИИ.Ему представляется ошибочной тенденция к полному отказу от свободного оборота обезличенных данных, которые в законе теперь именуются «персональные данные, полученные в результате обезличивания персональных данных».

Михаил Емельянников, «Емельянников, Попова и партнеры»:

– На статистике построено огромное количество бизнес-процессов в самых разных областях – банковском деле, страховании, медицине, фармацевтике, маркетинге, а вся статистика строится на обезличенных данных. Предъявлять к ним более жесткие требования, чем к данным до обезличивания, – путь абсурдный.

Тимур Халудоров

Изображение: RSpectr, Adobe Stock

Еще по теме

Почему рынок коммерческих дата-центров нуждается в регулировании

Что ждет начинающего тестировщика в 2024 году

Как найти перспективные зарубежные рынки для российских решений

Какие угрозы несет интернет тел человечеству

Успеют ли банки заменить импортный софт и оборудование до 2025 года

Зачем компании вкладывают деньги в ИТ-состязания?

Импортозамещение и внутренняя разработка ПО в страховании

Почему рынок информационных технологий РФ возвращается к классической дистрибуции

Что сделано и не сделано в цифровизации России за 2023 год

Как заботу о вычислениях переложить на вендоров и почему не все к этому готовы

Когда российский бизнес начнет замещать импортное ИТ-оборудование

Чего добились за два года активного импортозамещения ПО

Как искусственный интеллект меняет банковскую систему РФ

Как проходит цифровая трансформация отечественного госсектора

Процесс замены иностранного софта близится к завершению – и это вызов