Данные в никуда
Как защитить конфиденциальную информацию при работе с искусственным интеллектом
Угроза утечек персональных данных – один из наиболее серьезных рисков для репутации и бизнес-процессов компании при использовании ChatGPT и аналогичных сервисов. На этом фоне многие корпорации уже ограничили доступ к языковым моделям внутри своего ИТ-контура, отмечают эксперты. Стоит ли доверять нейросетям чувствительную информацию и нужно ли менять подход к защите персональных данных и организации систем кибербезопасности при использовании ИИ в компаниях – в материале RSpectr.
СЕБЕ НА УМЕ
Нейросети постоянно обучаются на огромном массиве данных из интернета и пользовательском контенте. Так, ChatGPT запоминает детали запросов и может строить ответы, исходя из полученной информации. Например, для решения рабочей задачи сотрудник может поручить чат-боту написать за него часть кода или корпоративный текст. Для этого работник может передать боту конфиденциальную информацию о своей компании, рассчитывая, что она не будет распространяться далее, отметил руководитель компонента R-Vision Endpoint в компании R-Vision Петр Куценко.
«Но языковая модель, ответив на поставленную задачу, запишет формулировку вопроса в облако. В итоге эти данные сохраняются, и из-за несовершенства алгоритмов информация может быть получена третьими лицами», – обратил он внимание RSpectr.
ИИ занимается парсингом информации из открытых источников или работает с тем, что ему передал администратор, отметил в беседе с RSpectr руководитель отдела аналитики «СёрчИнформ» Алексей Парфентьев. По его словам,
шпионажа в использовании нейросети нет, однако нарушения законодательства все же есть – ведь данные могут быть персональными, они могут обрабатываться и храниться некорректно
Например, не получено согласие на обработку, не выполняются меры по безопасности и хранению, добавил он.
Сейчас пользователям практически неизвестны архитектура построения ИИ и схема его взаимодействия с внешним миром, прокомментировал RSpectr управляющий партнер консалтингового агентства «Емельянников, Попова и партнеры» Михаил Емельянников. Он уверен, что
передавать ChatGPT и подобным сервисам, использующим ИИ, информацию ограниченного доступа, в том числе персональные данные, недопустимо
Михаил Емельянников, «Емельянников, Попова и партнеры»:
– Буквально на днях появилось сообщение из Массачусетского технологического института и Калифорнийского университета, что саморазвивающиеся модели ИИ могут создавать подсистемы ИИ без помощи и участия человека. Что и как будут обрабатывать эти подсистемы, где это будет происходить, кто получит результаты?
Пока однозначных ответов нет, необходимо ограничить использование ИИ для обработки конфиденциальных данных, подчеркнул он.
ПРИМИТЕ МЕРЫ
Как и в случае с любой облачной технологией, все, что находится не в ИТ-контуре вашей организации, считаться вашим не может, подчеркнул в беседе с RSpectr технический директор HFLabs Никита Назаров.
ChatGPT – облачная технология. Можно ли доверять ей коммерческую информацию и персональные данные? Эксперт обратил внимание, что
разработчик ИИ-систем OpenAI в своем пользовательском соглашении гарантирует, что не будет использовать информацию без разрешения, но проверить это невозможно
Никита Назаров, HFLabs:
– Использовать ИИ можно в вопросах, которые не являются критичными для бизнеса. Например, с его помощью можно создавать канву презентации, иллюстрации или даже использовать его для автодополнения кода, при условии, что он не является коммерческой тайной. Но отгружать туда файл с коммерческими или персональными данными нежелательно, так как риск утечки все же существует.
При этом технически ограничить использование ИИ невозможно. Один из вариантов – развертывать нейросети on premise. Это потребует дополнительного оборудования, но будет уверенность, что данные не уходят за периметр компании, считает эксперт.
Появление чат-ботов принципиально не изменило способы утечки конфиденциальной информации из организаций, отметил руководитель группы анализа данных Центра продуктов Dozor ГК «Солар» Максим Бузинов. Раньше программисты вносили вопросы с немаскированными данными для сервиса Stack Overflow, а специалисты по маркетингу – текст рекламы нового продукта на сайты по анализу уникальности текста, напомнил он RSpectr.
Максим Бузинов, ГК «Солар»:
– Технические меры должны ограничивать подключение к api помощников по программированию в интегрированную среду разработки (IDE), доступ к веб-версиям ИИ, а также к Telegram-ботам. В документах стоит обозначить ответственность за утечки конфиденциальной информации в системы ИИ. Кроме того, в подразделениях, разрабатывающих подобные сервисы, должны действовать регламенты по работе с дата-сетами и моделями.
Нужно принимать меры по обезличиванию, резервному копированию и версионированию (хранению истории изменения объекта). Действующие модели должны регулярно тестироваться в автоматическом режиме, а хранилище с дата-сетами и моделями – администрироваться выделенным инженером данных, добавил эксперт.
По мнению Алексея Парфентьева,
защита персональных данных при обработке сотрудником или же ИИ принципиально ничем не различается
Каналы связи с внешним миром должны защищаться, передача конфиденциальной информации – блокироваться, а доступ к ней – логироваться, как и все действия пользователей.
Алексей Парфентьев, «СёрчИнформ»:
– У нейросетей есть свои особенности, например, в отличие от живого человека они не удивятся фамилии «IDDQD1217». Поэтому нейросеть может очень эффективно работать с обезличенными данными или идентификаторами.
Такая методика никак не влияет на результативность подобных сервисов и в то же время защищает персданные, потому что никакой информации, которая указывала бы на конкретного человека, ИИ просто не передается.
В ОТВЕТЕ ЗА ТЕХ, КОМУ ПОРУЧИЛИ
Искусственный интеллект – это один из инструментов использования данных наряду с другими, поэтому радикальных изменений privacy-комплаенса пока не предвидится, отметил в беседе с RSpectr управляющий партнер консалтинговой компании Comply Артем Дмитриев. Тем не менее, подчеркнул он,
специалист по защите данных или DPO (Data Protection Officer) должен быть в авангарде внедрения ИИ-систем в компании
Артем Дмитриев, Comply:
– ИИ-сервисы необходимо оценивать с точки зрения законности и возможности передачи данных, влияния на права субъектов персданных, риски их трансграничной передачи и локализации. DPO также должен участвовать в предоставлении рекомендаций по определению правил использования таких систем и разъяснительной работе с сотрудниками.
Возможно обсуждать ужесточение регулирования в отношении отдельных сценариев, например, профайлинга клиентов или работников, а также биометрической идентификации. Для этого можно взять на вооружение опыт ЕС, который выделяет ряд запрещенных сценариев использования ИИ-систем и ранжирует их по уровню риска, рассуждает Артем Дмитриев.
Алексей Парфентьев обратил внимание, что
на данный момент не очень понятно, как регулятор будет реагировать на жалобу о нарушении обработки персданных с помощью ChatGPT
«Некий пользователь ввел в чат задачу, выполнение которой требует обращения к ПД по открытым источникам, что нейросеть и сделает. Кто в этом случае несет ответственность за обработку ПД? Пользователь, экземпляр ChatGPT, выполнивший запрос, провайдер сервиса, на котором этот чат-бот работает, разработчик изначального исходного кода OpenAI либо разработчик модифицированного исходного кода?» – рассуждает эксперт. Он подчеркивает, что с этим вопросом нужно разобраться регуляторам.
По мнению Михаила Емельянникова, необходимо очень четко определить, какие данные можно передавать для машинного обучения ИИ.Ему представляется ошибочной тенденция к полному отказу от свободного оборота обезличенных данных, которые в законе теперь именуются «персональные данные, полученные в результате обезличивания персональных данных».
Михаил Емельянников, «Емельянников, Попова и партнеры»:
– На статистике построено огромное количество бизнес-процессов в самых разных областях – банковском деле, страховании, медицине, фармацевтике, маркетинге, а вся статистика строится на обезличенных данных. Предъявлять к ним более жесткие требования, чем к данным до обезличивания, – путь абсурдный.
Тимур Халудоров