Искусственный интеллект просит больше данных
Регулирование / Статьи
аналитика данных персональные данные
23.9.2022

Искусственный интеллект просит больше данных

Как внедрение стандартов ИИ и Big Data помогут защите персональных данных

Для публичного обсуждения представлены проекты стандартов качества данных для аналитики и обучения искусственного интеллекта (ИИ). Предполагается, что они обеспечат универсальную систему терминов и алгоритмов для отрасли. Стандарты в России носят рекомендательный характер, как их внедрение повлияет на отечественный рынок Big Data и сферу персональных данных – в материале RSpectr.

ОТКРЫВАЯ ЧЕРНЫЙ ЯЩИК

В России представлены первые редакции проектов национальных стандартов в области качества данных для аналитики и машинного обучения. Они разработаны Институтом развития информационного общества совместно с Национальным центром цифровой экономики МГУ имени М.В.Ломоносова.

Серия документов опубликована на сайте Центра компетенций НТИ по технологиям хранения и анализа больших данных МГУ имени М.В.Ломоносова. Публичное обсуждение большинства проектов продлится до середины ноября 2022 года.

Современные технологии машинного обучения и аналитики больших данных представляют собой черный ящик, функционирование которого зависит от информации, используемой для обучения моделей, отметил в беседе с RSpectr руководитель разработки стандартов Национального центра цифровой экономики МГУ имени М.В.Ломоносова, глава совета директоров Института развития информационного общества, председатель Подкомитета 02 «Данные» Технического комитета по стандартизации «Искусственный интеллект» (ТК 164) Юрий Хохлов.

Качество данных – главная проблема при создании, использовании и оценке систем машинного обучения. Оно напрямую влияет на конечные результаты, говорит разработчик.

Юрий Хохлов, ТК 164:

– Представленная серия проектов стандартов определяет этапы и процессы обработки данных на протяжении жизненного цикла системы ИИ, концепции и модели качества данных с учетом этого жизненного цикла. Кроме того, определены подходы к построению показателей качества данных, требования и рекомендации для обмена информацией.

Принятие национальных стандартов позволит заинтересованным сторонам использовать единый терминологический аппарат, пояснил RSpectr ведущий специалист Национального центра цифровой экономики МГУ, ответственный секретарь Подкомитета 02 «Данные» Технического комитета по стандартизации «Искусственный интеллект» (ТК 164) Сергей Афанасьев.

По его словам, благодаря новым ориентирам повысится скорость распространения и единство восприятия информации, будут созданы предпосылки для взаимного проникновения отечественных и глобальных исследований качества информации для аналитики и машинного обучения.

В ЗАЩИТУ ПЕРСОНАЛЬНЫХ ДАННЫХ

В предложенных проектах процессы защиты персональных данных (ПД) отслеживаются на всех этапах жизненного цикла данных в системах искусственного интеллекта. Сформулированы требования и рекомендации по разработке архитектуры подобных систем, однако эта серия стандартов не предназначена для решения конкретной проблемы обезличивания наборов данных, подчеркнул Юрий Хохлов.

Юрий Хохлов, ТК 164:

– В них постулируется требование обеспечить защиту ПД на всех этапах жизненного цикла данных в системах ИИ: от концептуализации идеи, формирования требований, планирования работы со сведениями, комплектования и подготовки наборов данных, построения модели, развертывания и эксплуатации системы до вывода данных, а затем и самой системы ИИ из эксплуатации.

В представленных проектах национальных стандартов рассматриваются любые наборы данных для обучения ИИ, в том числе и синтетические (Synthetic Data), основанные не на реальных людях или событиях), объяснил Сергей Афанасьев.

В целом опубликованные варианты национальных стандартов являются русскоязычной адаптацией разрабатываемой серии международных стандартов ISO/IEC 5259–X Information technology – Artificial intelligence – Data quality for analytics and machine learning (ML), рассказали RSpectr создатели проектов.

ПРОФЕССИОНАЛЬНЫЙ КАРКАС

Искусственный интеллект и Big Data в различных сценариях оперируют сведениями, относящимися к ПД, эти сферы косвенно могут регулироваться соответствующим законодательством о ПД, отметил в беседе с RSpectr соучредитель Russian Privacy Professionals Association (RPPA) Алексей Мунтян. По его словам,

необходимость введения национальных стандартов в области качества данных для аналитики и машинного обучения уже назрела и перезрела

Поскольку технологии ИИ очень сильно зависят от используемых дата-сетов – наборов данных.

Алексей Мунтян, RPPA:

Предложенные проекты стандартов опираются на международный опыт стандартизации. Мы идем в ногу со временем и в русле глобальных тенденций. На Западе уже ведется активная нормотворческая деятельность в части предъявления требований к технологиям ИИ на предмет того, чтобы они не использовались в дискриминационных сценариях.

В России все стандарты – международные, национальные, отраслевые, корпоративные – имеют не обязательный, а рекомендательный характер, подчеркнул он и обратил внимание, что

если законом прямо не будет установлено обратное, то предложенные правила игры в сфере ИИ и Big Data будут являться добровольными для применения с точки зрения закона РФ о техническом регулировании

Косвенно внедрение новых стандартов может помочь в защите персональных данных субъектов. При этом качество информации должно верифицироваться не только теми организациями и лицами, которые будут применять указанные технологии. «Хотелось бы, чтобы этот процесс был подвергнут независимому аудиту. Но это не задача предложенных стандартов, а организационно-юридические вопросы», – полагает представитель RPPA.

В рамках Евразийского экономического союза (ЕАЭС) выдвигается много инициатив по повышению проникновения высоких технологий, в том числе в сфере обработки больших данных. Поэтому, возможно, внедрение предложенных инициатив повлияет на гармонизацию законодательства и технических стандартов всех стран ЕАЭС. Это должно сыграть позитивную роль, и страны Союза приведут в соответствие свои законодательные акты в сфере ПД, рассуждает Алексей Мунтян.

С помощью новых стандартов задается основа для обучения ИИ в рамках специализации, задается профессиональный каркас, на который можно ссылаться в отраслевых дискуссиях и предъявлять собственные практики как соответствующие этим нормам, отметил в беседе с RSpectr директор НКО «Информационная культура» Иван Бегтин. В этом смысле предложенная инициатива очень полезна, но встает вопрос о ее применении, подчеркнул он.

Заместитель директора компании «Рексофт» Анатолий Волков отметил надотраслевой уровень унификации, предложенный в проектах. Например, в отношении определения эталонной модели процесса аналитики больших данных (Big Data Analytics Process Reference Model, BDA PRM), прокомментировал он RSpectr. По его словам, подобный подход позволяет использовать лучшие наработанные практики и потенциально дополнять их спецификой той или иной индустрии при решении конкретной прикладной задачи.

Представленные проекты национальных стандартов аналогичны ISO, и Институт исследований интернета (ИИИ) считает полезным их появление в России, отметила в беседе с RSpectr директор по стратегическим проектам ИИИ Ирина Левова.

Тимур Халудоров

Изображение: RSpectr, Adobe Stock

Еще по теме

Госдума, Минцифры и Минфин обсудили проект федерального бюджета

Реально ли создать единую платформу для управления согласиями на обработку личной информации

Чего хотят экосистемы в сфере обработки данных

Что кроется в деталях обновленного закона «О персональных данных»

Минцифры рассылает во все военкоматы правительственные телеграммы о порядке действий в отношении IT-специалистов

Реален ли баланс между требованиями по обработке персональных данных и интересами бизнеса

Как оператору связи соблюдать требования по установке технических средств противодействия угрозам

Кто ответит за усиление киберзащиты в российских организациях

Когда утвердят операторов рекламных данных и в каком виде передавать информацию в госреестр

Какое наказание нужно противопоставить преступлениям с персональными данными

Законопроект о принудительном лицензировании контента попал под критику

Почему назрел вопрос регулирования персональных генетических данных

Эксперимент по мониторингу здоровья поможет расширить рынок устройств для наблюдения за пациентами

Общество требует внедрять прозрачные механизмы проверки возраста пользователей платформ

Как Центробанк собирается бороться с хищениями средств с банковских карт