23.9.2022

Искусственный интеллект просит больше данных

Как внедрение стандартов ИИ и Big Data помогут защите персональных данных

Для публичного обсуждения представлены проекты стандартов качества данных для аналитики и обучения искусственного интеллекта (ИИ). Предполагается, что они обеспечат универсальную систему терминов и алгоритмов для отрасли. Стандарты в России носят рекомендательный характер, как их внедрение повлияет на отечественный рынок Big Data и сферу персональных данных – в материале RSpectr.

ОТКРЫВАЯ ЧЕРНЫЙ ЯЩИК

В России представлены первые редакции проектов национальных стандартов в области качества данных для аналитики и машинного обучения. Они разработаны Институтом развития информационного общества совместно с Национальным центром цифровой экономики МГУ имени М.В.Ломоносова.

Серия документов опубликована на сайте Центра компетенций НТИ по технологиям хранения и анализа больших данных МГУ имени М.В.Ломоносова. Публичное обсуждение большинства проектов продлится до середины ноября 2022 года.

Современные технологии машинного обучения и аналитики больших данных представляют собой черный ящик, функционирование которого зависит от информации, используемой для обучения моделей, отметил в беседе с RSpectr руководитель разработки стандартов Национального центра цифровой экономики МГУ имени М.В.Ломоносова, глава совета директоров Института развития информационного общества, председатель Подкомитета 02 «Данные» Технического комитета по стандартизации «Искусственный интеллект» (ТК 164) Юрий Хохлов.

Качество данных – главная проблема при создании, использовании и оценке систем машинного обучения. Оно напрямую влияет на конечные результаты, говорит разработчик.

Юрий Хохлов, ТК 164:

– Представленная серия проектов стандартов определяет этапы и процессы обработки данных на протяжении жизненного цикла системы ИИ, концепции и модели качества данных с учетом этого жизненного цикла. Кроме того, определены подходы к построению показателей качества данных, требования и рекомендации для обмена информацией.

Принятие национальных стандартов позволит заинтересованным сторонам использовать единый терминологический аппарат, пояснил RSpectr ведущий специалист Национального центра цифровой экономики МГУ, ответственный секретарь Подкомитета 02 «Данные» Технического комитета по стандартизации «Искусственный интеллект» (ТК 164) Сергей Афанасьев.

По его словам, благодаря новым ориентирам повысится скорость распространения и единство восприятия информации, будут созданы предпосылки для взаимного проникновения отечественных и глобальных исследований качества информации для аналитики и машинного обучения.

В ЗАЩИТУ ПЕРСОНАЛЬНЫХ ДАННЫХ

В предложенных проектах процессы защиты персональных данных (ПД) отслеживаются на всех этапах жизненного цикла данных в системах искусственного интеллекта. Сформулированы требования и рекомендации по разработке архитектуры подобных систем, однако эта серия стандартов не предназначена для решения конкретной проблемы обезличивания наборов данных, подчеркнул Юрий Хохлов.

Юрий Хохлов, ТК 164:

– В них постулируется требование обеспечить защиту ПД на всех этапах жизненного цикла данных в системах ИИ: от концептуализации идеи, формирования требований, планирования работы со сведениями, комплектования и подготовки наборов данных, построения модели, развертывания и эксплуатации системы до вывода данных, а затем и самой системы ИИ из эксплуатации.

В представленных проектах национальных стандартов рассматриваются любые наборы данных для обучения ИИ, в том числе и синтетические (Synthetic Data), основанные не на реальных людях или событиях), объяснил Сергей Афанасьев.

В целом опубликованные варианты национальных стандартов являются русскоязычной адаптацией разрабатываемой серии международных стандартов ISO/IEC 5259–X Information technology – Artificial intelligence – Data quality for analytics and machine learning (ML), рассказали RSpectr создатели проектов.

ПРОФЕССИОНАЛЬНЫЙ КАРКАС

Искусственный интеллект и Big Data в различных сценариях оперируют сведениями, относящимися к ПД, эти сферы косвенно могут регулироваться соответствующим законодательством о ПД, отметил в беседе с RSpectr соучредитель Russian Privacy Professionals Association (RPPA) Алексей Мунтян. По его словам,

необходимость введения национальных стандартов в области качества данных для аналитики и машинного обучения уже назрела и перезрела

Поскольку технологии ИИ очень сильно зависят от используемых дата-сетов – наборов данных.

Алексей Мунтян, RPPA:

– Предложенные проекты стандартов опираются на международный опыт стандартизации. Мы идем в ногу со временем и в русле глобальных тенденций. На Западе уже ведется активная нормотворческая деятельность в части предъявления требований к технологиям ИИ на предмет того, чтобы они не использовались в дискриминационных сценариях.

В России все стандарты – международные, национальные, отраслевые, корпоративные – имеют не обязательный, а рекомендательный характер, подчеркнул он и обратил внимание, что

если законом прямо не будет установлено обратное, то предложенные правила игры в сфере ИИ и Big Data будут являться добровольными для применения с точки зрения закона РФ о техническом регулировании

Косвенно внедрение новых стандартов может помочь в защите персональных данных субъектов. При этом качество информации должно верифицироваться не только теми организациями и лицами, которые будут применять указанные технологии. «Хотелось бы, чтобы этот процесс был подвергнут независимому аудиту. Но это не задача предложенных стандартов, а организационно-юридические вопросы», – полагает представитель RPPA.

В рамках Евразийского экономического союза (ЕАЭС) выдвигается много инициатив по повышению проникновения высоких технологий, в том числе в сфере обработки больших данных. Поэтому, возможно, внедрение предложенных инициатив повлияет на гармонизацию законодательства и технических стандартов всех стран ЕАЭС. Это должно сыграть позитивную роль, и страны Союза приведут в соответствие свои законодательные акты в сфере ПД, рассуждает Алексей Мунтян.

С помощью новых стандартов задается основа для обучения ИИ в рамках специализации, задается профессиональный каркас, на который можно ссылаться в отраслевых дискуссиях и предъявлять собственные практики как соответствующие этим нормам, отметил в беседе с RSpectr директор НКО «Информационная культура» Иван Бегтин. В этом смысле предложенная инициатива очень полезна, но встает вопрос о ее применении, подчеркнул он.

Заместитель директора компании «Рексофт» Анатолий Волков отметил надотраслевой уровень унификации, предложенный в проектах. Например, в отношении определения эталонной модели процесса аналитики больших данных (Big Data Analytics Process Reference Model, BDA PRM), прокомментировал он RSpectr. По его словам, подобный подход позволяет использовать лучшие наработанные практики и потенциально дополнять их спецификой той или иной индустрии при решении конкретной прикладной задачи.

Представленные проекты национальных стандартов аналогичны ISO, и Институт исследований интернета (ИИИ) считает полезным их появление в России, отметила в беседе с RSpectr директор по стратегическим проектам ИИИ Ирина Левова.

Искусственный интеллект просит больше данных

Украл, слил – в тюрьму?

Гены нуждаются в защите

Еще по теме

Данные наших тел

ЦОД и порядок

Детки в ИИ-клетке

Застрахуй утечку

Смена ИБ-векторов

Не корпоративный ИТ-дух

Стимулируя телеком-конкуренцию

Мои биодокументы

Чужие здесь не хостят

Хостинг-провайдеры ответят за клиентов

Сигналы регуляторов

Данные всему голова

Стратегическую инфраструктуру обезопасят

Есть вопросы к DPO

Минимализм в персданных