18.7.2023

Неуловимые нейроавторы

Почему бесполезны инструменты распознавания контента, созданного искусственным интеллектом

Системы распознавания текстов под авторством искусственного интеллекта (ИИ) плохо выполняют свои функции, констатируют эксперты. Выяснилось, что вероятность обнаружения такого контента, слегка измененного человеком, чуть выше 40%. В то же время в разных странах сейчас идет разработка документов, которые обяжут маркировать ИИ-материалы. Но есть ли техническая возможность для реализации этой идеи?

ИСКУССТВО РАСПОЗНАВАНИЯ

После запуска ChatGPT появились опасения, что студенты будут использовать чат-бот для составления эссе за считаные секунды. В ответ на это стартапы начали выпускать продукты, которые обещают определить, кто писал текст – человек или машина. Проблема в том, что

обмануть эти инструменты и избежать обнаружения относительно просто

К такому выводу пришли авторы исследования, результаты которого опубликованы на сайте Корнеллского университета США. Так, профессор Берлинского института техники и экономики Дебора Вебер-Вульф (Deborah Weber-Wulf) провела работу с группой исследователей, чтобы оценить способность 14 инструментов-распознавателей обнаруживать текст, написанный с помощью ChatGPT компании OpenAI.

Команда обнаружила, что все тестируемые инструменты с трудом определили ИИ-текст, слегка измененный людьми. В результате все, что нужно студентам, – это немного адаптировать эссе, сгенерированное нейросетью.

В ходе эксперимента исследователи также выяснили, что инструменты для идентификации отлично распознавали текст, написанный человеком (в среднем с точностью 96%). Однако они показали себя гораздо хуже, когда дело дошло до определения ИИ-контента, особенно немного отредактированного.

Хотя инструменты идентифицировали текст ChatGPT с точностью 74%, этот показатель упал до 42%, когда текст, сгенерированный ChatGPT, был слегка изменен.

НЕ НАША ОТВЕТСТВЕННОСТЬ

Если автоматические системы обнаружения будут использоваться в образовательных учреждениях, важно понимать уровень ложноположительных результатов, считает старший научный сотрудник Google, специализирующийся на генерации естественного языка, Дафни Ипполито (Daphne Ippolito). Она опасается случаев ложных обвинений учащихся в использовании нейросетей. «Если слишком много текстов, сгенерированных ИИ, выдаются за написанные человеком, то система обнаружения бесполезна», – считает она.

Компания Compilatio, которая создает один из инструментов, протестированных исследователями, говорит, что

такие системы – лишь часть подхода к обучению, они просто указывают подозрительные отрывки в тексте

По мнению Compilatio, ответственность за авторство работ лежит на образовательных учреждениях и учителях, которых их проверяют. Директор по продуктам Turnitin Энни Чечителли (Annie Cecitelli) добавила, что система просто предупреждает пользователя о наличии ИИ-текста, выделяя области, где может потребоваться дальнейшее обсуждение работы.

На сайте OpenAI предупреждается, что системы, предназначенные для обнаружения контента, созданного нейросетью, «далеко не надежны». Однако подобные заявления не помешали компаниям спешно выпускать продукты, которые обещают выполнить эту работу, говорит доцент Университета Мэриленда Том Голдштейн (Tom Goldstein). Эксперты считают, что

сама идея идентификации текста, написанного с помощью нейросетей, бессмысленна

«Не пытайтесь обнаружить ИИ – сделайте так, чтобы его использование не было проблемой», – подчеркнули авторы исследования.

ВСЕМИРНАЯ ИДЕЯ

Вопрос маркировки ИИ-контента сейчас активно обсуждается в мире. В России с такой инициативой в мае выступал депутат Госдумы Антон Немкин. Также ее предлагал ввести Российский технологический университет. Его сотрудники советовали подготовить программу защиты критически важной инфраструктуры от возможных кибератак с использованием таких систем. Инициатива связана с тем, что

повсеместное использование нейросетей даже в развлекательных целях несет опасность для сохранности персональных данных пользователей

Так, 5 июня депутаты приступили к разработке концепции закона о маркировке контента нейросетей, сообщал зампредседателя Комитета Госдумы по информполитике, информационным технологиям и связи Антон Горелкин. Цель законопроекта – снизить риски использования продуктов, созданных при помощи технологий ИИ. О технической стороне реализации идеи никто из них пока не заявлял. Антон Горелкин на момент написания материала не ответил на запрос RSpectr.

В начале июня стало известно, что Еврокомиссия намерена обязать технологические компании маркировать контент, созданный нейросетями. Вице-президент Еврокомиссии Вера Йоурова (Vera Yourova) заявляла, что новые технологии ИИ могут быть полезны, но в них есть «темные стороны с новыми рисками и негативными последствиями для общества».

По ее словам, компании, которые интегрируют генеративный ИИ в свои сервисы, должны предусмотреть меры безопасности, чтобы их продукты не использовались для создания фейков.

Материал подготовила Екатерина Шокурова

Изображение: RSpectr, AdobeStock