Технологии искусственного интеллекта
Медиа / Статьи
ИИ технологии
28.5.2024

Нейроархивариус

Как искусственный интеллект сохраняет коллекцию записей ленинградского Дома Радио

Современные технологии применяются для огромного спектра практических задач. Среди них – работа с уникальными коллекциями исторических материалов, которые представлены на физических носителях, что не только увеличивает риски их утраты, но и ограничивает их доступность. Какие инструменты помогают оцифровывать архив радиопередач и обеспечивать доступ к ним для всех желающих? Об опыте Центрального госархива кинофотофонодокументов читателям RSpectr рассказывает заместитель председателя – начальник отдела информатизации и защиты информации Архивного комитета Санкт-Петербурга Павел Крылов.

ГОЛОСА ИЗ ПРОШЛОГО

В 2021 году на хранение в Центральный государственный архив кинофотофонодокументов (ЦГАКФФД) Санкт-Петербурга была передана коллекция записей Ленинградского Дома Радио – это 470 тыс. бобин, физических носителей, которые представляют собой катушки с магнитной лентой.

В собрании представлены записи радиопередач периода 1940–1990-х годов, в том числе с участием выдающихся деятелей культуры, политики, науки, спорта тех лет. Более того,

в этих передачах можно услышать, как звучали голоса Маяковского, Есенина, Толстого, Куприна, Серафимовича

В 1959 году выходила программа «Голоса писателей», в которой транслировали еще более ранние записи.

Особую часть архива представляют фонодокументы военных лет. Среди них – знаменитые выступления Ольги Берггольц на радио во время Блокады Ленинграда. Работники ленинградского радио во время бомбежек города записывали звуки пикирующих самолетов, падающих бомб и взрывов – эти памятники эпохи тоже вошли в состав коллекции.

Передача коллекции Дома Радио в архивный фонд Санкт-Петербурга – не просто смена места хранения. Перед работниками ЦГАКФФД встала задача описать сотни тысяч записей на магнитной ленте, а кроме того, позаботиться об их сохранности и провести оцифровку. Проект активно поддержал вице-губернатор Санкт-Петербурга Станислав Казарин, курирующий цифровую трансформацию города. Нам был дан карт-бланш для работы, которая позволит открыть доступ к записям не только для сотрудников архивов и ученых, но и для всех жителей страны.

КАК В АРХИВЕ РАБОТАЮТ С АУДИОЗАПИСЯМИ

В хранилище ЦГАКФФД представлено большое количество фотофонодокументов, в том числе личных фондов дореволюционного периода. Оцифровывать архивные материалы начали еще до передачи коллекции Дома Радио – собрание граммофонных записей мы переводим в современные форматы.

С 2023 года для этих целей стали использовать технологию RPA

Или Robotic Process Automation – автоматизация бизнес-процессов с помощью программных роботов. Это значительно повысило эффективность работы. Так, архиву требовалось обработать 44 тыс. аудиофайлов записей – робот выполнил задачу за 44 рабочих дня, тогда как людям на это потребовалось бы 260 дней.

Однако перенести предыдущий опыт работы с архивными материалами в случае с записями Дома Радио было невозможно, в том числе из-за технологических изменений, которые происходили в этот период. Если в первом случае архивисты имели дело с записями на грампластинках, то теперь перед командой стояла задача обрабатывать магнитную ленту.

Кроме того, требовалось найти аппаратуру, необходимую для ее воспроизведения, – это уже достаточно серьезная в наши дни техническая задача, так как магнитофоны во многом ушли в прошлое, в отличие от виниловых проигрывателей, которые переживают новую волну популярности. Тем не менее нам удалось сформировать пять аппаратно-программных комплексов, в состав которых входят катушечные магнитофоны.

ПОЧЕМУ ЭТО ВАЖНО

Оцифровка одновременно решает три важные задачи: обеспечение сохранности фонодокументов, их учет и возможность поиска.

Катушки с магнитофонной лентой хранятся десятилетиями, но стареют: магнитный слой постепенно «осыпается», а сама лента слипается. Поэтому перед оцифровкой все катушки перематываются на медленной скорости, чтобы расправить ленту и избежать ее повреждения.

Иногда носитель оказывается в настолько хрупком состоянии, что оцифровка – это единственная возможность прослушать запись. После этого она может быть утрачена в силу естественных причин. Таким образом,

перевод звука в «цифру» позволяет создать «вечную» копию и сохранить историю для следующих поколений

Есть и еще одна сложность. Каждая бобина имеет свои инвентарный номер, датировку и общее описание. Но они не всегда полно отражают ее содержание. Например, после выступления симфонического оркестра может быть записана трансляция выпуска новостей или важного выступления. Атрибутировать все записи, которые находятся на ленте, тоже помогает оцифровка: она позволяет быстрее составить полное описание фонодокументов каждой ленты, а значит, и упростить поиск информации по ним.

Аудиозаписи, хранящиеся в архиве, необходимо проиндексировать, расставить тайм-коды, которые позволят быстро сориентироваться во фрагментах, а записи, которые содержат речь, – транскрибировать. Задача, учитывая тот объем фонодокументов, который поступил на хранение в ЦГАКФФД, на первый взгляд, – практически невыполнимая. Но на практике – решаемая с помощью современных технологий.

КАК ОЦИФРОВЫВАЮТСЯ ФОНОДОКУМЕНТЫ

В команде проекта 28 специалистов, среди которых работники архива Дома Радио, которые перешли в ЦГАКФФД для работы с коллекцией. Чаще всего оцифровкой традиционных документов (бумажных или фотографий), хранящихся в архивах Санкт-Петербурга, занимаются подрядные организации. Но с фонодокументами Дома Радио работают штатные сотрудники.

Специалисты проводят большой комплекс работ – необходимо оцифровать записи, описать их и включить в электронный каталог архива. Для оптимизации процесса применяют инструменты бережливого производства: на старте проекта оцифровку переместили ближе к хранилищу, упростили требования к описанию документов, исключили избыточные этапы в цепочке. Это позволило сократить предполагаемый срок работ почти на треть.

На первом этапе работы с фонодокументами создается цифровая мастер-копия записей в формате WAV. Такие файлы имеют большой вес, их трудно распространять по сети, но они лучше поддаются последующей обработке и реставрации. После этого создается облегченная копия мастер-записи в формате MP3 с битрейтом 128 Кбит/сек. Ее уже можно выкладывать в свободный доступ: скачать и воспроизвести такой файл может любой пользователь. Этот же файл размещается в информационной системе.

Создание цифровых копий фонодокументов происходит с помощью технологии RPA –

программный робот в автоматическом режиме создает из мастер-копии облегченную версию записи

На втором этапе оцифровки проводится транскрибирование аудиозаписей. Для этого применяется российское решение «Нестор.BRIEF» от компании «Центр речевых технологий», которое разработано для синхронного документирования устных выступлений. Использование искусственного интеллекта обеспечивает высокие скорость и качество стенограммы.

Решение преобразует оцифрованные речевые фонограммы в готовые тексты и помогает сформировать электронный каталог

На практике система работает следующим образом. Решение разделяет запись речи на реплики отдельных ораторов, учитывая особенности произношения, а также справляется со звуком невысокого качества. После включения в электронный каталог с фонодокументами можно будет ознакомиться в читальном зале архива через государственную информационную систему «Государственные архивы Санкт-Петербурга».

Пока из 470 тыс. единиц хранения, поступивших из Дома Радио, оцифрована одна десятая – около 48 тыс. Несколько десятков из них уже выложены на портале «Архивы Санкт-Петербурга». До конца года там появится большинство оцифрованных на данный момент записей.

Однако для перевода в «цифру» всей коллекции Дома Радио даже с использованием технологий искусственного интеллекта специалистам потребуется около 20 лет. Поэтому в первую очередь архивисты и историки выбирают для обработки те фонодокументы, которые наиболее востребованы пользователями, а также в оперативном порядке в работу берутся носители, чье физическое состояние вызывает опасения за сохранность записи.

ОБМЕН ОПЫТОМ

Между различными архивами, работающими при учреждениях Санкт-Петербурга, а также других регионов, налажено постоянное информационное взаимодействие. Например, недавно представители Музея Арктики и Антарктики изучали опыт построения ГИС «Архивы Санкт-Петербурга». Они планируют создать свою информационную систему, чтобы дать пользователям возможность работать с документами, которые находятся у них на хранении.

ГИС «Архивы Санкт-Петербурга» – одна из наиболее развитых профильных информационных систем в стране. На ее основе уже создают свои ГИС архивные службы Твери и Нижнего Новгорода.

Не исключено, что наша система может стать базовой платформой для размещения на «ГосТехе»

В этом случае ее смогут использовать все архивные учреждения в стране.

Уникальность нашей системы – в организации открытого доступа пользователей к архивным документам. Это касается традиционных бумажных и фотодокументов, а теперь и аудиозаписей из коллекции Дома Радио.

Практически все процессы, связанные с хранением и доступом к документам, мы автоматизировали. Так, раньше пользователю было необходимо прийти в читальный зал, найти в каталоге названия и атрибуты необходимых документов, оформить требование, которое подписывал директор архива, а утверждал главный хранитель. Проходить эту процедуру приходилось при каждом посещении читальных залов.

Сейчас человек может отправить запрос на конкретный документ через наш портал – это и есть интерфейс ГИС «Архивы Санкт-Петербурга» для взаимодействия с пользователями. Авторизация на портале происходит через ЕСИА. Пользователь записывается на посещение читального зала, оформляет требование в электронном виде и при первом посещении подписывает анкету, получает учетную запись и пароль для дальнейшего использования. При следующих визитах он сразу проходит в читальный зал и изучает нужные документы.

Более того, мы подключаем к системе городские и районные библиотеки города, чтобы разгрузить читальные залы архивов

Можно посетить ближайшую библиотеку и получить оттуда доступ к ГИС «Архивы Санкт-Петербурга» и цифровым копиям нужных документов.

Опыт создания автоматизированной ГИС, успешно работающей в рамках такого крупного региона, как Санкт-Петербург, может быть использован и в других субъектах Федерации, где архивы только начинают задумываться об автоматизации и внедрении новейших технологий.

Еще по теме

С какими угрозами может столкнуться человек в виртуальных мирах

Особенности регулирования использования искусственного интеллекта в создании медиаконтента

Заместил ли контент российских видеосервисов импортную продукцию

Замедление YouTube, внутренние риски и госбюджет на ИБ

Цифровые угрозы становятся изощреннее. Как этому противостоять?

Мировой опыт защиты детей в Сети и что могут сделать российские интернет-площадки

Нужно ли считать ссылки на запрещенные соцсети инструментом продвижения опасного контента

Как развиваются «родные» медиаплощадки и что хотят на них видеть соотечественники

Как противостоять фейкам и почему будущее за доверенными источниками

Для чего необходимо развивать блог компании и как это делать эффективно

ИТ-компании и общественные организации занялись цифровым просвещением молодежи

Американский видеохостинг заподозрили в нелегальном отслеживании детей и навязывании персонализированной рекламы

Как обеспечить безопасность своего ребенка в интернете: новые угрозы и роль искусственного интеллекта

Почему бесполезны инструменты распознавания контента, созданного искусственным интеллектом

Чем грозит глобальное распространение рекламы, созданной искусственным интеллектом