IT / Статьи
сервисы цифровизация
9.12.2021

Алгоритмы для исчезающих слов

Как искусственный интеллект поможет сохранить диалекты жителей России

В Институте системного программирования Российской академии наук (ИСП РАН) им. В.П.Иванникова функционирует платформа цифровой обработки данных в языкознании LingvoDoc. Пока проект аккумулирует диалекты разных народностей, позже накопленные лингвистами материалы станут основой создания обучающих программ. Обработанные с помощью технологий искусственного интеллекта (ИИ) голосовые отпечатки, отражающие особенности речи национальных меньшинств, будут полезны специалистам в области истории, генетики и других наук.


УМНАЯ ПЛАТФОРМА

В мире насчитывается порядка 7 тыс. языков, но многие находятся под угрозой исчезновения. Их реестр ведет ЮНЕСКО. В России порядка 136 языков, которым грозит вымирание из-за миграции, глобализации и других причин. Сберечь культурное наследие помогают технологии.

В нашей стране сохранением языков небольших этнических групп и их компьютерным анализом в режиме онлайн с 2019 года занимаются в лаборатории «Лингвистические платформы» ИСП РАН. Проект LingvoDoc, помогающий описывать диалекты, реализуется в партнерстве с Институтом языкознания РАН (ИЯз РАН) с 2012 года.

Сегодня в LingvoDoc в едином цифровом формате собраны аудиословари более чем на 1 тыс. исчезающих диалектов уральских, алтайских и других языков России

Об этом сообщил на конференции ИСП РАН в декабре 2021 года директор института Арутюн Аветисян. Суммарный объем данных превышает 2 млн словоформ.

В 2021 году у платформы появились новые возможности для фиксации диалектов самими носителями языка, уточнила в разговоре с RSpectr заведующая лабораторией «Лингвистические платформы» ИCП РАН, главный редактор LingvoDoc Юлия Норманская. Эксперт рассказала, как пользователи могут это сделать.

Юлия Норманская, ИСП РАН, ИЯз РАН:

– Люди в каждой деревне имеют свои особенности речи, говора, они уникальные и никем практически не зафиксированы. Любой житель России может записать свой голос, рассказав, например, историю или сказку на любом языке на обычный смартфон, лучше сделать это в формате WAV. Аудиофайл нужно загрузить в программу LingvoDoc под своим именем, пометив при этом точку на карте, где находится населенный пункт. Можно приложить описание в формате Word или фото с рукописным текстом об особенностях звучания того или иного диалекта.


ТЕХНОЛОГИИ LINGVODOC

LingvoDoc – кроссплатформенная технология с открытым исходным кодом, базируется в облаке. Сравнительно-исторический, фонетический, морфологический анализ в системе исчезающих языков проводится методом обсчета больших данных, что значительно повышает точность полученного результата.

Юлия Норманская, ИСП РАН, ИЯз РАН:

– На платформе используется стандартное ПО, обеспечивающее одновременную независимую работу многих пользователей с базами данных, а также созданные нами лингвистические программы.

Эксперт перечислила базовые:

  • «Фонология» – предлагает по физическим характеристикам звука варианты транскрипций и оценивает правильность существующих правил транскрибирования.
  • «Этимологический анализ» – выявляет правила соответствия звуков в родственных словах (возникших из одного слова в древнем, но исчезнувшем языке, например, во французском и итальянском из латыни).
  • «Праязыковая реконструкция» – позволяет восстановить древний язык, анализируя современные словари.
  • «Предложение этимологий» – ищет родственные слова в разных наречиях, которые ранее, например, 5-7 тыс. лет назад были одним языком.
  • «Анализ морфологии» – выявляет правила сочетаний в одном предложении глаголов с разными падежами, наречий с разными временами и формами глаголов.


ПЕРСПЕКТИВЫ В ОБЛАКЕ

ИИ сегодня демонстрирует большие успехи при обработке информации, отметил президент РАН Александр Сергеев. По его словам, для истории и культуры страны очень важно, что LingvoDoc поможет языкам малых народов сохраниться в вечном цифровом облике.

Использование ИИ в полном объеме планируется на следующем этапе, когда на основе больших корпусов текстов с глоссами будут создаваться образовательные платформы с модулем обучающих упражнений на языках народов России, отметила руководитель LingvoDoc.

Юлия Норманская, ИСП РАН, ИЯз РАН:

– Такие умные системы с большим набором данных со временем будут способны подбирать для каждого ученика задания в зависимости от его ранее совершенных ошибок.

Ю.Норманская отметила, что

для создания полноценного учебного пособия необходимо 500-600 часов качественно звучащей речи

С помощью ИИ, который учтет нюансы в произношении и проанализирует присланные пользователями аудиофайлы, будут постепенно создаваться базы данных разных территорий.

Это принципиально новый уровень описания языков, подчеркивают разработчики. Полученные материалы позволят установить, например, как в древности происходила миграция. Собранные цифровые данные будут иметь значение не только для лингвистов, но и для историков и биологов.

Так, в будущем планируется создание виртуальной лаборатории «Генетическое разнообразие населения России» с модулем сопоставления на карте лингвистической информации и данных о наследственности.

Ожидается перевод LingvoDoc полностью в облачную среду, где в зависимости от количества подключившихся в определенный момент времени будет выделяться размер места для новых данных, отметила Ю.Норманская.


СОТРУДНИЧЕСТВО И ЗАРУБЕЖНЫЙ ОПЫТ

Сегодня LingvoDoc используется филологами из 29 вузов и НИИ 16 городов. Разработчики планируют, что

проект значительно расширит географию в ближайшие годы и от уровня населенных пунктов перейдет к описанию лексических особенностей каждого села

Перспективы реальны уже потому, что с лабораторией ИСП РАН сотрудничают несколько сотен лингвистов.

Арутюн Аветисян, ИСП РАН:

– В этом году соглашения о развитии платформы были заключены с правительством Республики Башкортостан, с НИИ гуманитарных наук при правительстве Республики Мордовия, с Мордовским госуниверситетом.

Разработчики отмечают, что регионы были выбраны неслучайно. На вышеназванных территориях в ходу огромное число говоров и наречий. Например, в Башкортостане проживает более 160 национальностей.

На Открытой конференции ИСП РАН 2 декабря был подписан Меморандум о скоординированной работе семи университетов и НИИ из Москвы, Удмуртии, Мордовии, Саха (Якутии), Башкортостана по созданию специально обработанных корпусов текстов, которые станут основой для обучающих платформ на удмуртском, мордовском, якутском и башкирском языках.

Ю.Норманская рассказала, что экспертиза описания и хранения диалектов с помощью цифровых инструментов находится на высоком уровне и в других странах.

Юлия Норманская, ИСП РАН, ИЯз РАН:

– В ЕС есть организация и платформа clarin.eu, у которой в каждой стране есть филиалы, например, в Финляндии это kielipankki.fi, в Германии – clarin-d.net. Финансовое обеспечение каждого филиала больше бюджета любого университета. В ЕС считается крайне важным вкладываться в цифровые технологии сохранения языков.

Инструменты ИИ для изучения особенностей человеческой речи в прошлом применяют и исследователи в США. Так, в 2020 году ученые Массачусетского технологического института разработали нейросеть, которая помогает лингвистам расшифровать давно забытые языки. Алгоритмы также определяют отношения между ними.

Изображение: RSpectr, Freepik.com

ЕЩЕ ПО ТЕМЕ:

Алгоритмы раздора
Почему власти ограничивают рекомендательные системы цифровых гигантов

Еще по теме

В России создается умная среда подготовки правовых документов

Как повысить эффективность отрасли углеводородов за счет digital-решений

Особенности экспорта российских IT-решений в 2022 году

Поможет ли маркировка дипфейков защите персональных данных россиян

Методы борьбы с уязвимостями в системах лояльности и в процессах покупки

Российские высокие технологии проникли во все сферы экономики, но нуждаются в данных для развития

О трендах и перспективах цифровизации территорий России

В России хотят создать Совет по программно-аппаратным комплексам

Как избежать провалов в бизнесе при внедрении IТ-решений

Поможет ли перевод сайтов СМИ в публичные облака их кибербезопасности

Как проходит импортозамещение на рынке автономного транспорта в России

IT-отрасль ждет решения о господдержке экспорта ПО

Чего ждет IT-отрасль от эксперимента по использованию открытого ПО

Топ-5 актуальных запросов от пользователей российских BI-систем

Как совместить Bug Bounty и критически важные государственные ресурсы