Skip to Content

ПИСЬМЕННО И УСТНО: НЕЙРОСЕТЬ ПО-УДМУРТСКИ

27 ноября отмечается День удмуртского языка. В преддверии праздника мы попросили руководителя Удмуртского института истории, языка и литературы УдмФИЦ УрО РАН кандидата исторических наук Игоря Леонидовича Поздеева рассказать, чем сегодня могут гордиться ученые, работающие над изучением и сохранением удмуртского языка.
Удмуртский институт истории, языка и литературы был создан еще в начале 1930-х, но вошел в систему Академии наук лишь в 1987 г. Новой вехой развития стало вхождение его в состав Удмуртского федерального исследовательского центра УрО РАН, что открыло новые возможности проведения комплексных междисциплинарных исследований. В Программе развития УдмФИЦ определены приоритетные и инновационные социогуманитарные научные направления: системная реконструкция и прогнозирование историко-культурных процессов; интегрированная система Национального корпуса удмуртского языка; этнокультурный и конфессиональный ландшафт.
Главным итогом исследований за последние пять лет в области удмуртской и русской лексикологии и лексикографии стали подготовленный лингвистами УИИЯЛ двухтомный нормативный переводной Русско-удмуртский словарь (2019) и Орфографический словарь удмуртского языка (2022), удостоенный в 2021 г. Государственной премии Удмуртской Республики.
С 2019 г. при финансовой поддержке Министерства национальной политики Удмуртской Республики был дан старт реализации одного из наиболее значимых и перспективных проектов — создание и пополнение Национального корпуса удмуртского языка, представляющего собой информационно-справочную систему, основанную на собрании удмуртских текстов в электронной форме, снабженную метаданными, морфологической разметкой и поисковым механизмом (http://udmcorpus.udman.ru/). В нынешнем сентябре мы получили официальное свидетельство о его государственной регистрации в Реестре баз данных Федеральной службы по интеллектуальной собственности (Роспатент).
Стоит отметить, что корпусная лингвистика — один из самых популярных разделов языкознания, занимающийся разработкой, созданием и использованием текстовых корпусов. Помимо собрания удмуртских текстов в электронной форме, в систему также интегрированы электронные версии удмуртско-русского (2008) и русско-удмуртского (2019) словарей, позволяющие переводить слова с одного языка на другой, а также прослушивать звучание удмуртских слов. В системе Национального корпуса есть возможность поиска определенных словоформ и словосочетаний по всем загруженным на сайт текстам, подбора словоформ по грамматическим показателям, возможности поиска по авторам и по годам публикаций, поиска по подкорпусам, просмотра метаинформации найденного словоупотребления, включая сведения об авторе, названии произведения, источнике, просмотра морфологического разбора слова и его перевода на русский язык. Результаты поиска можно скачать в виде электронной таблицы Excel, в которой дан набор предложений с указанием источника. Сайт Национального корпуса удмуртского языка предназначен не только для профессиональных лингвистов и преподавателей, но и для школьников и студентов, для всех, кто интересуется или работает с удмуртским языком.
Разработка и пополнение Национального корпуса новыми текстами осуществляется сотрудниками отдела филологических исследований УИИЯЛ УдмФИЦ УрО РАН. Основная работа ведется над формированием корпуса современных литературных текстов. Его объем на данный момент составляет свыше 6,2 млн словоупотреблений. С 2022 года при поддержке гранта Президента РФ была начата разработка корпуса письменных памятников удмуртского языка. Заметим, что удмуртский корпус, по сравнению с корпусами крупных языков мира, пока еще небольшой. Но уже сейчас Национальный корпус предоставляет довольно богатый материал для проведения лингвистических исследований и подготовки различных видов словарей. В частности, в прошлом году был издан «Орфографический словарь удмуртского языка». Это фундаментальное обновление вышедшего 20 лет назад словаря, который уже не соответствует современным требованиям: новое издание содержит около 55 тыс. слов и словосочетаний, из которых впервые введено около 25 тыс. Словник расширен за счет неологизмов, отглагольных образований и широко распространенных диалектных слов.
В ближайшее время на платформе корпуса появится еще один корпус – параллельный, который будет содержать оригинальные и переводные тексты с выравниванием по предложениям. Сейчас сотрудниками института уже подготовлено более 150 удмуртских книг, переведенных с русского языка, которые будут вычитаны и загружены в корпус. Это примерно 400–450 тысяч параллельных предложений, что позволит в дальнейшем подготовить русско-удмуртский / удмуртско-русский онлайн-переводчик с использованием нейронных сетей. Создание таких переводчиков — это вопрос выживания многих современных языков, и оно требует значительных усилий именно лингвистов по вычитке текстов.
В то же время стоит отметить, что работа лингвистов идет в тесной связке с Лабораторией машинного обучения и обработки больших данных производственных киберсистем УдмФИЦ УрО РАН. В результате в 2021 г. удалось создать синтезатор удмуртской речи, позволяющий преобразовывать любой печатный текст на удмуртском языке в стандартный звуковой файл, который можно прослушать на компьютере, телефоне, смартфоне или любом другом подобном цифровом устройстве. Это направление открывает новые перспективы совместных исследований с такими крупными научными центрами, как Институт системного программирования им. В.П. Иванникова (ИСП) РАН и Институт языкознания РАН.
Синтезатор удмуртской речи создан на основе нейронной сети Tacotron. Для обучения этой нейросети за основу взят текст с сайта Национального корпуса удмуртского языка, который был озвучен Светланой Пикулевой — ведущей радио «Моя Удмуртия». Таким образом, удмуртские предложения, сгенерированные с помощью синтезатора, воспроизводятся голосом профессиональной радиоведущей. На сегодняшний день Tacotron обучен на 100 000 шагов, что позволяет воспроизводить удмуртскую речь на достаточно хорошем уровне. Озвучиваться могут как отдельные слова, так и предложения. Однако это пока лишь первая версия синтезатора. Эта нейронная сеть проста и хорошо обучаема, она выдает правильный результат, но пока еще не очень совершенный и естественный, по нему легко определить, что это говорит не человек, а программа. Поэтому в ближайшем будущем планируется развить это направление, используя более совершенную нейронную сеть, которая генерирует искусственный голос, неотличимый от голоса реального человека. Думаем, уже в скором времени синтезатор появится в открытом доступе. Трудно переоценить его практическую значимость. Синтезатор речи может быть полезен для слабовидящих людей, которые благодаря ему смогут слушать книги. Он также станет незаменимым помощником в обучении удмуртскому языку детей и взрослых.
Корпусная лингвистика, сочетающая в себе как большой объем эмпирических данных, так и современные методы статистических расчетов и обработки информации, является относительно новым подходом в языкознании и тем самым вызывает большой интерес у современных лингвистов и специалистов в области компьютерных технологий. При этом корпус удмуртского языка, представляющий собой готовые размеченные тексты в электронном виде, является фундаментальной базой для проведения исследований по различным направлениям, подготовки к изданию различных видов словарей, разработки переводчиков, синтезатора и распознавателя речи, чат-ботов и других компьютерных программ по удмуртскому языку.
Подготовил
А. Якубовский
На нижнем фото: коллектив лингвистов на презентации нового словаря
 
Год: 
2023
Месяц: 
ноябрь
Номер выпуска: 
21-22
Абсолютный номер: 
1279
Изменено 15.11.2023 - 15:25


2021 © Российская академия наук Уральское отделение РАН
620049, г. Екатеринбург, ул. Первомайская, 91
document@prm.uran.ru +7(343) 374-07-47