Преподаватель МАУ Татьяна Рычкова получила патент на изобретение способа выявления изменений в языке
Преподаватель кафедры филологии, межкультурной коммуникации и журналистики Мурманского арктического университета Татьяна Рычкова совместно с соавторами получила патент на изобретение «Способ автоматического выявления лексических изменений в языке» (№ 2 855 347). Ученые запатентовали метод, позволяющий в автоматическом режиме и с высокой точностью отслеживать, как меняется словарный состав языка.
Раньше лингвисты выявляли новые и устаревшие слова, как золотоискатели, — вручную перебирая тонны текстов в газетах, книгах или интернете. Этот процесс был крайне трудоемким, субъективным и не позволял работать с действительно большими данными. Новый метод позволяет создать своего рода «цифровое сито», которое просеивает гигантские массивы текстов, автоматически подсчитывая, как меняется частота употребления каждого слова с течением времени.
Метод уже успешно апробирован на уникальном материале — диахронических (разновременных) корпусах Национального корпуса русского языка (НКРЯ) общим объемом более 250 миллионов слов. Программа анализировала три ключевых периода: досоветский (1700−1916 гг.), советский (1918−1991 гг.) и постсоветский (1992−2016 гг.).
Алгоритм не просто находит слова, а лемматизирует их (приводит к начальной форме, например, «бежал», «бежит», «бежать» → «бежать»), подсчитывает все словоформы и сравнивает частоту употребления каждой леммы между периодами. Результат — наглядные таблицы, где видно, популярность каких слов взлетела на тысячи процентов, а какие постепенно сходят на нет.
Так, например, такие слова, как псевдогаллюцинация, благоприятель, самодовольствие, дьяконица, вредительный, маслообразный, транссубъективный, ангельчик, трансформизм, малолётный и другие, существовали ещё недавно, поколение назад, а сейчас практически исчезли из современных письменных текстов. С другой стороны, новые слова, появившиеся после 1991 года, — это, например, транслит, лизинговый, офисный, мембранозный, инвестирование, ликвидность, внедорожник и другие.
Оказалось, что, вопреки распространенному мнению, количество новых слов в языке не растет, а уменьшается, зато активный словарный запас становится больше, то есть доля часто используемых в повседневной жизни слов возрастает. Кроме того, выяснилось, что в текстах увеличивается доля цифр, что говорит о том, что мы живем в цифровую эпоху.
В перспективе на основе накопленных данных можно будет строить более точные прогнозы языкового развития и даже обучать искусственный интеллект понимать и моделировать тенденции развития лексики.
Доцент Татьяна Рычкова выступила патентообладателем, автором и научным руководителем проекта. В реализации изобретения также участвовали
«Это важный шаг в развитии инструментов изучения динамики языка. Метод позволяет работать с такими объемами данных, которые были недоступны при ручном анализе, и выявлять глубинные, объективные тенденции. Для нас это начало большого пути», — подводит итог Татьяна Александровна.
По поручению Президента России Владимира Путина, при поддержке Правительства Мурманской области и крупных предприятий на базе МАУ в рамках национального проекта «Молодёжь и дети» реализуется федеральный проект по созданию современного студенческого кампуса, в концепцию которого включён научно-образовательный центр с технопарком — для развития студенческой науки в регионе.
