В МАУ разработали новый метод автоматического анализа лексики
В Мурманском арктическом университете представили инновационный проект по автоматическому выявлению изменений в словарном запасе языке. Для этого была разработана специальная программа на основе языка программирования, которая способна сравнивать изменение частоты употребления слов в огромных текстовых файлах, позволяя тем самым находить новые и устаревшие слова, а также отслеживать, как они меняются со временем.
«Раньше учёные искали новые слова вручную, то есть они читали газетные статьи, интернет-форумы и самостоятельно выписывали из них новые слова, чтобы потом их проанализировать и внести в словарь, — рассказала автор проекта, кандидат филологических наук, доцент Татьяна Рычкова. — Этот способ требует много времени, сил, он субъективен и ограничен предпочтениями учёного. Более того, уходящие из языка слова таким образом найти вообще невозможно. Обычно к устаревшим относят те слова, которые обозначают уже несуществующие вещи вроде „кафтан“ или старославянизмы типа „уста“. Наш проект позволяет с высокой степенью точности и объективности вычислить все неологизмы и архаизмы».
С помощью специальной программы сравниваются и анализируются текстовые файлы трёх исторических периодов: дореволюционного с 1700 по 1916 год, советского с 1918 по 1991 год и постсоветского с 1992 по 2016 год общим объемом 250 млн слов.
«Такие файлы никогда не смог бы проанализировать человек. Даже просто пролистать эти файлы до конца — невозможная для человека задача. Для сравнения, в „Войне и мире“ всего 188 088 слов», — добавила Татьяна Рычкова.