Аспирант Даниил Алексеевский рассказал о разработке электронного тезауруса для русского языка

Аспирант школы по филологическим наукам Даниил Алексеевский представил завершающий этап своей диссертационной работы по построению электронного русскоязычного тезауруса, аналогичного Princeton Wordnet.

Тезаурусы типа Princeton WordNet широко применяются для решения разнообразных задач автоматической обработки текста, в которых требуется определять семантическую близость слов, а также в задачах автоматического перевода. Несмотря на то, что потребность в таких ресурсах существует, сегодня для русского языка нет открытых тезаурусов, полностью соответствующих стандартам Princeton WordNet.

Даниил Алексеевский разработал цепочку программ для обработки толковых словарей с тем, чтобы извлекать из них отношения общее-частное (гипонимо-гиперонимические), являющиеся основой WordNet. На данный момент цепочка верно (точность 85%, что значительно превышает опубликованные аналогичные работы)  определяет слово в толковании, являющиееся обобщающим термином, однако дизамбигуация (выбор толкования обобщающего термина) пока что требует улучшений. Тем не менее для некоторых классов существительных дизамбигуация работает успешно, например, из словаря корректно извлекаются и разделяются между собой музыкальные инструменты и технические инструменты-приборы.

Далее Даниил намерен улучшить дизамбигуацию, используя технологию Word2Vec, а затем проанализировать и сравнить результаты обработки нескольких словарей.