Введение в вычислительную лексическую семантику
Преподаватель:
Старший исследователь в Лаборатории цифрового общества, ассоциированный исследователь в Université catholique de Louvain
Вычислительная лексическая семантика (computational lexical semantics) — раздел компьютерной лингвистики, который изучает ряд вопросов, связанных с вычислительными моделями лексических единиц, таких как слово или именная группа. Из мини-курса вы узнаете о современном состоянии дел в данной области. Акцент курса делается на метрики семантической близости между словами и связанную с ними группу технологий, которые находят приложения в ряде задач обработки текстов и информационного поиска.
Ниже приведена структура мини-курса. Часть материала, прочитанного автором в рамках похожих курсов, доступна на slideshare. Значительная часть курса основана на исследованиях автора.
- Введение. Вычислительная лексическая семантика: задачи и приложения.
- Понятие семантического отношения и семантического ресурса.
- Задача извлечения семантических отношений (semantic relation extraction).
- Задача разрешения смысла слова (word sense disambiguation).
- Метрики семантической близости между лексическими единицами (semantic similarity).
- Обзор базовых метрик семантической близости.
- Метрики, основанные на семантических сетях (WordNet, тезаурусы, решетка категорий Википедии).
- Метрики, основанные на корпусе текстов:
- дистрибутивная семантика: метод контекстного окна и синтаксического контекстного окна;
- метрики, основанные на лексико-синтаксических паттернах;
- латентно-семантический анализ.
- Метрики, основанные на веб-корпусе и индексе поисковых систем.
- Метрики, основанные на словарях и энциклопедиях.
- Гибридные метрики семантической близости.
- Комбинация базовых метрик при помощи машинного обучения, метод HybridSim.
- Альтернативные методы комбинирования метрик.
- Последние достижения в области вычислительной лексической семантики.
- Нейросетевые модели языка (neural network language models) и их приложения в вычислителной семантике, word2vec.
- Метрики, основанные на матричных и тензорных разложениях (NMF, NTF и др.).
- Метрики, основанные на латентном размещении Дирихле (LDA) и других графических вероятностных моделях.
- Приложения метрик семантической близости.
- Поиск и визуализация семантически связанных слов.
- Расширение поисковых запросов.
- Классификация коротких текстов.