Введение в вычислительную лексическую семантику

Преподаватель:

Панченко Александр Иванович

Старший исследователь в Лаборатории цифрового общества, ассоциированный исследователь в Université catholique de Louvain

 

Вычислительная лексическая семантика (computational lexical semantics) — раздел компьютерной лингвистики, который изучает ряд вопросов, связанных с вычислительными моделями лексических единиц, таких как слово или именная группа. Из мини-курса вы узнаете о современном состоянии дел в данной области. Акцент курса делается на метрики семантической близости между словами и связанную с ними группу технологий, которые находят приложения в ряде задач обработки текстов и информационного поиска.


Ниже приведена структура мини-курса. Часть материала, прочитанного автором в рамках похожих курсов, доступна на slideshare. Значительная часть курса основана на исследованиях автора.

  1. Введение. Вычислительная лексическая семантика: задачи и приложения.
    • Понятие семантического отношения и семантического ресурса.
    • Задача извлечения семантических отношений (semantic relation extraction).
    • Задача разрешения смысла слова (word sense disambiguation).
    • Метрики семантической близости между лексическими единицами (semantic similarity).
  2. Обзор базовых метрик семантической близости.
    • Метрики, основанные на семантических сетях (WordNet, тезаурусы, решетка категорий Википедии).
    • Метрики, основанные на корпусе текстов:
      • дистрибутивная семантика: метод контекстного окна и синтаксического контекстного окна;
      • метрики, основанные на лексико-синтаксических паттернах;
      • латентно-семантический анализ.
    • Метрики, основанные на веб-корпусе и индексе поисковых систем.
    • Метрики, основанные на словарях и энциклопедиях.
  3. Гибридные метрики семантической близости.
    • Комбинация базовых метрик при помощи машинного обучения, метод HybridSim.
    • Альтернативные методы комбинирования метрик.
  4. Последние достижения в области вычислительной лексической семантики.
    • Нейросетевые модели языка (neural network language models) и их приложения в вычислителной семантике, word2vec.
    • Метрики, основанные на матричных и тензорных разложениях (NMF, NTF и др.).
    • Метрики, основанные на латентном размещении Дирихле (LDA) и других графических вероятностных моделях.
  5. Приложения метрик семантической близости.
    • Поиск и визуализация семантически связанных слов.
    • Расширение поисковых запросов.
    • Классификация коротких текстов.