Аспирантский семинар: Возможности использования локального контекста в вероятностных тематических моделях

Мероприятие завершено

Докладчик:  Анна Потапенко, аспирантка второго года обучения, базовая кафедра Яндекс департамента больших данных и информационного поиска факультета компьютерных наук
Место: Факультет компьютерных наук, Кочновский проезд, д. 3, ауд. 317
Время: 26 ноября, 18:30 – 20:00 

Доклад состоится в рамках научно-исследовательского семинара аспирантской школы по компьютерным наукам.

Вероятностное тематическое моделирование — инструмент работы с большими коллекциями текстовых документов, позволяющий автоматически выделять тематическую структуру коллекций. Каждая тема представляется вероятностным распределением на множестве слов, каждый документ — вероятностным распределением на множестве тем. Таким образом, осуществляется мягкая бикластеризация слов и документов по темам на основе информации о совместной встречаемости слов в документах коллекции. При этом в тематическом моделировании обычно никак не используется информация о совместной встречаемости слов в локальных контекстах (в одном и том же предложении или в окне заданной ширины). Такую информацию успешно используют модели дистрибутивной семантики и, в частности, популярная сегодня нейросетевая модель векторного представления слов word2vec. На семинаре будет рассказано об этой модели и эффективных способах ее обучения, о ее связи с задачей матричного разложения, а также о существующих исследованиях по комбинированию модели word2vec с моделью LDA. На основе обзора будут предложены идеи встраивания модели word2vec в мультикритериальные тематические модели с помощью механизма регуляризации. Кроме того, будут показаны текущие результаты по учету локального контекста на E-шаге обучения регуляризованной тематической модели, основывающиеся на рассмотрении тематик последовательного текста в качестве временного ряда.