Аспирантский семинар: "Вероятностные тематические модели контекста для больших коллекций документов"
Докладчик: Анна Потапенко, аспирантка первого года обучения, базовая кафедра Яндекс департамента больших данных и информационного поиска факультета компьютерных наук
Место: Факультет компьютерных наук, Кочновский проезд, д. 3, ауд. 317
Время: 12 марта, 18:30 – 20:00
Доклад состоится в рамках научно-исследовательского семинара аспирантской школы по компьютерным наукам.
В современном мире есть большая потребность в методах автоматической обработки текстов, которые помогали бы человеку ориентироваться в огромных объемах текстовой информации и извлекать их них полезную информацию. Например, мы ученые, увидели статью, которая нас заинтересовала, и хотим быстро понять: "Где передний край науки по этой теме?". При этом мы можем не представлять, какими ключевыми словами называется интересующее нас явление в мировом сообществе, и более того, статья была на русском, а передний край затерян где-то в англоязычной литературе. Другой пример: мы социологи, и у нас есть коллекция постов ЖЖ за несколько лет, или ответов@mail.ru, или официальных сообщений министерств иностранных дел нескольких стран. Нужно определить, какие темы интересуют определенное сообщество, как эти темы развиваются во времени, какая характерная лексика с ними связана. Вся информация должна быть удобно визуализирована, чтобы эксперт смог ее анализировать и делать содержательные выводы.
В этих и многих других случаях оказывается крайне полезной вероятностная тематическая модель коллекции документов. Такая модель описывает каждую тему распределением на множестве слов, а каждый документ — распределением на множестве тем. Таким образом, модель сама выделяет темы, обсуждаемые в текстах, и осуществляет мягкую кластеризацию текстов и слов по этим темам.
В первой части доклада поговорим о современном состоянии области вероятностного тематического моделирования, о стандартных методах, их расширениях, а также о существующих проблемах.
Далее сконцентрируемся на одном возможном расширении — учете локального контекста слова в документе. Стандартная модель рассматривает документ как мешок слов, таким образом, не учитывается порядок и близость слов в тексте. Это достаточно грубое предположение, отказ от которого позволит строить более интерпретируемые темы и применять модель в более широком спектре приложений. Будет приведен небольшой обзор методов работы с контекстом, в частности, методов дистрибутивной семантики, а также предложены некоторые способы эффективного учета контекста в тематической модели, с которыми предполагается экспериментировать в дальнейшем.
Потапенко Анна Александровна