• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Аспирантский семинар: "Задачи информационного поиска в коллекциях текстовых документов: классические и современные подходы"

Мероприятие завершено

Докладчик: Дмитрий Фролов, аспирант первого года обучения, департамент анализа данных и искусственного интеллекта факультета компьютерных наук
Место: Факультет компьютерных наук, Кочновский проезд, д. 3, ауд. 317
Время: 4 июня, 18:30 – 20:00 

Доклад состоится в рамках научно-исследовательского семинара аспирантской школы по компьютерным наукам.

С развитием вычислительной техники задачи автоматической обработки текстов, созданных человеком и написанных на естественном языке, получают все большую актуальность. В силу большой разнообразности естественных языков, огромных словарей и сложности языковых конструкций эти проблемы с трудом поддаются решению. Одним из ключевых направлений в обработке естественного языка является работа с множествами текстовых документов. Сюда относят задачи рубрикации документов, определение степени близости текстов, задачи поиска документов по ключевым словам.

В свою очередь, последняя из перечисленных задач формирует раздел, называемый информационным поиском (information retrieval). Классическим подходом к решению таких задач является построение индексов для коллекции документов, однако существуют и развиваются альтернативные подходы. Одно из направлений развития связано с переходом от множеств исходных документов к их агрегированному представлению. Отдельным крупным подразделом информационного поиска является так называемый нечеткий поиск. Многие популярные методы в своем стандартном варианте часто оказываются практически беспомощны перед такой задачей, что заставляет исследователей вносить в алгоритмы существенные доработки.

В докладе будут рассмотрены как классические алгоритмы информационного поиска, так и альтернативные методы, в том числе некоторые из модификаций, предложенных докладчиком. Будут представлены результаты экспериментов по оценке производительности и качественных характеристик предложенных подходов, а также обозначены направления дальнейших усовершенствований.