Аспирантский семинар "Метод формирования многокритериальной стратификации и его использование в проблеме оценки научного вклада"
Докладчик: Михаил Орлов, аспирант третьего года обучения, департамент анализа данных и искусственного интеллекта факультета компьютерных наук
Место: Факультет компьютерных наук, Кочновский проезд, д. 3, ауд. 317
Доклад состоится в рамках научно-исследовательского семинара аспирантской школы по компьютерным наукам.
Понятие стратификации происходит из минералогии и означает иерархическую структуру пластов земли. В социологии под стратификацией понимается деление общества на социальные слои. В данной работе понятие стратификации рассматривается в более широком смысле, применительно к данным любой природы. Интуитивно, стратификация означает некоторую структуру, включающую в себя вертикальную компоненту — линейный порядок, и горизонтальную компоненту — страты. Данные представляют множество объектов, оцениваемых/ранжируемых по многим критериям одновременно. Задача состоит в том, чтобы автоматически выделить иерархическую составляющую — ранги объектов, и горизонтальную — страты. В отличие от ранжирования здесь представляет интерес не строгое упорядочивание объектов, а разделение на заданное число линейно упорядоченных групп.
Предлагаемый метод стратификации основан на параметрической модели страт. Согласно этой модели ранжирование получается сверткой критериев с некоторыми весами, а страты получаются путем разбиения на группы объектов вдоль оси взвешенного критерия. Веса и разбиение подбираются автоматически таким образом, чтобы объекты из одной страты проецировались на ось общего критерия как можно компактнее. Формулируется оптимизационная задача относительно неизвестных параметров модели — весов и разбиения. Для её решения предлагается алгоритм на основе чередующейся минимизации и квадратичного программирования.
Предложенный метод формирования стратификации был верифицирован с использованием нескольких простых моделей генерирования синтетических данных. В докладе он применяется к проблеме измерения научного вклада ученого на примере тематики анализа данных и машинного обучения. Рассматриваются три подхода к измерению уровня научных результатов: на основе ранга научных результатов, по уровню цитирования и по уровню заслуг. Первый подход (Б. Миркин 2013) использует таксономию предметной области, т. е. иерархическую структуру понятий, для определения ранга результатов ученого, исходя из уровней тех узлов таксономии, в которые он внес заметный вклад. В качестве таксономии используется несколько модифицированная классификация компьютерных наук Ассоциации вычислительных машин, версия 2012 г. Показатели цитируемости и заслуг были собраны из публичных источников в интернете. Выборка состоит из 30 известных ученых в области машинного обучения и анализа данных. Предлагаемый метод стратификации используется для агрегирования показателей внутри каждого подхода и для получения общей стратификации. Применение разработанного метода стратификации приводит к разумным весам критериев и результатам. Более того, три полученные стратификации оказываются практически некоррелированными. Это говорит в пользу того что цитирование, заслуги и уровень результатов следует рассматривать в качестве разных, не сводимых друг к другу, аспектов общего понятия научного вклада, т.е. обоснованный метод оценки научного вклада должен включать все три аспекта.
Орлов Михаил Анатольевич