Меню

Методы и средства обработки больших данных

2020/2021
Учебный год
RUS
Обучение ведется на русском языке
4
Кредиты
Статус:
Курс по выбору
Когда читается:
2-й курс, 1 семестр

Преподаватель

Программа дисциплины

Аннотация

Курс "Методы и средства обработки больших данных" ориентирован на аспирантов Аспирантской школы по техническим наукам, которые связывают свою будущую профессиональную деятельность с решением творческих задач в области проектирования и создания программных и аппаратных инструментов необходимых для ИТ поддержки деятельности человека. Он посвящен изучению современных методов сбора и анализа количественных или качественных данных необходимых для решения широкого класса проблем, возникающих в области управления техническими системами, планирования и реализации хозяйственной деятельности, при организации аналитической поддержки принятия решений на различных уровнях управления. Для освоения учебной дисциплины, студенты должны владеть знаниями и компетенциями в следующих областях: Элементы теории множеств, Функциональный анализ, Интегралы и дифференциальные уравнения, Линейная алгебра и аналитическая геометрия, Теория матриц. Основные положения дисциплины «Методы и средства обработки больших данных» должны быть использованы в дальнейшем при изучении профильных учебных дисциплин и подготовке диссертационных работ.
Цель освоения дисциплины

Цель освоения дисциплины

  • Изучение современных методов сбора и анализа количественных или качественных данных, необходимых для решения широкого класса проблем, возникающих в области управления техническими системами, планирования и реализации хозяйственной деятельности, при организации аналитической поддержки принятия решений на различных уровнях управления.
Планируемые результаты обучения

Планируемые результаты обучения

  • Умеет анализировать качество данных, умеет обнаруживать статистические свойства данных.
  • Умеет специфицировать и оценить регрессионную модель.
  • Умеет специфицировать модель линейной регрессии (МЛР). Знает понятие «нелинейная внутренне линейная модель».
  • Умеет оценивать параметры МЛР. Знает свойства полученных оценок.
  • Специфицирует и оценивает модель классификации данных адекватную задаче в предметной области.
  • Проводит анализ кластерной структуры данных.
  • Осуществляет выбор адекватной данным модели панельных данных на основании формальных критериев и постановки задачи в предметной области.
Содержание учебной дисциплины

Содержание учебной дисциплины

  • <p><b>Часть 1. Пространственное моделирование</b></p> Раздел 1.1. Предварительный анализ данных.
    Типология шкал. Номинальная, порядковая, интервальная и относительная шкалы. Допустимые преобразования и операции. Использование в модели линейной регрессии МЛР. Простейшие методы идентификации МЛР. Анализ диаграмм рассеивания. Анализ диаграмм Бокса – Вискера для номинальных и порядковых переменных. Анализ корреляционной матрицы для интервальных и относительных переменных.
  • Раздел 1.2. Основы регрессионного анализа.
    Определение МЛР. Нелинейная, внутренне линейная модель. Логолинейная модель. Метод наименьших квадратов и линейная регрессия. Статистические свойства МНК оценки параметров МЛР. Анализ значимости регрессоров. Прогнозирование. Нарушение основных гипотез МЛР. МЛР с переменной структурой (фиктивные переменные). Общая линейная гипотеза. Критерий Вальда. Критерий Чоу.
  • <p><b>Часть 2. Моделирование процессов</b></p> Раздел 2.1. Моделирование стационарных временных рядов.
    Понятие "временной ряд" и его основные характеристики. Понятие "автокорреляция". Стационарность в широком и узком смысле. Тема 3.1 Теоретические основы динамических моделей. Понятие "линейный фильтр" (ЛФ). Физически реализуемый ЛФ. Наилучший линейный прогноз. Частная автокорреляция. Разложение Вольда. Операторное представление разностных уравнений. Передаточная функция. Модель авторегрессии. Операторное представление. Необходимое и достаточное условие стационарности. Вид функции автокорреляции. Модель скользящего среднего. Смешанные модели. Операторное представление, условие обратимости. Вид автокорреляционной функции.
  • Раздел 2.2. Модели нестационарных процессов.
    Теория единичных корней. Критерии обнаружения единичных корней. Модель ARIMA.
  • Раздел 2.3. Динамические модели временных рядов с внешними факторами.
    Обобщенная модель линейной регрессии (ОМЛР). Свойства оценок параметров ОМЛР метод наименьших квадратов (МНК). Обобщенный метод наименьших квадратов. Теорема Айткена. Методы обнаружения автокорреляции случайной составляющей. Статистика Дарбина-Ватсона. Точность оценки коэффициента автокорреляции. Критерий Бокса-Льюнга. Критерий Бреуша-Годфрея. Модель авторегрессии с внешними факторами (ARMAX).
  • <p><b>Часть 3. Моделирование статистических связей для сложных типов данных</b></p>Тема 1. Методы классификации.
    Модели бинарного выбора (логит и пробит регерссии). Деревья классификации —алгоритмы CART, С4.5.
  • Тема 2. Основы кластерного анализа.
    Иерархическая кластеризация. Оптимизационная кластеризация — метод к-средник. Метрики качества кластеризации.
  • Тема 3. Модели панельных данных.
    Модели с фиксированными и случайными эффектами. Методология выбора типа модели.
Элементы контроля

Элементы контроля

  • неблокирующий Работа на семинарах
  • неблокирующий Самостоятельная работа
    Задание, оформленное в виде Шаблона отчета о самостоятельной работе.
  • неблокирующий Работа на семинарах
  • неблокирующий Самостоятельная работа
    Задание, оформленное в виде Шаблона отчета о самостоятельной работе.
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (I семестр)
    0.3 * Работа на семинарах + 0.7 * Самостоятельная работа
Список литературы

Список литературы

Рекомендуемая основная литература

  • Hastie, T., Tibshirani, R., Friedman, J. The elements of statistical learning: Data Mining, Inference, and Prediction. – Springer, 2009. – 745 pp.

Рекомендуемая дополнительная литература

  • Berk, R. A. (2008). Statistical Learning From a Regression Perspective. New York, NY: Springer. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=254950
  • Introductory econometrics: a modern approach, Wooldridge, J.M., 2016
  • Newbold, P., Carlson, W. L., & Thorne, B. (2013). Statistics for Business and Economics: Global Edition (Vol. Eight edition). Boston, Massachusetts: Pearson Education. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1417883
  • Statistics for business and economics, Newbold, P., 2013
  • Введение в эконометрику : учебник для вузов, Доугерти, К., 2009