Правительство Российской Федерации Федеральное государственное автономное образовательное учреждение высшего профессионального образования "Национальный исследовательский университет "Высшая школа экономики"
Факультет Бизнес- информатика Отделение Прикладная математика и информатика
Программа дисциплины
Анализ данных
для направления для направления 010500.62– Прикладная математика и информатика подготовки магистров Автор к. ф.-м. н., доцент Е.Р. Горяинова
Рекомендована секцией УМС «Прикладная математика и информатика» Председатель __________________ Кузнецов С.О. «_____» __________________ 20___ г. | Одобрена на заседании кафедры Анализа данных и искусственного интеллекта Зав. кафедрой __________________ Кузнецов С.О. «_____» __________________ 20___ г. | Утверждена УС факультета бизнес-информатики Ученый секретарь __________________ Фомичев В.А. « ____» ___________________20___ г. |
Москва 1. Цели и задачи дисциплины.
1.1. Цель дисциплины - обучить студентов применять основные модели и методы математической статистики для обработки реальных социально-экономических данных. 1.2. Задачи дисциплины – освоение студентами вероятностного подхода к анализу реальных социально-экономических явлений; – построение математических моделей, адекватно описывающих социально-экономические явления; – овладение методами и алгоритмами обработки и анализа данных, содержащих случайные погрешности, - освоение робастных непараметрических статистических методов обработки информации, применяемых в условиях априорной стохастической неопределённости.
2. Место дисциплины в структуре ООП. Программа учебной дисциплины «Анализ данных» предназначена для подготовки студентов, обучающихся по направлению «Прикладная математика и информатика». Программа составлена в соответствии с Федеральным государственным образовательным стандартом высшего профессионального образования. «Анализ данных» является самостоятельной учебной дисциплиной, относится к математическому и естественнонаучному циклу дисциплин. Обучающиеся должны владеть знаниями следующих дисциплин: «Линейная алгебра», «Математический анализ», «Теория вероятностей и математическая статистика ».
Аннотация курса. В курсе освещены следующие темы : методы построения точечных оценок параметров, построение интервальных оценок параметров в гауссовских моделях, основы проверки статистических гипотез, выявление неоднородности выборок с помощью классических процедур, выявление и анализ статистической связи показателей, измеряемых в различных шкалах, меры прогноза в номинальных шкалах, основные методы регрессионного анализа. 3. Требования к результатам освоения дисциплины. В результате изучения учебной дисциплины «Анализ данных» обучающийся должен знать: -алгоритм проверки статистических гипотез; - основные методы проверки однородности экспериментальных данных; - методы построения доверительных интервалов параметров случайных величин; - методы проверки независимости признаков, измеренных в различных шкалах; - методы оценивания параметров в регрессионных моделях;
уметь: – строить математические модели, адекватно описывающие социально-экономические явления; - использовать статистические критерии для проверки гипотез относительно наблюдаемых случайных данных; - оценивать неизвестные параметры статистической модели; - использовать стандартные пакеты прикладных статистических программ для обработки и анализа статистической информации; - готовить научно-технические отчеты и научные публикации по результатам выполненных исследований (ПК-21); владеть: - основными определениями, методами и алгоритмами анализа данных, содержащих случайную составляющую; - стандартными инструментариями обработки статистической информации.
Тематический план курса « Анализ данных»
№ | Название темы | Всего | Аудиторные часы | самост. работа |
|
| часов | лекции | семинары |
| 1 | Основные методы статистического анализа данных.
| 48 | 4 | 4 | 40 | 2 | Анализ статистической взаимосвязи социально-экономических явлений
| 46 | 3 | 3 | 40 | 3 | Регрессионный анализ | 14 | 1 | 1 | 12 |
| Итого | 108 | 8 | 8 | 92 |
Базовый учебник по курсу 1. Тюрин Ю.Н., Макаров А.А. Анализ данных на компьютере. – М.: Инфра. – М, 2003. 2. Кибзун А.И., Горяинова Е.Р., Наумов А.В. Теория вероятностей и математическая статистика. Базовый курс с примерами и задачами. - М.:Физматлит, 2005 Дополнительная литература по курсу 1. Холлендер М., Вулф Д. Непараметрические методы статистики. – М.: Финансы и статистика, 1983. 2. Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика: Исследование зависимостей. Справочное издание под ред. Айвазяна С.А. – М.: Финансы и статистика, 1985. 3. Ивченко Г.И., Медведев Ю.И. Математическая статистика. – М.: Высшая школа, 1992. 4. Дрейпер Н., Смит Г. Прикладной регрессионный анализ: В 2-х книгах, Кн. 1. – М.: Финансы и статистика, 1986. Кн. 2. – М.: Финансы и статистика, 1987. 5. Леман Э. Проверка статистических гипотез. – М.: Наука, 1964. 6. Кокрен У. Методы выборочного исследования. – М.: Статистика, 1976 7. Хеттманспергер Т. Статистические выводы, основанные на рангах. – М.:Финансы и статистика,1987. 8. Крыштановский А.О. Анализ социологических данных. - М.: ИД ГУ ВШЭ, 2007.
Формы контроля и структура итоговой оценки.
Итоговый контроль – письменная зачётная работа (90 мин.) Итоговая оценка складывается из следующих элементов: работа на семинарах – 10%; письменная зачётная работа – 90%.
Содержание программы курса «Анализ данных»
Тема 1. Основные методы статистического анализа данных Введение. Статистические оценки параметров и их свойства (несмещённость, состоятельность, с.к.-оптимальность). Основные методы точечного оценивания параметров (Метод моментов, метод максимального правдоподобия). Интервальное оценивание параметров в гауссовских моделях. Основы проверки статистических гипотез. Понятие об однородности выборок. Выявление неоднородности, связанной со сдвигом (критерий Стьюдента) или масштабом (классический F- критерий).
Основная литература 1. Кибзун А.И., Горяинова Е.Р., Наумов А.В. Теория вероятностей и математическая статистика. Базовый курс с примерами и задачами. - М.:Физматлит,2005 (глава 5 с.165-168, 188-191,214). 2. Тюрин Ю.Н., Макаров А.А. Анализ данных на компьютере. – М.: Инфра. – М, 2003(глава 3 с.93-118, глава 5 с.165-190).
Тема 2. Анализ статистической взаимосвязи социально-экономических явлений Шкалы измерений (количественная, порядковая, номинальная). Исследование связи между номинальными переменными (таблица сопряженности признаков, критерий хи-квадрат). Случайные векторы. Ковариационная матрица. Независимость и некоррелированность компонент случайного вектора. Выборочный коэффициент корреляции. Критерий проверки некоррелированности двух случайных величин, основанный на выборочном коэффициенте корреляции. Анализ структуры и тесноты связи между количественными переменными. Критерий хи-квадрат для количественных показателей.
Основная литература
1. Тюрин Ю.Н., Макаров А.А. Анализ данных на компьютере. – М.: Инфра. – М, 2003(глава 9 с.267-290). 2. Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика: Исследование зависимостей. Справочное издание под ред. Айвазяна С.А. – М.: Финансы и статистика, 1985 (главы 1,2 с.56-124).
Тема 3. Регрессионный анализ Задача линейной регрессии. Проблема выбора вида функции регрессии. Методы оценивания параметров. Свойства МНК оценок. Основная литература
1. Кибзун А.И., Горяинова Е.Р., Наумов А.В. Теория вероятностей и математическая статистика. Базовый курс с примерами и задачами. – М.:Физматлит,2005(глава 7 с.204-213). 2. Дрейпер Н., Смит Г. Прикладной регрессионный анализ: В 2-х книгах, Кн. 1. – М.: Финансы и статистика, 1986. Кн. 2. – М.: Финансы и статистика, 1987(глава 2 с.104-148).
Вопросы для оценки качества освоения дисциплины
Тема 1. 1. Опишите основные методы оценивания параметров распределения случайной величины. 2. Дайте определение несмещённой, состоятельной, эффективной оценки. 3. Что такое статистическая гипотеза? 4. В чем состоят ошибки I и II рода? 5. Дайте определение квантили. Чему равна 0,05-квантиль стандартного гауссовского распределения, если 0,95-квантиль этого распределения равна 1,65? 6.Каков порядок проверки параметрических статистических гипотез? 7. Какие выборки называют однородными? 8. Назовите основные типы неоднородности выборок.
Тема 2. 1. Опишите основные типы шкал измерений и допустимые преобразования в этих шкалах. 2. Что такое таблица сопряженности признаков? 3. Дайте определение независимости признаков, измеряемых в номинальной шкале. 4. Как проверить гипотезу о независимости признаков в номинальной шкале? 5. Что такое коэффициент корреляции? Каковы его основные свойства? 6. Как проверить гипотезу о некоррелированности признаков? 7. В каком случае проверка некоррелированности наблюдений эквивалентна проверке независимости?
Тема 3. 1. В чем состоит задача линейной регрессии? 2. В чем состоит идея метода наименьших квадратов (МНК)? 3. Какие методы оценивания параметров регрессии вам известны? 4. Какими свойствами обладает МНК-оценка параметров регрессии?
Вариант письменной зачётной работы.
1. Выборка имеет распределение . Найдите оценку максимального правдоподобия параметра . Докажите несмещённость и состоятельность построенной оценки. 2.Стоимость лечения одного пациента-льготника с диагнозом «дуоденит» в областях Дальневосточного федерального округа (в рублях на ноябрь 2007 года) составила: Амурская обл. 245,61 | Еврейская АО 101,45 | Камчатская обл. 202,84 | Корякский АО 327,63 | Магаданская обл. 144,5 | Приморский край 458,81 | Предполагая, что наблюдения имеют гауссовское распределение, постройте доверительный интервал уровня надёжности 0.95 для средней стоимости лечения в Дальневосточном ФО пациента с указанным диагнозом.
3. В результате проведенного исследования было установлено, что у 309 светлоглазых мужчин жены также имеют светлые глаза, а у 214 светлоглазых мужчин жены темноглазые. У 119 темноглазых мужчин жены также темноглазые, а у 132 темноглазых мужчин жены светлоглазые. Имеется ли зависимость между цветом глаз мужей и их жен?
4. В таблице представлены данные за 1995 год показателей X (ВВП в паритетах покупательной способности) и Y (коэффициент детской смертности в %) для следующих стран: Бурунди, Чад, Индия, Египет, Мексика, Бразилия, Республика Корея, Канада, США, Швейцария. X | 2.3 | 2.6 | 5.2 | 12.2 | 23.7 | 20 | 42.4 | 78.3 | 100 | 95.9 | Y | 98 | 117 | 68 | 16 | 33 | 44 | 10 | 6 | 8 | 6 |
Считая , что наблюдения имеют гауссовское распределение, выясните являются ли признаки X и Y зависимыми. 5. Анализируется прибыль Y (млн. $) в зависимости от расходов X (млн. $) на рекламу. Данные наблюдений за 4 года приведены в таблице. X | 0,8 | 2,5 | 4,0 | 5,7 | Y | 5 | 15 | 20 | 25 | Оцените по методу наименьших квадратов коэффициенты линейной регрессии вида
.
Автор программы: _____________________________/ Е.Р. Горяинова/
|