«Система анализа данных weka. Кластеризация и визуализация данных» Руководители темы И. Игнатьев подпись, дата icon

«Система анализа данных weka. Кластеризация и визуализация данных» Руководители темы И. Игнатьев подпись, дата



Название«Система анализа данных weka. Кластеризация и визуализация данных» Руководители темы И. Игнатьев подпись, дата
Дата конвертации13.07.2012
Размер156,72 Kb.
ТипЗадача
скачать >>>

Министерство образования Российской Федерации

МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ ИНСТИТУТ

ЭЛЕКТРОНИКИ И МАТЕМАТИКИ (технический университет)


ОТЧЕТ О ЛАБОТАРОРНОЙ РАБОТЕ

По дисциплине

Методы и средства анализа данных

по теме:

«Система анализа данных WEKA. Кластеризация и визуализация данных»


Руководители темы ______________ И. Игнатьев

подпись, дата

_______________ А. Грунау

подпись, дата


Исполнитель ____________ Н.Быков

подпись, дата Группа С-74


Москва, 2008

ВВЕДЕНИЕ 3

КЛАСТЕРИЗАЦИЯ 4

Метод k-means 4

Выполнение 4

Листинг 5

Анализ 7

Метод Farthest First 8

Выполнение 8

Листинг 9

Анализ 10

Метод EM 11

Выполнение 11

Листинг 12

Анализ 17

Кластер 1: 18

Метод Cobweb 22

ЗАКЛЮЧЕНИЕ 28

НАБОР ДАННЫХ 29


ВВЕДЕНИЕ


Кластеризация – задача разбиения заданной выборки оюъектов на непересекающиеся подмножества, называемые кластерами, так, чтобы каждый кластер состоял из схожих объектов, а объекты разных кластеров сущестенно отличались.

Задача кластеризации относится к статической обработки, а также к широкому классу задач обучения без учителя.

Основная идея визуализации заключается в том, чтобы представить большие объёмы данных в такой форме, где человек мог бы увидеть то, что трудно выделить алгоритмически. Чтобы человек смог погрузиться в данные, работать с их визуальным представлением, понять их суть, сделать выводы и напрямую взаимодействовать с данными.

Преимущества визуализации перед автоматическими методами:

  • визуальный анализ данных позволяет легко работать с неоднородными и зашумлёнными данными, в то время как не все автоматические методы могут работать с такими данными и давать удовлетворительные результаты;

  • визуальный анализ данных интуитивно понятен и не требует сложных математических или статистических алгоритмов.


КЛАСТЕРИЗАЦИЯ

Метод k-means


Идея алгоритма k-means заключается в минимизации расстояний между объектами в кластерах. Остановка происходит, когда минимизировать расстояния больше уже невозможно.

Минимизируемая функция такова:



На момент старта алгоритма должно быть известно число С (количество кластеров). Выбор числа С может базироваться на результатах предшествующих исследований, теоретических соображениях или интуиции.

Выполнение





Листинг


2 кластера

Scheme: SimpleKMeans

Relation: income

kMeans

======


Number of iterations: 5

Within cluster sum of squared errors: 1261.8460813441684


Cluster centroids:


Cluster 0

Mean/Mode: 42.639 Private 192363.7427 HS-grad 10.0249 Married-civ-spouse Prof-specialty Husband White Male 1019.1079 92.9668 42.3154 United-States <=50K

Std Devs: 12.3135 N/A 110327.3803 N/A 2.8664 N/A N/A N/A N/A N/A 6895.8813 461.9952 11.9408 N/A N/A

Cluster 1

Mean/Mode: 30.3899 Private 193671.4277 Some-college 9.7673 Never-married Adm-clerical Own-child White Female 721.8239 53.0503 35.2453 United-States <=50K

Std Devs: 12.1909 N/A 117782.9642 N/A 2.309 N/A N/A N/A N/A N/A 7953.1669 296.5393 12.815 N/A N/A

=== Clusterer model ===


3 кластера

kMeans

======


Number of iterations: 7

Within cluster sum of squared errors: 1181.1249743356498


Cluster centroids:


Cluster 0

Mean/Mode: 43.434 Private 162151.0849 Bachelors 12.7075 Married-civ-spouse Prof-specialty Husband White Male 1902.4057 94.8208 42.7264 United-States <=50K

Std Devs: 12.2288 N/A 94584.8135 N/A 2.0141 N/A N/A N/A N/A N/A 10243.1126 437.9988 12.0139 N/A N/A

Cluster 1

Mean/Mode: 29.8731 Private 195220.3881 Some-college 9.5672 Never-married Adm-clerical Own-child White Female 820.1866 39.1866 33.7015 United-States <=50K

Std Devs: 12.7624 N/A 111007.1535 N/A 1.9173 N/A N/A N/A N/A N/A 8655.037 261.0937 12.6966 N/A N/A

Cluster 2

Mean/Mode: 40.6313 Private 211286.7 HS-grad 8.375 Married-civ-spouse Craft-repair Husband White Male 305.0938 97.1125 42.2313 United-States <=50K

Std Devs: 12.238 N/A 122348.1535 N/A 2.0733 N/A N/A N/A N/A N/A 1306.6446 474.3208 11.6442 N/A N/A

Анализ


Был проведен анализ для 2х и 3х кластеров, результат с двумя кластерами получился наиболее оптимальным, т.к. в этом случае признаки для кластеров выглядят более явно.

В каждом кластере указаны средние значения для переменных типа numeric и их стандартные отклонения, и значение «мода» для переменных типа nominal (значения, которое появляется с наибольшей частотой по сравнению с другими ее значениями).

Кластер 0:

  • Возраст: 43,4 года; отклонение 12,2

  • Рабочий класс: Private

  • Вес в стране: 162151,1; отклонение: 94,8

  • Образование: Бакалавр

  • Кол-во лет обучения: 12,7; отклонение 2,0

  • Семейное положение: Женат

  • Занятие: профессиональная работа

  • Семейный статус: Муж

  • Раса: белый

  • Пол: мужской

  • Накопленный капитал: 1904,4; отклонение: 10243,1

  • Потерянный капитал: 94,8; отклонение: 437,1

  • Часов в неделю: 42,7; отклонение: 12,0

  • Родина: США

  • Заработок: <=50к

Кластер 1:

  • Возраст: 30,4 года; отклонение 12,2

  • Рабочий класс: Private

  • Вес в стране: 193671,4; отклонение: 117,8

  • Образование: Колледж

  • Кол-во лет обучения: 9,8; отклонение 2,3

  • Семейное положение: не был женат

  • Занятие: Adm-clerical

  • Семейный статус: Жена

  • Раса: белый

  • Пол: женщина

  • Накопленный капитал: 721,8; отклонение: 7953,2

  • Потерянный капитал: 53,1; отклонение: 296,5

  • Часов в неделю: 35,2; отклонение: 12,8

  • Родина: США

  • Заработок: <=50к

Метод Farthest First


Farthest First - модификация k-means, особенностью его является изначальный выбор центроидов - от 2 и выше они выбираются по принципу удаленности от остальных (центроидом выбирается точка, наиболее отдаленная от остальных центроидов).

Результат кластеризации похож на предыдущий, но в данном алгоритме не выводятся стандартные отклонения для числовых переменных.


Выполнение





Листинг


=== Clusterer model ===


Scheme: FarthestFirst

Relation: income


FarthestFirst

==============


Cluster centroids:


Cluster 0

45.0 Private 148995.0 Bachelors 13.0 Married-civ-spouse Craft-repair Husband White Male 15024.0 0.0 40.0 United-States >50K

Cluster 1

21.0 State-gov 145651.0 Some-college 10.0 Never-married Sales Own-child Black Female 0.0 1602.0 12.0 United-States <=50K

Анализ


Кластер 0:

  • Возраст: 45,0 года

  • Рабочий класс: Private

  • Вес в стране: 148995,0

  • Образование: Бакалавр

  • Кол-во лет обучения: 13,0

  • Семейное положение: Женат

  • Занятие: Ремонт

  • Семейный статус: Муж

  • Раса: белый

  • Пол: мужской

  • Накопленный капитал: 15024,0

  • Потерянный капитал: 0,0

  • Часов в неделю: 40,0

  • Родина: США

  • Заработок: >50к

Кластер 1:

  • Возраст: 21,0 года

  • Рабочий класс: правительство штата

  • Вес в стране: 145651,0

  • Образование: Колледж

  • Кол-во лет обучения: 10,0

  • Семейное положение: не был женат

  • Занятие: торговля

  • Семейный статус: есть ребенок

  • Раса: черный

  • Пол: женщина

  • Накопленный капитал: 0,0

  • Потерянный капитал: 1602,0

  • Часов в неделю: 12,0

  • Родина: США

  • Заработок: <=50к

Метод EM


В данном методе предполагается, что кроме известных нам из наших данных величин существуют еще и неизвестные нам, относящиеся к распределению по кластерам. То есть фактически эти неизвестные "создают" кластер, а мы наблюдаем только результат их деятельности. И именно эти неизвестные мы и стараемся максимально точно оценить.

Алгоритм использует широко известный метод максимизации ожиданий (Expectation Maximization). В наиболее простом случае предполагается, что кластер - это результаты наблюжения, распределенные нормально. Тогда для их характеристики можно применять многомерную функцию Гаусса (многомерное распределение Гаусса). И тогда основная задача - это определить, к какому из распределений принадлежит каждая конкретная точка, оценив параметры этих распределений исходя из реального распределения точек.

Выполнение





Листинг


=== Clusterer model ===


Scheme: EM

Relation: income


EM

==


Number of clusters: 3


Cluster: 0 Prior probability: 0.0996


Attribute: age

Normal Distribution. Mean = 44.3645 StdDev = 11.5754

Attribute: workclass

Discrete Estimator. Counts = 28.21 7.35 2 9.05 4.61 4.87 1 1 (Total = 58.08)

Attribute: fnlwgt

Normal Distribution. Mean = 173414.3737 StdDev = 92449.8037

Attribute: education

Discrete Estimator. Counts = 18.93 4.07 3 7.29 8.35 2.29 2.06 1 1 2 7.55 1 1 4.53 1 1 (Total = 66.08)

Attribute: education-num

Normal Distribution. Mean = 12.5418 StdDev = 2.3985

Attribute: marital-status

Discrete Estimator. Counts = 45.3 4.59 2.86 1.33 1 1 1 (Total = 57.08)

Attribute: occupation

Discrete Estimator. Counts = 2.35 5.23 2.1 5.93 7.83 25.2 2 2.2 4.23 1 2.99 1 1 1 (Total = 64.08)

Attribute: relationship

Discrete Estimator. Counts = 2.03 2 43.27 5.65 2 1.13 (Total = 56.08)

Attribute: race

Discrete Estimator. Counts = 44.5 4.6 1 1 3.98 (Total = 55.08)

Attribute: sex

Discrete Estimator. Counts = 6.05 46.03 (Total = 52.08)

Attribute: capital-gain

Normal Distribution. Mean = 6678.9586 StdDev = 19678.7454

Attribute: capital-loss

Normal Distribution. Mean = 431.2384 StdDev = 916.5332

Attribute: hours-per-week

Normal Distribution. Mean = 43.1478 StdDev = 12.6237

Attribute: native-country

Discrete Estimator. Counts = 44.79 1 1 1.03 1.67 1 1 1.47 1 1 1 1.82 1 1 1 2.49 2 1 1 1 1 1 1 1 1 1.96 1 1.85 1 1 1 1 1 1 1 1 1 1 1 1 1 (Total = 91.08)

Attribute: income

Discrete Estimator. Counts = 40.11 11.97 (Total = 52.08)


Cluster: 1 Prior probability: 0.1619


Attribute: age

Normal Distribution. Mean = 34.0913 StdDev = 13.5616

Attribute: workclass

Discrete Estimator. Counts = 65.74 5.15 2.8 5.73 4.53 4.48 1 1 (Total = 90.43)

Attribute: fnlwgt

Normal Distribution. Mean = 186764.1833 StdDev = 121383.4865

Attribute: education

Discrete Estimator. Counts = 21.82 31.11 3.26 12.51 1.99 7.04 5.26 1 2 1.68 5.21 1 1.54 1 1 1 (Total = 98.43)

Attribute: education-num

Normal Distribution. Mean = 10.8829 StdDev = 1.9798

Attribute: marital-status

Discrete Estimator. Counts = 1.37 21.73 52.77 6.57 4.35 1.64 1 (Total = 89.43)

Attribute: occupation

Discrete Estimator. Counts = 4.55 2.06 8.21 7.99 12.84 23.67 1.26 3.5 23.86 3.05 1.08 1.99 1.36 1 (Total = 96.43)

Attribute: relationship

Discrete Estimator. Counts = 1.32 21.12 1.06 43.73 2.93 18.28 (Total = 88.43)

Attribute: race

Discrete Estimator. Counts = 69.81 1.96 1.71 1 12.94 (Total = 87.43)

Attribute: sex

Discrete Estimator. Counts = 66.47 17.96 (Total = 84.43)

Attribute: capital-gain

Normal Distribution. Mean = 261.9843 StdDev = 1098.0006

Attribute: capital-loss

Normal Distribution. Mean = 112.1346 StdDev = 429.8457

Attribute: hours-per-week

Normal Distribution. Mean = 35.7707 StdDev = 14.5457

Attribute: native-country

Discrete Estimator. Counts = 77.54 1 1.89 1.01 1 2.33 1 1.01 1 1 2.67 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1.98 1 1 1 1 1 1 1 1 1 1 (Total = 123.43)

Attribute: income

Discrete Estimator. Counts = 3.11 81.32 (Total = 84.43)


Cluster: 2 Prior probability: 0.7385


Attribute: age

Normal Distribution. Mean = 37.669 StdDev = 13.5454

Attribute: workclass

Discrete Estimator. Counts = 205.06 20.5 10.2 5.22 21.86 10.65 1 1 (Total = 275.49)

Attribute: fnlwgt

Normal Distribution. Mean = 198414.4242 StdDev = 113412.8153

Attribute: education

Discrete Estimator. Counts = 20.25 64.81 13.74 99.2 2.65 9.67 15.69 9 7 8.32 6.23 3 10.46 1.47 10 2 (Total = 283.49)

Attribute: education-num

Normal Distribution. Mean = 9.1361 StdDev = 2.4643

Attribute: marital-status

Discrete Estimator. Counts = 128.33 35.68 89.37 9.09 9.65 1.36 1 (Total = 274.49)

Attribute: occupation

Discrete Estimator. Counts = 10.1 43.7 28.7 27.08 24.33 31.13 14.74 22.3 30.9 13.95 25.92 1.01 6.64 1 (Total = 281.49)

Attribute: relationship

Discrete Estimator. Counts = 7.65 50.88 121.68 55.63 9.07 28.59 (Total = 273.49)

Attribute: race

Discrete Estimator. Counts = 229.68 3.44 3.29 4 32.08 (Total = 272.49)

Attribute: sex

Discrete Estimator. Counts = 53.49 216 (Total = 269.49)

Attribute: capital-gain

Normal Distribution. Mean = 16.0463 StdDev = 159.3629

Attribute: capital-loss

Normal Distribution. Mean = 0 StdDev = 404.4612

Attribute: hours-per-week

Normal Distribution. Mean = 39.9738 StdDev = 11.8659

Attribute: native-country

Discrete Estimator. Counts = 245.67 1 1.11 2.96 1.33 1.67 1 2.52 1 1 1.33 1.18 1 1 1 1.51 1 1 1 2 14.99 1 1 1 1 1.04 1 1.15 1 1 1.02 1 2 1 1 1 2 1 1 1 1 (Total = 308.49)

Attribute: income

Discrete Estimator. Counts = 41.78 227.71 (Total = 269.49)

Анализ


Кластер 0:

Атрибут: возраст

Нормальное распределение. Среднее значение = 44.3645 Отклонение = 11.5754

Атрибут: рабочий класс

Дискретная оценка. Counts = 28.21 – private, 7.35 – self-empnot-inc, 2 – self-emp-inc, 9.05 – federal-gov, 4.61 – local-gov, 4.87 – state-gov, 1 – without-pay, 1 – never-worked (Всего = 58.08)

Атрибут: вес в стране

Нормальное распределение. Среднее значение = 173414.3737 Отклонение = 92449.8037

Атрибут: образование

Дискретная оценка. Counts = 18.93 – Bachelors, 4.07 – Some-college, 3 – 11th, 7.29- HS-grad, 8.35 - Prof-school, 2.29 – Assoc-acdm, 2.06 - Assoc-voc, 1 - 9th, 1 - 7th-8th, 2 - 12th, 7.55 – Masters, 1 - 1st-4th, 1 - 10th, 4.53 – Doctorate, 1 - 5th-6th, 1 - Preschool (Всего = 66.08)

Атрибут: кол-во лет обучения

Нормальное распределение. Среднее значение = 12.5418 Отклонение = 2.3985

Атрибут: семейное положение

Дискретная оценка. Counts = 45.3-Married-civ-spouse, 4.59-Divorced, 2.86- Never-married, 1.33- Separated, 1- Widowed, 1- Married-spouse-absent, 1- Married-AF-spouse (Всего = 57.08)

Атрибут: род деятельности

Дискретная оценка. Counts = 2.35- Tech-support, 5.23- Craft-repair, 2.1- Other-service, 5.93- Sales, 7.83- Exec-managerial, 25.2- Prof-specialty, 2- Handlers-cleaners, 2.2- Machine-op-inspct, 4.23- Adm-clerical, 1- Farming-fishing, 2.99- Transport-moving, 1- Priv-house-serv, 1- Protective-serv, 1- Armed-Forces (Всего = 64.08)

Атрибут: родственные связи

Дискретная оценка. Counts = 2.03- Wife, 2- Own-child, 43.27- Husband, 5.65- Not-in-family, 2- Other-relative, 1.13- Unmarried (Всего = 56.08)

Атрибут: расса

Дискретная оценка. Counts = 44.5- White, 4.6- Asian-Pac-Islander, 1- Amer-Indian-Eskimo, 1- Other, 3.98- Black (Всего = 55.08)

Атрибут: пол

Дискретная оценка. Counts = 6.05- Female, 46.03- Male (Всего = 52.08)

Атрибут: полученный капитал

Нормальное распределение. Среднее значение = 6678.9586 Отклонение = 19678.7454

Атрибут: потерянный капитал

Нормальное распределение. Среднее значение = 431.2384 Отклонение = 916.5332

Атрибут: часов в неделю

Нормальное распределение. Среднее значение = 43.1478 Отклонение = 12.6237

Атрибут: родина

Дискретная оценка. Counts = 44.79- United-States, 1-Cambodia, 1- England, 1.03- Puerto-Rico, 1.67- Canada, 1- Germany, 1- Outlying-US, 1.47- India, 1- Japan, 1- Greece, 1- South, 1.82- China, 1- Cuba, 1- Iran, 1- Honduras, 2.49- Philippines, 2- Italy, 1- Poland, 1- Jamaica, 1- Vietnam, 1- Mexico, 1- Portugal, 1- Ireland, 1- France, 1- Dominican-Republic, 1.96- Laos, 1- Ecuador, 1.85- Taiwan, 1- Haiti, 1- Columbia, 1- Hungary, 1- Guatemala, 1- Nicaragua, 1- Scotland, 1- Thailand, 1- Yugoslavia, 1- El-Salvador, 1- Trinadad&Tobago, 1- Peru, 1- Hong, 1- Holand-Netherlands (Всего = 91.08)

Атрибут: доход

Дискретная оценка. Counts = 40.11- >50K 11.97 -<=50K (Всего = 52.08)

Кластер 1:


Атрибут: возраст

Нормальное распределение. Среднее = 34.0913 Отклонение = 13.5616

Атрибут: рабочий класс

Дискретная оценка. Counts = 65.74- Private, 5.15- Self-emp-not-inc, 2.8- Self-emp-inc, 5.73- Federal-gov, 4.53- Local-gov, 4.48- State-gov, 1- Without-pay, 1- Never-worked (Всего = 90.43)

Атрибут: вес в стране

Нормальное распределение. Среднее = 186764.1833 Отклонение = 121383.4865

Атрибут: образование

Дискретная оценка. Counts = 21.82- Bachelors, 31.11- Some-college, 3.26-11th, 12.51- HS-grad, 1.99- Prof-school, 7.04- Assoc-acdm, 5.26- Assoc-voc, 2-9th , 1-7th-8th, 1.68-12th, 5.21- Masters, 1-1st-4th, 1.54-10th, 1- Doctorate, 1-5th-6th. (Всего = 98.43)

Атрибут: Кол-во лет обучения

Нормальное распределение. Среднее = 10.8829 Отклонение = 1.9798

Атрибут: семейное положение

Дискретная оценка. Counts = 1.37- Married-civ-spouse, 21.73- Divorced, 52.77- Never-married, 6.57- Separated, 4.35- Widowed, 1.64- Married-spouse-absent, 1- Married-AF-spouse (Всего = 89.43)

Атрибут: род деятельности

Дискретная оценка. Counts = 4.55- Tech-support, 2.06- Craft-repair, 8.21- Other-service, 7.99- Sales, 12.84- Exec-managerial, 23.67- Prof-specialty, 1.26- Handlers-cleaners, 3.5- Machine-op-inspct, 23.86- Adm-clerical, 3.05- Farming-fishing, 1.08- Transport-moving, 1.99- Priv-house-serv, 1.36- Protective-serv, 1- Armed-Forces (Всего = 96.43)

Атрибут: родственные связи

Дискретная оценка. Counts = 1.32- Wife, 21.12- Own-child, 1.06- Husband, 43.73- Not-in-family, 2.93- Other-relative, 18.28- Unmarried (Всего = 88.43)

Атрибут: раса

Дискретная оценка. Counts = 69.81- White, 1.96- Asian-Pac-Islander, 1.71- Amer-Indian-Eskimo, 1- Other, 12.94- Black (Всего = 87.43)

Атрибут: пол

Дискретная оценка. Counts = 66.47- Female, 17.96- Male (Всего = 84.43)

Атрибут: полученный капитал

Нормальное распределение. Среднее = 261.9843 Отклонение = 1098.0006

Атрибут: потерянный капитал

Нормальное распределение. Среднее = 112.1346 Отклонение = 429.8457

Атрибут: часов в неделю

Нормальное распределение. Среднее = 35.7707 Отклонение = 14.5457

Атрибут: родина

Дискретная оценка. Counts = 77.54- United-States, 1- Cambodia, 1.89- England, 1.01- Puerto-Rico, 1- Canada, 2.33- Germany, 1- Outlying-US, 1.01- India, 1- Japan, 1- Greece, 2.67- South, 1- China, 2- Cuba, 1- Iran, 1- Honduras, 1- Philippines, 1- Italy, 1- Poland, 1- Jamaica, 1- Vietnam, 1- Mexico, 1- Portugal, 1- Ireland, 1- France, 1- Dominican-Republic, 1- Laos, 1- Ecuador, 1- Taiwan, 1- Haiti, 1- Columbia, 1.98- Hungary, 1- Guatemala, 1- Nicaragua, 1- Scotland, 1- Thailand, 1- Yugoslavia, 1- El-Salvador, 1- Trinadad&Tobago 1- Peru, 1- Hong, 1- Holand-Netherlands (Всего = 123.43)

Атрибут: доход

Дискретная оценка. Counts = 3.11 - >50K 81.32 - <=50K (Всего = 84.43)

Кластер 2

Атрибут: возраст

Нормальное распределение. Среднее = 37.669 Отклонение = 13.5454

Атрибут: рабочий класс

Дискретная оценка. Counts = 205.06- Private, 20.5- Self-emp-not-inc, 10.2- Self-emp-inc, 5.22- Federal-gov, 21.86 Local-gov, 10.65- State-gov, 1- Without-pay, 1- Never-worked (Всего = 275.49)

Атрибут: вес в стране

Нормальное распределение. Среднее = 198414.4242 Отклонение = 113412.8153

Атрибут: образование

Дискретная оценка. Counts = 20.25- Bachelors, 64.81- Some-college, 13.74-11th, 99.2- HS-grad, 2.65- Prof-school, 9.67- Assoc-acdm, 15.69- Assoc-voc, 9-9th, 7-7th-8th, 8.32-12th, 6.23- Masters, 3-1st-4th, 10.46-10th, 1.47- Doctorate, 10-5th-6th, 2- Preschool (Всего = 283.49)

Атрибут: Кол-во лет обучения

Нормальное распределение. Среднее = 9.1361 Отклонение = 2.4643

Атрибут: семейное положение

Дискретная оценка. Counts = 128.33- Married-civ-spouse, 35.68- Divorced, 89.37- Never-married, 9.09- Separated, 9.65- Widowed, 1.36- Married-spouse-absent, 1- Married-AF-spouse (Всего = 274.49)

Атрибут: род деятельности

Дискретная оценка. Counts = 10.1- Tech-support, 43.7- Craft-repair, 28.7- Other-service, 27.08- Sales, 24.33- Exec-managerial, 31.13- Prof-specialty, 14.74- Handlers-cleaners, 22.3- Machine-op-inspct, 30.9- Adm-clerical, 13.95- Farming-fishing, 25.92- Transport-moving, 1.01- Priv-house-serv, 6.64- Protective-serv 1- Armed-Forces (Всего = 281.49)

Атрибут: родственные связи

Дискретная оценка. Counts = 7.65- Wife, 50.88- Own-child, 121.68- Husband, 55.63- Not-in-family, 9.07- Other-relative, 28.59- Unmarried (Всего = 273.49)

Атрибут: раса

Дискретная оценка. Counts = 229.68- White, 3.44- Asian-Pac-Islander, 3.29- Amer-Indian-Eskimo, 4- Other, 32.08- Black (Всего = 272.49)

Атрибут: пол

Дискретная оценка. Counts = 53.49 – Female, 216 - Male (Всего = 269.49)

Атрибут: полученный капитал

Нормальное распределение. Среднее = 16.0463 Отклонение = 159.3629

Атрибут: потерянный капитал

Нормальное распределение. Среднее = 0 Отклонение = 404.4612

Атрибут: часов в неделю

Нормальное распределение. Среднее = 39.9738 Отклонение = 11.8659

Атрибут: родина

Дискретная оценка. Counts = 245.67- United-States, 1- Cambodia, 1.11- England, 2.96- Puerto-Rico, 1.33- Canada, 1.67- Germany, 1- Outlying-US, 2.52- India, 1- Japan, 1- Greece, 1.33- South, 1.18- China, 1- Cuba, 1- Iran, 1- Honduras, 1.51- Philippines, 1- Italy, 1- Poland, 1- Jamaica, 2- Vietnam, 14.99- Mexico, 1- Portugal, 1- Ireland, 1- France, 1- Dominican-Republic, 1.04- Laos, 1- Ecuador, 1.15- Taiwan, 1- Haiti, 1- Columbia, 1.02- Hungary, 1- Guatemala, 2- Nicaragua, 1- Scotland, 1- Thailand, 1- Yugoslavia, 2- El-Salvador, 1- Trinadad&Tobago, 1- Peru, 1- Hong, 1- Holand-Netherlands, (Всего = 308.49)

Атрибут: доход

Дискретная оценка. Counts = 41.78 - >50K, 227.71 - <=50K (Всего = 269.49)

Метод Cobweb


В алгоритме COBWEB реализовано вероятностное представление категорий. Принадлежность категории определяется не набором значений каждого свойства объекта, а вероятностью появления значения. Например, P(Aj=vij|Ck) - это условная вероятность, с которой свойство Aj, принимает значение vij, если объект относится к категории Ck. Для каждой категории в иерархии определены вероятности вхождения всех значений каждого свойства. При предъявлении нового экземпляра система COBWEB оценивает качество отнесения этого примера к существующей категории и модификации иерархии категорий в соответствии с новым представителем. Критерием оценки качества классификации является полезность категории (category utility). Критерий полезности категории был определен при исследовании человеческой категоризации. Он учитывает влияние категорий базового уровня и другие аспекты структуры человеческих категорий. Критерий полезности категории максимизирует вероятность того, что два объекта, отнесенные к одной категории, имеют одинаковые значения свойств и значения свойств для объектов из различных категорий отличаются.

При cutoff 0,26



При cutoff = 0,29





Кластер 0:

  • Возраст – 33

  • Рабочий класс – private

  • Вес в стране – 520033

  • Образование – 12 классов

  • Образование (лет) – 8

  • Семейное положение – женат

  • Занятие – Adm-clerical

  • Родственные связи – жена

  • Пол – женский

  • Раса - белый

  • Капитал полученный – 0

  • Капитал потерянный – 0

  • Часов в неделю – 40

  • Родина – США

  • Заработок - <= 50K

Кластер 1:

  • Возраст – 41

  • Рабочий класс – private

  • Вес в стране – 421837

  • Образование – HS-graduate

  • Образование (лет) – 9

  • Семейное положение – женат

  • Занятие – Transport-moving

  • Родственные связи – муж

  • Пол – мужской

  • Раса - черный

  • Капитал полученный – 0

  • Капитал потерянный – 0

  • Часов в неделю – 40

  • Родина – США

  • Заработок - <= 50K

Кластер 2:

  • Возраст – 47

  • Рабочий класс – federal-gov

  • Вес в стране – 96854

  • Образование – бакалавр

  • Образование (лет) – 13

  • Семейное положение – женат

  • Занятие – prof-speciality

  • Родственные связи – муж

  • Пол – мужской

  • Раса - белый

  • Капитал полученный – 0

  • Капитал потерянный – 0

  • Часов в неделю – 40

  • Родина – США

  • Заработок - > 50K

Кластер 3:

  • Возраст – 46

  • Рабочий класс – private

  • Вес в стране – 403911

  • Образование – assoc-voc

  • Образование (лет) – 11

  • Семейное положение – женат

  • Занятие – craft-repair

  • Родственные связи – муж

  • Пол – мужской

  • Раса - черный

  • Капитал полученный – 0

  • Капитал потерянный – 0

  • Часов в неделю – 40

  • Родина – США

  • Заработок - > 50K

При увеличении значения cutoff расщепление будет усиливаться, но в этом случае каждый кластер будет содержать все меньше и меньше элементов. В итоге мы получим набор кластеров, содержащих по одному элементу и рассматривать такие кластеры не имеет смысла.

ВИЗУАЛИЗАЦИЯ

Цепочка визуализации достаточно проста: прямо от источника данных DataSources - Arff Loader проведена связь к визуализатору Visualization - Scatter Plot Matrix.



В результате проведенной визуализации наиболее наглядными являются следующие диаграммы:

Определяется уровень зарплаты при соотношении пола и профессии:



Вывод: из диаграммы видно, что женщины получают зарплату <50K, а мужчина, выполняющий обязанности директора или проф. специалист, получает >50K.

Определяется уровень зарплаты при соотношении расы и возраста:



Вывод: Asian-Pac-Islander, Amer-Indian-Eskimo, Black и Other имеют доход <50K, а белые в возрасте от 35 до 65 с большой вероятность имеют доход >50K.

ЗАКЛЮЧЕНИЕ


В данной лабораторной работе был проведен анализ исходного набора данных при помощи кластеризации и визуализации. В алгоритме EM данные были разделены на три кластера, в трех остальных – на два. Проанализировав результат выполнения всех четырех алгоритмов вместе, можно сделать общий вывод. Разделим данные на два кластера, т.к. данные в Кластере «0» и Кластере «1» в алгоритме EM имеют схожие значения.

Итог по результатам работы с методами EM, k-means и Farthest First (Coweb не использовался в силу того, что в итоге было проанализировано 4 достаточно различных кластера):


Кластер 0:

  • Возраст: 44

  • Рабочий класс: Private

  • Вес в стране: 162151

  • Образование: Бакалавр, 12 классов, колледж

  • Кол-во лет обучения: 12,7;

  • Семейное положение: Женат

  • Занятие: профессиональная работа, ремонт, self-empnot-inc

  • Семейный статус: Муж

  • Раса: белый

  • Пол: мужской

  • Накопленный капитал: 1904,4;

  • Потерянный капитал: 94,8;

  • Часов в неделю: 42,7;

  • Родина: США

  • Заработок: <=50к

Кластер 1:

  • Возраст: 30,4 года;

  • Рабочий класс: Private

  • Вес в стране: 193671,4;

  • Образование: Колледж, HS-Grade, бакалавр

  • Кол-во лет обучения: 9,8;

  • Семейное положение: не был женат, разведен

  • Занятие: Adm-clerical, торговля, self-emp-not-inc

  • Семейный статус: Жена, есть ребенок

  • Раса: белый

  • Пол: женщина

  • Накопленный капитал: 721,8;

  • Потерянный капитал: 53,1;

  • Часов в неделю: 35,2;

  • Родина: США

  • Заработок: <=50к

Наиболее полную картину показал метод EM, методы k-means и Farthest First тоже показали хорошие результаты, но для данных типа nominal они выводили только те значения, которое появляется с наибольшей частотой по сравнению с другими значениями. Метод Cobweb вывел сильно разветвленную структуру сложную для понимания.


НАБОР ДАННЫХ


datamining400-57.




Нажми чтобы узнать.

Похожие:

«Система анализа данных weka. Кластеризация и визуализация данных» Руководители темы И. Игнатьев подпись, дата iconОтчет о лаботарорной работе по дисциплине Методы и средства анализа данных по теме: «Система анализа данных weka. Кластеризация и визуализация данных» Руководители темы И. Игнатьев подпись, дата
Кластеризация – задача разбиения заданной выборки оюъектов на непересекающиеся подмножества, называемые кластерами, так, чтобы каждый...
«Система анализа данных weka. Кластеризация и визуализация данных» Руководители темы И. Игнатьев подпись, дата iconОтчет о лаботарорной работе по дисциплине Методы и средства анализа данных по теме: «Система анализа данных weka. Кластеризация и визуализация данных» Руководители темы И. Игнатьев подпись, дата
Кластеризация – задача разбиения заданной выборки оюъектов на непересекающиеся подмножества, называемые кластерами, так, чтобы каждый...
«Система анализа данных weka. Кластеризация и визуализация данных» Руководители темы И. Игнатьев подпись, дата icon«Система анализа данных weka. Кластеризация и визуализация данных» Руководители темы И. Игнатьев подпись, дата
Кластеризация – задача разбиения заданной выборки оюъектов на непересекающиеся подмножества, называемые кластерами, так, чтобы каждый...
«Система анализа данных weka. Кластеризация и визуализация данных» Руководители темы И. Игнатьев подпись, дата icon«Система анализа данных weka. Кластеризация и визуализация данных» Руководители темы И. Игнатьев подпись, дата
Кластеризация – задача разбиения заданной выборки оюъектов на непересекающиеся подмножества, называемые кластерами, так, чтобы каждый...
«Система анализа данных weka. Кластеризация и визуализация данных» Руководители темы И. Игнатьев подпись, дата iconОтчет о лаботарорной работе методы и средства анализа данных по теме: «Система анализа данных weka. Кластеризация и визуализация данных» Руководитель темы И. Игнатьев подпись, дата
Цель работы – изучение кластеризации и визуализации данных при помощи интерфейса KnowledgeFlow
«Система анализа данных weka. Кластеризация и визуализация данных» Руководители темы И. Игнатьев подпись, дата iconОтчет о лаботарорной работе методы и средства анализа данных по теме: «Система анализа данных weka. Сравнение методов классификации» Руководитель темы И. Игнатьев подпись, дата
Сравнение алгоритмов (Comparison field) произвести по полю в соответствии с вариантом. Попробуйте менять статистическую значимость....
«Система анализа данных weka. Кластеризация и визуализация данных» Руководители темы И. Игнатьев подпись, дата iconОтчет о лабораторной работе методы и средства анализа данных по теме: «Лабораторная работа с системой анализа данных Weka. Сравнение методов классификации» Руководитель темы И. Игнатьев подпись, дата
«Лабораторная работа с системой анализа данных Weka. Сравнение методов классификации»
«Система анализа данных weka. Кластеризация и визуализация данных» Руководители темы И. Игнатьев подпись, дата iconОтчет о лабораторной работе методы и средства анализа данных по теме: «Использование библиотеки классов weka. Обработка и классификация данных при помощи Weka api» Руководитель темы И. Игнатьев подпись, дата
«Использование библиотеки классов weka. Обработка и классификация данных при помощи Weka api»
«Система анализа данных weka. Кластеризация и визуализация данных» Руководители темы И. Игнатьев подпись, дата iconОтчет о лабораторной работе методы и средства анализа данных по теме: «Использование библиотеки классов weka. Обработка и классификация данных при помощи Weka api» Руководитель темы И. Игнатьев подпись, дата
«Использование библиотеки классов weka. Обработка и классификация данных при помощи Weka api»
«Система анализа данных weka. Кластеризация и визуализация данных» Руководители темы И. Игнатьев подпись, дата iconОтчет о лабораторной работе data Mining по теме: Система анализа данных Weka Кластеризация и визуализация

Разместите кнопку на своём сайте:
Документы


База данных защищена авторским правом ©rushkolnik.ru 2000-2015
При копировании материала обязательно указание активной ссылки открытой для индексации.
обратиться к администрации
Документы