Реферат: Классификация регионов РФ по доходам от услуг связи

Окончательное разбиение имеет центры тяжести, которые не совпадают с эталонами, их можно обозначить C1 ,C2 , ,C k . При этом каждая точка X i будет относиться к такому кластеру (классу) l , для которого расстояние минимально. Возможны две модификации метода k - средних. Первая предполагает пересчет центра тяжести кластера после каждого изменения его состава, а вторая – лишь после того, как будет завершен просмотр всех данных. В обоих случаях итеративный алгоритм этого метода минимизирует дисперсию внутри каждого кластера, хотя в явном виде такой критерий оптимизации не используется.

Достоинства алгоритма k-средних:

• простота использования;

• быстрота использования;

• понятность и прозрачность алгоритма.

Недостатки алгоритма k-средних:

• алгоритм слишком чувствителен к выбросам, которые могут искажать среднее. Возможным решением этой проблемы является использование модификации алгоритма - алгоритм k-медианы;

• алгоритм может медленно работать на больших базах данных. Возможным решением данной проблемы является использование выборки данных.

Глава 2. Кластерный анализ регионов России.

Нами исследуется совокупность 62 регионов, каждый из которых характеризуется по 5 замеренным на нем признакам Х. Четыре признака из них характеризуют степень оснащенности населения средствами связи и среднедушевой доход населения, а пятый – показатель дохода от услуг связи, предоставляемых населению. Данные по эти признакам приведены в Приложении 1. Вот эти признаки:

X1 – доходы от услуг связи населению в расчете на одного жителя (рублей);

Х2 – число квартирных телефонных аппаратов сети общего пользования на 1000 человек населения (на конец года; штук);

Х3 – средства связи (пользовательское оборудование) для оказания услуг передачи данных и телематических служб на 1000 человек (на конец года;штук);

Х4 – число абонентских терминалов сотовой связи на 1000 человек населения (на конец года; штук);

Х5 – среднедушевые доходы населения (рублей).

Перед началом работы и анализа данных необходимо выявить наличие выбросов, и если они могут повлиять на результаты анализа, удалить их из таблицы исходных данных. Графики исследования на выбросы по признакам X1 и X2, по признакам X1 и X3, и, наконец, по признакам X4 и X5 приведены на рисунках в Приложении 2 . Проведя анализ по этим диаграммам можно сделать следующие выводы.

Камчатская область является выбросом по трем признакам: X1, X2, X5, следовательно, наличие данных по этому региону может повлиять на результаты дальнейшего анализа. Поэтому, Камчатская область будет удалена из массива исходных данных.

Остальные выбросы определяются по одному или по двум признакам, поэтому можно сделать вывод о том, что эти выбросы обусловлены влиянием посторонних факторов и они не окажут воздействия на результаты дальнейшего анализа. Поэтому из таблицы исходных данных они удалены не будут.

В результате для дальнейшей работы будут использованы данные, указанные в таблице Приложения 3 . . Перед началом исследования и разбиения объектов на кластеры необходимо провести проверку данных на мультиколлинеарность. Парные коэффициенты корреляции приведены в Табл. 1.1.

Табл. 1.1

X1

X2

X3

X4

X5

X1

1

0,26315

0,25601

0,26674

0,68608

X2

0,26315

1

0,19883

0,18494

0,31769

X3

0,25601

0,19883

1

0,05359

0,21421

X4

0,26674

0,18494

0,05359

1

0,3323

X5

0,68608

0,31769

0,21421

0,3323

1

Табл 1.1 Парные коэффициенты корреляции.

Как видно из таблицы (Табл. 1.1), между данными нет слишком сильных взаимосвязей, следовательно, построенные кластерные модели будут адекватно отображать действительность.

Так как наши показатели имеют разные меры измерения, то для дальнейшего кластерного анализа нам требуется простандартизировать исходные данные. Таблица стандартизированных данных представлена в Приложении 3.

2.1 Евклидова Метрика

Теперь, когда наши данные готовы к использованию, можно провести кластерный анализ. Для этого используем методы ближнего и дальнего соседа, а также методы Варда и k-средних.

К-во Просмотров: 161
Бесплатно скачать Реферат: Классификация регионов РФ по доходам от услуг связи