Реферат: Социальные различия имущественной обеспеченности населения в российских регионах
Белгородская область
0,352
10,2
244,2
263,o
125,2
21,2
Единицей наблюдения является регион, а показателями – статистика по этому региону, полученная на основе исследований. Хотя данные присутствовали почти по всем российским регионам, в анализе была использована информация только по 70 из них, включая Москву и Санкт-Петербург (о причинах этого см. ниже).
Регион характеризуется 6 показателями. По результатам кластерного анализа можно ожидать появление «богатых» и «бедных» регионов (или же регионов с высоким и низким уровнем жизни). В данном случае нас интересует типовые группы регионов рассматриваемых по схожим социально-экономическим показателям.
Для работы с базой данных и статистического анализа используется статистический пакет SPSS 13.0 для Windows. Для обработки в статистическом пакете информация должна быть организована в особом виде. Традиционным представлением является прямоугольная таблица, матрица данных. В исходных данных представлена статистика по регионам, а также – информация по группам регионов (федеральным округам) и России в целом. Для того чтобы обработать данные в статистическом пакете, нужно привести их к нужной структуре т.е. оставить только информацию по регионам.
В файле данных информация по показателям социально-экономического положения представлена переменными (информация об одном и том же показателе записывается в один столбец, а регион формирует строку файла данных). Список переменных с их краткой характеристикой из [1] представлен в таблице 2.
Таблица 2 «Список переменных»
№ | Имя | Тип | Описание | Смысл показателя |
1 | Region | Номинальный | Регион | Регион |
2 | Gini | Числовой | Коэффициент Джини | (индекс концентрации доходов / заработной платы) Характеризует степень отклонения линии фактического распределения общего объема доходов /заработной платы от линии их равномерного распределения. |
3 | Fond | Числовой | Коэффициент Фондов | Коэффициент дифференциации доходов / заработной платы. Характеризует степень соц. расслоения и определяется как соотношение между средними уровнями денежных доходов / заработной платы 10% процентов населения (работников) с самыми высокими доходами и 10 % процентов населения (работников) с самыми низкими доходами / заработной платой |
4 | Sdohod | Числовой | Соотношение среднедушевых денежных доходов с величиной ПМ, % | Характеризует общий уровень денежных доходов населения относительно установленного прожиточного минимума |
5 | Szarplata | Числовой | Соотношение среднемесячной начисленной зарплаты с величиной ПМ, % | Характеризует общий уровень заработной платы населения относительно установленного прожиточного минимума |
6 | Spensii | Числовой | Соотношение среднего размера назначенных месячных пенсий с величиной ПМ, % | Характеризует общий уровень пенсий населения относительно установленного прожиточного минимума. |
7 | ChislMin | Числовой | Численность населения с денежными доходами ниже величины ПМ | Определяется на основе данных о распределении населения по величине среднедушевых денежных доходов и является результатом их соизмерения с величиной прожиточного минимума |
На практике большую проблему представляют пропущенные значения (пункты, по которым отсутствует информация). Связано это с тем, что нельзя отнести регион к какому либо кластеру, не имея полной информации о нем. В данной таблице пропусков довольно мало. Информация полностью отсутствует по Чеченской Республике. Статистические исследования в этом регионе не проводились в связи с проходившими на территории Чечни военными действиями. Также, вне зоны нашего внимания останутся такие регионы как Архангельская область, Пермская область, Тюменская область, Красноярский край, Иркутская область и Читинская область из-за частичного или полного отсутствия статистических данных. По остальным регионам, включая Москву и Петербург, все данные находятся в нашем распоряжении. Поэтому в дальнейшем исключим выше перечисленные субъекты из рассмотрения, и модель будем строить на базе информации о 70 регионах РФ.
Анализ и интерпретация
В задачи работы входит построение кластерной модели социально-экономического положения по регионам РФ. Требуется выделить группы регионов, имеющих схожую, однородную социально-экономическою обстановку. Таким образом, исходными данными должна являться статистика показателей социально-экономического положения на региональном уровне (по всем регионам РФ).
Описательная статистика. Для начала работы стоит провести разведочный анализ с целью определения перспектив кластеризации. Прибегнем к возможностям SPSS и получим описательные статистики показателей социально-экономического положения.
Таблица 3 «Описательная статистика показателей»
Количество | Минимум | Максимум | Среднее | Стандартное отклонение | |
Gini | 70 | ,314 | ,578 | ,36346 | ,036434 |
Fond | 70 | 7,8 | 44,0 | 11,430 | 4,4475 |
Sdohod | 70 | 105,1 | 674,0 | 231,597 | 73,1439 |
Szarplata | 70 | 168,1 | 309,4 | 234,240 | 36,9582 |
Spensii | 70 | 80,7 | 132,6 | 111,811 | 13,0245 |
ChislMin | 70 | 13,5 | 73,0 | 26,624 | 10,0924 |
Наиболее важным показателем для нас является стандартное отклонение. Чем выше стандартное отклонение величины (чем больше ее изменчивость), тем больше эта переменная будет оказывать влияние на результаты кластеризации. Мы видим, например что переменные Sdohodили Szarplataимеют наибольшее стандартное отклонение и возможно разделение регионов на группы именно по этим признакам. Практически большее стандартное отклонение означает, что между регионами существует большая дифференциация по данным показателям: в какой-то части регионов показатели малы, а в какой-то части регионов наоборот велики. Таким образом, справедливо ожидать, что показатели с большей «дифференцирующей способностью» (большей дисперсией) окажут большее влияние на результат кластеризации [4, 5]
Видно, что, как и для многих экономических показателей, чем меньше среднее показателя, тем меньше стандартное отклонение этого показателя. Связано это с невозможностью переменных принимать отрицательные значения. Это значит, что наибольшее влияние на результаты кластеризации окажут переменные с большей средней величиной.
Так же большое подспорье в оценке перспектив кластеризации окажут гистограммы абсолютных или стандартизированных значений по тем переменным по которым она проводиться. Далее мы будем рассматривать только стандартизированные значения, в связи с тем, что стандартные отклонения слишком различны. Стандартизация показателей проводилась с помощью меню SPSSAnalyze – DescriptiveStatistics – Descriptives с установкой флажка стандартизации. Изучим гистограммы наших показателей.
При анализе гистограммы Коэффициента Джини мы видим, что все регионы отчетливо делятся на две группы. Причем одна из этих групп крайне велика и туда входит большая часть всех регионов РФ.
Анализ гистограмм для коэффициента фондов, численности населения с доходами, ниже ПМ и соотношения денежных доходов с ПМ выявил аналогичные распределение регионов как и для коэффициента Джини.
А вот анализ гистограмм Szarplataи Spensii не выявил очевидного деления на какие-либо группы регионов.
Стоит также рассмотреть и корреляции всех показателей.
Таблица 4 «Матрица корреляций показателей»
Gini | Fond | Sdohod | Szarplata | Spensii | ChislMin | |
Gini | 1 | ,953(**) | ,872(**) | ,455(**) | -,225 | -,384(**) |
Fond | ,953(**) | 1 | ,881(**) | ,370(**) | -,257(*) | -,301(*) |
Sdohod | ,872(**) | ,881(**) | 1 | ,599(**) | -,046 | -,658(**) |
Szarplata | ,455(**) | ,370(**) | ,599(**) | 1 | -,069 | -,668(**) |
Spensii | -,225 | -,257(*) | -,046 | -,069 | 1 | -,250(*) |
ChislMin | -,384(**) | -,301(*) | -,658(**) | -,668(**) | -,250(*) | 1 |
Как следует из справочной информации по пакету SPSS, звёздочками отмечены значимые корреляции, то есть, те, на которые имеет смысл обращать внимание. Исследовав таблицу корреляций мы можем заметить, что Коэффициент фондов и Коэффициент Джини дают нам крайне близкую информацию (корреляция 0,953) что в свою очередь позволяет нам вместо обоих показателей воспользоваться одним. В данной ситуации более предпочтительным для работы является коэффициент фондов так как он в свою очередь обладает большим относительным разбросом. Об этом нам может сказать коэффициент вариации (отношение стандартного отклонения переменной к среднему значению этой переменной). У коэффициента Джини он составляет порядка 0,1 а у коэффициентов фондов около 0,389 (в таблицах не показано).