Курсовая работа: Корреляционный анализ
г) устранение мультиколлинеарности (взаимозависимости факторов) и уточнение набора показателей путем расчета парных коэффициентов корреляции;
д) исследование факторной зависимости и проверка ее значимости;
е) оценка результатов анализа и подготовка рекомендаций по их практическому использованию[3].
1.5 Коэффициенты корреляции
Коэффициенты корреляции является общепринятой в математической статистике характеристикой связи между двумя случайными величинами. Коэффициент корреляции - показатель степени взаимозависимости, статистической связи двух переменных; изменяется в пределах от -1 до +1. Значение коэффициента корреляции 0 указывает на возможное отсутствие зависимости, значение +1 свидетельствует о согласованности переменных.
Различают следующие коэффициенты корреляции:
- дихотомический - показатель связи признаков (переменных) измеряемых по дихотомическим шкалам наименований;
- Пирсона (Pearson product-moment correlation) - коэффициент корреляции, используемый для континуальных переменных;
- ранговой корреляции Спирмена (Spearmen's rank-order correlation) - коэффициент корреляции для переменных, измеренных в порядковых (ранговых) шкалах;
- точечно-бисериальной корреляции (point-biserial correlation) - коэффициент корреляции, применяемый в случае анализа отношения переменных, одна из которых измерена в континуальной шкале, а другая - в строго дихотомической шкале наименований;
- j - коэффициент корреляции, используемый в случае, если обе переменные измерены в дихотомической шкале наименований.
- тетрахорический (четырехпольный) (tetrachoric) - коэффициент корреляции, используемый в случае, если обе переменные измерены в континуальных шкалах[4].
Линейная связь между переменными Xi и Xj оценивается коэффициентом корреляции:
,
где Xi и Xj – исследуемые переменные; mXi и mXj – математические ожидания переменных; σX и σX – дисперсии переменных.
Выборочный коэффициент корреляции определяют по формуле:
,
или по преобразованной формуле:
,
где i =1, 2, ..., n, j = 1, 2, ..., m, u = 1, 2, ..., N; N – число опытов(объем выборки); xi , xj – оценки математических ожиданий; SXi , SXj – оценки среднеквадратических отклонений.
Только при совместной нормальной распределенности исследуемых случайных величин Xi и Xj коэффициент корреляции имеет определенный смысл связи между переменными. В противном случае коэффициент корреляции может только косвенно характеризовать эту связь[5].
1.6 Нормированный коэффициент корреляции Браве-Пирсона
В качестве оценки генерального коэффициента корреляции р используется коэффициент корреляции r Браве-Пирсона. Для его определения принимается предположение о двумерном нормальном распределении генеральной совокупности, из которой получены экспериментальные данные. Это предположение может быть проверено с помощью соответствующих критериев значимости. Следует отметить, что если по отдельности одномерные эмпирические распределения значений xi и yi согласуются с нормальным распределением, то из этого еще не следует, что двумерное распределение будет нормальным. Для такого заключения необходимо еще проверить предположение о линейности связи между случайными величинами Х и Y. Строго говоря, для вычисления коэффициента корреляции достаточно только принять предположение о линейности связи между случайными величинами, и вычисленный коэффициент корреляции будет мерой этой линейной связи.
Коэффициент корреляции Браве–Пирсона () относится к параметрическим коэффициентам и для практических расчетов вычисляется по формуле:
Из формулы видно, что для вычисления необходимо найти средние значения признаков Х и Y, а также отклонения каждого статистического данного от его среднего . Зная эти значения, находятся суммы . Затем, вычислив значение , необходимо определить достоверность найденного коэффициента корреляции, сравнив его фактическое значение с табличным для f = n –2. Если , то можно говорить о том, что между признаками наблюдается достоверная взаимосвязь. Если , то между признаками наблюдается недостоверная корреляционная взаимосвязь[2].
Пример 1.10 студентам были даны тесты на наглядно-образное и вербальное мышление. Измерялось среднее время решения заданий теста в секундах. Исследователя интересует вопрос: существует ли взаимосвязь между временем решения этих задач? Переменная X — обозначает среднее время решения наглядно-образных, а переменная Y— среднее время решения вербальных заданий тестов.
Решение. Представим исходные данные в виде таблицы 4, в которой введены дополнительные столбцы, необходимые для расчета по формуле.
Таблица 1 – Условия задачи
№ испытуемых | x | y | хi - | (хi -)2 | yi - | (yi - )2 | |
1 | 19 | 17 | -16,7 | 278,89 | -7,2 | 51,84 | 120,24 |
2 | 32 | 7 | -3,7 | 13,69 | -17,2 | 295,84 | 63,64 |
3 | 33 | 17 | -2,7 | 7,29 | -7,2 | 51,84 | 19,44 |
4 | 44 | 28 | 8,3 | 68,89 | 3,8 | 14,44 | 31,54 |
5 | 28 | 27 | -7,7 | 59,29 | 2,8 | 7,84 | -21,56 |
6 | 35 | 31 | -0,7 | 0,49 | 6,8 | 46,24 | -4,76 |
7 | 39 | 20 | 3,3 | 10,89 | -4,2 | 17,64 | -13,86 |
8 | 39 | 17 | 3,3 | 10,89 | -7,2 | 51,84 | -23,76 |
9 | 44 | 35 | 8,3 | 68,89 | 10,8 | 116,64 | 89,64 |
10 | 44 | 43 | 8,3 | 68,89 | 18,8 | 353,44 | 156,04 |
Сумма | 357 | 242 | 588,1 | 1007,6 | 416,6 | ||
Среднее | 35,7 | 24,2 |
Рассчитываем эмпирическую величину коэффициента корреляции по формуле расчета коэффициента корреляции Браве–Пирсона:
Определяем критические значения для полученного коэффициента корреляции по таблице. При нахождении критических значений для вычисленного коэффициента линейной корреляции Пирсона число степеней свободы рассчитывается как f = n – 2 = 8. rкрит =0,72 > 0,54 , следовательно, гипотеза Н1 отвергается и принимается гипотеза H0 , иными словами, связь между временем решения наглядно-образных и вербальных заданий теста не доказана[1].
1.7 Коэффициент ранговой корреляции Спирмена
Если потребуется установить связь между двумя признаками, значения которых в генеральной совокупности распределены не по нормальному закону, т. е. предположение о том, что двумерная выборка (xi и yi) получена из двумерной нормальной генеральной совокупности, не принимается, то можно воспользоваться коэффициентом ранговой корреляции Спирмена ():
где dx и dy – ранги показателей xi и yi; n – число коррелируемых пар.
Коэффициент ранговой корреляции также имеет пределы 1 и –1. Если ранги одинаковы для всех значений xi и yi, то все разности рангов (dx - dy) = 0 и = 1. Если ранги xi и yi расположены в обратном порядке, то = -1. Таким образом, коэффициент ранговой корреляции является мерой совпадения рангов значений xi и yi .
Когда ранги всех значений xi и yi строго совпадают или расположены в обратном порядке, между случайными величинами Х и Y существует функциональная зависимость, причем эта зависимость не обязательно линейная, как в случае с коэффициентом линейной корреляции Браве-Пирсона, а может быть любой монотонной зависимостью (т. е. постоянно возрастающей или постоянно убывающей зависимостью). Если зависимость монотонно возрастающая, то ранги значений xi и yi совпадают и = 1; если зависимость монотонно убывающая, то ранги обратны и = –1. Следовательно, коэффициент ранговой корреляции является мерой любой монотонной зависимости между случайными величинами Х и Y.
Из формулы видно, что для вычисления необходимо сначала проставить ранги (dx и dy) показателей xi и yi, найти разности рангов (dx - dy) для каждой пары показателей и квадраты этих разностей (dx - dy)2 . Зная эти значения, находятся суммы , учитывая, что всегда равна нулю. Затем, вычислив значение , необходимо определить достоверность найденного коэффициента корреляции, сравнив его фактическое значение с табличным. Если , то можно говорить о том, что между признаками наблюдается достоверная взаимосвязь. Если , то между признаками наблюдается недостоверная корреляционная взаимосвязь.