Учебное пособие: Методы изучения корреляционных связей
Пример. Измерить корреляцию между смертностью от рака молочной железы и рака матки (материалы смертности 5 внеевропейских стран за 1950 – 1952 гг.),
Страна |
Смертность от рака молочной железы на 100000 женщин х |
Смертность от рака матки на 100000 женщин у | Порядковые номера (ранги) по размерам смертности от рака |
Разность рангов а |
Квадрат разности рангов а2 | |
молочной железы | матки | |||||
Новая Зеландия | 28,6 | 14,9 | 1 | 4 | 3 | 9 |
Австралия | 23,5 | 13,4 | 2 | 5 | 3 | 9 |
ЮАР | 21,1 | 16,3 | 3 | 2 | 1 | 1 |
Чили | 5,8 | 15,3 | 4 | 3 | 1 | 1 |
Япония | 3,3 | 19,1 | 5 | 1 | 4 | 16 |
Sа2 =36 |
Поскольку вычисление коэффициента корреляции рангов обычно производится на малом числе наблюдений (число пар в рядах х, у), особое значение приобретает оценка статистической значимости (достоверности) этого коэффициента. Это тем более важно, так как ранговый коэффициент всегда менее точен, нежели парный коэффициент корреляции.
Оценка достоверности коэффициента корреляции рангов проводится разными методами в зависимости от числа наблюдений. При числе парных наблюдений, равномерном или менее 9 (n£9), оценка значимости производится по специальной таблице. При числе наблюдений от 10 и более оценка значимости может осуществляться с помощью критерия t по формуле:
.
Используя таблицу значений t Стьюдента, при числе степеней свободы без двух (n`=n-2), сравнивают вычисленное значение с табличным. Коэффициент признается значимым при условии, если расчетное t>t0,05 табличного.
Критическое значение коэффициентов корреляции Спирмена – r
n | Уровни значимости | n | Уровни значимости | ||
5% | 1% | 5% | 1% | ||
4 | 1,000 | 16 | 0,425 | 0,601 | |
5 | 0,900 | 1,000 | 18 | 0,399 | 0,564 |
6 | 0,829 | 0,843 | 20 | 0,377 | 0,534 |
7 | 0,714 | 0,893 | 22 | 0,359 | 0,508 |
8 | 0,643 | 0,833 | 24 | 0,343 | 0,485 |
9 | 0,600 | 0,783 | 26 | 0,329 | 0,465 |
10 | 0,564 | 0,746 | 28 | 0,317 | 0,448 |
12 | 0,506 | 0,712 | 30 | 0,306 | 0,435 |
14 | 0,456 | 0,645 |
Коэффициент корреляции признается значимым (достоверным), если вычисленное r£r0,05 .
В рассматриваемом примере число наблюдений меньше 9 (n=5), вследствие чего оценка коэффициента проведена по таблице. При числе наблюдений, равном 5, вычисленное значение r=-0,80 меньше критического и поэтому нельзя с достаточной достоверностью утверждать, что между смертностью от рака молочной железы и рака матки существует какая-то зависимость.
Определение тесноты связи между качественными признаками
При изучении зависимости качественных признаков используется коэффициент сопряженности. Для определения тесноты связи в случае альтернативной зависимости двух сопоставляемых признаков (данные, как правило, представлены в четырехпольной таблице) коэффициенты сопряженности рассчитываются по формулам:
коэффициент контингенции Шарлье:
коэффициент ассоциации Юла (Q):
.
Алгоритм расчета:
1) шифруют через a, b, c, d четыре поля, в которых расположены исходные данные: ;
2) вычисляют последовательно произведения a*d и b*c;
3) рассчитывают числитель формулы;
4) определяют знаменатель формулы;
5) вычисляют коэффициент Шарлье или Юла.