Учебное пособие: Методы изучения корреляционных связей
Алгоритм расчета коэффициента парной корреляции:
1) записывают исходные данные в два вариационных ряда – x и y;
2) вычисляют среднюю арифметическую ряда x и y;
3) определяют разность между членом ряда и средними величинами;
4) перемножают разности ряда x и y между собой;
5) находят сумму перемножаемых разностей (с учетом арифметического знака);
6) возводят в квадрат каждую разность (отклонение) ряда х и у;
7) определяют сумму квадратов отклонений (разностей) для ряда х и у отдельно;
8) подставляют полученные данные в исходную формулу и вычисляют коэффициент парной корреляции.
Пример. Определить корреляционную связь между строками введения противодифтерийной сыворотки и летальностью от этого заболевания.
День введения сыворотки (х) | Летальность (у) | dx | dy | dx 2 | dy 2 | dx *dx |
1-й | 2,0 | -2 | -5 | 4 | 25 | 10 |
2-й | 3,0 | -1 | -4 | 1 | 16 | 4 |
3-й | 7,0 | 0 | 0 | 0 | 0 | 0 |
4-й | 9,0 | +1 | +2 | 1 | 4 | 2 |
5-й | 14,0 | +2 | +7 | 4 | 49 | 14 |
xx = 3 | xy = 7.0 | Sdx =0 | Sdy =0 | Sdx 2 =10 | Sdy 2 =94 | Sdx *dy =30 |
Коэффициент корреляции равен +0,98. Связь положительная, сильная. Следовательно, между сроками введения сыворотки и летальностью от дифтерии имеется очень тесная зависимость. Число больных в этом примере равно 900.
Можно определить достоверность коэффициента корреляции, вычислив его среднюю ошибку для большого числа наблюдений (n>50) по формуле:
, или при меньшем числе наблюдений:
С достаточно большой надежностью можно утверждать, что зависимость неслучайна, если численное значение rxy превышает свою среднюю ошибку не менее чем в 3 раза.
Т.е. связь между признаками считается статистически значимой, если коэффициент корреляции превышает свою ошибку в 3 и более раз
В том случае, когда отношение коэффициента корреляции к его средней ошибки меньше 3, существование связи между изучаемыми явлениями нельзя признать доказанным.
Для малого числа наблюдений (n£30) степень надежности коэффициента корреляции может определяться по специальной таблице. При этом число наблюдений таблицы К (число степеней свободе n) равно числу наблюдений в исследовании без двух, т.е. К = n-2. Как правило, коэффициент корреляции рассчитывается при числе коррелируемых пар не менее 5.
В медицинских и биологических исследованиях связь между признаками считается статистически значимой, если величина коэффициента корреляции больше или равна табличной при Р=0,05
Показатели оценки коэффициента корреляции при малом числе наблюдений
K | P | |||
0,1 | 0,05 | 0,02 | 0,01 | |
1 | 0,988 | 0,997 | 0,9995 | 0,99988 |
2 | 900 | 950 | 980 | 990 |
3 | 800 | 878 | 934 | 959 |
4 | 729 | 811 | 882 | 917 |
5 | 669 | 754 | 883 | 874 |
6 | 662 | 707 | 789 | 834 |
7 | 582 | 666 | 750 | 798 |
8 | 549 | 632 | 716 | 765 |
9 | 521 | 602 | 685 | 735 |
10 | 497 | 576 | 658 | 708 |
11 | 476 | 532 | 634 | 684 |
12 | 458 | 532 | 612 | 661 |
13 | 441 | 514 | 592 | 641 |
14 | 426 | 497 | 574 | 623 |
15 | 412 | 482 | 558 | 606 |
16 | 400 | 468 | 542 | 590 |
17 | 389 | 456 | 528 | 575 |
18 | 378 | 444 | 516 | 561 |
19 | 369 | 433 | 503 | 549 |
20 | 360 | 423 | 492 | 537 |
25 | 323 | 381 | 445 | 487 |
30 | 296 | 349 | 409 | 449 |
35 | 275 | 325 | 381 | 418 |
40 | 257 | 304 | 358 | 393 |
45 | 243 | 288 | 338 | 354 |
50 | 231 | 273 | 322 | 354 |
60 | 211 | 250 | 295 | 325 |
70 | 195 | 232 | 274 | 302 |
80 | 183 | 217 | 256 | 283 |
90 | 173 | 205 | 242 | 267 |
100 | 164 | 195 | 230 | 254 |
Пример. В районах изучалась зависимость между охватом населения прививками и уровнем заболеваемости. Полученный коэффициент корреляции по этим двум признакам был равен 0,81. Число наблюдений – 8 районов (пар), следовательно, К равно 6 (8-2). По таблице находим строку 6 и сравниваем полученный коэффициент. При данном числе степеней свободы (К) коэффициент корреляции превышает табличный для вероятности Р=0,05 (графа 3). Отсюда с вероятностью, большей, чем 95%, можно утверждать, что зависимость между охватом населения прививками и заболеваемостью не случайна, и эта связь сильная, т.е. чем больше процент привитых, тем меньше уровень заболеваемости.
Ранговый коэффициент (Спирмена)
Ранговый коэффициент корреляции более пригоден по сравнению с обычным коэффициентом для характеристики корреляций в случаях нелинейной связи и для данных, распределение которых отличается от нормального. Кроме того, данные для расчета рангового коэффициента могут быть представлены в полуколичественных измерениях. Достаточно ориентировочных данных об уровне признака. Вычисление коэффициента проводится по формуле:
.
Алгоритм расчета коэффициента корреляции рангов:
1) заменяют количественные (или полуколичественные, или качественные) признаки ряда х и у на ранги, ранжируя при этом строго от меньшей величины к большей (или строго от большей к меньшей по усмотрению исследователя);
2) определяют условные отклонения (а), т.е. разность рангов по каждой строке;
3) возводят условные отклонения в квадрат;
4) определяют сумму квадратов условных отклонений;