Контрольная работа: Выборочная ковариация
Учитывая это равенство, можно воспользоваться правилами расчета выборочной ковариации, чтобы вывести правила расчета дисперсии.
Коэффициент корреляции
Рассматривая ковариацию нельзя не отметить, что она является не особенно хорошим измерителем взаимосвязи между величинами. Более точной мерой зависимости является тесно связанный с ней коэффициент корреляции. Подобно дисперсии и ковариации, коэффициент корреляции имеет две формы – теоретическую и выборочную.
Для переменных x и y теоретический коэффициент корреляции определяется как:
x,y = pop.cov(x,y) / pop.var(x)pop.var(y) = x,y / x 2 y 2 var(y)
Если x и y независимы, то r равно нулю, т.к. равна нулю теоретическая ковариация. Если между переменными существует, то sx , y , а следовательно rx , y будут положительными. Если существует строгая положительная линейная завистмость, то rx , y примет максимальное значение равное 1. Аналогичным образом при отрицательной зависимости rx , y будет отрицательным с минимальным значением –1.
Выборочный коэффициент корреляции r равен:
rx,y = (n/(n-1))Cov(x,y) / (n/(n-1))Var(x)(n/(n-1))Var(y)
Множители n/(n-1) сокращаются, поэтому можно определить выборочную корреляцию как:
rx,y = Cov(x,y) / Var(x)Var(y)
Подобно величине r, r принимает максимальное значение, равное единице, которая получается при строгой линейной зависимости между выборочными значениями x и y. Аналогичным образом r принимает минимальное значение –1, когда существует линейная отрицательная зависимость. Величина r = 0 показывает, что зависимость между наблюдениями x и y в выборке отсутствует. Однако, тот факт, что r = 0, необязательно означает, что, и наоборот.
Для вычисления выборочного коэффициента корреляции используем пример о спросе на бензин. Данные представлены в таблице 1.1.
Cov(p,y) = – 16,24 (см. табл. 1.2), поэтому теперь необходимо найти значения Var(p) и Var(y) (см. табл. 1.6 на следующей странице). В последних двух колонках таблицы 1.6 можно найти, что Var(p)=888,58 Var(y)=1,33. Следовательно:
r = –16.24 / 888,58 * 1,33 = – 16,24 / 34,38 = – 0,47
Таблица 1.6
Наблюдение | p | y | (p-p) | (y-y)2 | (p-p)2 | (y-y)2 |
1 | 103,5 | 26,2 | -39,86 | -0,07 | 1588,82 | 0,01 |
2 | 127,0 | 24,8 | -16,36 | -1,47 | 267,65 | 2,16 |
3 | 126,0 | 25,6 | -17,36 | -0,67 | 301,37 | 0,45 |
4 | 124,8 | 26,8 | -18,56 | 0,53 | 344,47 | 0,28 |
5 | 124,7 | 27,7 | -18,66 | 1,43 | 348,20 | 2,05 |
6 | 121,6 | 28,3 | -21,76 | 2,03 | 473,50 | 4,12 |
7 | 149,7 | 27,4 | 6,34 | 1,13 | 40,20 | 1,28 |
8 | 188,8 | 25,1 | 45,44 | -1,17 | 2064,79 | 1,37 |
9 | 193,6 | 25,2 | 50,24 | -1,07 | 2524,06 | 1,15 |
10 | 173,9 | 25,6 | 30,54 | -0,67 | 932,69 | 0,45 |
Сумма: | 1433,6 | 262,7 | 8885,75 | 13,30 | ||
Среднее: | 143,36 | 26,27 | 888,58 | 1,33 |
Почему ковариация не является хорошей мерой связи?
Коэффициент корреляции является более подходящим измерителем зависимости, чем ковариация. Основная причина этого заключается в том, что ковариация зависит от единиц, в которых измеряются переменные x и y, в то время как коэффициент корреляции есть величина безразмерная.
Возвращаясь к примеру со спросом на бензин, если при вычислении индекса реальных цен в качестве базового года взять 1980 г. вместо 1972 г., то в этом случае ковариация изменится, а коэффициент корреляции – нет.
При использовании 1972 г. вкачестве базового года индекс реальных цен для 1980 г. составил 188,8. Если теперь принять этот индекс за 100 для 1980 г., то нужно пересчитать ряды путем умножения на коэффициент 100/188,8 = 0,53. Новые ряды представлены во второй колонке таблицы 1.7 и будут обозначены через P. Величина P численно меньше, чем p.
Так как отдельное наблюдение ряда цен было пересчитано с коэффициентом 0,53 то отсюда следует, что и среднее значение за выборочный период (Pсредн. ) пересчитывается с этим коэффициентом. Следовательно, в году t:
Pt – P = 0,53pt – 0,53p = 0,53(pt – p)
Это означает, что в году t:
(P – P)(y – y) = 0,53(p – p)(y – y),
и, следовательно, Cov(P,y) = 0,53Cov(p,y). Однако на коэффициент корреляции это изменение не повлияет. Коэффициент корреляции для P и y будет равен:
rp , y = Cov(P,y) / Var(P)Var(y)
Таблица 1.7
Наблюдение | P | y | P-P | y-y | (P-P)2 | (y-y)2 | (P-P)(y-y) |
1973 | 54,82 | 26,2 | -21,11 | -0,07 | 445,73 | 0,01 | 1,48 |
1974 | 67,27 | 24,8 | -8,67 | -1,47 | 75,09 | 2,16 | 12,74 |
1975 | 66,74 | 25,6 | -9,20 | -0,67 | 84,55 | 0,45 | 6,16 |
1976 | 66,10 | 26,8 | -9,38 | 0,53 | 96,64 | 0,28 | -5,21 |
1977 | 66,05 | 27,7 | -9,88 | 1,43 | 97,68 | 2,05 | -14,13 |
1978 | 64,41 | 28,3 | -11,53 | 2,03 | 132,84 | 4,12 | -23,40 |
1979 | 79,29 | 27,4 | 3,36 | 1,13 | 11,28 | 1,28 | 3,80 |
1980 | 100,00 | 25,1 | 24,07 | -1,17 | 579,26 | 1,37 | -28,16 |
1981 | 102,54 | 25,2 | 26,61 | -1,07 | 708,10 | 1,15 | -28,47 |
1982 | 92,11 | 25,6 | 16,18 | -0,67 | 261,66 | 0,45 | -10,84 |
Сумма: | 759,32 | 262,7 | 2492,28 | 13,30 | -86,04 | ||
Среднее: | 75,93 | 26,27 | 249,23 | 1,33 | -8,60 |