Математика / Реферат: Применение математики в статистике

Реферат: Применение математики в статистике

где b ₀ , b ₁ , е – оценки неизвестных b₀ , b₁ , и. В случае парной линейной зависимости вида

`y_x =b ₀ +b ₁ х

В настоящее время необходимость в ручных расчетах отпала, так как существует множество компьютерных программ, реализующих методы регрессионного анализа. Важно понимать смысл параметров и уметь их адекватно интерпретировать.

На основе уравнений регрессии часто рассчитывают коэффициенты эластичности результативного признака относительно факторного.

Коэффициент эластичности (Э ) показывает, на сколько процентов в среднем изменится результативный признак Y при изменении факторного признака Х на 1%.

Рассмотрим методы регрессионного и корреляционного анализов. Предположим, что нас интересует выручка от продажи баночного пива в магазинах города в течение дня. Мы провели исследование в 20 случайно выбранных магазинах и получили следующие данные (табл. 6):

Таблица 6. Данные исследования

Номер магазина	Число посетителей	Выручка, у.е.
1	907	11,20
2	926	11,05
3	506	6,84
4	741	9,21
5	789	9,42
6	889	10,08
7	874	9,45
8	510	6,73
9	529	7,24
10	420	6,12
11	679	7,63
12	872	9,43
13	924	9,46
14	607	7,64
15	452	6,92
16	729	8,95
17	794	9,33
18	844	10,23
19	1010	11,77
20	621	7,41
Итого	14,623	176,11

Для прогноза объемов продаж применим простую модель парной регрессии, в которой используется только одна факторная переменная – Х (число посетителей магазина). С увеличением числа посетителей растет выручка от продажи. Рассчитаем параметры уравнения регрессии:

`y_x =b₀ +b₁ x

Для облегчения расчетов воспользуемся табл. 7.

Таблица 7

Магазин	Число покупателей X	Выручка Y	X2	Y2	XY
1	907	11,20	822 649	125,4400	10 158,40
2	926	11,05	857 476	122,1025	10 232,30
3	506	6,84	256,036	46,7856	3461,04
4	741	9,21	549 081	84,8241	6 824,61
5	789	9,42	622 521	88,7364	7 432,38
6	889	10,08	790 321	101,6064	8961,12
7	874	9,45	763 876	89,3025	8 259,30
8	510	6,73	260 100	45,2929	3 432,30
9	529	7,24	279 841	52,4176	3 829,96
10	420	6,12	176 400	37,4544	2 570,40
11	679	7,63	461 041	58,2169	5 180,77
12	872	9,43	760 384	88,9249	8 222,96
13	924	9,46	853 776	89,4916	8 741,04
14	607	7,64	368 449	58,3696	4 637,48
15	452	6,92	204304	47,8864	3 127,84
16	729	8,95	531 441	80,1025	6 254,55
17	794	9,33	630 436	87,0489	7 408,02
18	844	10,23	712 336	104,6529	8634,12
19	1010	11,77	1 020 100	138,5329	11 887,70
20	621	7,41	385 641	54,9081	4 601,61
Итого	14623	176,11	11 306 209	1 602,0971	134 127,90

Коэффициент b₁ характеризует наклон линии регрессии. b₁ = 0,00873. Это означает, что при увеличении Х на единицу ожидаемое значение Y возрастет на 0,00873. То есть регрессионная модель указывает на то, что каждый новый посетитель магазина в среднем увеличивает недельную выручку магазина на 0,00873 у.е. (или можно сказать, что ожидаемый прирост ежедневной выручки составит 8,73 у.е. при привлечении в магазин 100 дополнительных посетителей). Отсюда b₁ может быть интерпретирован как прирост ежедневной выручки, который варьирует в зависимости от числа посетителей магазина.

Свободный член уравнения b₀ = +2,423 у.е., это – эначение Y при X, равном нулю. Поскольку маловероятно число посетителей магазина, равное нулю, то можно интерпретировать b₀ как меру влияния на величину ежедневной выручки других факторов, не включенных в уравнение регрессии.

Регрессионная модель может быть использована для прогноза объема ежедневной выручки. Например, мы хотим использовать модель для предсказания средней ежедневной выручки магазина, который посетят 600 покупателей.

Когда мы используем регрессионные модели для прогноза, важно помнить, что обсуждаются только значения независимых переменных, находящиеся в пределах от наименьшего до наибольшего значений факторного признака, используемые при создании модели. Отсюда, когда мы предсказываем Y по заданным значениям X, мы можем интерполировать значения в пределах заданных рангов Х , но мы не можем экстраполировать вне рангов X. Например, когда используется число посетителей для прогноза дневной выручки магазина, то мы знаем из данных примера, что их число находится в пределах от 420 до 1010. Следовательно, предсказание недельной выручки может быть сделано только для магазинов с числом покупателей от 420 до 1010 чел.

Хотя метод наименьших квадратов дает нам линию регрессии, которая обеспечивает минимум вариации, регрессионное уравнение не является идеальным в смысле предсказания, поскольку не все значения зависимого признака Y удовлетворяют уравнению регрессии. Нам необходима статистическая мера вариации фактических значений Y от предсказанных значений Y . Эта мера в то же время является средней вариацией каждого значения относительно среднего значения Y .Мера вариации относительно линии регрессии называется стандартной ошибкой оценки.

Для проверки того, насколько хорошо независимая переменная предсказывает зависимую переменную в нашей модели, необходим расчет ряда мер вариации. Первая из них – общая (полная) сумма квадратов отклонений результативного признака от средней – есть мера вариации значений Y относительно их среднего `Y . В регрессионном анализе общая сумма квадратов может быть разложена на объясняемую вариацию или сумму квадратов отклонений за счет регрессии и необъясняемую вариацию или остаточную сумму квадратов отклонений.

Сумма квадратов отклонений вследствие регрессии это – сумма квадратов разностей между `y (средним значением Y) и `y_x (значением Y, предсказанным по уравнению регрессии). Сумма квадратов отклонений, не объясняемая регрессией (остаточная сумма квадратов), – это сумма квадратов разностей y и `y_x . Эти меры вариации могут быть представлены следующим образом (табл.8):

Таблица 8

Общая сумма квадратов (ST)

Сумма квадратов за счет регрессии (SR)

Остаточная сумма квадратов (SE)

Следовательно, 91,3% вариации еженедельной выручки магазинов могут быть объяснены числом покупателей, варьирующим от магазина к магазину. Только 8,7% вариации можно объяснить иными факторами, не включенными в уравнение регрессии.

В простой линейной регрессии г имеет тот же знак, что и b₁ , Если b₁ > 0, то r > 0; если b₁ < 0, то r < 0, если b₁ = 0, то r = 0.

В нашем примере r² = 0,913 и b₁ > 0, коэффициент корреляции r = 0,956. Близость коэффициента корреляции к 1 свидетельствует о тесной положительной связи между выручкой магазина от продажи пива и числом посетителей.

Мы интерпретировали коэффициент корреляции в терминах регрессии, однако корреляция и регрессия – две различные техники. Корреляция устанавливает силу связи между признаками, а регрессия – форму этой связи. В ряде случаев для анализа достаточно найти меру связи между признаками, без использования одного из них в качестве факторного признака для другого.

3. Доверительные интервалы для оценки

Доверительные интервалы для оценки неизвестного генерального значения `y_ген ( m_yх ) и индивидуального значения `y_i _.

Поскольку в основном для построения регрессионных моделей используются данные выборок,то зачастую интерпретация взаимоотношений между переменными в генеральной совокупности базируется на выборочных результатах.

Как было сказано выше, регрессионное уравнение используется для прогноза значений Y по заданному значению X. В нашем примере показано, что при 600 посетителях магазина сумма выручки могла бы быть 7,661 у. е. Однако это значение – только точечная оценка истинного среднего значения. Мы знаем, что для оценки истинного значения генерального параметра возможна интервальная оценка.

Доверительный интервал для оценки неизвестного генерального значения `y_ген ( m_yх ) имеет вид

где

К-во Просмотров: 339

Бесплатно скачать Реферат: Применение математики в статистике

>>> Скачать <<<