Реферат: Применение математики в статистике
Таблица 2. Характеристика зависимости прибыли малых предприятий от оборачиваемости оборотных средств на 1998 г.
Продолжительность оборота средств, дн. (Х) | Число малых предприятий | Средняя прибыль, млн. руб. (Y) |
40–50 | 6 | 14,57 |
51–70 | 8 | 12,95 |
71–101 | 6 | 7,40 |
Итого | 20 | 11,77 |
2. Оценка достоверности коэффициента корреляции
Коэффициент парной корреляции, исчисленный по выборочным данным, является случайной величиной. С уменьшением числа наблюдений надежность коэффициента корреляции падает. С увеличением числа наблюдений (свыше 500) распределение коэффициента корреляции r (не превышающее 0,9) стремится к нормальному.
Полученный из выборки коэффициент корреляции r является оценкой коэффициента корреляции ρ в генеральной совокупности.
По общему правилу проверки статистических гипотез:
– если tнабл £ tкр , нулевую гипотезу о том, что между Х и Y отсутствует корреляционная связь (Н 0 :r = 0), нельзя отклонить на заданном уровне значимости а;
– если tнабл < tкр , нулевая гипотеза отклоняется в пользу альтернативной о том,что коэффициент корреляции значимо отличается от нуля (Н 1 : r¹ 0), т.е. о наличии линейной корреляционной зависимости между Х и Y.
Критерий tрасч подчиняется закону распределения Стьюдента с п – 2 степенями свободы.
При малом числе наблюдений в выборке и высоком коэффициенте корреляции (распределение r отличается от нормального) для проверки гипотезы о наличии корреляционной связи, а также при построения доверительного интервала применяется z-преобразование Фишера.
При выявлении статистической зависимости по данным аналитической группировки в качестве меры степени тесноты связи может быть использовано эмпирическое корреляционное отношение (hэмп )
Чем ближе hэмп к 1, тем теснее связь между переменными Х и Y , тем больше колеблемость Y объясняется колеблемостью X.
Квадрат эмпирического корреляционного отношения (h2 эмп ) называют коэффициентом детерминации. Он показывает, какая часть Y колеблемости объясняется колеблемостью X.
В случае линейной регрессионной зависимости r = hтеор . Если связь – нелинейная, h < hтеор . Это позволяет использовать hтеор вкачестве меры линейности связи между переменными X и Y. Если линейный коэффициент корреляции Пирсона (r) мало отличается от теоретического корреляционного отношения ( hтеор ), т.е. r» hтеор , то зависимость между переменными близка к линейной. В противном случае имеет, место нелинейная зависимость между X и Y.
В уравнении парной регрессии – 2 параметра: b0 и b1 , т.е. т = 2.
Критическое значение F определяется по таблицам распределения Фишера по уровню значимости α и числу степеней свободы.
Наблюдаемое значение (Fнабл ) необходимо сравнить с критическим (Fкр ). По общему правилу проверки статистических гипотез:
– если Fнабл £ Fкр , нулевую гипотезу (H1 :h = 0) о том, что h незначим, нельзя отклонить;
– если Fнабл > Fкр нулевая гипотеза отклоняется в пользу альтернативной ( H1 :h ¹ 0) о том, что h значимо отличается от нуля.
Если п объектов какой-либо совокупности N пронумерованы в соответствии с возрастанием или убыванием какого-либо признака X, то говорят, что объекты ранжированы по этому признаку. Ранг xi , указывает место, которое занимает i- й объект среди других n объектов, расположенных в соответствии с признаком Х (i= 1,2,…. п). Например, при исследовании рынка мы можем задать вопрос с целью выяснения предпочтений потребителей при выборе товара (при покупке акций, мороженого, водки и т.п.) таким образом, чтобы они распределили товар в порядке возрастания (или убывания) своих потребительских предпочтений. Если мы имеем 2 набора ранжированных данных, то можно попытаться установить степень линейной зависимости между ними. Предположим, имеется 5 продуктов, расположенных по порядку предпочтений от 1 до 5 в соответствии с двумя характеристиками А и В (табл. 3).
Таблица 3
Характеристики для ранжирования | Продукт | ||||
V | W | X | Y | Z | |
А | 2 | 5 | 1 | 3 | 4 |
B | 1 | 3 | 2 | 4 | 5 |
Для определения наличия взаимосвязи между ранговыми оценками используется коэффициент ранговой корреляции Спирмена. Его расчет основан на различии между рангами:
D = Ранг А – Ранг В.
Альтернативные признаки – это признаки, принимающие только два возможных значения. Исследование их корреляции основано на показателях, построенных на четырехклеточных таблицах, в которых сводятся значения признаков:
а | в |
с | d |
Например, требуется измерить связь между прививками от гриппа и пониженной заболеваемостью от гриппа в группе случайно отобранных студентов (табл. 4).
Таблица 4
Заболели | Не заболели | Итого | |
Привитые | 30 | 20 | 50 |
Непривитые | 15 | 5 | 20 |
Всего | 45 | 25 | 70 |
Изучение степени тесноты взаимосвязи между признаками было проведено с помощью корреляционного анализа (расчета различных мер связи).
Уточнение формы связи, нахождение ее аналитического выражения производится путем построения уравнения связи (уравнения регрессии).
Регрессия – это односторонняя статистическая зависимость.
Уравнение регрессии позволяет определить, каким в среднем будет значение результативного признака (Y) при том или ином значении факторного признака (X ), если остальные факторы, влияющие на Y и не связанныес X, рассматривались неизменными (т.е. мы абстрагировались от них).
К задачам регрессионного анализа относятся: