Курсовая работа: Критерии согласия
Верхние процентные точки
0.15 0.10 0.05 0.025 0.01
Табл. 3.2 Модифицированные критерии для проверки экспоненциальности, параметр неизвестен
Статистика | Модифицированная форма |
Верхние процентные точки 0.15 0.10 0.05 0.025 0.01 |
Dn | 0.926 0.990 1.094 1.190 1.308 | |
0.149 0.177 0.224 0.273 0.337 |
Предельное (при n → ∞) распределение n известно, но вычисляется довольно сложно. Предельное распределение для найти не удалось, есть лишь приближенные формулы для критических значений, основанные на асимптотических разложениях. Сравнение расчетов по этим формулам с упомянутыми ранее таблицами показало их хорошее согласие. Как уже говорилось, для каждого параметрического семейства критические значения надо рассчитывать особо. Например, для нормального закона, оба параметра которого оцениваются по выборке, для больших z > 0 (т.е. для z → ∞).
(3.3)
Если же математическое ожидание известно и равно, скажем, а, то по выборке приходится оценивать только дисперсию. В этом случае для больших z > 0
(3.4)
Эти приближенные формулы дают хорошие результаты для малых вероятностей и больших объемов выборок, то есть для вероятностей, начиная примерно с 0.20 (и меньше) и для объемов n, начиная примерно с 100 (и больше).
1.4 Критерии согласия χ2 Фишера для сложной гипотезы
Для проверки сложных гипотез может быть использована и соответствующая модификация критерия хи-квадрат Пирсона. Главные заслуги здесь принадлежат Р. Фишеру. Приведу одну из его теорем (сохраняя обозначения из теоремы К. Пирсона).
Теорема Фишера. Пусть n – число независимых повторений опыта, который может заканчиваться одним из r (r – произвольное натуральное число) элементарных исходов, скажем, А1 , …, Аr . Пусть вероятности этих элементарных исходов известны с точностью до некоторого неопределенного, скажем, k-мерного параметра = (1 , …, k ). Тогда эти вероятности являются функциями от : Р(Аі ) = рі (). Будем предполагать, что функции р1 (), …, рr () заданы, дифференцируемы, для всякого , а параметр изменяется в ограниченной области пространства. Тогда при n → ∞ статистика:
(4.1)
асимптотически распределена по закону χ2 с r – k – l степенями свободы.
Существует много вариантов этой теоремы. Например, такое же, как выше, предельное распределение имеет статистика
(4.2)
где n – оценка наибольшего правдоподобия для параметра , найденная по частотам т1 , …, тr . Поэтому значение (4.2) в дальнейшем можно использовать вместо (4.1). Далее, знаменатели прі в (4.1) и (4.2) можно заменить на ті , і = 1, …, r , и это не отразится на асимптотическом распределении χ2 . Есть и другие возможности.
Статистика χ2 из (4.1) (и ее варианты) называется статистикой хи-квадрат Фишера для сложной гипотезы.
Статистику (4.1) (и ее варианты) можно использовать для проверки описанной выше сложной гипотезы о параметрическом виде вероятностей в схеме Бернулли
где р1 (·), …, рr (·) – заданы, а параметр изменяется в заданной ограниченной области. Это можно делать так же, как мы делали с помощью статистики χ2 в случае простой гипотезы.
А именно, по наблюденным частотам т1 , …, тr надо вычислить значение χ2 (4.1) либо (4.2) и затем сравнить его с критическими значениями распределения χ2 с числом степеней свободы (r – k – l), либо вычислить Р(χ2 > χ2 ). Однако для использования аппроксимации хи-квадрат для распределения χ2 необходимо, чтобы число наблюдений было достаточно велико, и тем самым ожидаемые частоты прі () не были малыми.
Как следует из формулировки теоремы, объект ее применения – испытания с конечным числом исходов. Чтобы использовать ее в условиях другого эксперимента – например, для проверки гипотезы о типе непрерывного или дискретного распределения с бесконечным (или конечным, но большим) числом исходов – этот эксперимент надо предварительно превратить в схему Бернулли. Раньше уже говорилось, как это делается обычно – путем разбиения выборочного пространства на непересекающиеся области. Параметрический (зависящий от параметра ) закон распределения вероятностей во всем пространстве, соответствие которого нашей выборке мы хотим проверить, превращается при этом в параметрическое распределение вероятностей между выбранными r областями.
Понятно, что результат последующего применения критерия хи-квадрат (принять гипотезу, отвергнуть гипотезу) сильно зависит от описанного перехода. К этому следует добавить условие применимости распределения χ2 , которое требует, чтобы ожидаемые частоты были достаточно большими. (условие на ожидаемые частоты часто приходиться заменять требованием, чтобы не были малы наблюдаемые частоты т1 , …, тr .) становится ясно, что подготовка к применению критерия хи-квадрат в несвойственных ему составляет деликатную и не всегда простую проблему. Возникает даже опасность невольной подгонки выбираемого разбиения к желательному результату. Поэтому, строго говоря, разбиение пространства на области должно идти вне зависимости от результатов случайного эксперимента, т.е. вне влияния подлежащей обработке выборки.
Как же после всех этих предостережений можно применить теорему Фишера к проверке гипотезы о типе выборки? Обсудим это на примере нормального распределения, параметры которого (а, σ2 ) неизвестны.
Итак, есть выборка х1 , …, хп большого объема, проверить нормальность которой мы хотим с помощью (4.1) или (4.2) или их модификаций. Прежде всего мы должны разбить числовую прямую на r непересекающихся областей, а еще прежде – выбрать само число r. Сейчас существует убеждение (подкрепленное асимптотическими исследованиями), что против гладкой альтернативы лучше брать r небольшим – несколько единиц. Если же конкурируют с нормальным распределением все другие возможности, число r стоит взять таким большим, какое позволяет последующее использование аппроксимации хи-квадрат.
Допустим, что r уже выбрано, и можно переходить к разбиению пространства на области. При этом надо позаботится о том, чтобы ожидаемые частоты этих областей были достаточно велики для того, чтобы для χ2 действовала аппроксимация χ2 . поскольку истинное распределение вероятностей неизвестно, приходится опираться на какую-либо его оценку. В данном примере – на оценку