Реферат: Многомерный статистический анализ
Из сделанных ранее предположений вытекает, что при имеем следовательно, по закону больших чисел статистикаSS/n является состоятельной оценкой остаточной дисперсии .
Получением состоятельной оценкой остаточной дисперсии завершается последовательность задач, связанных с рассматриваемым простейшим вариантом метода наименьших квадратов. Не представляет труда выписывание верхней и нижней границ для прогностической функции:
где погрешность имеет вид
Здесь p - доверительная вероятность, U(p), как и в главе 4 - квантиль нормального распределения порядка (1+р)/2, т.е.
При p= 0,95 (наиболее применяемое значение) имеем U(p) = 1,96. Для других доверительных вероятностей соответствующие значения квантилей можно найти в статистических таблицах (см., например, наилучшее в этой сфере издание [1]).
Сравнение параметрического и непараметрического подходов. Во многих литературных источниках рассматривается параметрическая вероятностная модель метода наименьших квадратов. В ней предполагается, что погрешности имеют нормальное распределение. Это предположение позволяет математически строго получить ряд выводов. Так, распределения статистик вычисляются точно, а не в асимптотике, соответственно вместо квантилей нормального распределения используются квантили распределения Стьюдента, а остаточная сумма квадратов SS делится не на n, а на (n-2). Ясно, что при росте объема данных различия стираются.
Рассмотренный выше непараметрический подход не использует нереалистическое предположение о нормальности погрешностей (см. начало главы 4).. Платой за это является асимптотический характер результатов. В случае простейшей модели метода наименьших квадратов оба подхода дают практически совпадающие рекомендации. Это не всегда так, не всегда два подхода бают близкие результаты. Напомним, что в задаче обнаружения выбросов методы, опирающиеся на нормальное распределение, нельзя считать обоснованными, и обнаружено это было с помощью непараметрического подхода (см. главу 4).
Общие принципы. Кратко сформулируем несколько общих принципов построения, описания и использования эконометрических методов анализа данных. Во-первых, должны быть четко сформулированы исходные предпосылки, т.е. полностью описана используемая вероятностно-статистическая модель. Во-вторых, не следует принимать предпосылки, которые редко выполняются на практике. В-третьих, алгоритмы расчетов должны быть корректны с точки зрения математико-статистической теории. В-четвертых, алгоритмы должны давать полезные для практики выводы.
Применительно к задаче восстановления зависимостей это означает, что целесообразно применять непараметрический подход, что и сделано выше. Однако предположение нормальности, хотя и очень сильно сужает возможности применения, с чисто математической точки зрения позволяет продвинуться дальше. Поэтому для первоначального изучения ситуации, так сказать, "в лабораторных условиях", нормальная модель может оказаться полезной.
Пример оценивания по методу наименьших квадратов. Пусть даны n=6 пар чисел (tk , xk ), k = 1,2,…,6, представленных во втором и третьем столбцах табл.1. В соответствии с формулами (2) и (4) выше для вычисления оценок метода наименьших квадратов достаточно найти суммы выражений, представленных в четвертом и пятом столбцах табл.1.
Табл.1. Расчет по методу наименьших квадратов при построении
линейной прогностической функции одной переменной
i | ti | xi | ()2 | |||||
1 | 1 | 12 | 1 | 12 | 3,14 | 12,17 | -0,17 | 0,03 |
2 | 3 | 20 | 9 | 60 | 9,42 | 18,45 | 1,55 | 2,40 |
3 | 4 | 20 | 16 | 80 | 12,56 | 21,59 | -1,59 | 2,53 |
4 | 7 | 32 | 49 | 224 | 21,98 | 31,01 | 0,99 | 0,98 |
5 | 9 | 35 | 81 | 315 | 28,26 | 37,29 | -2,29 | 5,24 |
6 | 10 | 42 | 100 | 420 | 31,40 | 40,43 | 1,57 | 2,46 |
34 | 161 | 256 | 1111 | 0,06 | 13,64 | |||
5,67 | 26,83 | 42,67 | 185,17 |
В соответствии с формулой (2) b* =26,83, а согласно формуле (4)
Следовательно, прогностическая формула имеет вид
Следующий этап анализа данных - оценка точности приближения функции методом наименьших квадратов. Сначала рассматриваются т.н. восстановленные значения
Это те значения, которые полученная в результате расчетов прогностическая функция принимает в тех точках, в которых известны истинные значения зависимой переменной xi .
Вполне естественно сравнить восстановленные и истинные значения. Это и сделано в шестом - восьмом столбцах табл. 1. Для простоты расчетов в шестом столбце представлены произведения , седьмой отличается от шестого добавлением константы 9,03 и содержит восстановленные значения. Восьмой столбец - это разность третьего и седьмого.
Непосредственный анализ восьмого столбца табл.1 показывает, что содержащиеся в нем числа сравнительно невелики по величине по сравнению с третьим столбцом (на порядок меньше по величине). Кроме того, знаки "+" и "-" чередуются. Эти два признака свидетельствуют о правильности расчетов. При использовании метода наименьших квадратов знаки не всегда чередуются. Однако если сначала идут только плюсы, а потом только минусы (или наоборот, сначала только минусы, а потом только плюсы), то это верный показатель того, что в вычислениях допущена ошибка.
Верно следующее утверждение.
Теорема.
Доказательство этой теоремы оставляем читателю в качестве упражнения.