Курсовая работа: Стохастическое моделирование и прогноз загрязнения атмосферы с использованием нелинейной регрессии
n-й процентиль - это такое значение, ниже которого расположено n процентов наблюдений рассматриваемой переменной. График функции распределения случайной величины X имеет ступенчатый вид. Значение функции F(X) равно:
, k = 0…M-1, (8)
где M – объём выборки, а k – порядковый номер события в упорядоченном по возрастанию массиве. Как известно, то α-квантиль однозначно задаётся уравнением: F(xα ) = α. Значит за 60 процентиль можно принять элемент с порядковым номером k = 0.6M (округление производим в большую сторону).
2. Нормализации.
Нормализация осуществляется по формуле:
, (9)
График функции распределения случайной величины X имеет ступенчатый вид. Значение функции F(X) равно:
, k = 0…M-1, (10)
Так как при k = 0 F(Xk ) обращается в ноль, то [Xk ] становится равным минус бесконечности, что является нежелательным, заменим формулу (10) на:
, k = 0…M-1. (11)
При достаточно больших M погрешность в значениях F(Xk ), вычисляемых по формуле(11) становится мала. При этом F(X) нигде не обращается в ноль или M, а значит [Xk ] принимают только конечные значения.
Вместо функции, обратной к функции распределения нормальной случайной величины, Ф-1 можно использовать её аппроксимацию (погрешность e-16 ).
3. Пошаговая регрессия.
Имеется набор независимых переменных X1 …Xn , которые являются кандидатами на роль предикторов СМАХ , и случайная выборка объема М. Рассмотрим стандартную пошаговую процедуру (F-метод), которая состоит из правила включения переменных и правила исключения. Включение и удаление переменных осуществляются с помощью критерия, который имеет F-распределение, и называется либо F-включения, либо F-удаления.
Более точно, предположим, что в набор с уже включено k переменных, k = 0, 1… M-1. Тогда значение F-включения для переменной X (не входящей в с ) вычисляется по формуле:
, (12)
где rСмах X *с – множественный коэффициент корреляции.Величина F служит статистикой критерия для проверки гипотезы о том, что предсказание СМАХ значимо не улучшается при включении X в набор с . Аналогично, величина F-удаления для какой-либо переменной X из с служит статистикой критерия для проверки гипотезы о том, что набор с' получающийся из с при удалении X и содержащий k'=k-1 переменных, предсказывает СМАХ так же хорошо как и набор с .
, (13)
Правило остановки, обычно используемое в стандартной процедуре, основано на задании допустимого минимума F-включения. По умолчанию предполагается, что минимум F-включения равен 4. Для удаляемых переменных также выбирается допустимый минимум. F-удаления величина должна быть меньше минимума F-включения. По умолчанию принимается, что минимум F-удаления равен 3,9. Рассмотрим теперь подробно шаги стандартной процедуры.
Шаг 0 . Вычисляются величины F-включения для i = 1…n. Статистика критерия дается выражением
, (14)
которое получается из формулы (?) подстановкой k=0.
Шаг 1 . Переменная Xi1 , которой отвечает наибольшее значение F-включения (или, что эквивалентно, наибольшая величина квадрата коэффициента корреляции с СМАХ ), выбирается как наилучший предиктор. Величина F-удаления для Xi1 в этом случае совпадает с величиной F-включения. Далее вычисляются значение F-включения и F-удаления.
Если все вычисленные значения F-включения меньше установленного минимума, то далее выполняется шаг S.В противном случае происходит переход на шаг 2.
Шаг 2 . Переменная Хi2 , имеющая наибольшее значение F-включения (или, что эквивалентно, наибольший квадрат частного коэффициента корреляции с СМАХ при фиксированном значении Xi1 ), выбирается как наилучший предиктор для СМАХ при условии, что уже выбрана переменная Xi1 . Если все значения F-включения меньше установленного минимума, то далее выполняется шаг S. В противном случае происходит переход на шаг 3.
Шаг 3 . а) Пусть L обозначает набор из l независимых переменных, которые включены в уравнение регрессии. Если какое-либо из значений F-удаления для переменных из L меньше, чем соответствующий минимум, то переменная, которой соответствует наименьшее значение F-удаления, удаляется из набора и выполняется шаг Зb с заменой l на l -1. Если для всех переменных, не входящих в L, значение F-включения меньше установленного минимума, то выполняется шаг S. В противном случае в набор L добавляется переменная, которой соответствует максимальное значение F-включения, и l заменяется на l + 1. b ) Вычисляются значения F-удаления между СМАХ и переменной Хi из L при заданных остальных l -1 переменных из L и значение F-включения между СМАХ и каждой переменной Xi , не входящей в L, при данных переменных из L.
Шаги 4, 5... Рекуррентно повторяется шаг 3. шаг S выполняется а) если F-включения для всех переменных, не входящих в L, меньше установленного минимума, b) если для всех переменных из L значение F-удаления больше установленного минимума или с) число включенных переменных равно р.
Шаг S . Вывод результатов.
4. Метод наименьших квадратов. Метод наименьших квадратов - простой и быстрый способ получить неизвестные параметры в функциональной зависимости () и оценить их погрешности. Минимизируется сумма квадратов отклонений реально наблюдаемых CMAX от их оценок CMAX ПРОГ (имеются в виду оценки с помощью прямой линии, претендующей на то, чтобы представлять искомую регрессионную зависимость):