Курсовая работа: Стохастическое моделирование и прогноз загрязнения атмосферы с использованием нелинейной регрессии

n-й процентиль - это такое значение, ниже которого расположено n процентов наблюдений рассматриваемой переменной. График функции распределения случайной величины X имеет ступенчатый вид. Значение функции F(X) равно:

, k = 0…M-1, (8)

где M – объём выборки, а k – порядковый номер события в упорядоченном по возрастанию массиве. Как известно, то α-квантиль однозначно задаётся уравнением: F(xα ) = α. Значит за 60 процентиль можно принять элемент с порядковым номером k = 0.6M (округление производим в большую сторону).

2. Нормализации.

Нормализация осуществляется по формуле:

, (9)

График функции распределения случайной величины X имеет ступенчатый вид. Значение функции F(X) равно:


, k = 0…M-1, (10)

Так как при k = 0 F(Xk ) обращается в ноль, то [Xk ] становится равным минус бесконечности, что является нежелательным, заменим формулу (10) на:

, k = 0…M-1. (11)

При достаточно больших M погрешность в значениях F(Xk ), вычисляемых по формуле(11) становится мала. При этом F(X) нигде не обращается в ноль или M, а значит [Xk ] принимают только конечные значения.

Вместо функции, обратной к функции распределения нормальной случайной величины, Ф-1 можно использовать её аппроксимацию (погрешность e-16 ).

3. Пошаговая регрессия.

Имеется набор независимых переменных X1 …Xn , которые являются кандидатами на роль предикторов СМАХ , и случайная выборка объема М. Рассмотрим стандартную пошаговую процедуру (F-метод), которая состоит из правила включения переменных и правила исключения. Включение и удаление переменных осуществляются с помощью критерия, который имеет F-распределение, и называется либо F-включения, либо F-удаления.

Более точно, предположим, что в набор с уже включено k переменных, k = 0, 1… M-1. Тогда значение F-включения для переменной X (не входящей в с ) вычисляется по формуле:

, (12)


где rСмах X – множественный коэффициент корреляции.Величина F служит статистикой критерия для проверки гипотезы о том, что предсказание СМАХ значимо не улучшается при включении X в набор с . Аналогично, величина F-удаления для какой-либо переменной X из с служит статистикой критерия для проверки гипотезы о том, что набор с' получающийся из с при удалении X и содержащий k'=k-1 переменных, предсказывает СМАХ так же хорошо как и набор с .

, (13)

Правило остановки, обычно используемое в стандартной процедуре, основано на задании допустимого минимума F-включения. По умолча­нию предполагается, что минимум F-включения равен 4. Для удаляемых переменных также выбирается допустимый минимум. F-удаления величина должна быть меньше минимума F-включения. По умолчанию принимается, что ми­нимум F-удаления равен 3,9. Рассмотрим теперь подробно шаги стандартной процедуры.

Шаг 0 . Вычисляются величины F-включения для i = 1…n. Статистика критерия дается выражением

, (14)

которое получается из формулы (?) подстановкой k=0.

Шаг 1 . Переменная Xi1 , которой отвечает наибольшее значение F-включения (или, что эквивалентно, наибольшая величина квадрата коэффициента корреляции с СМАХ ), выбирается как наилуч­ший предиктор. Величина F-удаления для Xi1 в этом случае совпадает с величиной F-включе­ния. Далее вычисляются значение F-включения и F-удаления.

Если все вычисленные значения F-включения меньше установленного минимума, то далее выполняется шаг S.В противном случае происходит переход на шаг 2.

Шаг 2 . Переменная Хi2 , имеющая наибольшее значение F-вклю­чения (или, что эквивалентно, наибольший квадрат частного коэффициента корреляции с СМАХ при фиксированном значении Xi1 ), выбирается как наилучший предиктор для СМАХ при условии, что уже выбрана переменная Xi1 . Если все значения F-включения меньше установленного минимума, то далее выполняется шаг S. В противном случае происходит переход на шаг 3.

Шаг 3 . а) Пусть L обозначает набор из l независимых перемен­ных, которые включены в уравнение регрессии. Если какое-либо из значений F-удаления для переменных из L меньше, чем соответ­ствующий минимум, то переменная, которой соответствует наи­меньшее значение F-удаления, удаляется из набора и выполняется шаг Зb с заменой l на l -1. Если для всех переменных, не входя­щих в L, значение F-включения меньше установленного минимума, то выполняется шаг S. В противном случае в набор L добавляется переменная, которой соответствует максимальное значение F-включения, и l заменяется на l + 1. b ) Вычисляются значения F-удаления между СМАХ и переменной Хi из L при заданных остальных l -1 переменных из L и значение F-включения между СМАХ и каждой переменной Xi , не входящей в L, при данных переменных из L.

Шаги 4, 5... Рекуррентно повторяется шаг 3. шаг S выполняется а) если F-включения для всех переменных, не входящих в L, меньше установленного минимума, b) если для всех переменных из L значение F-удаления больше установленного минимума или с) число включенных переменных равно р.

Шаг S . Вывод результатов.

4. Метод наименьших квадратов. Метод наименьших квадратов - простой и быстрый способ получить неизвестные параметры в функциональной зависимости () и оценить их погрешности. Минимизируется сумма квадратов отклонений реально наблюдаемых CMAX от их оценок CMAX ПРОГ (имеются в виду оценки с помощью прямой линии, претендующей на то, чтобы представлять искомую регрессионную зависимость):

К-во Просмотров: 289
Бесплатно скачать Курсовая работа: Стохастическое моделирование и прогноз загрязнения атмосферы с использованием нелинейной регрессии