Курсовая работа: Создание макроса на языке Statistica Visual Basic для проверки гипотезы о нормальности остатков регрессии
[Елисеева-34]
Переменная называется зависимой переменной, в то время как переменные называются независимыми переменными.[Afifi-164]
Задача оценки статистической взаимосвязи переменных и формулируется аналогично случаю парной регрессии. Записывается функция , где b - вектор параметров, -случайная ошибка. Предполагается, что эта функция связывает переменную с вектором независимых переменных для данной генеральной совокупности. Предполагается, что ошибки являются случайными величинами с нулевым математическим ожиданием и постоянной дисперсией; и статистически независимы при . Кроме того, для проверки статистической значимости оценок b обычно предполагается, что ошибки нормально распределены.
Для оценивания параметров применяется, как правило, метод наименьших квадратов. Уравнение регрессии с оцененными параметрами имеет вид
.[Салманов-44]
Практически в каждом отдельном случае величина у складывается из двух слагаемых:
где -фактическое значение результативного признака;
-теоретическое значение результативного признака, найденное исходя из соответствующей математической функции связи и ,т. е. из уравнения регрессии;
- случайная величина, характеризующая отклонения реального значения результативного признака от теоретического, найденного по уравнению регрессии. . [Елисеева-35]
Общий смысл оценивания по методу наименьших квадратов заключается в минимизации суммы квадратов отклонений наблюдаемых значений зависимой переменной () от значений, предсказанных моделью().
,
где S- суммы квадратов отклонений
-остаток в наблюдении j.[net]
Построение уравнения множественной регрессии начинается с решения вопроса о спецификации модели. Она включает в себя два круга вопросов: отбор факторов и выбор вида уравнения регрессии. [Елисеева-91]
Факторы, включаемые во множественную регрессию, должны отвечать следующим требованиям.
1. Они должны быть количественно измеримы. [Елисеева-92] Для исследования влияния качественных признаков в модель можно вводить бинарные (фиктивные) переменные , которые, как правило, принимают значение 1, если данный качественный признак присутствует в наблюдении, и значение 0 при его отсутствии.[Магнус 100]
2. Факторы не должны быть интеркоррелированы и тем более находиться в точной функциональной связи.
Если между факторами существует высокая корреляция, то нельзя определить их изолированное влияние на результативный показатель и параметры уравнения регрессии оказываются неинтерпретируемыми. [Елисеева-92]
Коэффициенты интеркорреляции (т. е. корреляции между объясняющими переменными) позволяют исключать из модели дублирующие факторы. Считается, что две переменных явно коллинеарны, т. е. находятся между собой в линейной зависимости, если .
По величине парных коэффициентов корреляции обнаруживается лишь явная коллинеарность факторов. Наибольшие трудности в использовании аппарата множественной регрессии возникают при наличии мультиколлинеарности факторов , когда более чем два фактора связаны между собой линейной зависимостью, т.е. имеет место совокупное воздействие факторов друг на друга. Наличие мультиколлинеарности факторов может означать, что некоторые факторы будут всегда действовать в унисон. В результате вариация в исходных данных перестает быть полностью независимой, и нельзя оценить воздействие каждого фактора в отдельности. Чем сильнее мультиколлинеарность факторов, тем менее надежна оценка распределения суммы объясненной вариации по отдельным факторам с помощью метода наименьших квадратов (МНК). [Елисеева-94]
Выделим некоторые наиболее характерные признаки мультиколлинеарности.
1. Небольшое изменение исходных данных (например, добавление новых наблюдений) приводит к существенному изменению оценок коэффициентов модели.
2. Оценки имеют большие стандартные ошибки, малую значимость, в то время как модель в целом является значимой (высокое значение коэффициента детерминации R 2 и соответствующей F-статистики).
3. Оценки коэффициентов имеют неправильные с точки зрения теории знаки или неоправданно большие значения.[Магнус 94]
Подходы к отбору факторов на основе показателей корреляции могут быть разные. Наиболее широкое применение получили следующие методы построения уравнения множественной регрессии:
• метод исключения;
• метод включения;
• шаговый регрессионный анализ.