Реферат: Статистические методы анализа результатов психолого-педагогических исследований
Дисперсионный анализ (ДА). Предположим, что в уравнении линейной регрессии (8) параметры i могут принимать значения только 0 или 1. Тогда мы получим модель, в которой учитывается не степень влияния переменных Хi на Y, а сам факт этого влияния - модель дисперсионного анализа. Переменные Хi в этой модели назывются факторами, Y - откликом. В зависимости от числа факторов различают однофакторный, двухфакторный, мультифакторный виды анализа. Предполагается, что остатки i независимы и одинаково распределены по закону N(0, 2). Второе существенное условие - переменная Y должна быть нормально распределена. Общая идеология ДА заключается в том, чтобы представить общую дисперсию Y в виде суммы дисперсий, обусловленных влиянием факторов Хi и остаточного случайного параметра , и, оценивая дисперсионные отношения, определить наличие и степень влияния факторов Хi на Y. Рассмотрим самую простую, и в то же время достаточно распространенную модель однофакторного анализа. Сгруппируем значения Y в k групп, параметризованных значениями фактора Х, обозначим через nj объемы соответствующих групп, через yi,j - i-е значение переменной Y в j-й группе, а yj ср - среднее в j-й группе. Тогда уравнение (8) можно представить в виде yi,j = aj + i,j, j=1,..,k, i =1,..,n, где аj - неизвестные константы (генеральные средние по группам), i,j независимы с распределением N(0, 2). Будет проверяться гипотеза Н0: а1=...=аk. Для этого рассмотрим две оценки дисперсии 2. Первая имеет вид: * 2 = ( (yi,j - yj ср)2 )/(n-k). Она не зависит от гипотезы и ассимптотически стремится к 2. Вторая оценка получается через разбиение на группы, определяемые значениями фактора: 2 =( nj (yj ср - Y ср )2)/(k-1). Она зависит от Н0 и при её нарушении имеет тенденцию к возрастанию. Отношение этих оценок F = 2 / *2 имеет F - распределение с ( k-1, n-k) степенями свободы и не зависит от . Таким образом, при наблюдаемом значении F большем, чем соответствующая - процентная точка распределения F ( (1- ) - квантиль F) гипотеза Н0 отвергается и принимается предположение о влиянии фактора Х на Y. Тогда можно ставить вопрос о доверительных интервалах для аi. Ответ следующий: |yj ср-aj | < t1- / nj с доверительной вероятностью 1-2 , где t1- - квантиль уровня (1- ) распределения Стьюдента с n-k степенями свободы.
Отметим, что выводы ДА о равенстве или неравенстве сj довольно устойчивы даже при нарушении основных предположений о нормальном распределении и равенстве дисперсий остатков i,j. Если же распределение переменной Y сильно отличается от нормального, или Y - ординальная переменная, лучше использовать непараметрические критерии связи, такие, как ранговый критерий Фридмана или критерий Пейджа для двухфакторного анализа (см. [8, 7.4.9]), а также ранговые критерии Краскела-Уоллеса и Джонхиера для однофакторного анализа ([8, 6.2]).
Факторный анализ (ФА). Рассмотрим набор нормированных случайных переменных Х1,..,Хk как векторов в n-мерном пространстве V. Задача ФА состоит в том, чтобы представить Хi в виде линейных комбинаций небольшого числа общих факторов Fj , т.е. в виде Хi = ai,j Fj + Ei (9), где i= 1,..,k, p < k. Переменные Ei называются остатком (невязкой) или остаточными факторами. Обычно предполагается, что общие факторы либо некоррелированные случайные величины с дисперсией 1, либо неизвестные случайные параметры. Остаточные факторы имеют нормальное распределение и не коррелируют между собой и с общими факторами. Коэффициенты ai,j называются факторными нагрузками и совпадают с коэффициентами корреляции между Xi и Fj. Интерпретируя коэффициент корреляции ri,j как скалярное произведение (Xi, Хj), мы при этих предположениях получим геометрическую модель ФА: уравнение (9) есть разложение системы нормированных векторов Х1,...,Хk через ортогональную систему Ei, F1,..,Fp с максимальной суммарной информативностью I = D(Fj) / D(Xi). Матрица ковариации М для переменных Xi приводится к диагональному виду в базисе, состоящем из собственных векторов, и в качестве Fj выбираются собственные векторы с максимальными собственными значениями j (метод главных компонент). При этом j интерпретируются как дисперсии соответствующих факторов. Критерий информативности I может быть записан в виде I = j / k, т.е. он равен доле суммарной дисперсии переменных Хi, обьясненных первыми p главными компонентами - факторами. Чем ближе это значение к 1, тем более точно факторы Fj описывают переменные Хi. Помимо метода главных компонент, существуют и другие способы выделения факторов Fj - методы минимальных остатков, максимального правдоподобия, центроидный метод и др. Все они, как правило, приводят к близким результатам, так что более важным вопросом ФА является не выбор способа извлечения факторов, а определение их количества и интерпретация латентных факторов в содержательном плане (это могут быть психофизиологические свойства личности, а также социальные, экономические факторы и т.п.). При выборе числа факторов полезно руководствоваться следующими соображениями:
Имеет смысл учитывать только те факторы, для которых собственные числа больше 1, т.е. вклад фактора в суммарную дисперсию больше вклада любой переменной.
Критерий "каменистой осыпи" рекомендует ограничиться фактором, после которого убывание собственных чисел замедляется наиболее сильно.
На заданном числе факторов критерий информативности I превышает 0.75 ( т.е. факторы обьясняют 75% разброса переменных).
Матрица интеркорреляции для Ei не имеет значимых на заданном уровне (обычно = 0.05) недиагональных коэффициентов.
Построенная факторная структура в пространстве V определена не однозначно. Вращая систему координат в V, можно получать различные разложения переменных Хi через Fj. Существуют различные критерии для определения наилучшей позиции системы координат - критерии согласования с результатами, полученными другими методами, с общей гипотезой относительно природы латентных факторов и т.п. Есть и чисто математический критерий, базирующийся на принципе "простой структуры" Терстона. В его основе лежит идея, что из нескольких равносильных гипотез следует выбирать наиболее простую, что в данном случае означает, что каждая переменная должна иметь максимально простое факторное содержание, то есть в ней доминирует нагрузка одного какого-либо фактора, и наоборот - данный фактор проявляется только в некотором минимальном числе переменных. Другими словами, вращением базиса необходимо получить одновременно наибольшее число максимальных по модулю и минимальных (близких к нулю) факторных нагрузок. Эта процедура реализуется тем или иным итерационным методом (варимакс, квартимакс, эквимакс) в статистических электронных пакетах, содержащих модули ФА (Statistica и др.).
Кластерный анализ (КА). В целом алгоритмы КА можно разделить на два основных направления - это разбиение данных на некоторые группы (кластеры) и иерархическая классификация данных. В качестве объектов анализа могут выступать как случаи (субъекты исследования), так и случайные переменные. Общая идея первого направления КА заключается в том, что случаи (или переменные) рассматриваются как точки векторного пространства с определенной на нем метрикой (функцией расстояний) d(X,Y) и затем разбиваются на группы близких относительно этой метрики обьектов, называемых кластерами. В качестве метрики используются евклидово расстояние ( (xi - yi)2)1/2, расстояние Чебышева max{|xi - yi |} и др. Обьекты анализа определяются исходной матрицей Т либо матрицей расстояний. Пусть задана матрица Т. Выделим классифицирующее множество признаков - переменные Х1,..,Хk. Тогда каждый случай представим как точка в k-мерном пространстве V. Естественно предполагать, что геометрическая близость точек в V соответствует близости соответствующих объектов по своим характеристикам. Это определяет геометрический подход, не требующий никаких вероятностных предположений. Другой подход основан на предположении, что матрица Т определяет выборку из смеси унимодальных распределений, и задача выделения групп сводится либо к оценке параметров этих распределений (параметрические методы), либо к поиску модальных значений (точек локального максимума) непараметрической оценки Парзена для функции плотности вероятности. Параметрические методы, например, алгоритм Дея (см. [5, 9.1.4]), близки методам дискриминантного анализа.Обычно при этом предполагается, что распределение выборки есть взвешенная сумма многомерных нормальных распределений. Во втором случае рассматривается функция Парзена P(X,h) = c(h, p) exp(-1/h2 (X - Xj)T (X -Xj)), дающая непараметрическую оценку плотности распределения случайных величин Х1,.., Хk. Здесь c(h, p) - нормирующая константа, p - параметр сглаживания. Если данные образуют сгущение в n-мерном пространстве, то P(X,h) будет иметь локальный максимум (модальное значение ) в точке, близкой к центру сгущения. Таким образом, определяя модальные точки функции P(X,h), мы определяем количество классов, на которые можно разбить данные, и центры этих классов, вокруг которых затем группируем данные.
Иерархические методы классификации основаны на включении групп данных Di, рассматриваемых как единичные объекты, в некоторую иерархическую структуру, отражающую близость этих групп. В качестве Di могут выступать отдельный случай или переменная. Определяя расстояние между группами d(Di , Dj) (например, как расстояние между центрами групп d(Ci, Cj )) и рассматривая Di как вершины некоторого графа G с ребрами между Di и Dj длины di,j = d(Di, Dj ), мы получим интерпретацию задачи на языке теории графов. Иерархическая структура на множестве объектов {Di} определяется путем нахождения минимального покрывающего дерева, т.е. графа без циклов, такого, что суммарная длина его ребер минимальна. Эта процедура реализуется по правилу "ближайшего соседа" - выделяется ребро минимальной длины di,j, соответствующая пара объектов Di, Dj объединяется в один объект (т.е. добавляется новая вершина графа, соединенная с вершинами Di, Dj,), в получившемся графе снова выделяется ребро минимальной длины и т.д. В результате мы получаем иерархическое дерево, в котором вершины низшего уровня есть исходные объекты, а остальные вершины определяют уровни иерархической структуры. В других алгоритмах используются методы разрезания дерева по самому длинному ребру (вроцлавская классификация) либо по ребру с максимальным весом w=dn1n2, где d - длина ребра, а n1, n2 - количество вершин поддеревьев, получающихся после разреза дерева, содержащего данное ребро (см. [11]).
Критерии согласия.. Критерии согласия предназначены для обнаружения расхождений между гипотетической моделью и данными, которые эта модель призвана описать. Они используются для проверки применимости предположения о законе распределения случайной величины либо для проверки гипотезы об однородности выборки. Обычно, полагая выборочные среднее и отклонение оценкой параметров гипотетического распределения, используют критерии Колмогорова-Смирнова, омега-квадрат для переменных с большой вариативностью значений, и критерии хи-квадрат К.Пирсона или Р.Фишера для дискретных переменных с небольшим числом значений. Для проверки однородности распределений в подвыборках, извлеченных из генеральной совокупности с нормальным распределением, используют t-критерий Стьюдента для средних и критерий Бартлетта для дисперсий. При проверке однородности выборок относительно ординальных переменных используют ранговые критерии однородности - критерий Вилкоксона и критерий нормальных меток Фишера-Йэтса (см. [2]).
В заключение отметим, что существует большое число различных статистических компъютерных пакетов, позволяющих проводить стандартные виды анализа - Statistica, SPSS, Stadia, Statgraphics и др. Личный опыт автора позволяет рекомендовать в практических исследованиях пакеты Statistica версии 4.5 и выше и SPSS версии 7.0.
Список литературы
Айвазян С.А., Бухштабер В.М., Енюков И.С., Мешалкин Л.Д. Прикладная статистика: Классификация и снижение размерности. - М.: Финансы и статистика, 1989. - 607с.
Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика: Основы моделирования и первичная обработка данных.- М.: Финансы и статистика, 1983. - 471с.
Боровиков В.П., Боровиков И.П. Statistika. Статистический анализ и обработка данных в среде Windows. - М.: Информ.-издат. Дом "Филинъ", 1997. - 608 с.
Демиденко Е.З. Линейная и нелинейная регрессия. - М.: Финансы и статистика, 1982. - 302 с.
Енюков И.С. Методы, алгоритмы, программы многомерного статистического анализа. - М.: Финансы и статистика, 1986. - 232 с.
Кокс Д., Хинкли Д. Теоретическая статистика. - М.: Мир, 1978. - 560 с.
Крамер Г. Математические методы статистики. - М.: Мир, 1975. - 648 с.
Себер Дж. Линейный регрессионный анализ. - М.: Мир, 1980. - 456 с.
Тюрин Ю.Н., Макаров А.А. Статистический анализ данных на компьютере. - М.: ИНФРА-М, 1998. - 528 с.
Факторный, дискриминантный и кластерный анализ. - М.: Финансы и статистика, 1989. - 215 с.
Жамбю М. Иерархический кластерный анализ и соответствия. - М.: Финансы и статистика, 1988.