Реферат: Дискриминантный анализ
Если важные предикторы установлены, то сравнение групповых средних по этим переменным поможет понять межгрупповые различия. Однако прежде чем интерпретировать какие-либо факты, необходимо убедиться в достоверности результатов.
Оценка достоверности дискриминантного анализа
Как уже говорилось, данные разбивают случайным образом на две подвыборки. Анализируемую часть выборки используют для вычисления дискриминантной функции, а проверочную — для построения классификационной матрицы. Дискриминантные веса, определенные анализируемой выборкой, умножают на значения независимых переменных в проверочной выборке, чтобы получить дискриминантные показатели для случаев в этой выборке. Затем случаи распределяют по группам исходя из дискриминантных показателей и соответствующего правила принятия решения. Например, при дискриминантном анализе двух групп случай может быть отнесен к группе с самым близким по значению центроидом. Затем, сложив элементы, лежащие на диагонали матрицы, и разделив полученную сумму на общее количество случаев, можно определить коэффициент результативности (hit ratio), или процент верно классифицированных случаев.
Коэффициент результативности (hit ratio). Процент случаев, верно классифицированных с помощью дискриминантного анализа. Полезно сравнить процент случаев, верно классифицированных с помощью дискриминантного анализа, с процентом случаев, который можно получить случайным образом. Для равных по размеру групп процент случайной классификации равен частному от деления единицы на количество групп. Превысит ли и на сколько количество верно классифицированных случаев их случайное количество? Здесь нет общепринятого подхода, хотя некоторые считают, что точность классификации, достигнутая с помощью дискриминантного анализа, должна быть, по крайней мере, на 25% выше, чем точность, которую можно достичь случайным образом.
Многие программы для выполнения дискриминантного анализа также определяют классификационную матрицу исходя из анализируемой выборки. Поскольку программы учитывают даже случайные вариации в данных, полученные результаты всегда точнее, чем классификация данных на основе проверочной выборки.
Коэффициент результативности, или процент верно классифицированных случаев, равен (12 + 15)/30 = = 0,90, или 90%. Могут возникнуть сомнения, что этот коэффициент результативности искусственно завышен, поскольку данные, использованные для вычисления, использовались и для проверки. Выполнение классификационного анализа по независимому набору данных приводит к классификационной матрице с немного меньшим коэффициентом результативности (4 + 6)/12 = 0,833, или 83,3%. Задав случайным образом две группы равного размера, можно ожидать, что коэффициент результативности равен 1/2 = 0,50, или 50%. Однако превышение точности классификации над случайной классификацией составляет свыше 25%, и поэтому достоверность дискриминантного анализа оценивают как удовлетворительную.
Пошаговый дискриминантный анализ |
Пошаговый дискриминантный анализ аналогичен пошаговому множественному регрессионному анализу в том отношении, что предикторы вводят последовательно, исходя из их способности различать (дискриминировать) группы. Значение F-статистики рассчитывают для каждого предиктора, выполняя одномерный дисперсионный анализ, в котором группы рассматривают как категориальную переменную, а предиктор — как критериальную переменную. Предиктор с самым высоким значением F-статистики первым отбирают для включения в дискриминантную функцию, если он удовлетворяет определенной значимости и допустимому критерию. Второй предиктор вводят исходя из самого высокого скорректированного или частного значения F, с учетом уже выбранного предиктора.
Для того чтобы каждый выбранный предиктор оставить в уравнении, его проверяют исходя из его связи с другими предикторами. Процесс введения и исключения продолжают до тех пор, пока все предикторы не будут удовлетворять критерию значимости — условию, необходимому для их введения в дискриминантную функцию. На каждой стадии рассчитывают несколько статистик. Кроме того, в заключение подводят итог введенным или исключенным предикторам. Пошаговый метод приводит к тому же стандартному выводу, который вытекает из прямого метода.
Выбор пошагового метода основан на оптимизации принятого критерия. Метод Махаланобиса (Mahalanobis procedure) основан на максимизации обобщенной меры расстояния между двумя самыми близкими группами. Этот метод позволяет маркетологам-исследователям извлечь максимальную пользу из имеющейся информации.
Метод Махаланобиса (Mahalanobis procedure)
Пошаговый метод, используемый в дискриминантном анализе для максимизации обобщенной меры расстояния между двумя самыми близкими группами.
Первой выбранной переменной был доход, за ним следовали размер семьи и отдых. Порядок введения переменных указывает на их значимость в дискриминации двух групп. Впоследствии это подтвердила проверка нормированных коэффициентов дискриминантной функции и структура коэффициентов корреляции. Обратите внимание, что результаты пошагового анализа согласуются с выводами, ранее полученными прямым методом.
Врезки «Практика маркетинговых исследований» — примеры применения дискриминантного анализа в международных маркетинговых исследованиях и при исследование этических проблем в маркетинге.