Курсовая работа: Статистический анализ банковской деятельности. Исследование моделей оценки кредитных рисков

· Эвклидово расстояние и его квадрат целесообразно использовать для анализа количественных данных.

· Мера близости - коэффициент корреляции , где и компоненты стандартизованных векторов X и Y. Эту меру целесообразно использовать для выявления кластеров переменных, а не объектов. Расстояние хи-квадрат получается на основе таблицы сопряженности, составленной из объектов X и Y (таблица 4.), которые, предположительно, являются векторами частот. Здесь рассматриваются ожидаемые значения элементов, равные E(Xi )=X.*(Xi +Yi )/(X.+Y.) и E(Yi )=Y.*(Xi +Yi )/(X.+Y.), а расстояние хи-квадрят имеет вид корня из соответствующего показателя

.

· Расстояние Фи-квадрат является расстоянием хи-квадрат, нормированным "число объектов" в таблице сопряженности, представляемой строками X и Y, т.е. на корень квадратный из N=X.+Y. .

Кластерный анализ является описательной процедурой, он не позволяет сделать никаких статистических выводов, но дает возможность провести своеобразную разведку - изучить "структуру совокупности".

Проведем кластеризацию по всем 20 признакам и всем наблюдениям. В результате работы программы выводится таблица 5. (показана лишь ее часть)

Таблица 5. Cluster Membership

Case Number Y Cluster Distance
………… …… …………
822 0 0 2985,732
823 1 0 2996,715
824 0 0 3040,706
825 1 0 3054,689
826 0 0 3099,727
827 1 0 3108,674
828 1 1 3100,310
829 1 1 3053,258
830 1 1 3043,285
831 1 1 2991,286
………… …… ……… …………

Столбец Y показывает, относится ли наблюдение к группе вернувших кредит “0” или навернувших “1”, столбец «Cluster» показывает принадлежность к той или иной группе наблюдения на основе кластеризации.

Таблица 6 указывает число наблюдений в том или ином кластере.


Таблица6. Number of Cases in each Cluster

Cluster 1 822,000
0 178,000
Valid 1000,000
Missing ,000

Проанализируем качество классификации.

Таблица7. Expectation-Predictable Table

Y=0 Y=1 всего
всего по выборке 300 700 1000
прогноз 178 822 1000
правильно 65 587 652
неправильно 235 113 348
% правильно 21,7% 83,9% 65,2%
% неправильно 78,3% 16,1% 34,8%

Из таблицы можно видеть, что видеть, что метод позволяет хорошо предугадывать плохие заемы на уровне 83,9%, но плохо предугадывает хорошие заемы – 21,7%. Обычно к методикам выдвигается требование распознавать лучше плохие заемы, т.к. потеря невозврата кредита больше потери неполучения процентов по кредиту.

2.3. Дискриминантный анализ

Кластерный анализ решает задачу классификации объектов при практически отсутствующей априорной информации о наблюдениях внутри классов; в дискриминантном анализе предполагается наличие такой информации. С помощью дискриминантного анализа на основании некоторых признаков (независимых переменных) индивидуум может быть причислен к одной из двух (или к одной из нескольких) заданных заранее групп. Ядром дискриминантного анализа является построение так называемой дискриминантной функция [2]

D=b1*x1+b2*x2+…+bn*xn+a

где х1 и х2 — значения переменных, соответствующих рассматриваемым случаям, константы x1 - xn и а — коэффициенты, которые и предстоит оценить с помощью дискриминантного анализа. Целью является определение таких коэффициентов, чтобы по значению дискриминантной функции можно было с максимальной четкостью провести разделение по группам.

Дискриминантный анализ является разделом многомерного статистического анализа, который позволяет изучать различия между двумя и более группами объектов по нескольким переменным одновременно. Цели ДА – интерпретация межгрупповых различий - дискриминация и методы классификации наблюдений по группам.

При интерпретации мы отвечаем на вопросы: возможно ли, используя данный набор переменных, отличить одну группу от другой, насколько хорошо эти переменные помогают провести дискриминацию, и какие из них наиболее информативны.

Методы классификации связаны с получением одной или нескольких функций, обеспечивающих возможность отнесения данного объекта к одной из групп. Эти функции называются классифицирующими.

Реализуем метод дискриминантного анализа в SPSS. Существует 2 алгоритма классификации:

1. Одновременный учет всех независимых переменных. Результаты представлены в таблице 8


Таблица 8. Classification Results(a)

Y Predicted Group Membership Total
0 1
Original Count 0 218 82 300
1 188 512 700
% 0 72,7 27,3 100,0
1 26,9 73,1 100,0

a 73,0% of original grouped cases correctly classified.

В таблице 9 приведены коэффициенты дискриминантной функции

Таблица9. Canonical Discriminant Function Coefficients

Function
1
Z1 ,503
Z2 -,127
Z3 ,338
Z4 ,024
Z5 -,150
Z6 ,174
Z7 ,134
Z8 -,242
Z9 ,225
Z10 ,314
Z11 -,006
Z12 -,172
Z13 ,035
Z14 ,242
Z15 ,272
Z16 -,210
Z17 ,023
Z18 -,135
Z19 ,271
Z20 ,611
(Constant) -3,977

Лямбда Уилкса показывает на значимое различие групп (p < 0,001).

Таблица 10. Wilks' Lambda

Test of Function(s) Wilks' Lambda Chi-square df Sig.
1 ,760 271,399 20 ,000

2. Пошаговый метод. При выполнении дискриминантного анализа можно применить пошаговый образ действий, который рекомендуется при наличии большого количества независимых переменных.

Таблица11. Classification Results(a)

Y Predicted Group Membership Total
0 1
Original Count 0 219 81 300
1 203 497 700
% 0 73,0 27,0 100,0
1 29,0 71,0 100,0

К-во Просмотров: 178
Бесплатно скачать Курсовая работа: Статистический анализ банковской деятельности. Исследование моделей оценки кредитных рисков