Курсовая работа: Анализ деятельности кредитных организаций
Интеллектуальный анализ данных, или Data Mining, – это процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.
Современные технологии Data Mining (discovery-driven data mining ) обрабатывают информацию с целью автоматического поиска шаблонов (паттернов), характерных для каких-либо фрагментов неоднородных многомерных данных. В отличие от оперативной аналитической обработки данных (online analytical processing, OLAP ) в Data Mining бремя формулировки гипотез и выявления необычных шаблонов переложено с человека на компьютер.
Выделяют пять стандартных типов закономерностей (задач), которые позволяют выявлять методы Data Mining : ассоциация, последовательность, классификация, кластеризация, прогнозирование.
Закономерность типа ассоциация наблюдается в данных, когда несколько событий связаны друг с другом и происходят при этом одновременно. Например, исследование, проведенное в супермаркете, может показать, что 65% купивших кукурузные чипсы берут также и «кока-колу», а при наличии скидки за такой комплект «колу» приобретают в 85% случаев. Располагая сведениями о подобной ассоциации, менеджерам легко оценить, насколько действенна предоставляемая скидка.
?????????????? ???? ?последовательность» ???????????? ??????? ? ?????? ??????? ????????? ???? ? ?????? ? ?????????????? ?? ??????? ???????. ???, ????????, ????? ??????? ???? ? 45% ??????? ? ??????? ?????? ????????????? ? ????? ???????? ?????, ? ? ???????? ???? ?????? 60% ????????? ??????????? ?????????????.Закономерность типа «классификация» выявляется в данных на основе анализа признаков уже классифицированных объектов, при этом известна принадлежность объектов к классам. Результатом является формирование правил отнесения объектов к классам.
Закономерность типа «кластеризация» предполагает наличие в данных сходых по каким-либо признакам групп объектов, причем количество групп и принадлежность объектов к ним заранее не заданы. С помощью кластеризации средства Data Mining самостоятельно выделяют различные однородные группы данных.
Поиск закономерности типа «прогнозирование» проводится на основе информации, хранящейся в базах данных в виде временных рядов. Если удается построить математическую модель и найти шаблоны, адекватно отражающие эту динамику, есть вероятность, что с их помощью можно предсказать и поведение системы в будущем.
Раздел 1Описание объекта исследования, как системы
Системный подход реализуется в методологии системного анализа, который является одним из эффективных инструментов исследования социально-экономических и политических процессов.
1.1 Цель объекта исследования
Объектом исследования являются показатели деятельности кредитных организаций. Целью объекта исследования является отражение динамики процесса взаимодействия населения и кредитных организаций.
1.2 Структура системы, описание внешней среды
Тип описываемой структуры – плоская (горизонтальная декомпозиция) (схема1)
Схема 1
|
|
1.3 Классификация системы
Данная система является открытой , т.к. основные элементы системы – кредитор и заемщик – обеспечивают постоянное циркулирование денежных средств с дачей денег в долг (входом) денежных средств со стороны кредитора и выплат (выхода) полученной суммы плюс проценты со стороны заемщик.
Описываемая система – гетерогенная . Доказательством данного факта является многообразие видов кредита, которые изображены на схеме 1.
Система является управляемой . В роли управленцев этой системы выступают кредитор и заемщик. А так как они являются в тоже время и элементами данной системы, то данную систему можно считать самоуправляемой.
Раздел 2 Интеллектуальный анализ данных о закономерностях
функционирования объекта исследования
Цель анализа состоит в применении интеллектуального анализа данных для исследования заданной структуры данных для разработки принятия решений.
В данной работе основной задачей является выявление различий между регионами России на основе показателей деятельности кредитных организаций приведенным на 01.0.1.2007.
Исходные данные
Объектами в данной работе являются: Центральный, Северо-Западный, Южный, Приволжский, Уральский, Сибирский, Дальневосточный федеральный округа.
В качестве признаков в данной работе выступают: объем выданных кредитов физическим лицам, объем кредитов физическим лицам на покупку жилья, средневзвешенный срок кредитования, средневзвешенная процентная ставка, объем ипотечных жилищных кредитов физическим лицам, средневзвешенный срок кредитования (по ипотечным кредитам), средневзвешенная процентная ставка (по ипотечным кредитам).
2.1 Анализ методом главных компонент
Метод главных компонент является методом визуализации данных.
Методы визуализации данных нацелены на поиск наиболее выразительных изображений совокупности исследуемых объектов для последующего максимального использования потенциала зрительного анализатора экспериментатора.
Визуализация данных предполагает получение тем или иным способом графического отображения совокупности объектов в новое координатное пространство, в качестве которого могут быть использованы либо числовая ось, либо плоскость, либо трехмерное пространство, максимально отражающие особенности распределения этих объектов в многомерном пространстве.
В соответствии с количеством измерений в новом координатном пространстве могут быть следующие способы визуального представления:
- одномерное измерение, или 1-D ,
- двумерное измерение, или 2-D ,
- трехмерное (проекционное) измерение, или 3-D .
С геометрических позиций алгоритм построения главных компонент (ГК) состоит в следующем.
Производится центрирование исходных данных (рис.1а), начало координат переносится в центр распределения данных (центроид), являющимся центром эллипсоида рассеивания случайного вектора Х (рис.1б).
Рис. 2. Формирование главных компонент
Затем осуществляется формирование главных компонент F 1 , F 2 ,…, Fp (рис.1в). Линейные комбинации выбираются таким образом, что среди всех возможных комбинаций первая главная компонента F 1 ( X ) обладает наибольшей дисперсией. Дисперсия σ стремится к максимуму:F 1 ( X )= I = max σ ->ω pi . Графически это выглядит как ориентация новой координатной оси F 1 вдоль направления наибольшей вытянутости эллипсоида рассеивания объектов в исходном пространстве P признаков. а разбросом вдоль нескольких последних осей можно пренебречь.
--> ЧИТАТЬ ПОЛНОСТЬЮ <--