Дипломная работа: Моделирование сети кластеризации данных в MATLAB NEURAL NETWORK TOOL
·внешняя изолированность.
В таблице 1.1 приведено сравнение некоторых параметров задач классификации и кластеризации.
Таблица 1.1
Сравнение классификации и кластеризации
Характеристика | Классификация | Кластеризация |
Контролируемость обучения | Контролируемое обучение | Неконтролируемое обучение |
Стратегия | Обучение с учителем | Обучение без учителя |
Наличие метки класса | Обучающее множество сопровождается меткой, указывающей класс, к которому относится наблюдение | Метки класса обучающего множества неизвестны |
Основание для классификации | Новые данные классифицируются на основании обучающего множества | Дано множество данных с целью установления существования классов или кластеров данных |
На рисунке 1.1 схематически представлены задачи классификации и кластеризации
Рисунок 1.1 – Сравнение задач классификации и кластеризации
Кластеры могут быть непересекающимися, или эксклюзивными, и пересекающимися. Схематическое изображение непересекающихся и пересекающихся кластеров дано на рисунке 1.2
Рисунок 1.2 – Непересекающиеся и пересекающиеся кластеры
1.2 Процесс кластеризации
Процесс кластеризации зависит от выбранного метода и почти всегда является итеративным. Он может стать увлекательным процессом и включать множество экспериментов по выбору разнообразных параметров, например, меры расстояния, типа стандартизации переменных, количества кластеров и т.д. Однако эксперименты не должны быть самоцелью - ведь конечной целью кластеризации является получение содержательных сведений о структуре исследуемых данных. Полученные результаты требуют дальнейшей интерпретации, исследования и изучения свойств и характеристик объектов для возможности точного описания сформированных кластеров.
Рисунок 1.3 – Общая схема кластеризации
Кластеризация данных включает в себя следующие этапы:
а) Выделение характеристик.
Для начала необходимо выбрать свойства, которые характеризуют наши объекты, ими могут быть количественные характеристики (координаты, интервалы…), качественные характеристики (цвет, статус, воинское звание…) и т.д. Затем стоит попробовать уменьшить размерность пространства характеристических векторов, то есть выделить наиболее важные свойства объектов. Уменьшение размерности ускоряет процесс кластеризации и в ряде случаев позволяет визуально оценивать результаты. Выделенные характеристики стоит нормализовать. Далее все объекты представляются в виде характеристических векторов. Мы будем полностью отождествлять объект с его характеристическим вектором.
б) Определение метрики.
Следующим этапом кластеризации является выбор метрики, по которой мы будем определять близость объектов. Метрика выбирается в зависимости от:
·пространства, в котором расположены объекты;
·неявных характеристик кластеров.
Например, если все координаты объекта непрерывны и вещественны, а кластера должны представлять собой нечто вроде гиперсфер, то используется классическая евклидова метрика (на самом деле, чаще всего так и есть):
.(1.1)
в) Представление результатов.
Результаты кластеризации должны быть представлены в удобном для обработки виде, чтобы осуществить оценку качества кластеризации. Обычно используется один из следующих способов:
·представление кластеров центроидами;
·представление кластеров набором характерных точек;
·представление кластеров их ограничениями.
Рисунок 1.4 – Способы представления кластеров
Оценка качества кластеризации может быть проведена на основе следующих процедур: