Дипломная работа: Моделирование сети кластеризации данных в MATLAB NEURAL NETWORK TOOL

·внешняя изолированность.

В таблице 1.1 приведено сравнение некоторых параметров задач классификации и кластеризации.

Таблица 1.1

Сравнение классификации и кластеризации

Характеристика Классификация Кластеризация
Контролируемость обучения Контролируемое обучение Неконтролируемое обучение
Стратегия Обучение с учителем Обучение без учителя
Наличие метки класса Обучающее множество сопровождается меткой, указывающей класс, к которому относится наблюдение Метки класса обучающего множества неизвестны
Основание для классификации Новые данные классифицируются на основании обучающего множества Дано множество данных с целью установления существования классов или кластеров данных

На рисунке 1.1 схематически представлены задачи классификации и кластеризации

Рисунок 1.1 – Сравнение задач классификации и кластеризации

Кластеры могут быть непересекающимися, или эксклюзивными, и пересекающимися. Схематическое изображение непересекающихся и пересекающихся кластеров дано на рисунке 1.2

Рисунок 1.2 – Непересекающиеся и пересекающиеся кластеры

1.2 Процесс кластеризации

Процесс кластеризации зависит от выбранного метода и почти всегда является итеративным. Он может стать увлекательным процессом и включать множество экспериментов по выбору разнообразных параметров, например, меры расстояния, типа стандартизации переменных, количества кластеров и т.д. Однако эксперименты не должны быть самоцелью - ведь конечной целью кластеризации является получение содержательных сведений о структуре исследуемых данных. Полученные результаты требуют дальнейшей интерпретации, исследования и изучения свойств и характеристик объектов для возможности точного описания сформированных кластеров.

Рисунок 1.3 – Общая схема кластеризации

Кластеризация данных включает в себя следующие этапы:

а) Выделение характеристик.

Для начала необходимо выбрать свойства, которые характеризуют наши объекты, ими могут быть количественные характеристики (координаты, интервалы…), качественные характеристики (цвет, статус, воинское звание…) и т.д. Затем стоит попробовать уменьшить размерность пространства характеристических векторов, то есть выделить наиболее важные свойства объектов. Уменьшение размерности ускоряет процесс кластеризации и в ряде случаев позволяет визуально оценивать результаты. Выделенные характеристики стоит нормализовать. Далее все объекты представляются в виде характеристических векторов. Мы будем полностью отождествлять объект с его характеристическим вектором.

б) Определение метрики.

Следующим этапом кластеризации является выбор метрики, по которой мы будем определять близость объектов. Метрика выбирается в зависимости от:

·пространства, в котором расположены объекты;

·неявных характеристик кластеров.

Например, если все координаты объекта непрерывны и вещественны, а кластера должны представлять собой нечто вроде гиперсфер, то используется классическая евклидова метрика (на самом деле, чаще всего так и есть):

.(1.1)

в) Представление результатов.

Результаты кластеризации должны быть представлены в удобном для обработки виде, чтобы осуществить оценку качества кластеризации. Обычно используется один из следующих способов:

·представление кластеров центроидами;

·представление кластеров набором характерных точек;

·представление кластеров их ограничениями.

Рисунок 1.4 – Способы представления кластеров

Оценка качества кластеризации может быть проведена на основе следующих процедур:

К-во Просмотров: 394
Бесплатно скачать Дипломная работа: Моделирование сети кластеризации данных в MATLAB NEURAL NETWORK TOOL