Дипломная работа: Моделирование сети кластеризации данных в MATLAB NEURAL NETWORK TOOL
· установление контрольных точек и проверка на полученных кластерах;
· определение стабильности кластеризации путем добавления в модель новых переменных;
· создание и сравнение кластеров с использованием различных методов.
Разные методы кластеризации могут создавать разные кластеры, и это является нормальным явлением. Однако создание схожих кластеров различными методами указывает на правильность кластеризации.
1.3 Алгоритмы кластеризации
Следует отметить, что в результате применения различных методов кластерного анализа могут быть получены кластеры различной формы. Например, возможны кластеры "цепочного" типа, когда кластеры представлены длинными "цепочками", кластеры удлиненной формы и т.д., а некоторые методы могут создавать кластеры произвольной формы. Различные методы могут стремиться создавать кластеры определенных размеров (например, малых или крупных), либо предполагать в наборе данных наличие кластеров различного размера. Некоторые методы кластерного анализа особенно чувствительны к шумам или выбросам, другие - менее. В результате применения различных методов кластеризации могут быть получены неодинаковые результаты, это нормально и является особенностью работы того или иного алгоритма. Данные особенности следует учитывать при выборе метода кластеризации. На сегодняшний день разработано более сотни различных алгоритмов кластеризации.
Классифицировать алгоритмы можно следующим образом:
·строящие «снизу вверх» и «сверху вниз»;
·монотетические и политетические;
·непересекающиеся и нечеткие;
·детерминированные и стохастические;
·потоковые (оnline) и не потоковые;
·зависящие и не зависящие от порядка рассмотрения объектов.
Рисунок 1.5 – Классификация алгоритмов кластеризации
Далее будут рассмотрены основные алгоритмы кластеризации.
1.3.1 Иерархические алгоритмы
Результатом работы иерархических алгоритмов является дендограмма (иерархия), позволяющая разбить исходное множество объектов на любое число кластеров. Два наиболее популярных алгоритма, оба строят разбиение «снизу вверх»:
·single-link – на каждом шаге объединяет два кластера с наименьшим расстоянием между двумя любыми представителями;
·complete-link – на каждом шаге объединяет два кластера с наименьшим расстоянием между двумя наиболее удаленными представителями.
Рисунок 1.6 – Пример single-link алгоритма
Рисунок 1.7 – Пример complete-link алгоритма
1.3.2 k-Means алгоритм
Данный алгоритм состоит из следующих шагов:
1. Случайно выбрать kточек, являющихся начальными координатами «центрами масс» кластеров (любые k из n объектов, или вообще k случайных точек).
2. Отнести каждый объект к кластеру с ближайшим «центром масс».
3. Пересчитать «центры масс» кластеров согласно текущему членству.