Курсовая работа: Методы Data Mining
Во-первых, решение сильно зависит от природы объектов данных (и их атрибутов). Так, с одной стороны, это могут быть однозначно определенные, четко количественно очерченные объекты, а с другой — объекты, имеющие вероятностное или нечеткое описание.
Во-вторых, решение значительно зависит также и от представления кластеров и предполагаемых отношений объектов данных и кластеров. Так, необходимо учитывать такие свойства, как возможность/невозможность принадлежности объектов нескольким кластерам. Необходимо определение самого понятия принадлежности кластеру: однозначная (принадлежит/не принадлежит), вероятностная (вероятность принадлежности), нечеткая (степень принадлежности).
Возможности Data Miner вStatistica 8
Компанией StatSoft была разработана система STATISTICA Data Miner, которая спроектирована и реализована как универсальное и всестороннее средство анализа данных - от взаимодействия с различными базами данных до создания готовых отчетов, реализующее так называемый графически - ориентированный подход. Чтобы описать все возможности данного пакета потребуется написать целую книгу, поэтому постараемся вкратце описать имеющиеся в данном пакете основные средства Data Mining.
· Наиболее полный пакет методов Data Mining на рынке программного обеспечения;
· Большой набор готовых решений;
· Удобный пользовательский интерфейс, полностью интегрированный с MS Office;
· Мощные средства разведочного анализа;
· Полностью оптимизированный пакет для работы с огромным объемом информации;
· Гибкий механизм управления;
· Многозадачность системы;
· Чрезвычайно быстрое и эффективное развертывание;
· Открытая COM архитектура, неограниченные возможности автоматизации и поддержки пользовательских приложений (использование промышленного стандарта Visual Basic (является встроенным языком), Java, C/C++).
Сердцем STATISTICA Data Miner является браузер процедур Data Mining, содержащий более 300 основных процедур, специально оптимизированных под задачи Data Mining, и средств логической связи между ними и управления потоками данных, позволяющий конструировать собственные аналитические методы.
Рабочее пространство STATISTICA Data Miner состоит из четырех основных частей:
· Data Acquisition - Сбор данных. В данной части пользователь идентифицирует источник данных для анализа, будь то файл данных или запрос из базы данных.
· Data Preparation, Cleaning, Transformation - Подготовка, преобразования и очистка данных. Здесь данные преобразуются, фильтруются, группируются и т.д.
· Data Analysis, Modeling, Classification, Forecasting - Анализ данных, моделирование, классификация, прогнозирование. Здесь пользователь может при помощи браузера или готовых моделей задать необходимые виды анализа данных таких как, прогнозирование, классификация, моделирование и т.д.
· Reports - Результаты. В данной части пользователь может просмотреть, задать вид и настроить результаты анализа (например, рабочая книга, отчет или электронная таблица).
Средства анализа STATISTICADataMiner
В пакете предлагается исчерпывающий набор процедур и методов визуализации.
Средства анализа STATISTICA Data Miner можно классифицировать на пять основных классов:
· General Slicer/Dicer and Drill-Down Explorer - Разметка/Разбиение и Углубленный анализ. Набор процедур позволяющий разбивать, группировать переменные, вычислять описательные статистики, строить исследовательские графики и т.д.
· General Classifier - Классификация. STATISTICA Data Miner включает в себя полный пакет процедур классификации: обобщенные линейные модели, деревья классификации, регрессионные деревья, кластерный анализ и т.д.
· General Modeler/Multivariate Explorer - Обобщенные линейные, нелинейные и регрессионные модели. Данный элемент содержит линейные, нелинейные, обобщенные регрессионные модели и элементы анализа деревьев классификации.
· General Forecaster - Прогнозирование. Включает в себя модели АРПСС, сезонные модели АРПСС, экспоненциальное сглаживание, спектральный анализ Фурье, сезонная декомпозиция, прогнозирование при помощи нейронных сетей и т.д.