Реферат: Інтелектуальний аналіз даних

Знання – сукупність відомостей, яка утворює цілісний опис, відповідний деякому рівню обізнаності про описуване питання, предмет, проблему і т.д.

Використовування знань (knowledge deployment) означає дійсне застосування знайдених знань для досягнення конкретних переваг (наприклад, в конкурентній боротьбі за ринок).

Приведемо ще декілька визначень поняття Data Mining.

Data Mining – це процес виділення з даних неявної і неструктурованої інформації і представлення її у вигляді, придатному для використовування.

Data Mining – це процес виділення, дослідження і моделювання великих об'ємів даних для виявлення невідомих до цього шаблонів (patterns) з метою досягнення переваг в бізнесі (визначення SAS Institute).

Data Mining – це процес, мета якого – знайти нові значущі кореляції, зразки і тенденції в результаті просівання великого об'єму бережених даних з використанням методик розпізнавання зразків плюс застосування статистичних і математичних методів (визначення Gartner Group).

«Mining» англійською означає «видобуток корисних копалин», а пошук закономірностей у величезній кількості даних дійсно схожий на цей процес.

Перш ніж використовувати технологію Data Mining, необхідно ретельно проаналізувати її проблеми [4]:

- Data Mining не може замінити аналітика;

- не може складати розробки і експлуатації додатку Data Mining;

- потрібна підвищена кваліфікація користувача;

- витягання корисних відомостей неможливе без доброго розуміння суті даних;

- складність підготовки даних;

- висока вартість;

- вимога наявності достатньої кількості репрезентативних даних.

Data Mining тісно пов’язана з різними дисциплінами , що засновані на інформаційних технологіях та математичних методах обробки інформаціі (рисунок 1.1).


Рисунок 1.1 – Data Mining як мультідісциплінарна область

Кожний з напрямів, що сформували Data Mining, має свої особливості. Проведемо порівняння з деякими з них.

1.2 Порівняння статистики, машинного навчання і Data Mining

Статистика – це наука про методи збору даних, їх обробки і аналізу для виявлення закономірностей, властивих явищу, що вивчається.

Статистика є сукупністю методів планування експерименту, збору даних, їх уявлення і узагальнення, а також аналізу і отримання висновків на підставі цих даних.

Статистика оперує даними, що отримані в результаті спостережень або експериментів.

Перевагами є:

- більш ніж Data Mining, базується на теорії;

- більш зосереджується на перевірці гіпотез.

Єдиного визначення машинного навчання на сьогоднішній день немає.

Машинне навчання можна охарактеризувати як процес отримання програмою нових знань. Мітчелл в 1996 році дав таке визначення: «Машинне навчання – це наука, яка вивчає комп'ютерні алгоритми, автоматично що поліпшуються під час роботи».

Одним з найпопулярніших прикладів алгоритму машинного навчання є нейронні мережі.

Алгоритми машинного навчання є:

- більш евристичні;

К-во Просмотров: 554
Бесплатно скачать Реферат: Інтелектуальний аналіз даних