Реферат: Інтелектуальний аналіз даних
Знання – сукупність відомостей, яка утворює цілісний опис, відповідний деякому рівню обізнаності про описуване питання, предмет, проблему і т.д.
Використовування знань (knowledge deployment) означає дійсне застосування знайдених знань для досягнення конкретних переваг (наприклад, в конкурентній боротьбі за ринок).
Приведемо ще декілька визначень поняття Data Mining.
Data Mining – це процес виділення з даних неявної і неструктурованої інформації і представлення її у вигляді, придатному для використовування.
Data Mining – це процес виділення, дослідження і моделювання великих об'ємів даних для виявлення невідомих до цього шаблонів (patterns) з метою досягнення переваг в бізнесі (визначення SAS Institute).
Data Mining – це процес, мета якого – знайти нові значущі кореляції, зразки і тенденції в результаті просівання великого об'єму бережених даних з використанням методик розпізнавання зразків плюс застосування статистичних і математичних методів (визначення Gartner Group).
«Mining» англійською означає «видобуток корисних копалин», а пошук закономірностей у величезній кількості даних дійсно схожий на цей процес.
Перш ніж використовувати технологію Data Mining, необхідно ретельно проаналізувати її проблеми [4]:
- Data Mining не може замінити аналітика;
- не може складати розробки і експлуатації додатку Data Mining;
- потрібна підвищена кваліфікація користувача;
- витягання корисних відомостей неможливе без доброго розуміння суті даних;
- складність підготовки даних;
- висока вартість;
- вимога наявності достатньої кількості репрезентативних даних.
Data Mining тісно пов’язана з різними дисциплінами , що засновані на інформаційних технологіях та математичних методах обробки інформаціі (рисунок 1.1).
Рисунок 1.1 – Data Mining як мультідісциплінарна область
Кожний з напрямів, що сформували Data Mining, має свої особливості. Проведемо порівняння з деякими з них.
1.2 Порівняння статистики, машинного навчання і Data Mining
Статистика – це наука про методи збору даних, їх обробки і аналізу для виявлення закономірностей, властивих явищу, що вивчається.
Статистика є сукупністю методів планування експерименту, збору даних, їх уявлення і узагальнення, а також аналізу і отримання висновків на підставі цих даних.
Статистика оперує даними, що отримані в результаті спостережень або експериментів.
Перевагами є:
- більш ніж Data Mining, базується на теорії;
- більш зосереджується на перевірці гіпотез.
Єдиного визначення машинного навчання на сьогоднішній день немає.
Машинне навчання можна охарактеризувати як процес отримання програмою нових знань. Мітчелл в 1996 році дав таке визначення: «Машинне навчання – це наука, яка вивчає комп'ютерні алгоритми, автоматично що поліпшуються під час роботи».
Одним з найпопулярніших прикладів алгоритму машинного навчання є нейронні мережі.
Алгоритми машинного навчання є:
- більш евристичні;