Реферат: Інтелектуальний аналіз даних

1003

1

1

1

0

0

0

0

0

1

0

Кількість стовпців в таблиці рівно кількості елементів, присутніх в безлічі транзакцій D. Кожний запис відповідає транзакції, де у відповідному стовпці стоїть 1, якщо елемент присутній в транзакції, і 0 в осоружному випадку. Помітимо, що початковий вид таблиці може бути відмінним від приведеного в таблиці 2.1. Головне, щоб дані були перетворені до нормалізованого вигляду, інакше алгоритм не застосовний. Крім того, всі елементи повинні бути впорядкований в алфавітному порядку (якщо це числа, вони повинні бути впорядкований в числовому порядку).

На першому кроці алгоритму підраховуються 1–елементні набори, що часто зустрічаються. Для цього необхідно пройтися по всьому набору даних і підрахувати для них підтримку, тобто скільки разів зустрічається в базі.

Наступні кроки складатимуться з двох частин: генерації наборів елементів (їх називають кандидатами) і підрахунку підтримки, що потенційно часто зустрічаються, для кандидатів[4].

Описаний вище алгоритм можна записати у вигляді наступного псевдокоду:

F1 = {1-елементні набори, що часто зустрічаються}

для (k=2; Fk-1 <> ; k++) {

Ck = Apriorigen (Fk-1 ) // генерація кандидатів

для всіх транзакцій t T {

Ct = subset(Ck , t)// видалення надмірних правил

для всіх кандидатів с Ct

c.count ++

}

Fk = {с Ck | c.count >= minsupport} // відбір кандидатів

}

Результат Fk

Опишемо функцію генерації кандидатів. На цей раз немає ніякої необхідності знов звертатися до бази даних. Для того, щоб отримати k–елементні набори, скористаємося (k–1)–елементними наборами, які були визначені на попередньому кроці і є тими, що часто зустрічаються.

К-во Просмотров: 548
Бесплатно скачать Реферат: Інтелектуальний аналіз даних