Реферат: Понятие информационной технологии 2

бакетом

В этой области памяти находится несколько текстов, каждый из которых характеризуется по своему в векторе документов. Т.е. адрес получается по вычислительной процедуре.

Преимущества:

- Быстрый вычисляемый доступ;

- Из-за отсутствия справочника экономится память.

Недостатки:

- Сложность при выборе метода хеширования;

- Применяется для коротких векторов запросов, когда в поиске участвует немного слов;

- Изменения векторов документов порождает сложность в ведении файлов.

Вопрос 27(окончание).

4. Коррекция кластеров сверху вниз.

В начале строятся один или несколько очень больших кластеров, которые затем разбиваются на более мелкие.

Способы выбора исходных классов:

- В качестве центров классов используются случайные документы;

- Классом с именем i можно считать множество документов, в векторах которых находится термин i;

- В качестве исходных классов принимаются все документы, признанные релевантными некоторому запросу по результатам предыдущих поисковых операций.

Процесс коррекции кластеров:

- Вычисляется КП между каждым документом и каждым центроидом кластера;

- Кластеры переопределяются путём отнесения документов к тем из них, по отношению к которым, они имеют наибольшее подобие;

- Формируются центроиды новых кластеров.

Эти 3 шага выполняются до тех пор, пока:

- Будет необходимость в изменениях;

- Чтобы процесс не был бесконечным, он выполняется в заданное число итераций.

5.Однократная кластеризация.

Документы рассматриваются в произвольном порядке и каждый документ либо относится к существующему классу, если КП достаточен, либо образует новый кластер.

“+”: каждый документ обрабатывается только 1 раз, => требует мало времени.

“-”: состав и структура классов существенно зависит от порядка рассмотрения документов.

28.Нахождение КЛИК.

Клика – такой вид кластера, в котором каждый документ подобен любому другому документу. Клика формируется тогда, когда возникает полный граф, т.е. полное соотношение подобия между всеми элементами.

К-во Просмотров: 1142
Бесплатно скачать Реферат: Понятие информационной технологии 2