Реферат: Понятие информационной технологии 2
бакетом
В этой области памяти находится несколько текстов, каждый из которых характеризуется по своему в векторе документов. Т.е. адрес получается по вычислительной процедуре.
Преимущества:
- Быстрый вычисляемый доступ;
- Из-за отсутствия справочника экономится память.
Недостатки:
- Сложность при выборе метода хеширования;
- Применяется для коротких векторов запросов, когда в поиске участвует немного слов;
- Изменения векторов документов порождает сложность в ведении файлов.
Вопрос 27(окончание).
4. Коррекция кластеров сверху вниз.
В начале строятся один или несколько очень больших кластеров, которые затем разбиваются на более мелкие.
Способы выбора исходных классов:
- В качестве центров классов используются случайные документы;
- Классом с именем i можно считать множество документов, в векторах которых находится термин i;
- В качестве исходных классов принимаются все документы, признанные релевантными некоторому запросу по результатам предыдущих поисковых операций.
Процесс коррекции кластеров:
- Вычисляется КП между каждым документом и каждым центроидом кластера;
- Кластеры переопределяются путём отнесения документов к тем из них, по отношению к которым, они имеют наибольшее подобие;
- Формируются центроиды новых кластеров.
Эти 3 шага выполняются до тех пор, пока:
- Будет необходимость в изменениях;
- Чтобы процесс не был бесконечным, он выполняется в заданное число итераций.
5.Однократная кластеризация.
Документы рассматриваются в произвольном порядке и каждый документ либо относится к существующему классу, если КП достаточен, либо образует новый кластер.
“+”: каждый документ обрабатывается только 1 раз, => требует мало времени.
“-”: состав и структура классов существенно зависит от порядка рассмотрения документов.
28.Нахождение КЛИК.
Клика – такой вид кластера, в котором каждый документ подобен любому другому документу. Клика формируется тогда, когда возникает полный граф, т.е. полное соотношение подобия между всеми элементами.