Реферат: Понятие информационной технологии 2
Недостатки:
- Сложность при выборе метода хеширования;
- Применяется для коротких векторов запросов, когда в поиске участвует немного слов;
- Изменения векторов документов порождает сложность в ведении файлов.
4. Кластерные файлы.
Документы разбиваются на родственные группы, которые называют кластерами или классами. Каждый класс описывается центроидом (профилем) и вектор запроса прежде всего сравнивается с центроидами класса.
Преимущества:
- Возможен быстрый поиск, т.к. число классов, как правило, невелико;
- Возможно интерактивное сужение (расширение) поиска за счёт исключения или добавления дополнительных кластеров.
Недостатки:
- Необходимость формировать кластеры;
- Необходимость введения файла центроидов;
- Дополнительный расход памяти для файла центроидов или профилей.
4. Понятие центроида кластера.
Множество терминов составляющих векторов кластера называются центроидом или репрезентативным кластерным профилем. Т.о. каждый кластер характеризуется центроидным вектором, который представляет собой множество пар: {(ti k , wi k )}, где ti k – множество терминов описывающих i-й кластер, wi k – множество весов.
Вес – число, определяющее значимость данного термина для раскрытия содержимого документа.
7.Расчет соотношения “сигнал-шум” при индексировании.
Использование соотношения “ сигнал – шум “. Здесь исключается ещё одна частота: суммарная или общая частота появления термина k в наборе из n документов и рассчитывается:
Fk = сумма (i=1 – n) fi k
Шум k –го символа рассчитывается:
Nk = сумма(i=1 – n) fi k / Fk * log (Fk / fi k )
Сигнал k – го символа:
Sk = log Fk – Nk
Шум является максимальным, если термин имеет равномерное распределение в n документах. Шум является минимальным и равномерным, когда термин имеет неравномерное распределение, например, когда он встречается только в одном документе, с частотой Fk , тогда:
Nk = сумма (i=1 – n) fi k / Fk * log Fk / fi k = 0, в этом случае сигнал имеет максимальное значение:
Sk = log Fk – Nk = log Fk
С учётом этих параметров, для определения веса используется отношение сигнала к шуму k –го термина: Sk / Nk . Чем больше это отношение, тем больший вес назначается. Строится однозначная таблица.
8.Использование распределения частоты термина при индексировании.
Использование распределения частоты термина (уклонения).