Реферат: Понятие информационной технологии 2
U = (сумм (fi k – f k )) / (n-1)
f k – средняя частота термина k в наборе из n документов.
f k = Fk / n
Для оценки веса термина используется не уклонение, а формула Fk * U/ f k
Чем больше это отношение, тем больший вес назначается термину.
9.Использование при индексировании параметров, основанных на способности термина различать документы набора.
Исходные данные – набор из n документов и множество S коэффициентов подобия всех пар документов из множества n: { S ( Di , Dj ) }. Эти коэффициенты подобия рассчитываются на основании векторов документов. Способ расчета разный, а принцип: S ( Di , Dj ) = 1, если вектора идентичны.
S ( Di , Dj ) = 0 , еслив векторах нет ни одного общего документа.
По S рассчитывают средний коэффициент подобия:S = C * сумм (i= 1 – n) S ( Di , Dj ), С – коэффициент усреднения, может быть любым, в частности C = 1 / n.
Далее из векторов документов удаляют некоторый k – й термин и рассчитывают средний коэффициент по парного подобия, но с удалённым k –м термином: S k ( т.е. в векторах документа не участвуют веса k –го термина). Если S k возрастает относительноS , то термину k присваивается положительный вес. Чем больше эта разница, тем больший вес присваивается термину k. Если S k уменьшается, то k либо вообще не рассматривается как возможный индекс, либо ему присваивается отрицательный вес.
10.Динамическая информативность как метод индексирования.
Всем терминам первоначально присваиваются одинаковый вес, затем пользователь формирует запрос, и выдаются документы и пользователь определяет релевантность, система сама уменьшает или увеличивает вес документа, в соответствии с потребностями пользователя, т.е. предусматривается некоторая программа обучения системы.
5 Назначение и основные методы индексации.
Задача создания вектора документа называется индексированием.
Методы автоматического индексирования. Задачи этих методов – построить векторы документов {(ti k , wi k )}. Исходные данные – массив документов. Нужно выделить те термины, которые раскрывают текст документа ti k и присвоить вес wi k .
Методы:
1. Частотный метод – по каждому термину, входящему в документ подсчитывается частота вхождения терминов в документ fik, i – номер документа, k – термин. Эта частота абсолютная. Затем документы упорядочиваются в соответствии с возрастанием или убыванием частоты.
Если термин имеет большую частоту, то это, скорее всего общеупотребительный термин, не раскрывающий конкретную предметную область (будет много документов).
Если термин имеет малую частоту, то он существенно отражает содержание, даже если его включить в дескрипторы (ключевые слова), то он , скорее всего будет использоваться в холостую. Поэтому эти 2 простейших документа исключают из списка.
Терминам с большей частотой присваивают меньший вес, с меньшей частотой – больший вес.
2. Использование соотношения “ сигнал – шум “. Здесь исключается ещё одна частота: суммарная или общая частота появления термина k в наборе из n документов и рассчитывается:
Fk = сумма (i=1 – n) fi k
Шум k –го символа рассчитывается:
Nk = сумма(i=1 – n) fi k / Fk * log (Fk / fi k )
Сигнал k – го символа:
Sk = log Fk – Nk
Шум является максимальным, если термин имеет равномерное распределение в n документах. Шум является минимальным и равномерным, когда термин имеет неравномерное распределение, например, когда он встречается только в одном документе, с частотой Fk , тогда:
Nk = сумма (i=1 – n) fi k / Fk * log Fk / fi k = 0, в этом случае сигнал имеет максимальное значение:
Sk = log Fk – Nk = log Fk