Информатика / Реферат: Понятие информационной технологии 2

Реферат: Понятие информационной технологии 2

S^k / N^k . Чем больше это отношение, тем больший вес

Назначается. Строится однозначная таблица.

1.Использование распределения частоты термина (уклонения).

Уклонение рассчитывается:

U = (сумм (f_i ^k – f ^k )) / (n-1)

F ^k – средняя частота термина k в наборе из n документов.

F ^k = F^k / n

Для оценки веса термина используется не уклонение, а формула F^k * U/ f ^k

Чем больше это отношение, тем больший вес назначается термину.

2.Параметры, основанные на способности термина различать документы набора. Исходные данные – набор из n документов и множество S коэффициентов подобия всех пар документов из множества n: { S ( D_i , D_j ) }. Эти коэффициенты подобия рассчитываются на основании векторов документов. Способ расчета разный, а принцип: S ( D_i , D_j ) = 1, если вектора идентичны.

S ( D_i , D_j ) = 0 , еслив векторах нет ни одного общего документа.

По S рассчитывают средний коэффициент подобия:S = C * сумм (i= 1 – n) S ( D_i , D_j ), С – коэффициент усреднения, может быть любым, в частности C = 1 / n.

Далее из векторов документов удаляют некоторый k – й термин и рассчитывают средний коэффициент по парного подобия, но с удалённым k –м термином: S ^k ( т.е. в векторах документа не участвуют веса k –го термина). Если S ^k возрастает относительноS , то термину k присваивается положительный вес. Чем больше эта разница, тем больший вес присваивается

11.Методы индексирования, основанные на положении термина в тексте.

Подходы:

1.В индексационные термины включаются те, которые встречаются в названиях документов, названиях глав, разделов и т.д.

2.Составляются списки значимых для некоторой предметной области слов. Т.е. составляется глоссарий по некоторой предметной области.

3.Методы увеличения полноты. Часто бывает необходимо выдать наибольшее число релевантных документов из массива. В этом случае необходимо к используемым индексационным терминам добавить дополнительные, чтобы расширить область поиска.

1)1-й подход к решению этой задачи: использование терминов заместителей из словаря синонимов, который называют тезариусом, в котором термины сгруппированы в классы.

2)Метод ассоциативного индексирования. Основан на использовании матрицы ассоциируемости терминов, которая задаёт для каждой пары терминов показатель ассоциируемости. Абсолютная запись этого ПА между терминами j и k:

f ( j ; k ) = сумм ( i=1 – n ) f_i ^j * f_j ^k – частота совместного использования f ( j ; k ) = сумм ( i=1 – n ) f_i ^j * f_j ^k / (сумм ( i=1 – n ) f_i ^{j ^} 2+ сумм ( i=1 – n ) f_j ^{k ^} 2 - сумм ( i=1 – n ) f_i ^j * f_j ^k - для расчёта относительного значения этого показателя. f_i ^j,k – частота появления термина j или k в i – м документе. 0 <= f ( j ; k ) <= 1. Если f ( j ; k ) = 0, то термины совсем не ассоциируются, если f ( j ; k ) = 1, то полностью ассоциируемы.

12.Постановка задачи увеличения полноты при поиске в текстовой базе данных и основные методы ее решения.

Методы увеличения полноты. Часто бывает необходимо выдать наибольшее число релевантных документов из массива. В этом случае необходимо к используемым индексационным терминам добавить дополнительные, чтобы расширить область поиска.

f ( j ; k ) = сумм ( i=1 – n ) f_i ^j * f_j ^k – частота совместного использования f ( j ; k ) = сумм ( i=1 – n ) f_i ^j * f_j ^k / (сумм ( i=1 – n ) f_i ^{j ^} 2+ сумм ( i=1 – n ) f_j ^{k ^} 2 – сумм ( i=1 – n ) f_i ^j * f_j ^k - для расчёта относительного значения этого показателя. f_i ^j,k – частота появления термина j или k в i – м документе. 0 <= f ( j ; k ) <= 1.

Если f ( j ; k ) = 0, то термины совсем не ассоциируются, если f ( j ; k ) = 1, то полностью ассоциируемы.

Второй способ: используются матрицы для расширения поиска: вводится некоторое пороговое значение коэффициента ассоциируемости (СКА), выше которого коэффициенты приравниваются к единице, а ниже к 0.

13.Метод ассоциативного индексирования в задаче увеличения полноты поиска.

К-во Просмотров: 1269

Бесплатно скачать Реферат: Понятие информационной технологии 2

>>> Скачать <<<