Реферат: Понятие информационной технологии 2

Sk / Nk . Чем больше это отношение, тем больший вес

Назначается. Строится однозначная таблица.

1.Использование распределения частоты термина (уклонения).

Уклонение рассчитывается:

U = (сумм (fi kf k )) / (n-1)

F k – средняя частота термина k в наборе из n документов.

F k = Fk / n

Для оценки веса термина используется не уклонение, а формула Fk * U/ f k

Чем больше это отношение, тем больший вес назначается термину.

2.Параметры, основанные на способности термина различать документы набора. Исходные данные – набор из n документов и множество S коэффициентов подобия всех пар документов из множества n: { S ( Di , Dj ) }. Эти коэффициенты подобия рассчитываются на основании векторов документов. Способ расчета разный, а принцип: S ( Di , Dj ) = 1, если вектора идентичны.

S ( Di , Dj ) = 0 , еслив векторах нет ни одного общего документа.

По S рассчитывают средний коэффициент подобия:S = C * сумм (i= 1 – n) S ( Di , Dj ), С – коэффициент усреднения, может быть любым, в частности C = 1 / n.

Далее из векторов документов удаляют некоторый k – й термин и рассчитывают средний коэффициент по парного подобия, но с удалённым k –м термином: S k ( т.е. в векторах документа не участвуют веса k –го термина). Если S k возрастает относительноS , то термину k присваивается положительный вес. Чем больше эта разница, тем больший вес присваивается

11.Методы индексирования, основанные на положении термина в тексте.

Подходы:

1.В индексационные термины включаются те, которые встречаются в названиях документов, названиях глав, разделов и т.д.

2.Составляются списки значимых для некоторой предметной области слов. Т.е. составляется глоссарий по некоторой предметной области.

3.Методы увеличения полноты. Часто бывает необходимо выдать наибольшее число релевантных документов из массива. В этом случае необходимо к используемым индексационным терминам добавить дополнительные, чтобы расширить область поиска.

1)1-й подход к решению этой задачи: использование терминов заместителей из словаря синонимов, который называют тезариусом, в котором термины сгруппированы в классы.

2)Метод ассоциативного индексирования. Основан на использовании матрицы ассоциируемости терминов, которая задаёт для каждой пары терминов показатель ассоциируемости. Абсолютная запись этого ПА между терминами j и k:

f ( j ; k ) = сумм ( i=1 – n ) fi j * fj k – частота совместного использования f ( j ; k ) = сумм ( i=1 – n ) fi j * fj k / (сумм ( i=1 – n ) fi j ^ 2+ сумм ( i=1 – n ) fj k ^ 2 - сумм ( i=1 – n ) fi j * fj k - для расчёта относительного значения этого показателя. fi j,k – частота появления термина j или k в i – м документе. 0 <= f ( j ; k ) <= 1. Если f ( j ; k ) = 0, то термины совсем не ассоциируются, если f ( j ; k ) = 1, то полностью ассоциируемы.

12.Постановка задачи увеличения полноты при поиске в текстовой базе данных и основные методы ее решения.

Методы увеличения полноты. Часто бывает необходимо выдать наибольшее число релевантных документов из массива. В этом случае необходимо к используемым индексационным терминам добавить дополнительные, чтобы расширить область поиска.

1)1-й подход к решению этой задачи: использование терминов заместителей из словаря синонимов, который называют тезариусом, в котором термины сгруппированы в классы.

2)Метод ассоциативного индексирования. Основан на использовании матрицы ассоциируемости терминов, которая задаёт для каждой пары терминов показатель ассоциируемости. Абсолютная запись этого ПА между терминами j и k:

f ( j ; k ) = сумм ( i=1 – n ) fi j * fj k – частота совместного использования f ( j ; k ) = сумм ( i=1 – n ) fi j * fj k / (сумм ( i=1 – n ) fi j ^ 2+ сумм ( i=1 – n ) fj k ^ 2 – сумм ( i=1 – n ) fi j * fj k - для расчёта относительного значения этого показателя. fi j,k – частота появления термина j или k в i – м документе. 0 <= f ( j ; k ) <= 1.

Если f ( j ; k ) = 0, то термины совсем не ассоциируются, если f ( j ; k ) = 1, то полностью ассоциируемы.

Второй способ: используются матрицы для расширения поиска: вводится некоторое пороговое значение коэффициента ассоциируемости (СКА), выше которого коэффициенты приравниваются к единице, а ниже к 0.

13.Метод ассоциативного индексирования в задаче увеличения полноты поиска.

К-во Просмотров: 1148
Бесплатно скачать Реферат: Понятие информационной технологии 2