Реферат: Понятие информационной технологии 2
Sk / Nk . Чем больше это отношение, тем больший вес
Назначается. Строится однозначная таблица.
1.Использование распределения частоты термина (уклонения).
Уклонение рассчитывается:
U = (сумм (fi k – f k )) / (n-1)
F k – средняя частота термина k в наборе из n документов.
F k = Fk / n
Для оценки веса термина используется не уклонение, а формула Fk * U/ f k
Чем больше это отношение, тем больший вес назначается термину.
2.Параметры, основанные на способности термина различать документы набора. Исходные данные – набор из n документов и множество S коэффициентов подобия всех пар документов из множества n: { S ( Di , Dj ) }. Эти коэффициенты подобия рассчитываются на основании векторов документов. Способ расчета разный, а принцип: S ( Di , Dj ) = 1, если вектора идентичны.
S ( Di , Dj ) = 0 , еслив векторах нет ни одного общего документа.
По S рассчитывают средний коэффициент подобия:S = C * сумм (i= 1 – n) S ( Di , Dj ), С – коэффициент усреднения, может быть любым, в частности C = 1 / n.
Далее из векторов документов удаляют некоторый k – й термин и рассчитывают средний коэффициент по парного подобия, но с удалённым k –м термином: S k ( т.е. в векторах документа не участвуют веса k –го термина). Если S k возрастает относительноS , то термину k присваивается положительный вес. Чем больше эта разница, тем больший вес присваивается
11.Методы индексирования, основанные на положении термина в тексте.
Подходы:
1.В индексационные термины включаются те, которые встречаются в названиях документов, названиях глав, разделов и т.д.
2.Составляются списки значимых для некоторой предметной области слов. Т.е. составляется глоссарий по некоторой предметной области.
3.Методы увеличения полноты. Часто бывает необходимо выдать наибольшее число релевантных документов из массива. В этом случае необходимо к используемым индексационным терминам добавить дополнительные, чтобы расширить область поиска.
1)1-й подход к решению этой задачи: использование терминов заместителей из словаря синонимов, который называют тезариусом, в котором термины сгруппированы в классы.
2)Метод ассоциативного индексирования. Основан на использовании матрицы ассоциируемости терминов, которая задаёт для каждой пары терминов показатель ассоциируемости. Абсолютная запись этого ПА между терминами j и k:
f ( j ; k ) = сумм ( i=1 – n ) fi j * fj k – частота совместного использования f ( j ; k ) = сумм ( i=1 – n ) fi j * fj k / (сумм ( i=1 – n ) fi j ^ 2+ сумм ( i=1 – n ) fj k ^ 2 - сумм ( i=1 – n ) fi j * fj k - для расчёта относительного значения этого показателя. fi j,k – частота появления термина j или k в i – м документе. 0 <= f ( j ; k ) <= 1. Если f ( j ; k ) = 0, то термины совсем не ассоциируются, если f ( j ; k ) = 1, то полностью ассоциируемы.
12.Постановка задачи увеличения полноты при поиске в текстовой базе данных и основные методы ее решения.
Методы увеличения полноты. Часто бывает необходимо выдать наибольшее число релевантных документов из массива. В этом случае необходимо к используемым индексационным терминам добавить дополнительные, чтобы расширить область поиска.
1)1-й подход к решению этой задачи: использование терминов заместителей из словаря синонимов, который называют тезариусом, в котором термины сгруппированы в классы.
2)Метод ассоциативного индексирования. Основан на использовании матрицы ассоциируемости терминов, которая задаёт для каждой пары терминов показатель ассоциируемости. Абсолютная запись этого ПА между терминами j и k:
f ( j ; k ) = сумм ( i=1 – n ) fi j * fj k – частота совместного использования f ( j ; k ) = сумм ( i=1 – n ) fi j * fj k / (сумм ( i=1 – n ) fi j ^ 2+ сумм ( i=1 – n ) fj k ^ 2 – сумм ( i=1 – n ) fi j * fj k - для расчёта относительного значения этого показателя. fi j,k – частота появления термина j или k в i – м документе. 0 <= f ( j ; k ) <= 1.
Если f ( j ; k ) = 0, то термины совсем не ассоциируются, если f ( j ; k ) = 1, то полностью ассоциируемы.
Второй способ: используются матрицы для расширения поиска: вводится некоторое пороговое значение коэффициента ассоциируемости (СКА), выше которого коэффициенты приравниваются к единице, а ниже к 0.
13.Метод ассоциативного индексирования в задаче увеличения полноты поиска.