Реферат: Понятие информационной технологии 2
f ( j ; k ) = сумм ( i=1 – n ) fi j * fj k – частота совместного использования f ( j ; k ) = сумм ( i=1 – n ) fi j * fj k / (сумм ( i=1 – n ) fi j ^ 2+ сумм ( i=1 – n ) fj k ^ 2 - сумм ( i=1 – n ) fi j * fj k - для расчёта относительного значения этого показателя. fi j,k – частота появления термина j или k в i – м документе. 0 <= f ( j ; k ) <= 1.
Если f ( j ; k ) = 0, то термины совсем не ассоциируются, если f ( j ; k ) = 1, то полностью ассоциируемы.
Второй способ: используются матрицы для расширения поиска: вводится некоторое пороговое значение коэффициента ассоциируемости (СКА), выше которого коэффициенты приравниваются к единице, а ниже к 0.
14.Метод вероятностного индексирования в задаче увеличения полноты поиска.
Суть: наличие в документе некоторых терминов Т1 , Т2 , …, Тi позволяет с некоторой вероятностью Р отнести эти документы к классу документов Ск и присвоить вектору документов идентификатор этого класса, т.е. дополнительный термин. Причём указанная вероятность Р для этого “приписывания” должна быть больше некоторого порогового значения.
Вероятность Р записывается: Р(Т1 , Т2 , …, Тi , Ск ) – вероятность того, что при наличии терминов Тi, документ будет принадлежать классу Ск . Р(Т1 , Т2 , Тi , Ск ) = а * р(Ск ) * р(Т1 , Ск ) * (Т2 , Ск ) * … * (Тi , Ск )
Коэффициент а подбирается таким образом, чтобы выполнялось условие: сумма(к=1, m)Р(Т1 , Т2 , …, Тi , Ск ) = 1 – т.е. чтобы выполнялась полная группа событий. Документ, содержащий термин Т1 , Т2 , …, Тi обязательно должен принадлежать одному из классов Ск .
m – число классов документов нашего массива.
Р(Ск ) – вероятность класса Ск . Эта вероятность рассчитывается как частота, в числителе – число документов, находящихся в классе Ск , в знаменателе – общее число документов во всех m классах.
Р(Тj , Ск ) – дробь, в числителе – общее число появления термина Тj в документах класса Ск , в знаменателе – общее число появления всех терминов в документах класса Ск .
15.Постановка задачи улучшения точности поиска в текстовой базе данных и основные методы ее решения.
Задача - как можно точнее получать нужные документы.
2 способа:
а). Использование наиболее узких терминов.
б). Использование словосочетаний для индексирования документов. Для определения словосочетаний используются статистический и лингвистический подходы.
Статистический подход (СП):
В соответствии со СП словосочетание – такая комбинация терминов, частота совместного появления которых в массивах документов велика относительно частот появления отдельных терминов этого словосочетания. Связность терминов определяется коэффициентом связности:
Сik = Fkj / ( Fk * Fj ) * N – это связность 2-х терминов, хотя может быть и больше (до 4-х).
Fk , Fj – частные частоты терминов k и j.
Вопрос 15(окончание).
Fkj – частота совместного появления терминов.
N – число слов в массиве.
После расчёта этих значений и коэффициента связности (КС) в словосочетании отбирают такие термины, для которых Сjк и Fkj больше порогового значения, которое устанавливается эмпирически. Пороговые значения: Сjк >=20 и Fkj >= 3.
Если эти характеристики для термов, включённых в словосочетание поддерживаются, то получаются хорошие выборки.
Недостаток:
- не учитывается порядок слов в словосочетаниях;
- метод позволяет считать идентичными даже словосочетания с одинаковым порядком следования термина.
Лингвистические методы – используют упрощённые синтаксические разборы предложений, причём, как правило, предложений из заголовков текстов.
Алгоритм анализа упрощённых фраз: