Информатика / Реферат: Понятие информационной технологии 2

Реферат: Понятие информационной технологии 2

f ( j ; k ) = сумм ( i=1 – n ) f_i ^j * f_j ^k – частота совместного использования f ( j ; k ) = сумм ( i=1 – n ) f_i ^j * f_j ^k / (сумм ( i=1 – n ) f_i ^{j ^} 2+ сумм ( i=1 – n ) f_j ^{k ^} 2 - сумм ( i=1 – n ) f_i ^j * f_j ^k - для расчёта относительного значения этого показателя. f_i ^j,k – частота появления термина j или k в i – м документе. 0 <= f ( j ; k ) <= 1.

Если f ( j ; k ) = 0, то термины совсем не ассоциируются, если f ( j ; k ) = 1, то полностью ассоциируемы.

Второй способ: используются матрицы для расширения поиска: вводится некоторое пороговое значение коэффициента ассоциируемости (СКА), выше которого коэффициенты приравниваются к единице, а ниже к 0.

14.Метод вероятностного индексирования в задаче увеличения полноты поиска.

Суть: наличие в документе некоторых терминов Т₁ , Т₂ , …, Т_i позволяет с некоторой вероятностью Р отнести эти документы к классу документов Ск и присвоить вектору документов идентификатор этого класса, т.е. дополнительный термин. Причём указанная вероятность Р для этого “приписывания” должна быть больше некоторого порогового значения.

Вероятность Р записывается: Р(Т₁ , Т₂ , …, Тi , С_к ) – вероятность того, что при наличии терминов Тi, документ будет принадлежать классу С_к . Р(Т₁ , Т₂ , Т_i , С_к ) = а * р(С_к ) * р(Т₁ , С_к ) * (Т₂ , С_к ) * … * (Т_i , С_к )

Коэффициент а подбирается таким образом, чтобы выполнялось условие: сумма(к=1, m)Р(Т₁ , Т₂ , …, Т_i , С_к ) = 1 – т.е. чтобы выполнялась полная группа событий. Документ, содержащий термин Т₁ , Т₂ , …, Т_i обязательно должен принадлежать одному из классов С_к .

m – число классов документов нашего массива.

Р(С_к ) – вероятность класса С_к . Эта вероятность рассчитывается как частота, в числителе – число документов, находящихся в классе С_к , в знаменателе – общее число документов во всех m классах.

Р(Т_j , С_к ) – дробь, в числителе – общее число появления термина Т_j в документах класса С_к , в знаменателе – общее число появления всех терминов в документах класса С_к .

15.Постановка задачи улучшения точности поиска в текстовой базе данных и основные методы ее решения.

Задача - как можно точнее получать нужные документы.

2 способа:

а). Использование наиболее узких терминов.

б). Использование словосочетаний для индексирования документов. Для определения словосочетаний используются статистический и лингвистический подходы.

Статистический подход (СП):

В соответствии со СП словосочетание – такая комбинация терминов, частота совместного появления которых в массивах документов велика относительно частот появления отдельных терминов этого словосочетания. Связность терминов определяется коэффициентом связности:

С^ik = F^kj / ( F^k * F^j ) * N – это связность 2-х терминов, хотя может быть и больше (до 4-х).

F^k , F^j – частные частоты терминов k и j.

Вопрос 15(окончание).

F^kj – частота совместного появления терминов.

N – число слов в массиве.

После расчёта этих значений и коэффициента связности (КС) в словосочетании отбирают такие термины, для которых С^jк и F^kj больше порогового значения, которое устанавливается эмпирически. Пороговые значения: С^jк >=20 и F^kj >= 3.

Если эти характеристики для термов, включённых в словосочетание поддерживаются, то получаются хорошие выборки.

Недостаток:

- не учитывается порядок слов в словосочетаниях;

- метод позволяет считать идентичными даже словосочетания с одинаковым порядком следования термина.

Лингвистические методы – используют упрощённые синтаксические разборы предложений, причём, как правило, предложений из заголовков текстов.

Алгоритм анализа упрощённых фраз:

К-во Просмотров: 1271

Бесплатно скачать Реферат: Понятие информационной технологии 2

>>> Скачать <<<