Реферат: Понятие информационной технологии 2

2. Устанавливаются связи справа и/или слева от слов, выделенных в первом пункте между различными структурами.

3. Из структуры исключаются количественные числительные, вспомогательные глаголы, местоимения и т.д. Остаются лишь индексационные словосочетания. В результате должны остаться связи или комбинации вида: сущ. – сущ. (прил. - прил.).

Пример: (Some investigations)(in computer science)(which can lead)(to the creation)(of artificial intelligence). В результате имеем:

Computer science - >investigations -> artificial intelligence -> creation.

16.Статистический метод образования словосочетаний в задаче улучшения точности поиска в текстовой базе данных.

В соответствии со СП словосочетание – такая комбинация терминов, частота совместного появления которых в массивах документов велика относительно частот появления отдельных терминов этого словосочетания. Связность терминов определяется коэффициентом связности:

Сik = Fkj / ( Fk * Fj ) * N – это связность 2-х терминов, хотя может быть и больше (до 4-х).

Fk , Fj – частные частоты терминов k и j.

Fkj – частота совместного появления терминов.

N – число слов в массиве.

После расчёта этих значений и коэффициента связности (КС) в словосочетании отбирают такие термины, для которых С и Fkj больше порогового значения, которое устанавливается эмпирически. Пороговые значения: С >=20 и Fkj >= 3.

Если эти характеристики для термов, включённых в словосочетание поддерживаются, то получаются хорошие выборки.

Недостаток:

- не учитывается порядок слов в словосочетаниях;

- метод позволяет считать идентичными даже словосочетания с одинаковым порядком следования термина.

17.Лингвистический метод образования словосочетаний в задаче улучшения точности поиска в текстовой базе данных.

Лингвистические методы – используют упрощённые синтаксические разборы предложений, причём, как правило, предложений из заголовков текстов.

Алгоритм анализа упрощённых фраз:

1. Образуются предварительные словосочетания путём проставления скобок перед предлогами, числительными, неопределёнными местоимениями и т.д.

2. Устанавливаются связи справа и/или слева от слов, выделенных в первом пункте между различными структурами.

3. Из структуры исключаются количественные числительные, вспомогательные глаголы, местоимения и т.д. Остаются лишь индексационные словосочетания. В результате должны остаться связи или комбинации вида: сущ. – сущ. (прил. - прил.).

Пример: (Some investigations)(in computer science)(which can lead)(to the creation)(of artificial intelligence). В результате имеем:

Computer science - >investigations -> artificial intelligence -> creation.

18.Задача автоматического реферирования текстов и методы ее решения.

Задача создания рефератов – задача выявления списка документов и краткое его представление.

Исходные данные:

1. массив исходных данных;

2. готовые вектора документов (т.е. уже должна быть решена задача создания векторов {ti k , wi k }).

Методы для автореферирования:

К-во Просмотров: 1147
Бесплатно скачать Реферат: Понятие информационной технологии 2