Реферат: Понятие информационной технологии 2

w = 1 / 2t * wi 1 * wi 2 – вес словосочетания из 2-х терминов .

wi 1 и w i 2 - веса 1-го и 2-го термина из вектора.

t – количество слов в тексте между терминами ti 1 и t i 2 , которые не являются значимыми.

Далее по тексту определяется значимое предложение. Это такое предложение, которое содержит большое число значимых групп. После расчёта значимости предложений, они упорядочиваются и для реферирования выбираются наиболее значимые. Далее наиболее значимые предложения упорядочиваются так, как они шли в тексте, чтобы не потерять логику.

2. Позиционный метод. Включает в себя следующие не альтернативные шаги:

Наиболее значимые предложения, которые либо начинают, либо заканчивают абзац или раздел.

Исключаются вопросительные предложения, несмотря на их положение в абзаце.

К значимым относятся предложения, содержащие слова – подсказки. Например: “ данная (слово-подсказка) работа выполнена по такому – то плану и т.д.”

Из значимых исключаются те предложения, в которых есть ссылки на рисунки, таблицы, цитаты и т.д.

19.Цепочечные текстовые файлы.

К самой БД добавляется справочник, который имеет следующую структуру:

Ключ – значимое слово, характеризующее тот или иной документ. Рядом пишется адресная ссылка на тот текстовый файл, который имеет данный ключ в качестве значимого термина. И к этой подстроке добавляются собственно текстовые файлы.

Цепочечная модель: сколько индексных терминов в тексте выделено столько и должно быть ссылок.

Преимущества:

- Максимальная длина поиска определяется самой длинной цепочкой;

- Новые записи (тексты) можно ставить в начало цепи, что упрощает её корректировку.

- Недостатки:

- Цепи могут быть длинными, если некоторые ключи используются довольно часто;

- Необходимость выделения памяти для хранения адресных ссылок в самих текстах;

- Если справочник очень велик, он значительно усложняет работу с текстами и требует организации дополнительного доступа к себе самому.

20.Инвертированные текстовые файлы.

Получаются из цепочечных файлов, когда в справочник включаются адресные ссылки на все тексты, имеющие соответствующий ключ в качестве индексационного термина.

Недостаток: переменное число адресов в справочнике.

Достоинство: быстрый поиск релевантных документов, так как их адреса находятся сразу в справочнике, обработку которого можно организовать в оперативной памяти.

21.Рассредоточенные текстовые файлы.

Весь массив документов разбивается на группы файлов, ключевые термины которых связаны некоторым математическим соотношением. Тогда поиск в справочнике заменяется вычислительной процедурой, которая называется хешированием, рандомизацией или перемешиванием.

Здесь нет справочника, а существует вычислительная процедура, т.е. блок, называемый блоком рандомизации, который по ключу (поисковому термину) на основании вычислительной процедуры определяет адрес, по которому находится текст.

Ключ адрес этот участок

{ключ} памяти

К-во Просмотров: 1194
Бесплатно скачать Реферат: Понятие информационной технологии 2