Реферат: Понятие информационной технологии 2
w = 1 / 2t * wi 1 * wi 2 – вес словосочетания из 2-х терминов .
wi 1 и w i 2 - веса 1-го и 2-го термина из вектора.
t – количество слов в тексте между терминами ti 1 и t i 2 , которые не являются значимыми.
Далее по тексту определяется значимое предложение. Это такое предложение, которое содержит большое число значимых групп. После расчёта значимости предложений, они упорядочиваются и для реферирования выбираются наиболее значимые. Далее наиболее значимые предложения упорядочиваются так, как они шли в тексте, чтобы не потерять логику.
2. Позиционный метод. Включает в себя следующие не альтернативные шаги:
Наиболее значимые предложения, которые либо начинают, либо заканчивают абзац или раздел.
Исключаются вопросительные предложения, несмотря на их положение в абзаце.
К значимым относятся предложения, содержащие слова – подсказки. Например: “ данная (слово-подсказка) работа выполнена по такому – то плану и т.д.”
Из значимых исключаются те предложения, в которых есть ссылки на рисунки, таблицы, цитаты и т.д.
19.Цепочечные текстовые файлы.
К самой БД добавляется справочник, который имеет следующую структуру:
Ключ – значимое слово, характеризующее тот или иной документ. Рядом пишется адресная ссылка на тот текстовый файл, который имеет данный ключ в качестве значимого термина. И к этой подстроке добавляются собственно текстовые файлы.
Цепочечная модель: сколько индексных терминов в тексте выделено столько и должно быть ссылок.
Преимущества:
- Максимальная длина поиска определяется самой длинной цепочкой;
- Новые записи (тексты) можно ставить в начало цепи, что упрощает её корректировку.
- Недостатки:
- Цепи могут быть длинными, если некоторые ключи используются довольно часто;
- Необходимость выделения памяти для хранения адресных ссылок в самих текстах;
- Если справочник очень велик, он значительно усложняет работу с текстами и требует организации дополнительного доступа к себе самому.
20.Инвертированные текстовые файлы.
Получаются из цепочечных файлов, когда в справочник включаются адресные ссылки на все тексты, имеющие соответствующий ключ в качестве индексационного термина.
Недостаток: переменное число адресов в справочнике.
Достоинство: быстрый поиск релевантных документов, так как их адреса находятся сразу в справочнике, обработку которого можно организовать в оперативной памяти.
21.Рассредоточенные текстовые файлы.
Весь массив документов разбивается на группы файлов, ключевые термины которых связаны некоторым математическим соотношением. Тогда поиск в справочнике заменяется вычислительной процедурой, которая называется хешированием, рандомизацией или перемешиванием.
Здесь нет справочника, а существует вычислительная процедура, т.е. блок, называемый блоком рандомизации, который по ключу (поисковому термину) на основании вычислительной процедуры определяет адрес, по которому находится текст.
Ключ адрес этот участок
{ключ} памяти