Реферат: Стратегия поиска в автоматизированных информационных системах

++ прямой поиск – поиск непосредственно по тексту документов, без предварительной обработки (без индексирования )

++ псевдо-обратная связь – см. обратная связь

++ различительная сила слова (term specificity, term discriminating power, контрастность, различительная сила) – степень ширины или узости слова. Слишком широкие термины в поиске приносят слишком много информации, при это существенная часть ее бесполезна. Слишком узкие термины помогают найти слишком мало документов, хотя и более точных.

++ регулярное выражение (regualr expression, pattern, «шаблон», реже «трафарет», «маска») – способ записи поискового предписания , позволяющий определять пожелания к искомому слову, его возможные написания, ошибки и т.д. В широком смысле – язык, позволяющий задавать запросы неограниченной сложности

++ релевантность (relevance, relevancy) – соответствие документа запросу

++ сигнатура (signature, подпись) – множество хеш-значений слов некоторого блока текста. При поиске по методу сигнатур все сигнатуры всех блоков коллекции просматриваются последовательно в поисках совпадений с хеш-значениями слов запроса

++ словоизменение (inflection) – образование формы определенного грамматического значения, обычно обязательного в данном грамматическом контексте, принадлежащей к фиксированному набору форм (парадигме), характерного для слов данного типа. В отличие от словообразования никогда не приводит к смене типа и порождает предсказуемое значение. Словоизменение имен называют склонением (declension), а глаголов – спряжением (conjugation)

++ словообразование (derivation) – образование слова или основы из другого слова или основы. Чаще приводит к смене типа и к образованию слов, имеющих идеосинкразическое значение

++ смыслоразличительный – см. различительная сила

++ спам поисковых систем (spam, спамдексинг, накрутка поисковых систем) – попытка воздействовать на результат информационного поиска со стороны авторов документов

++ статическая популярность – см. PageRank

++ стемминг – поцесс выделения основы слова

++ стоп-слова (stop-words) – те союзы, предлоги и другие частотные слова, которые данная поисковая система исключила из процесса индексирования и поиска для повышения своей производительности и/или точности поиска

++ суффиксные деревья, суффиксные массивы (suffix trees, suffix arrays, PAT-arrays) индекс , основанный на представлении всех значимых суффиксов текста в структуре данных, известной как бор (trie). Суффиксом в этом индексе называю любую «подстроку», начинающуюся с некоторой позиции текста (текст рассматривается как одна непрерывная строка) и продолжающуюся до его конца. В реальных приложениях длина суффиксов ограничена, а индексируются только значимые позиции – например, начала слов. Этот индекс позволяет выполнять более сложные запросы, чем индекс, построенный на инвертированных файлах

++ токенизация (tokenization, lexical analysis, графематический анализ, лексический анализ) – выделение в тексте слов, чисел, и иных токенов , в том числе, например, нахождение границ предложений

++ точность (precision) - доля релевантного материала в ответе поисковой системы

++ хеш-з

К-во Просмотров: 266
Бесплатно скачать Реферат: Стратегия поиска в автоматизированных информационных системах