Реферат: Стратегия поиска в автоматизированных информационных системах
++ векторная модель – модель информационного поиска, рассматривающая документы и запросы как векторы в пространстве слов, а релевантность как расстояние между ними
++ вероятностная модель – модель информационного поиска, рассматривающая релевантность как вероятность соответствия данного документа запросу на основании вероятностей соответствия слов данного документа идеальному ответу
++ внетекстовые критерии (off-page, вне-страничные) – критерии ранжирования документов в поисковых системах, учитыващие факторы, не содержащиеся в тексте самого документа и не извлекаемые оттуда никаким образом
++ входные страницы (doorways, hallways) – страницы, созданные для искусственного повышения ранга в поисковых системах (поискового спама ). При попадании на них пользователя перенаправляют на целевую страницу
++ дизамбигуация (tagging, part of speech disambiguation, таггинг) – выбор одного из нескольких омонимов c помощью контекста; в английском языке часто сводится к автоматическому назначению грамматической категории «часть речи»
++ дубликаты (duplicates) – разные документы с идентичным, с точки зрения пользователя, содержанием; приблизительные дубликаты (near duplicates, почти-дубликаты), в отличие от точных дубликатов, содержат незначительные отличия
++ иллюзия свежести – эффект кажущейся свежести, достигаемый поисковыми системами в интернете за счет более регулярного обхода тех документов, которые чаще находятся пользователями
++ инвертированный файл (inverted file, инверсный файл, инвертированный индекс, инвертированный список) – индекс поисковой системы, в котором перечислены слова коллекции документов, а для каждого слова перечислены все места, в которых оно встретилось
++ индекс (index, указатель) – см. индексирование
++ индекс цитирования (citation index) – число упоминаний (цитирований) научной статьи, в традиционной библиографической науке рассчитывается за промежуток времени, например, за год
++ индексирование (indexing, индексация) – процесс составления или приписывания указателя (индекса ) – служебной структуры данных, необходимой для последующего поиска
++ информационный поиск (Information Retrieval, IR) – поиск неструктурированной информации, единицой представления которой является документ произвольных форматов. Предметом поиска выступает информационная потребность пользователя, неформально выраженная в поисковом запросе. И критерий поиска, и его результаты недетермированы. Этими признаками информационный поиск отличается от «поиска данных», который оперирует набором формально заданных предикатов, имеет дело со структурированной информацией и чей результат всегда детерминирован. Теория информационного поиска изучает все составляющие процесса поиска, а именно, предварительную обработку текста (индексирование), обработку и исполнение запроса, ранжирование, пользовательский интерфейс и обратную связь.
++ клоакинг (cloaking) – техника поискового спама , состоящая в распознании авторами документов робота (индексирующего агента) поисковой системы и генерации для него специального содержания, принципиально отличающегося от содержания, выдаваемого пользователю
++ контрастность термина – см. различительная сила
++ латентно-семантическое индексирование – запатентованный алгоритм поиска по смыслу , идентичный факторному анализу. Основан на сингулярном разложении матрицы связи слов с документами
++ лемматизация (lemmatization, нормализация) – приведение формы слова к словарному виду, то есть лемме
++ накрутка поисковых систем – см. спам поисковых систем
++ непотизм – вид спама поисковых систем , установка авторами документов взаимных ссылок с единственной целью поднять свой ранг в результатах поиска
++ обратная встречаемость в документах (inverted document frequency, IDF , обратная частота в документах, обратная документная частота) – показатель поисковой ценности слова (его различительной силы ); обратная говорят, потому что при вычислении этого показателя в знаменателе дроби обычно стоит число документов, содержащих данное слово
++ обратная связь – отклик пользователей на результат поиска, их суждения о релевантности найденных документов, зафиксированные поисковой системой и использующиеся, например, для итеративной модификации запроса. Следует отличать от псевдо-обратной связи – техники модификации запроса, в которой несколько первых найденных документов автоматически считаются релевантными
++ омонимия – см. полисемия
++ основа – часть слова, общая для набора его словообразовательных и словоизменительных (чаще) форм
++ поиск по смыслу – алгоритм информационного поиска , способный находить документы, не содержащие слов запроса
++ поиск похожих документов (similar document search) – задача информационного поиска , в которой в качестве запроса выступает сам документ и необходимо найти документы, максимально напоминающие данный
++ поисковая система (search engine, SE, информационно-поисковая система, ИПС, поисковая машина, машина поиска, «поисковик», «искалка») – программа, предназначенная для поиска информации, обычно текстовых документов
++ поисковое предписание (query, запрос) – обычно строчка текста
++ полисемия (polysemy, homography, многозначность, омография, омонимия ) - наличие нескольких значений у одного и того же слова
++ полнота (recall, охват) – доля релевантного материала, заключенного в ответе поисковой системы, по отношению ко всему релевантному материалу в коллекции
++ почти-дубликаты (near-duplicates, приблизительные дубликаты) – см. дубликаты