Реферат: Поиск информации в www

Поисковые каталоги похожи на предметные каталоги общественных биб­лиотек. На начальной странице поискового каталога мы выбираем тему, которая нас интересует, затем в рамках темы выбираем категорию, потом подкатегорию, и так далее, пока не получим конкретный список Web-ресур­сов, рекомендованных для просмотра. Крупнейшим поисковым каталогом мира сегодня считается поисковая система Yahoo! (www.yahoo.com) Она предоставляет примерно 1 млн. ссылок к ресурсам WWW, то есть охва­тывает чуть более тысячной доли всего Web-пространства.

Основным недостатком и, в то же время, достоинством поисковых катало­гов является «человеческий фактор». Данные, которые заносятся в ката­лог, проходят «ручную обработку». Сегодня на Yahoo! работают до 150 редакторов, ежедневно просматривающих Web-пространство в поисках наиболее ценных ресурсов по темам, вызывающим общественный инте­рес. Кроме собственных редакторов служба использует и информацию, по­ставляемую Web-мастерами. Так, например, теоретически любой владелец Web-страницы может самостоятельно заполнить положенную анкету и направить ее в адрес службы. Правда, гарантии, что страница будет вклю­чена в каталог Yahoo!, это не дает, поскольку служба не замусоривает свои каталоги ссылками на страницы-однодневки. Клиентов службы всегда раздражают ссылки, указывающие на давно несуществующие ресурсы. Чтобы не иметь особой головной боли по проверке актуальности храня­щихся ссылок, служба Yahoo! предпочитает скрупулезно подходить к фор­мированию своих каталогов. Тщательность в подборе информации обеспечивает высокую репутацию Yahoo!, несмотря на то, что совокупный объем ее ресурсов крайне мал.

Другой подход к формированию каталога демонстрирует поисковая служба Open Directory (dmoz.org). В качестве источника для своих ресурсов она при­влекает пользователей WWW, которые на добровольной основе могут обо­зревать понравившиеся им Web-страницы, каталогизировать их и размещать ссылки на них на центральном сервере службы. Поскольку число добро­вольных помощников может быть очень большим, у этой службы есть все шансы перекрыть успех Yahoo!. Но принцип добровольности не гарантирует качественности работы, поэтому каталоги, равные Yahoo по качеству, по-видимому, появятся еще не скоро. Однако есть и другие подходы, основанные, например, на 5МАНГ-технологии, и мы их тоже рассмотрим.

Поисковые указатели (индексы)

11ринцип действия поискового указателя похож на принцип действия пред­метного каталога библиотеки. Пользователь формирует запрос с помощью ключевых слов, выражающих объект его поиска, а поисковая система выдает ему список ссылок на Web-страницы, содержащие данные ключевые слова. Ксли мы хотим найти информацию, посвященную взаимоотношениям А. Вольта с Н. Бонапартом, можно задать поиск документов, в которых одновременно встречаются слова Вольта и Бонапарт, например так:

+Вольта +Бонапарт или так:

Вольта AND Бонапарт

Основное отличие поисковых указателей от поисковых каталогов состоит is полной автоматизации всех этапов работы. Здесь отсутствует «челове­ческий фактор», и потому количество Web-страниц, к которым ведет поис­ковый указатель, намного больше. Летом 1999 г. крупнейшие поисковые указатели преодолели 200-миллионный рубеж и, как сообщают, следую­щий рубеж (300-миллионный) будет взят в 2000 г.

Сбор информации поисковыми роботами

Поисковые указатели работают в три этапа. Создание поисковой системы начинается с разработки специальной агентской программы, которая спо­собна путешествовать по Web-узлам Интернета, просматривать Web-стра­ницы и копировать их содержание на центральный сервер поисковой системы. Такие агентские программы называют «червяками», «пауками», «поис­ковыми роботами» (сокращенно «ботами»), «поисковыми машинами», «краулерами» и т. п. Многообразие названий связано с тем, что каждая поисковая система создает свою собственную, неповторимую программу и дает ей свое имя, которое впоследствии становится нарицательным. Большинство современных поисковых систем начинались с того, что в 1993-94 годах в университетских лабораториях были разработаны экспе­риментальные программы для мониторинга Сети.

Если при чтении Web-страницы поисковый робот находит на ней ссылки на другие страницы того же Web-узла, он переходит по этим ссылкам, читает их содержание и так далее. Как червяк, он проникает в самые отда­ленные закоулки WWW.

Индексация ресурсов

Второй этап работы поисковой системы — индексация. Собрать на цен­тральном сервере образы сотен миллионов Web-страниц — это одно дело, а суметь выбрать те из них, которые нужны клиенту, сформировавшему запрос, — совсем другое. Отвечать надо очень быстро, а для этого данные надо хранить не как попало, а в виде специальных структур. Процесс пре­образования данных из той формы, в которой они хранятся на Web-стра­ницах, в другие формы, удобные для быстрого просмотра, называется индексацией. В результате индексации и образуется база данных, кото­рую называют поисковым указателем (индексом).

У каждой поисковой системы свои приемы и методы индексации. В част­ности, перед индексацией большинство систем очищают документ от заре­зервированных слов ( stop - words ), к которым относятся артикли, предлоги, союзы, местоимения и другие слова, имеющие менее 4 символов. Однако не только короткие слова могут быть зарезервированными. Очень распрос­траненные слова, такие как Computer и Internet тоже резервируются. Искать что-то по ним бесполезно, так как они встречаются повсеместно.

Специализированные поисковые службы могут использовать и другие слова в качестве зарезервированных. Например, если служба занимается поиском книг (books), то слово book для нее может считаться зарезервиро­ванным.

На этапе подготовки к индексации может происходить нормализация слов ( stemming ) за счет отбрасывания суффиксов и окончаний. После такой «зачистки» фраза типа «Мы с братом любим ловить рыбу» превращается в ' нечто похожее на «брат люб лов рыб». Исходный документ может быть най­ден при поиске по ключевым словам «брат», «любовь», «ловить», «рыба», но никогда по словам «мы» или «с».

Некоторые системы производят нормализацию всегда. Ряд систем, бази­рующихся на службе Inktomi (см. ниже) могут действовать как тем образом, так и другим. Служба Alta Vista не производит нормализацию никогда, и это ее уникальная особенность, которая, как будет показано ниже, активно используется для контекстного поиска.

На основе «зачищенного» документа готовится индекс. Индекс — это осо­бая база данных, созданная специальным образом, чтобы ускорить поиск. Существует множество методов индексации. Разумеется, они не разглаша­ются. Как и поисковый робот, алгоритм индексации составляет коммер­ческую тайну поисковой службы, поэтому в качестве примера мы приведем лишь простейший тип индекса — так называемый обратный файл.

Суть обратного файла состоит в том, что составляется словарь из всех слов, встреченных во всех документах, собранных поисковым роботом, а затем для каждого слова записывается группа чисел, указывающих на то, в каких документах оно встречается, насколько часто, а также кое-какая служебная информация.

Исполнение запроса клиента

Третий этап — ответ на запрос клиента. Лучшие поисковые системы в ответ на запрос просматривают свои индексы за десятые доли секунды и немед­ленно возвращают списки ссылок, ведущих к затребованным ресурсам. Работа происходит следующим образом.

Система анализирует ключевые слова, которые клиент использовал в зап­росе. С ними производятся те же операции освобождения от зарезервиро­ванных слов и нормализации, после чего выполняется поиск совпадений с содержимым поисковых индексов. Эти операции в большинстве поис­ковых систем происходят примерно одинаково, но самая последняя опе­рация, когда по найденным совпадениям формируется итоговый список ссылок, всегда различается. У каждой поисковой системы своя политика формирования результирующего списка.

Если найдено очень много ссылок на ресурсы, удовлетворяющие запросу, то встает проблема их упорядочения. Здесь важно, какие ссылки дать в начале списка, а какие — в конце, то есть, надо вводить какой-то рейтинг. Разные поисковые системы имеют разные рейтинговые системы. При исчис­лении рейтинга учитывается множество параметров. За некоторые начис­ляются положительные баллы, а за некоторые — наоборот штрафные. Положительный рейтинг начисляется, в частности, при следующих обсто­ятельствах:

• если разыскиваемые слова встречаются на Web-странице неоднократно (но не слишком часто, и не подряд);

• если они расположены близко к началу страницы;

• если эти слова присутствуют в заголовке страницы;

• если Web-страница имеет иллюстрацию, альтернативный текст кото­рой тоже содержит слова, введенные пользователем.

Лучшие поисковые системы недавно ввели новый подход к рейтингованию. Они учитывают количество ссылок в проиндексированном простран­стве Web, ведущих к данному ресурсу. Это естественно, ведь чем больше публикаций ссылаются на данную страницу, тем она популярнее и тем выше вероятность того, что она будет полезной автору запроса. В традици­онном библиотечном деле такой подход известен. Например, в США давно издается многотомный ежегодный «Индекс цитирования» ( Citational Index ), в котором каталогизируются ссылки разных авторов на первоис­точники. Это непростой технически, но очень полезный для клиентов метод индексации ресурсов.

К современным относятся и коммерческие хитрости. Относительно недавно некоторые поисковые системы (в том числе и такая известная, как Alta Vista) начали повышать рейтинг тем, кто готов за это платить. Такой под­ход выглядит не очень красиво, но с точки зрения владельцев поисковых систем оправдан извечным тезисом «заботы о потребителе». Они заявляют, что для потребителя ценность информации на странице солидной фирмы, готовой нести расход на свою рекламу в Сети, все-таки выше, чем ценность доморощенной страницы никому не известного студента. Возможно, что они и правы. Во всяком случае тот, кто заплатил деньги за рейтингование своей страницы, наверное будет больше уделять внимания ее качеству, чем тот, кто сделал ее впопыхах и пристроил на первом попавшемся бес­платном сервере.

Сравнение поисковых каталогов и указателей

У каждого из двух основных типов поисковых служб есть достоинства и недостатки. Поисковые каталоги формируются вручную с помощью живых людей. Поэтому, как правило, если мы находим в них нужный нам ресурс, то этот ресурс — один из лучших в Сети. Он не обязательно самый луч­ший и, может быть, лишь входит в первую двадцатку, но он явно не слу­чаен и может рассматриваться как рекомендованный. Ответственные редакторы поискового каталога, имеющие солидное образование в боль­шинстве областей науки, техники и культуры, не будут включать в свой каталог очевидную ерунду. Поисковые каталоги удобнее и тем, что там не бывает десятков ссылок на один и тот же ресурс, размещенный в разных местах или проиндексированный в разное время. В общем, если надо быс­тро найти лучший источник по какой-то теме, надо начинать поиск с поис­кового каталога.

Недостатком поисковых каталогов является их слабое знание о подлин­ных ресурсах WWW, которое с каждым днем падает в относительном изме­рении. Как мы уже говорили, крупнейший поисковый каталог Yahoo! за шесть лет своей работы довел количество обработанных ресурсов до мил­лиона, в то время как каждый год появляются сотни миллионов новых Web-страниц.

Поисковые указатели черпают свою исходную информацию от поисковых роботов, день и ночь ползающих по просторам WWW. Процесс сбора инфор­мации полностью автоматизирован, поэтому объем проиндексированного пространства намного больше, чем у поисковых каталогов. Сегодня этот показатель превышает 25% общего пространства Сети. С другой стороны, отсутствие человеческого фактора сказывается на качестве того, что можно найти через поисковые указатели. Для робота совершенно все равно, напи­сана ли статья по физике академиком или школьником. При рейтингова-пии робот может даже поставить страницу школьника выше.

К-во Просмотров: 382
Бесплатно скачать Реферат: Поиск информации в www