Реферат: Поиск информации в www

Как нетрудно догадаться, достоинства поисковых каталогов являются недостатками поисковых указателей и наоборот. Основных параметров, с помощью которых оценивают качество поисковых систем, всего два: коэф­фициент попадания и коэффициент охвати.

Коэффициент попадания показывает, какой процент ссылок, выданных поисковой системой, действительно относится к той теме, которая интере­сует клиента. Для поисковых каталогов этот коэффициент очень высок. Поскольку их составляют люди, появление «мусорной» ссылки — редкость. Обычно она возникает только когда за время, прошедшее после регистра­ции, Web-страница перестает существовать. Для каталогов этот коэффи­циент составляет порядка 70-80%, и уж во всяком случае не должен быть менее 50 %.

Для поисковых указателей этот коэффициент печально низок. Если не предпринимать специальных мер, он составляет единицы процентов. При­чина лежит, во-первых, в том, что автоматические средства не могут точно выявлять тематическую принадлежность Web-страниц на основе формаль­ных признаков, а во-вторых, в том, что большинство клиентов не умеют пользоваться всеми возможностями поисковых систем и формируют зада­ние на поиск далеко не оптимально.

Коэффициент охвата показывает, насколько база данных поисковой сис­темы отражает истинное количество информации, имеющейся по данной теме в мире. Здесь впереди поисковые указатели. Самые совершенные из hiix имеют коэффициент охвата порядка 25%. Поисковые каталоги, наобо­рот, не охватывают и одного процента всех наличных ресурсов.

С точки зрения пользователя качество поиска означает стремление полу­чить как можно больше ссылок по интересующей его теме, но так, чтобы в результирующем списке было как можно меньше ссылок, не имеющих прямого отношения к объекту поиска. Пользователь желает, чтобы каждый из коэффициентов был близок к 100%. Его субъективная оценка качества поисковой системы напоминает произведение коэффициента попадания на коэффициент охвата. Сегодня же и для поисковых каталогов, и для поиско­вых указателей это произведение составляет десятые доли процента.

Гибридные системы

В стремлении повысить качество работы поисковых служб есть попытки совместить оба подхода. При этом возможны два варианта: поисковые каталоги привлекают возможности поисковых указателей, переадресуя им запрос. Например, до последнего времени поисковый каталог Yahoo переадресовывал особо сложные запросы поисковому указателю Alta Vista.:

Сегодня Yahoo! привлекает средства другого партнера — Inktomi. '

С другой стороны, поисковые указатели научились выполнять автоматическую каталогизацию своих ресурсов и предоставлять к ним доступ так как это принято в поисковых каталогах. Пример такого подхода являет самый мощный сегодня поисковый указатель Fast Search

Метапоисковые системы

К метапиисковым системам относится множество поисковых служб вто­рого эшелона. Они принимают от пользователя запрос и размещают его сразу на нескольких поисковых серверах. Потом они собирают поступив­шую от них информацию, обобщают ее, структурируют, рафинируют (очи­щают) и передают клиенту. Увеличенное время исполнения запроса компенсируется улучшенным качеством результатов поиска.

Первое время крупные поисковые системы спокойно смотрели на суще- , ствование «под собой» метапоисковых систем. Однако в последнее время в связи с бурным развитием идеи порталов все чаще и чаще встречаются запреть! на метапоиск. А если говорить точнее, крупные поисковые сис­темы начали заниматься им сами, привлекая ресурсы коллег на взаимо­выгодной основе.

Порталы

Входя в World Wide Web с помощью броузера, мы попадаем на какую-то страницу, которая задана в настройках броузера в качестве начальной. Пользователь может легко перенастроить свой броузер на работу с другой начальной страницы. Какую именно страницу он будет использовать — его личное дело. Опыт показывает, что очень удобно иметь в качестве началь­ной страницы такую, на которой уже представлено несколько ссылок на основные поисковые системы. Удобно здесь же иметь доступ к электрон­ной почте. Неплохо, если на этой странице всегда отображаются послед­ние новости из мира политики, искусства, спорта, бизнеса и т. п. Такие « готовые» начальные страницы называются порталами. В мире существу­ет множество порталов — настройте свой броузер на тот, который наилуч­шим образом соответствует вашим личным интересам. Хорошие порталы предоставляют пользователю возможность персональной настройки «под себя». Надо только включить флажки против тех поставщиков информа­ции, которые вам интересны, и выключить у тех, которые для вас неакту­альны.

Борясь за клиентов, многие поисковые системы превращаются в порталы. Это означает, что они не только готовы поставлять результаты поиска, но II способны выполнять другие услуги. Часто название порталов начинается со слова My (Мой/Моя/Мое). Например, если на поисковых системах Yahoo!, Alta Vista или DejaNews вам предлагают подписаться на службу MyYahoo, MyAltaVista или MyDejaNews, то, значит, речь идет о том, чтобы стать посто­янным клиентом удобного портала.

Другой причиной того, что поисковые системы постепенно превращаются в порталы, стал тот факт, что им стало трудно одновременно и «копиро­вать» пространство WWW, и индексировать гигантские базы данных, и "Услуживать запросы клиентов. Поисковые системы начинают распреде­лять обязанности. Задачи по контролю за Web-пространством постепенно передаются на партнерских основаниях «третьим» фирмам, а сами поис­ковые системы сосредоточиваются на обслуживании клиентов и привле­чении рекламодателей, то есть превращаются в порталы.

Рейтинговые службы

В последние три года появился новый тип служб, позволяющих быстро разыскивать информацию в Сети, — это так называемые реитинговые службы. Они занимают промежуточное положение между поисковыми службами и порталами и могут использоваться как в том, так и в другом качестве.

Суть рейтинговой службы состоит в том, что на ее сервере создаются тема­тические СП1-1СКИ ссылок на наиболее популярные Web-ресурсы. Хоть эти списки и небольшие, представительность их велика, поскольку именно эти ссылки предпочитают большинство клиентов Сети.

Когда мы выбираем одну из ссылок, представленных на сервере службы, срабатывает счетчик, и рейтинг этого ресурса увеличивается. Каждый следующий посетитель видит, сколько «нащелкали» его предшественники, и понимает, какой ресурс ему стоит посмотреть. Поиск с помощью рейтинговых служб можно рассматривать как поиск «по рекомендациям». Разумеется, он не может претендовать на объективность, но когда речь идет о темах, имеющих общественный интерес, таких как новости, поли­тика, спорт, кино, музыка, компьютерные игры и т. п., этим «рекоменда­циям» можно доверять. Самая популярная отечественная рейтинговая служба — Rambler (www.rambler.ru). Наиболее популярная зарубежная рей­тинговая служба — Webside Story (www.hitbox.com)

Основные поисковые системы

AltaVista ( http://www.altavista.com/ )

По количеству индексированных Web-страниц Alta-Vista — одна из крупнейших (но не самая крупная, как это иногда считается) поисковых систем мира. Огромный объем охвата Web-пространства и мощ­ный набор поисковых команд делают эту систему излюбленным средством поиска для большинства пользователей. Система была запущена в эксплуа­тацию в декабре 1995 г. и долгое время считалась молодой, но бурно развива­ющейся. Для начинающих система имеет упрощенную службу, которая называется Ask Alta Vista. В своей работе эта служба привлекает другую поис­ковую службу — Ask Jeeves (см. ниже). Несмотря на то, что сегодня Alta Vista уже не является самым удобным средством поиска и владеет не самым большим индексом, ее популярность по-прежнему выше, чем у служб, кото­рые превзошли ее по многим показателям, что связано с устоявшимися привычками миллионов пользователей.

Ask Jeeves (http://www.askjeeves.com/)

Эта система представляет образец человеческого (неавтоматизированного) подхода к индексации и хранению информации о Web-документах. Ее цель не в том, чтобы выдать в ответ на запрос как можно больше возможных ссылок, в том, чтобы они были наиболее точны. В идеале система должна вас направить именно к той Web-странице, которая вам как раз и нужна. Сис­тема была введена в эксплуатацию в июне 1997 г. Результаты поиска в этой системе используются и при размещении запроса в Alta Vista.

Direct Hit (http://www.directhit.com/)

Систему Direct Hit можно назвать системой «рафинирования» результатов поиска, выдаваемых другими поисковыми системами. Она контролирует, какими результатами поисков клиенты пользуются наиболее часто и, тем самым, создает некий рейтинг популярности Web-стра­ниц. Этот рейтинг она предоставляет другим поисковым системам, и они учитывают его при выдаче результатов. Технология Direct Hit напрямую используется поисковой системой HotBot. Она также учитывается систе­мами Lycos, LookSmart и MSN Search.

Excite (http://www.exc1te.com/)

Excite — одна из самых популярных поисковых систем World Wide Web. Она имеет указатель среднего размера и кроме поиска Web-страниц предоставляет услуги по поиску других материалов, например сведений о компаниях или результатов спортивных соревнований. Система была создана в конце 1995 г., прошла этап бурного развития и в 1996 г. погло­тила двух ближайших конкурентов: систему Magellan и WebCrawler, хотя те по-прежнему сохраняют свои торговые марки и предоставляют поис­ковые услуги как самостоятельные службы.

FAST Search (http://www.alltheweb.com/)

Эта система, принадлежащая норвежской компании, ранее называлась All TheWeb. Несмотря на то, что она была запущена совсем недавно (в мае 1999 г.), перед ней ставится задача обогнать конкурентов в полноте коллекций ссылой;

на Web-страницы. Кажется, ей это удается. Летом 1999 г. FAST Search первое перешагнула 200-миллионный рубеж проиндексированных Web-докумеатов. Кроме системы FAST Search та же компания контролирует подразделение системы Lycos, занимающееся поиском музыкальных файлов в формате МРЗ. л !

Go/Infoseek (http://www.go.com/)

Go/lhfoseek — это сочетание известной в прошлом поисковой системы Infoseek (была основана в 1995 г.) и современного портала Go (создан в 1999 г. и принадлежит небезызвестной Walt Disney Co). Кроме поисковых возможностей Infoseek портал пре-| доставляет зарегистрированным пользователям возможность персональной настройки среды, бесплатную электронную почту и другие полезные cepвисы. Пользователи этой системы отмечают высокое качество ссылок, возвращаемых системой, что объясняется специальным «фирменным» алгоритмом! поиска. Кроме автоматизированного указателя система имеет также обширный каталог Web-узлов, составляемый вручную.

К-во Просмотров: 383
Бесплатно скачать Реферат: Поиск информации в www