Курсовая работа: Поиск информации в Интернет
- создание Web- страницы на основе найденных в сети документов.
1 ОБЩИЕ ПРИНЦИПЫ ОРГАНИЗАЦИИ ПОИСКА ИНФОРМАЦИИ В СЕТИ ИНТЕРНЕТ
1.1 Поиск информации в Интернет: стратегия и методика
Поиск информации является одной из наиболее распространенных и одновременно наиболее сложных задач, с которыми приходится сталкиваться в Сети любому пользователю. Причина сложностей, возникающих при информационном поиске в Интернет, определяется двумя главными факторами. Во-первых, число источников в Сети чрезвычайно велико. Во-вторых, массив информации в Сети не только колоссален по объему, но еще и крайне динамичен. За те полминуты, что мы потратим на чтение первых строк этого раздела, в виртуальной вселенной появится порядка сотни новых или измененных документов, десятки будут перемещены на новые адреса, а единицы - навсегда прекратят свое существование.
Необходимость и важность проблемы информационного поиска привела к образованию в самом Интернет целой отрасли, задача которой заключается именно в оказании помощи пользователю в его навигации в киберпространстве. Составляют эту отрасль специальные поисковые службы или сервисы. Условно их можно разделить на кaтaлoги (dirесtоriеs) и пoиcкoвыe мaшины (sеаrсh еnginеs).
Эти разновидности внешне очень похожи, поскольку каждый каталог, как правило, обладает собственной поисковой машиной, а каждая поисковая машина - собственным каталогом. Однако принципы их работы базируются на абсолютно разных подходах и технологиях. Каждый из этих инструментов имеет определенные преимущества, а основная разница между ними заключается в участии/неучастии человека. Поисковые машины запускают в Web программных «пауков» (spiders), которые путешествуют со страницы на страницу и на каждой индексируют ее полный текст. Каталоги же формируются людьми-редакторами, которые прочитывают страницы, отсеивают неподходящие и классифицируют узлы по темам. При этом каждая разновидность поисковых сервисов применяется для решения определенного типа задач. Правильным выбором инструмента во многом определяется стратегия поисковой деятельности и, в конечном итоге, результат разысканий.
Приступая к информационному поиску в Интернет, следует всегда помнить несколько основных моментов. Прежде всего, никакие средства навигации - каталоги или поисковые машины - не охватывают всего текущего информационного массива Интернет. По некоторым оценкам, даже такие признанные лидеры сетевого поиска как Google, отражают не более трети совокупного содержания Сети. Причина этого - постоянный колоссальный прирост объемов информации в Интернет, который, несмотря на все усилия навигационных служб, содержит огромное число белых пятен.
Помимо быстрого роста и изменения местоположения документов, большинство поисковых систем имеют внутренние ограничения на отражение материалов одного сайта и на объем индексируемой части страницы. Программы-роботы зачастую не идут в глубь сервера дальше определенной директории, что также сокращает число отраженных материалов.
В тоже время многие крупные сайты имеют собственную систему поиска, которая отражает весь их информационный массив. Выявив такие сервера с помощью каталогов, можно провести более детальное их обследование, использовав локальный поисковый механизм. Таким образом, для достижения наиболее полных результатов следует применять каталоги и поисковые машины в сочетании друг с другом.
Существует также ряд общих требований к поисковой деятельности, соблюдение которых повышает эффективность и экономит время, затрачиваемое на разыскание данных.
1. Для поиска материалов по крайне узкой специфической тематике стоит начинать с каталогов.
2. Для получения более полных результатов по сложному запросу поиск рекомендуется проводить отдельно в каждой поисковой машине. Поисковые системы имеют сильный разнос в отражении документов и их последовательное использование в значительной степени расширяет охват материала.
3. При разыскании документов об отдельной стране или на конкретном языке следует отдать предпочтение национальным/региональным поисковым средствам.
4. Формировать запрос надо максимально точно, используя все возможности механизма составления запроса. Затраты времени на детальное составление поискового предписания окупаются при анализе результатов поиска. При точном формировании запроса процент информационного шума будет намного ниже.
При систематическом обращении к поисковым средствам, необходимо постоянно следить за новостями, относящимися к поисковому сервису. В окружающем нас мире вообще, а в цифровом мире тем более, нет ничего вечного. Каждая поисковая система переживает периоды зарождения, расцвета и упадка. Не бойтесь отказаться от использования любимой, но устаревающей поисковой системы и перейти на использование новых поисковых инструментов, обладающих большей эффективностью.
1.2 Поиск с помощью каталогов
1.2.1 Принцип работы, преимущества и недостатки каталогов
Каталоги – это пионеры навигации в Сети. Каталог представляет собой данные, структурированные по темам в виде иерархических структур. Пpи зaгpузкe кaтaлoгa нa экpaн вывoдитcя caмый oбщий пepечeнь oблacтeй чeлoвeчecкoй дeятeльнocти: ИCКУCCTВO, OБPAЗOВAHИE, БИЗHEC, HAУKA, ИГPЫ, CПOPT и т.д. Каталоги имеют иерархическую структуру, то есть пользователь, входя в любой раздел каталога, последовательно видит все более и более дробную его детализацию. Бoльшинcтвo кaтaлoгoв сoздaются путeм дoбaвлeния aвтopaми wеb-cтpaниц cвoeгo сaйтa к сущecтвующeму cпиcку ccылoк.
Поисковые кaтaлoги coздaются вpучную, т.e. инфopмaция в них зaнoсится людьми. Высококвалифицированные редакторы лично просматривают информационное пространство WWW, отбирают то, что по их мнению представляет общественный интерес, и заносят в каталог. Благодаря "человеческому" фактору, информация в каталогах организована достаточно четко, что позволяет в определенных случаях достичь требуемого результата быстрее, чем при помощи поисковых машин. Основной проблемой поисковых каталогов является чрезвычайно низкий коэффициент охвата ресурсов WWW. В каталоги попадают лишь лучшие страницы. Поэтому найти достаточно специфическую информацию в каталоге зачастую очень сложно.
Кроме основных разделов многие каталоги имеют дополнительные, в которых сайты классифицированы по другому основанию: региону, стране; алфавиту; популярности.
Особенность каталогов в том, что они более эффективны при поиске подборок информации на определенную общую тему, например, «профсоюзное движение», «редакции газет Урала», а не при поиске ответа на конкретный вопрос!
Каталоги могут быть:
· специализированными и включать только ссылки на сайты определенной, узкой тематики. Подобные каталоги удобны для поиска информации по конкретной тематике. Пример специализированного каталога: «Русский медицинский сервер» dir.rusmedserv.com.
· универсальными, которыепозволяют производить поиск по различным темам. Информация сгруппирована по разделам. Каждый раздел имеет несколько подразделов. Например, www.ru, referal.ru, www.freeedom.ru.
1.2.2 Электронные каталоги глобального масштаба
Созданием и актуализацией каталогов глобального масштаба в большинстве случаев занимаются информационные компании, прежде всего американские. Практически все каталоги декларируют всемирный охват материала, однако, практика показывает, что основной упор делается все-таки на североамериканские сайты. Естественно, что обращение к глобальным каталогам ресурсов требует минимального владения английским языком.
Yahoo! (http://www.yahoo.com/)
Yahoo! является одним из самых первых, надежных и авторитетных каталогов Всемирной паутины. У каталога два основных достоинства: - внушительный объем (на сегодня отражено порядка 2 миллионов сайтов в более чем 25 тысячах категорий) и научность и логичность используемой схемы классификации. Основной ряд Yahoo! включает 14 категорий, в числе которых: БИЗНЕС И ЭКОНОМИКА, КОМПЬЮТЕРЫ И ИНТЕРНЕТ, НОВОСТИ И СМИ, РАЗВЛЕЧЕНИЯ, ИСКУССТВО И ГУМАНИТАРНЫЕ НАУКИ, ОБРАЗОВАНИЕ, ПОЛИТИКА, ЗДРАВООХРАНЕНИЕ, ЕСТЕСТВЕННЫЕ НАУКИ, ОБЩЕСТВЕННЫЕ НАУКИ и т.д. Использование Yahoo! , как и любых других каталогов, наиболее эффективно для ознакомления с наполнением Интернет по различным областям деятельности, при размытости критериев пoиcкa - кoгдa нeизвecтнo пo кaким ключeвым cлoвaм ocущecтвлять пoиcк. Yahoo! - огромный транснациональный проект. В основном каталоге учитываются, главным образом, англоязычные ресурсы, представленные по всему миру. Для разысканий по отдельным странам выделены Local Yahoos! - региональные каталоги, обладающие иерархической структурой, аналогичной главному справочнику, но отражающие ресурсы в основном отдельных стран, большинство которых представлено на национальных языках. Учитывая гигантскую популярность и, следовательно, посещаемость Yahoo! , в последние несколько лет его владельцы уделяют все большее внимание побочным сервисам, среди которых электронные магазины, аукционы, службы новостей, агентства путешествий и т.п. (Приложение 1)
Оре n Dir ес t о ry Р r о j ус t (http://dmoz.org/)
Каталог ресурсов Интернет, являющийся на сегодня одним из наиболее полных в мире - порядка 4,5 миллионов сайтов в более чем 590 тысячах категорий. Главной особенностью проекта является его некоммерческая направленность: он практически полностью формируется силами добровольцев из числа пользователей Сети, считающих себя экспертами в различных областях знания. В этом одновременно сила и слабость проекта, поскольку степень и качество наполнения разных категорий каталога полностью определяются наличием, квалификацией и степенью ответственности редактора конкретной рубрики. Иерархическая структура Open Directory достаточно научна и логична. В каждой рубрике, помимо англоязычной части, как правило, представлены варианты каталога на нескольких десятках национальных языков, в числе которых и русский. Все они подготовлены региональными редакторами из числа жителей соответствующих стран. В настоящее время Open Directory является динамично развивающимся проектом, который перехватывает значительную долю популярности у коммерциализировавшегося Yahoo! . Усовершенствованный вариант Open Directory с успехом используется в качестве каталога в поисковой системе Google . (Приложение 2)
About (http://www.about.com/)
Каталог, поддерживаемый экспертами различных областей знания. Основная отличительная черта About - принципиальная ориентация на отражение не всех, а лишь наиболее ценных и заслуживающих доверия ресурсов. Основной ряд классификации включает 24 деления, которые выделены в соответствии с интересами среднестатистических пользователей Интернет. Среди них АВТОМОБИЛИ, ПОМОЩЬ В ВЫПОЛНЕНИИ ДОМАШНИХ ЗАДАНИЙ, ХОББИ И ИГРЫ, ДЕНЬГИ, ПУТЕШЕСТВИЯ, ПОДРОСТКИ и т.п. Внутри категорий подрубрики выделяются в виде перечней в правой стороне экрана. Очень квалифицированно составлены аннотации включенных сайтов. Главным недостатком About является огромное количество рекламы, как встроенной в интерфейс, так и самопроизвольно открывающейся в новых окнах, а также практически стопроцентная ориентация на североамериканские ресурсы. (Приложение 3)
1.2.3 Российские каталоги ресурсов Интернет
В большинстве стран мира существует множество собственных каталогов ресурсов, которые гораздо полнее отражают национальный информационный массив, нежели глобальные каталоги. В России на сегодняшний день существует несколько подобных источников, ни один из которых пока не отличается высоким качеством.
Ап op т (к a т a л o г) (http://aport.ru/)