Реферат: Аналитика и полезная информация

3. Прочие текстовые критерии

Поисковые машины используют также следующие текстовые критерии релевантности найденных страниц запросу:

позиция найденных слов в титульной фразе;

"вес" найденного слова и близость его к началу документа;

наличие найденных слов в заголовках (<h1>, <h2> и т. д.) и фрагментах, выделенных жирным шрифтом (<bold>, <strong>);

близость найденных слов друг к другу (компактность цитаты).

Объясним, что подразумевается под "найдеными словами". Индексирующие поисковые системы основаны на идее поиска "цитаты". Подразумевается, что пользователь хочет увидеть документ, в котором есть слова, введенные им в виде запроса. Поисковик находит в своем индексе такие документы и выдает их адреса. В вышеперечисленных критериях "найденное слово" - это слово, имеющееся как на веб-странице, так и в поисковом запросе, по которому должна быть показана ссылка на данную веб-страницу.

С ростом количества документов в Сети все острее становилась проблема ранжирования ссылок, выдаваемых поисковиками в ответ на запросы пользователей. Их стало слишком много. Поэтому разработчики стали один за другим вводить критерии, позволяющие как бы "уточнить" релевантность страницы - степень соответствия документа запросу.

Если в документе речь идет о каком-то предмете, по идее, этот предмет должен часто упоминаться (называться), т.е. частота слова - названия предмета будет повышенной. Этот параметр называется "весом" слова.

Авторы текстов знают, что главную идею материала лучше всего выносить в начало текста, поэтому некоторые поисковые системы положение найденного слова по отношению к началу документа стали также принимать за критерий релевантности.

Положение слов относительно друг друга, особенно в титуле, тоже является критерием. В случае поисковых запросов, состоящих более чем из одного слова, справедливо предположение (вспомним основную идею индексирующих поисковиков), что пользователь ищет цитату, то есть именно вхождение введенного словосочетания. Возможно, в запросе и пропущены некоторые слова, но в любом случае порядок слов и близость их друг к другу важны. Например, в запросе стропила плотники легко узнается название повести Сэлинджера "Выше стропила, плотники!", а плотники стропила напоминают уже о Бродском ("поднять не звали плотников стропила"). Подобная компактность цитаты хорошо распознается поисковыми системами.

Почему в качестве критерия релевантности используется наличие слов запроса в выделенных фрагментах и заголовках документа, очевидно: именно таким образом создатели текстов выделяют наиболее значимые слова, на которые хотят обратить внимание.

Как видим, все текстовые критерии ранжирования результатов в поисковых системах имеют простые логические объяснения. Разработчики поисковых систем ранжируют страницы, исходя из предположения, что вебмастера создавали и структурировали их в расчете на "живых" посетителей.

Распределение частот поисковых запросов. Вебмастера и поисковые системы. Спамдексинг

Поисковые запросы повторяются. Разные люди, в разных городах, в разное время и в разные поисковики вводят одни и те же поисковые запросы: работа, чат, секс, mp3, windows, линукс и др. Частоту использования каждого запроса можно подсчитать. Некоторые встречаются в среднем раз в неделю, а есть и такие, что ежедневно повторяются сотни раз. Чем длиннее запрос, тем реже он встречается. И наоборот, наиболее частотным запросом из группы, относящейся к какой-либо теме, всегда является наиболее общий запрос - одно слово или словосочетание, определяющее тему.

Поисковые системы сегодня стали основным поставщиком новых пользователей на любой интернет-ресурс, и вебмастера это прекрасно знают. Знают и закономерности спроса. Вебмастер, поддерживающий сайт по трудоустройству, например, в Санкт-Петербурге, безусловно осведомлен, что запрос работа встречается гораздо чаще, чем работа в Питере. Но нечеткий однословный запрос работа используют не только питерцы, но и москвичи, новосибирцы, казанцы... Поэтому вебмастерам сайтов по трудоустройству каждого из этих городов хочется попасть на первую страницу поиска именно по "главному" однословному запросу. Но городов много, а на первой странице результатов может разместиться всего лишь 15-20 ссылок.

С целью улучшить свою позицию в результатах поиска вебмастера применяли и применяют ряд технических приемов, предназначенных именно для обмана, "накручивания" поискового робота. Явление это называется спамом поисковых систем или спамдексингом (от spam + indexing) и появилось практически одновременно с появлением поисковиков.

Так как последние раньше использовали только текстовые критерии для ранжирования результатов, то типовым приемом спамдексинга стала так называемая "накачка" - искусственное завышение частот (весов) нужных слов на странице.

Варианты "накачивания" использовались самые различные: от примитивного "скрытого", невидимого обычному пользователю текста, до создания специальных текстов, где веса слов тщательно рассчитывались в соответствии со значениями, снимаемыми со страниц, занимающих первые позиции в ссылках по необходимым запросам.

Накачиваются сами страницы, титульные фразы, теги noframes и keywords. Специально создаются страницы с подобными "оптимизированными для поисковиков" текстами, попадая на которые, пользователь автоматически перебрасывается на другой сайт. Либо просто видит крупную надпись "Вход". Они так и называются - входные страницы. Более того, разработана специальная техника (клоакинг), когда поисковому роботу показывается одна страница, а пользователям - совершенно другая.

Подобные действия являются бичом поисковиков, потому что сильно перегружают индексы, уродуют внешний вид страниц с результатами поиска и резко снижают релевантность системы, то есть ее качество и ее конкурентное преимущество в борьбе за популярность с другими поисковиками.

История поисковиков есть история их постоянной борьбы со спамом. Совсем недавно в поисках оружия против текстовой "накачки" поисковики начали дополнять текстовые алгоритмы ранжирования результатов поиска нетекстовыми критериями - а именно, ссылочными.

Нетекстовые критерии релевантности

Нетекстовые критерии можно разделить на три основных типа. Мы даем условные названия, так как устоявшейся терминологии пока нет:

ссылочно-расчетные,

ссылочно-текстовые,

каталожные.

Как мы уже говорили, в случаях нетекстового критерия на ранжирование страницы влияет не ее содержание, а другие факторы.

Ссылочно-расчетные критерии. К ссылочно-расчетным критериям относится алгоритм поисковой системы Google - так называемый взвешенный индекс цитирования PageRank (PR). Подробная статья о нем Криса Райдингса (перевод и комментарии А. Садовского) имеется на сайте Александра Садовского http://www.digits.ru/

Индекс цитирования учитывает, как много ссылок имеется в Сети на ваш сайт, и насколько авторитетны ссылающиеся на вас сайты. Авторитетность "цитирования" определяется также по количеству ссылок на "цитирующего". Для расчета индекса цитирования Google и подобные ему системы регулярно "перетряхивают" невообразимо огромные матрицы связей между сайтами Интернета, пересчитывая вес ссылок и авторитетность ресурсов (заметим, что Google использует для этого "ферму" более чем из 10 000 серверов!). Подобный алгоритм используется также "Яндексом".

К-во Просмотров: 428
Бесплатно скачать Реферат: Аналитика и полезная информация