Статья: PageRank: начала анализа
Поль Дирак выдвигал предположение, что существует оптимальное расстояние, с которого лучше всего наблюдать женское лицо. Действительно: на нулевом расстоянии, равно как и на бесконечном, удовольствие от созерцания стремится к нулю. В то же время, на промежуточном расстоянии оно явно не нулевое. Значит, между нулевым и бесконечным расстоянием существует максимум функции Удовольствие=f(Расстояние)
Давайте рассмотрим, хотя бы с помощью итерационного метода, два граничных случая связности сайтов.
Случай 1: Все страницы в Интернете замкнуты в "кольцо" - на каждой есть только одна ссылка на соседа, и только одна входящая ссылка. Результат: PageRank равен единице для всех страниц.
Случай 2: Все страницы в Интернете перелинкованы друг с другом - на каждой из N страниц есть ссылки на всех N-1 соседей, и столько же входящих ссылок (N-1). Результат: PageRank равен единице для всех страниц.
Откуда же берется большой PageRank?
Ответ: из неоднородности распределения ссылок по страницам. Дело в том, что все страницы сети были эквивалентны, что привело к одинаковому значению PageRank. Но если в однородном Интернете две страницы "обменяются ссылками", их PageRank увеличится. А у всего остального Интернета - чуть-чуть, но уменьшится. Таким образом, те, кто обмениваются ссылками, "стягивают одеяло на себя".
Надо сказать, что приведенный выше функциональный метод чуть-чуть неточен. Дело в том, что он не учитывает изменения среднего PageRank сети при появлении рассмотренного сайта. На сайте средний PageRank не равен единице, в отличие от Интернета, поэтому после проведенного расчета нужно пересчитать PR всех страниц в сети:
PRinew=PRiold*(Средний PR в интернете без вашего сайта)/(Средний PR в интернете, включая ваш сайт)
Но, поскольку суммарный PR по Интернету никто не знает, делать этого мы не будем. В любом случае эти изменения мизерные, но именно они и являются тем самым "стягиванием одеяла на себя".
Промежуточные выводы
Мало смысла в расчете PageRank страниц без учета "внешнего" PageRank
Нормировка PageRank на единицу работает только в глобальном масштабе, но не в пределах одного сайта
Значения PageRank порядка единицы очень малы и неинтересны для анализа. Основной интерес представляет передача потока PageRank от одной страницы к другой
Продолжение, в котором рассмотрены частные случаи и различные случаи иерархии страниц сайта - PageRank: анализ потоков.
Список литературы
Larry Page PageRank: Bringing Order to the Web
Александр Садовский Растолкованный PageRank, перевод старого варианта статьи [4]
Ian Rogers The Google Page Rank Algorithm and How It Works Обзор ошибок старого варианта статьи [4]
Chris Ridings PageRank Explained, новый вариант статьи
Артем Шкондин PageRank: Больше ссылок хороших и важных