PageRank - PageRank

Математический рейтинг страницы для простой сети выражается в процентах. (Google использует логарифмическую шкалу .) Страница C имеет более высокий PageRank, чем страница E, хотя на C меньше ссылок; одна ссылка на C происходит с важной страницы и, следовательно, имеет большую ценность. Если пользователи Интернета, которые начинают со случайной страницы, имеют вероятность 82,5% выбора случайной ссылки со страницы, которую они в настоящее время посещают, и вероятность перехода на страницу, выбранную случайным образом из всей сети, 17,5%, они попадут на страницу E 8,1% времени. (Вероятность перехода на произвольную страницу 17,5% соответствует коэффициенту демпфирования 82,5%.) Без демпфирования все веб-пользователи в конечном итоге окажутся на страницах A, B или C, а все остальные страницы будут иметь нулевой рейтинг PageRank. При наличии демпфирования страница A фактически ссылается на все страницы в сети, даже если у нее нет собственных исходящих ссылок.

PageRank ( PR ) - это алгоритм, используемый поиском Google для ранжирования веб-страниц в результатах поиска . Он назван в честь термина «веб-страница» и соучредителя Ларри Пейджа . PageRank - это способ измерения важности страниц веб-сайта. Согласно Google:

PageRank работает путем подсчета количества и качества ссылок на страницу, чтобы определить приблизительную оценку того, насколько важен веб-сайт. Основное предположение состоит в том, что более важные веб-сайты, вероятно, будут получать больше ссылок с других веб-сайтов.

В настоящее время PageRank - не единственный алгоритм, используемый Google для упорядочивания результатов поиска, но это первый алгоритм, который использовался компанией, и он является наиболее известным. С 24 сентября 2019 г. истек срок действия PageRank и всех связанных патентов .

Описание

Мультфильм, иллюстрирующий основной принцип PageRank. Размер каждой грани пропорционален общему размеру других лиц, которые на нее указывают.

PageRanks - это алгоритм анализа ссылок , который присваивает числовой вес каждому элементу связанного набора документов, такого как World Wide Web , с целью «измерения» его относительной важности в этом наборе. Алгоритм может быть применен к любой коллекции объектов с взаимными цитатами и ссылками. Числовой вес, который он присваивает любому заданному элементу E , называется PageRank элемента E и обозначается

Результаты PageRank из математического алгоритма , основанный на webgraph , созданный всех World Wide Web - страницах , как узлы и гиперссылка как кромки, принимая во внимание концентраторов власти , таких как cnn.com или mayoclinic.org . Значение рейтинга указывает на важность конкретной страницы. Гиперссылка на страницу считается голосом поддержки. PageRank страницы определяется рекурсивно и зависит от количества и метрики PageRank всех страниц, которые ссылаются на нее (« входящие ссылки »). Страница, на которую ссылаются многие страницы с высоким PageRank, сама получает высокий рейтинг.

После выхода оригинальной статьи Пейджа и Брина было опубликовано множество научных статей, касающихся PageRank. На практике концепция PageRank может быть уязвима для манипуляций. Было проведено исследование для определения рейтинга PageRank, на который ложно повлияли. Цель состоит в том, чтобы найти эффективные средства игнорирования ссылок из документов с ложно измененным PageRank.

Другие основанные на ссылках алгоритмы ранжирования веб-страниц включают алгоритм HITS, изобретенный Джоном Кляйнбергом (используемый Teoma, а теперь и Ask.com ), проект IBM CLEVER , алгоритм TrustRank и алгоритм Hummingbird .

История

Проблема собственных значений была предложена в 1976 году Габриэлем Пински и Фрэнсисом Нарином, которые работали над наукометрическим ранжированием научных журналов, в 1977 году Томасом Саати в его концепции аналитического процесса иерархии, который взвешивал альтернативные варианты выбора, и в 1995 году Брэдли Лавом и Стивеном Сломаном в качестве метода оценки. когнитивная модель концептов, алгоритм центральности.

Поисковая машина под названием " RankDex " от IDD Information Services, разработанная Робином Ли в 1996 году, разработала стратегию оценки сайтов и ранжирования страниц. Ли назвал свой поисковый механизм «анализом ссылок», который включал ранжирование популярности веб-сайта на основе того, сколько других сайтов на него ссылались. RankDex, первая поисковая система с алгоритмами ранжирования страниц и рейтинга сайтов, была запущена в 1996 году. Ли запатентовал технологию в RankDex, его патент был подан в 1997 году и выдан в 1999 году. Позже он использовал его, когда основал Baidu в Китае в 2000. Основатель Google Ларри Пейдж сослался на работу Ли как на ссылку в некоторых своих патентах США на PageRank.

Ларри Пейдж и Сергей Брин разработали PageRank в Стэнфордском университете в 1996 году в рамках исследовательского проекта, посвященного поисковой системе нового типа. Интервью с Эктором Гарсиа-Молиной, профессором Стэнфордских компьютерных наук и советником Сергея, дает представление о разработке алгоритма ранжирования страниц. У Сергея Брина была идея, что информацию в сети можно упорядочить в иерархии по «ссылочной популярности»: страница занимает более высокое место, чем больше ссылок на нее. Система была разработана с помощью Скотта Хассана и Алана Стеремберга, оба из которых были названы Пейджем и Брином критически важными для развития Google. Раджив Motwani и Терри Винограда в соавторстве с Пейджем и Брином первую статью о проекте, описывая PageRank и первоначальный прототип поисковой системы Google , опубликованный в 1998 году Вскоре после этого , Пейдж и Брин основали Google Inc. , компания позади Поисковая система Google. Будучи лишь одним из многих факторов, определяющих рейтинг результатов поиска Google, PageRank продолжает служить основой для всех инструментов веб-поиска Google.

Название «PageRank» играет на имени разработчика Ларри Пейджа, а также на концепции веб-страницы . Слово является товарным знаком Google, и процесс PageRank был запатентован ( патент США 6 285 999 ). Однако патент передан Стэнфордскому университету, а не Google. Google обладает исключительными лицензионными правами на патент Стэнфордского университета. Университет получил 1,8 миллиона акций Google в обмен на использование патента; он продал акции в 2005 году за 336 миллионов долларов.

На PageRank повлиял анализ цитирования , разработанный Юджином Гарфилдом в 1950-х годах в Университете Пенсильвании, и Hyper Search , разработанный Массимо Маркиори из Университета Падуи . В том же году, когда был введен PageRank (1998), Джон Клейнберг опубликовал свою работу о HITS . Основатели Google цитируют Гарфилда, Маркиори и Клейнберга в своих оригинальных статьях.

Алгоритм

Алгоритм PageRank выводит распределение вероятностей, используемое для представления вероятности того, что человек, случайно щелкнувший по ссылкам, попадет на любую конкретную страницу. PageRank можно рассчитать для коллекций документов любого размера. В нескольких исследовательских работах предполагается, что распределение равномерно распределяется между всеми документами в коллекции в начале вычислительного процесса. Для вычисления PageRank требуется несколько проходов, называемых «итерациями», через коллекцию для корректировки приблизительных значений PageRank для более точного отражения теоретического истинного значения.

Вероятность выражается числовым значением от 0 до 1. Вероятность 0,5 обычно выражается как «50% -ный шанс» того, что что-то произойдет. Следовательно, документ с рейтингом страницы 0,5 означает, что существует 50% -ная вероятность того, что человек, щелкнувший случайную ссылку, будет перенаправлен на указанный документ.

Упрощенный алгоритм

Предположим , небольшую вселенную из четырех веб - страниц: A , B , C , и D . Ссылки со страницы на саму себя игнорируются. Множественные исходящие ссылки с одной страницы на другую рассматриваются как одна ссылка. PageRank инициализируется одинаковым значением для всех страниц. В исходной форме PageRank сумма PageRank по всем страницам представляла собой общее количество страниц в Интернете на тот момент, поэтому каждая страница в этом примере будет иметь начальное значение 1. Однако более поздние версии PageRank и В оставшейся части этого раздела предположим, что распределение вероятностей находится между 0 и 1. Следовательно, начальное значение для каждой страницы в этом примере равно 0,25.

PageRank, передаваемый от данной страницы к целям ее исходящих ссылок на следующей итерации, делится поровну между всеми исходящими ссылками.

Если бы единственные ссылки в системе были со страниц B , C и D на A , каждая ссылка передала бы 0,25 PageRank в A при следующей итерации, что в сумме составит 0,75.

Предположим вместо этого, что страница B имеет ссылку на страницы C и A , страница C имеет ссылку на страницу A , а страница D имеет ссылки на все три страницы. Таким образом, после первой итерации, страница Б будет передавать половину своего существующего значения, или 0,125, на страницу A , а другая половина, или 0,125, на страницу C . Page C будет передавать все существующие значения, 0,25, к единственной странице это ссылки на, A . Поскольку у D было три исходящих ссылки, он передал бы A треть своего существующего значения, или примерно 0,083 . По завершении этой итерации страница A будет иметь рейтинг PageRank примерно 0,458.

Другими словами, PageRank, присвоенный исходящей ссылкой, равен собственной оценке PageRank документа, деленной на количество исходящих ссылок L () .

В общем случае значение PageRank для любой страницы u может быть выражено как:

,

т.е. значение PageRank для страницы u зависит от значений PageRank для каждой страницы v, содержащейся в наборе B u (набор, содержащий все страницы, ссылающиеся на страницу u ), деленном на количество L ( v ) ссылок со страницы v .

Коэффициент демпфирования

Теория PageRank утверждает, что воображаемый пользователь, который случайно нажимает на ссылки, в конечном итоге перестанет нажимать. Вероятность на любом этапе того, что человек продолжит, является демпфирующим фактором d . В различных исследованиях были проверены различные коэффициенты демпфирования, но обычно предполагается, что коэффициент демпфирования будет установлен около 0,85.

Коэффициент демпфирования вычитается из 1 (и в некоторых вариантах алгоритма результат делится на количество документов ( N ) в коллекции), а затем этот член добавляется к произведению коэффициента демпфирования и суммы входящие оценки PageRank. То есть,

Таким образом, PageRank любой страницы в значительной степени определяется рейтингом PageRank других страниц. Коэффициент демпфирования понижает полученное значение. Однако в исходной статье была дана следующая формула, которая привела к некоторой путанице:

Различие между ними в том , что значения PageRank в первой формуле сумме к одному, в то время как во второй формуле каждого PageRank является умноженным на N и сумма становится N . Утверждение в статье Пейджа и Брина о том, что «сумма всех рейтингов страниц равняется единице», и утверждения других сотрудников Google подтверждают первый вариант приведенной выше формулы.

Пейдж и Брин перепутали две формулы в своей самой популярной статье «Анатомия крупномасштабной гипертекстовой поисковой машины в Интернете», где они ошибочно утверждали, что последняя формула формирует распределение вероятностей по веб-страницам.

Google пересчитывает рейтинг PageRank каждый раз, когда просматривает Интернет и перестраивает свой индекс. По мере того как Google увеличивает количество документов в своей коллекции, начальное приближение PageRank уменьшается для всех документов.

В формуле используется модель случайного пользователя, который достигает своего целевого сайта после нескольких щелчков мышью, а затем переключается на случайную страницу. Значение PageRank страницы отражает вероятность того, что случайный пользователь попадет на эту страницу, щелкнув ссылку. Его можно понимать как цепь Маркова, в которой состояниями являются страницы, а переходы - это связи между страницами, причем все они равновероятны.

Если на странице нет ссылок на другие страницы, она становится приемником и, следовательно, прекращает случайный процесс просмотра. Если случайный пользователь попадает на страницу приемника, он случайным образом выбирает другой URL и снова продолжает просмотр.

При расчете PageRank предполагается, что страницы без исходящих ссылок ссылаются на все другие страницы в коллекции. Таким образом, их рейтинг PageRank равномерно распределяется между всеми остальными страницами. Другими словами, чтобы быть справедливыми со страницами, которые не являются приемниками, эти случайные переходы добавляются ко всем узлам в сети. Эта остаточная вероятность, d , обычно устанавливается равной 0,85 и оценивается по частоте, с которой средний пользователь использует функцию закладок своего браузера. Итак, уравнение выглядит следующим образом:

где - рассматриваемые страницы, - это набор страниц, на которые ссылаются , - это количество исходящих ссылок на странице , - это общее количество страниц.

Значения PageRank - это элементы доминирующего правого собственного вектора модифицированной матрицы смежности, масштабированные таким образом, чтобы каждый столбец составлял единицу. Это делает PageRank особенно элегантной метрикой: собственный вектор

где R - решение уравнения

где функция смежности - это отношение количества исходящих ссылок со страницы j на страницу i к общему количеству исходящих ссылок страницы j. Функция смежности равна 0, если страница не ссылается на , и нормализована так, что для каждого j

,

т.е. сумма элементов каждого столбца равна 1, поэтому матрица является стохастической матрицей (более подробную информацию см. в разделе вычислений ниже). Таким образом, это вариант меры центральности собственного вектора, обычно используемый в сетевом анализе .

Из-за большого собственного разрыва модифицированной матрицы смежности, приведенной выше, значения собственного вектора PageRank могут быть аппроксимированы с высокой степенью точности всего за несколько итераций.

Основатели Google в своей оригинальной статье сообщили, что алгоритм PageRank для сети, состоящей из 322 миллионов ссылок (внутренних и внешних), сходится с допустимым пределом за 52 итерации. Сходимость в сети половинного размера потребовала примерно 45 итераций. На основе этих данных они пришли к выводу, что алгоритм можно очень хорошо масштабировать и что коэффициент масштабирования для чрезвычайно больших сетей будет примерно линейным , где n - размер сети.

В результате теории Маркова можно показать, что PageRank страницы - это вероятность перехода на эту страницу после большого количества кликов. Это происходит с равным , где этим ожиданием числа кликов (или случайных скачков) требуется , чтобы получить от страницы обратно к себе.

Одним из основных недостатков PageRank является то, что он отдает предпочтение более старым страницам. На новой странице, даже очень хорошей, не будет много ссылок, если она не является частью существующего сайта (сайт представляет собой плотно связанный набор страниц, такой как Википедия ).

Было предложено несколько стратегий для ускорения вычисления PageRank.

Различные стратегии манипулирования PageRank были использованы в согласованных усилиях по повышению рейтинга результатов поиска и монетизации рекламных ссылок. Эти стратегии серьезно повлияли на надежность концепции PageRank, которая призвана определять, какие документы действительно высоко ценятся веб-сообществом.

С декабря 2007 года, когда он начал активно наказывать сайты, продающие платные текстовые ссылки, Google боролся с фермами ссылок и другими схемами, предназначенными для искусственного завышения PageRank. То, как Google определяет фермы ссылок и другие инструменты манипулирования PageRank, является коммерческой тайной Google .

Вычисление

PageRank можно вычислить итеративно или алгебраически. Итерационный метод можно рассматривать как метод итераций по мощности или метод по мощности. Основные выполняемые математические операции идентичны.

Итеративный

При предполагается начальное распределение вероятностей, обычно

.

где N - общее количество страниц, а это страница i в момент времени 0.

На каждом временном шаге вычисление, как описано выше, дает

где d - коэффициент демпфирования,

или в матричной записи

,

 

 

 

 

( 1 )

где и - вектор-столбец длины, содержащий только единицы.

Матрица определяется как

т.е.

,

где обозначает матрицу смежности графа, а - диагональная матрица с исходящими степенями по диагонали.

Расчет вероятности выполняется для каждой страницы в определенный момент времени, а затем повторяется для следующего момента времени. Вычисление заканчивается, когда для небольшого

,

т.е. когда предполагается сходимость.

Силовой метод

Если матрица является вероятностью перехода, т. Е. Стохастической по столбцу, и является распределением вероятностей (т. Е. , Где - матрица всех единиц), то уравнение ( 2 ) эквивалентно

.

 

 

 

 

( 3 )

Следовательно, PageRank является главным собственным вектором . Быстрый и простой способ вычислить это - использовать степенной метод : начиная с произвольного вектора , оператор применяется последовательно, т. Е.

,

до

.

Обратите внимание, что в уравнении ( 3 ) матрица в правой части скобок может быть интерпретирована как

,

где - начальное распределение вероятностей. в текущем случае

.

Наконец, если есть столбцы только с нулевыми значениями, их следует заменить исходным вектором вероятности . Другими словами,

,

где матрица определяется как

,

с участием

В этом случае два вышеупомянутых вычисления с использованием дают один и тот же PageRank, только если их результаты нормализованы:

.

Реализация

Scala / Apache Spark

Типичный пример - использование функционального программирования Scala с RDD Apache Spark для итеративного вычисления ранга страницы.

object SparkPageRank {
  def main(args: Array[String]) {
    val spark = SparkSession
      .builder
      .appName("SparkPageRank")
      .getOrCreate()

    val iters = if (args.length > 1) args(1).toInt else 10
    val lines = spark.read.textFile(args(0)).rdd
    val links = lines.map{ s =>
      val parts = s.split("\\s+")
      (parts(0), parts(1))
    }.distinct().groupByKey().cache()
    
    var ranks = links.mapValues(v => 1.0)

    for (i <- 1 to iters) {
      val contribs = links.join(ranks).values.flatMap{ case (urls, rank) =>
        val size = urls.size
        urls.map(url => (url, rank / size))
      }
      ranks = contribs.reduceByKey(_ + _).mapValues(0.15 + 0.85 * _)
    }

    val output = ranks.collect()
    output.foreach(tup => println(tup._1 + " has rank: " + tup._2 + "."))

    spark.stop()
  }
}

MATLAB / Octave

% Parameter M adjacency matrix where M_i,j represents the link from 'j' to 'i', such that for all 'j'
%     sum(i, M_i,j) = 1
% Parameter d damping factor
% Parameter v_quadratic_error quadratic error for v
% Return v, a vector of ranks such that v_i is the i-th rank from [0, 1]

function [v] = rank2(M, d, v_quadratic_error)

N = size(M, 2); % N is equal to either dimension of M and the number of documents
v = rand(N, 1);
v = v ./ norm(v, 1);   % This is now L1, not L2
last_v = ones(N, 1) * inf;
M_hat = (d .* M) + (((1 - d) / N) .* ones(N, N));

while (norm(v - last_v, 2) > v_quadratic_error)
	last_v = v;
	v = M_hat * v;
        % removed the L2 norm of the iterated PR
end

end %function

Пример кода, вызывающего функцию ранжирования, определенную выше:

M = [0 0 0 0 1 ; 0.5 0 0 0 0 ; 0.5 0 0 0 0 ; 0 1 0.5 0 0 ; 0 0 0.5 1 0];
rank2(M, 0.80, 0.001)

Python

"""PageRank algorithm with explicit number of iterations.

Returns
-------
ranking of nodes (pages) in the adjacency matrix

"""

import numpy as np

def pagerank(M, num_iterations: int = 100, d: float = 0.85):
    """PageRank: The trillion dollar algorithm.

    Parameters
    ----------
    M : numpy array
        adjacency matrix where M_i,j represents the link from 'j' to 'i', such that for all 'j'
        sum(i, M_i,j) = 1
    num_iterations : int, optional
        number of iterations, by default 100
    d : float, optional
        damping factor, by default 0.85

    Returns
    -------
    numpy array
        a vector of ranks such that v_i is the i-th rank from [0, 1],
        v sums to 1

    """
    N = M.shape[1]
    v = np.random.rand(N, 1)
    v = v / np.linalg.norm(v, 1)
    M_hat = (d * M + (1 - d) / N)
    for i in range(num_iterations):
        v = M_hat @ v
    return v

M = np.array([[0, 0, 0, 0, 1],
              [0.5, 0, 0, 0, 0],
              [0.5, 0, 0, 0, 0],
              [0, 1, 0.5, 0, 0],
              [0, 0, 0.5, 1, 0]])
v = pagerank(M, 100, 0.85)

Для схождения этого примера требуется ≈13 итераций.

Вариации

PageRank неориентированного графа

PageRank неориентированного графа статистически близок к распределению степеней графа , но, как правило, они не идентичны: If - вектор PageRank, определенный выше, и - вектор распределения степеней

где обозначает степень вершины , а - множество ребер графа, то, с , показывает, что:

то есть PageRank неориентированного графа равен вектору распределения степеней тогда и только тогда, когда граф является регулярным, т. е. каждая вершина имеет одинаковую степень.

Обобщение PageRank и центральности собственного вектора для ранжирования двух видов объектов

Обобщение PageRank на случай ранжирования двух взаимодействующих групп объектов было описано Даугулисом. В приложениях может возникнуть необходимость в моделировании систем, имеющих объекты двух типов, в которых взвешенное отношение определяется на парах объектов. Это приводит к рассмотрению двудольных графов . Для таких графов могут быть определены две связанные положительные или неотрицательные неприводимые матрицы, соответствующие множествам разбиений вершин. Можно вычислить ранжирование объектов в обеих группах как собственные векторы, соответствующие максимальным положительным собственным значениям этих матриц. Нормированные собственные векторы существуют и уникальны по теореме Перрона или Перрона – Фробениуса. Пример: потребители и продукты. Относительный вес - это норма расхода продукта.

Распределенный алгоритм вычисления PageRank

Sarma et al. описывают два распределенных алгоритма на основе случайного блуждания для вычисления PageRank узлов в сети. Один алгоритм с высокой вероятностью выполняет обходы на любом графе (направленном или неориентированном), где n - размер сети и вероятность сброса ( которая называется коэффициентом демпфирования), используемая при вычислении PageRank. Они также представляют более быстрый алгоритм, который обходится в неориентированных графах. В обоих алгоритмах каждый узел обрабатывает и отправляет несколько битов за раунд, которые являются полилогарифмическими по n, размеру сети.

Панель инструментов Google

Панель инструментов Google давно функция PageRank , которая отображается PageRank посещаемой страницы как целое число между 0 (наименее популярным) и 10 (самой популярным). Google не раскрыл конкретный метод определения значения PageRank панели инструментов, который следует рассматривать только как приблизительный показатель стоимости веб-сайта. «Рейтинг страницы панели инструментов» был доступен для проверенных специалистов, обслуживающих сайт, через интерфейс Инструментов Google для веб-мастеров. Однако 15 октября 2009 г. сотрудник Google подтвердил, что компания удалила PageRank из своего раздела инструментов для веб-мастеров , заявив, что «Мы давно говорим людям, что им не следует уделять столько внимания PageRank. Многие сайты владельцы, похоже, думают, что это самый важный показатель, за которым они должны следить, что попросту неверно ".

Рейтинг страницы панели инструментов обновлялся очень редко. Последний раз он обновлялся в ноябре 2013 года. В октябре 2014 года Мэтт Каттс объявил, что другого видимого обновления рейтинга страниц не будет. В марте 2016 года Google объявил, что больше не будет поддерживать эту функцию, и базовый API скоро перестанет работать. 15 апреля 2016 года Google официально отключил отображение данных PageRank на панели инструментов Google. Google по-прежнему будет использовать показатель PageRank при определении ранжирования контента в результатах поиска.

Рейтинг в поисковой выдаче

Страница результатов поисковой системы (SERP) - это фактический результат, возвращаемый поисковой системой в ответ на запрос по ключевому слову. SERP состоит из списка ссылок на веб-страницы с соответствующими текстовыми фрагментами. Рейтинг веб-страницы в поисковой выдаче относится к размещению соответствующей ссылки в поисковой выдаче, где более высокое размещение означает более высокий рейтинг в выдаче. Рейтинг веб-страницы в поисковой выдаче является функцией не только ее PageRank, но и относительно большого и постоянно корректируемого набора факторов (более 200). Поисковая оптимизация (SEO) направлена ​​на влияние на рейтинг в выдаче для веб-сайта или набора веб-страниц.

Позиционирование веб-страницы в выдаче Google по ключевому слову зависит от релевантности и репутации, также известных как авторитет и популярность. PageRank - это показатель Google оценки репутации веб-страницы: он не зависит от ключевого слова. Google использует комбинацию авторитета веб-страницы и веб-сайта для определения общего авторитета веб-страницы, конкурирующей за ключевое слово. PageRank домашней страницы веб-сайта - лучший показатель, который Google предлагает для авторитета веб-сайта.

После введения Google Places в основную органическую выдачу результатов на рейтинг компании в результатах местного бизнеса, помимо PageRank, влияет множество других факторов. Когда Google подробно рассказал о причинах прекращения поддержки PageRank на Q&A # марта 2016 года, они объявили ссылки и контент главными факторами ранжирования. Ранее в октябре 2015 года RankBrain был объявлен фактором рейтинга №3, поэтому 3 основных фактора были официально подтверждены Google.

Рейтинг страниц в каталоге Google

Каталог Google PageRank был измерение 8-блок. В отличие от панели инструментов Google, которая показывает числовое значение PageRank при наведении указателя мыши на зеленую полосу, в каталоге Google отображается только полоса, а не числовые значения. Каталог Google был закрыт 20 июля 2011 г.

Ложный или поддельный PageRank

В прошлом рейтинг страницы, отображаемый на панели инструментов, можно было легко изменить. Перенаправление с одной страницы на другую посредством ответа HTTP 302 или метатега «Обновить» заставляло исходную страницу получать PageRank целевой страницы. Следовательно, новая страница с PR 0 и без входящих ссылок могла получить PR 10 путем перенаправления на домашнюю страницу Google. Эта методика спуфинга была известной уязвимостью. Спуфинг обычно можно обнаружить, выполнив поиск в Google по URL-адресу источника; если в результатах отображается URL-адрес совершенно другого сайта, последний URL-адрес может представлять собой пункт назначения перенаправления.

Управление PageRank

В целях поисковой оптимизации некоторые компании предлагают продавать веб-мастерам ссылки с высоким PageRank. Поскольку ссылки со страниц с более высоким PR считаются более ценными, они, как правило, дороже. Покупка рекламы со ссылками на качественных содержательных и релевантных сайтах может быть эффективной и жизнеспособной маркетинговой стратегией для привлечения трафика и повышения ссылочной популярности веб-мастеров. Тем не менее, Google публично предупредил веб-мастеров, что, если они продают или будут обнаружены, что продают ссылки с целью присвоения PageRank и репутации, их ссылки будут обесценены (игнорируются при расчете PageRank других страниц). Практика покупки и продажи активно обсуждается в сообществе веб-мастеров. Google советует веб-мастерам использовать значение атрибута HTML nofollow для рекламных ссылок. По словам Мэтта Каттса , Google обеспокоен тем, что веб-мастера пытаются обмануть систему и тем самым снизить качество и релевантность результатов поиска Google. Несмотря на то, что PageRank стал менее важным для целей SEO, наличие обратных ссылок с более популярных веб-сайтов продолжает поднимать веб-страницу на более высокие позиции в поисковом рейтинге.

Модель управляемого серфера

Более умный пользователь, который вероятностно перескакивает со страницы на страницу в зависимости от содержимого страниц и условий запроса, которые ищет пользователь. Эта модель основана на зависящей от запроса оценке PageRank страницы, которая, как следует из названия, также является функцией запроса. При получении запроса с несколькими терминами пользователь выбирает элемент в соответствии с некоторым распределением вероятностей , и использует этот термин для определения своего поведения на большом количестве шагов. Затем он выбирает другой термин в соответствии с распределением, чтобы определить его поведение, и так далее. В результате распределение по посещаемым веб-страницам составляет QD-PageRank.

Социальные компоненты

Катя Майер рассматривает PageRank как социальную сеть, поскольку она объединяет различные точки зрения и мысли в одном месте. Люди заходят на страницу PageRank за информацией, и их засыпают цитатами других авторов, у которых также есть мнение по теме. Это создает социальный аспект, где все можно обсудить и собрать, чтобы спровоцировать размышления. Между PageRank и людьми, которые его используют, существуют социальные отношения, поскольку он постоянно адаптируется и изменяется к изменениям в современном обществе. Просмотр взаимосвязи между PageRank и индивидуумом с помощью социометрии позволяет глубже взглянуть на возникающую связь.

Маттео Паскуинелли считает, что основание для убеждения в том, что PageRank имеет социальный компонент, лежит в идее экономии внимания . При экономии внимания ценность придается продуктам, которым уделяется больше внимания, и результатам, находящимся на вершине рейтинга PageRank, уделяется больше внимания, чем результатам на последующих страницах. Следовательно, результаты с более высоким PageRank будут в большей степени проникать в человеческое сознание. Эти идеи могут влиять на принятие решений, а действия зрителя имеют прямое отношение к PageRank. Они обладают более высоким потенциалом для привлечения внимания пользователя, поскольку их местоположение увеличивает экономию внимания, уделяемого сайту. Благодаря этому местоположению они могут получить больше трафика, а на их онлайн-рынке будет больше покупок. PageRank этих сайтов позволяет им доверять, и они могут использовать это доверие для роста бизнеса.

Другое использование

Математика PageRank является полностью общей и применима к любому графу или сети в любом домене. Таким образом, PageRank теперь регулярно используется в библиометрии, анализе социальных и информационных сетей, а также для прогнозирования и рекомендации ссылок. Он даже используется для системного анализа дорожных сетей, а также для биологии, химии, нейробиологии и физики.

Научные исследования и академия

Pagerank недавно использовался для количественной оценки научного влияния исследователей. Базовые сети цитирования и сотрудничества используются в сочетании с алгоритмом ранжирования страниц, чтобы создать систему ранжирования для отдельных публикаций, которая распространяется на отдельных авторов. Показано, что новый индекс, известный как pagerank-index (Pi), более справедлив по сравнению с h-index в контексте многих недостатков, которые демонстрирует h-index.

Для анализа белковых сетей в биологии PageRank также является полезным инструментом.

В любой экосистеме модифицированная версия PageRank может использоваться для определения видов, которые необходимы для постоянного здоровья окружающей среды.

Аналогичное новое использование PageRank - это ранжирование академических докторских программ на основе их записей о размещении их выпускников на должности преподавателей. С точки зрения PageRank, академические отделы связываются друг с другом, нанимая преподавателей друг у друга (и у самих себя).

Версия PageRank недавно была предложена в качестве замены традиционного импакт-фактора Института научной информации (ISI) и реализована в Eigenfactor, а также в SCImago . Вместо того, чтобы просто подсчитывать общее количество цитирований в журнале, «важность» каждой цитаты определяется методом PageRank.

В нейробиологии было обнаружено , что PageRank нейрона в нейронной сети коррелирует с его относительной частотой срабатывания.

Использование Интернета

Персонализированный PageRank используется Twitter для представления пользователям других учетных записей, на которые они, возможно, захотят подписаться.

Продукт Swiftype для поиска по сайту формирует «PageRank, специфичный для отдельных веб-сайтов», просматривая сигналы важности каждого веб-сайта и устанавливая приоритет контента на основе таких факторов, как количество ссылок с домашней страницы.

Роботы могут использовать PageRank в качестве одного из нескольких метрик значения , которое он использует , чтобы определить , какой URL для посещения во время обхода полотна. Одним из первых рабочих документов, которые использовались при создании Google, является « Эффективное сканирование через упорядочение URL» , в котором обсуждается использование ряда различных показателей важности для определения того, насколько глубоко и какую часть сайта Google будет сканировать. PageRank представлен как один из нескольких этих показателей важности, хотя есть и другие перечисленные, такие как количество входящих и исходящих ссылок для URL-адреса и расстояние от корневого каталога на сайте до URL-адреса.

PageRank также может использоваться в качестве методологии для измерения очевидного воздействия сообщества, такого как Blogosphere, на сам Интернет в целом. Таким образом, этот подход использует PageRank для измерения распределения внимания в соответствии с парадигмой безмасштабной сети .

Другие приложения

В 2005 году в пилотном исследовании « Структурная глубокая демократия» в Пакистане SD2 использовалась для отбора руководителей в группе устойчивого сельского хозяйства под названием «Контактная молодежь». SD2 использует PageRank для обработки транзитивных голосов по доверенности с дополнительными ограничениями, предусматривающими обязательное использование как минимум двух начальных доверенных лиц на одного избирателя, и все избиратели являются кандидатами по доверенности. Более сложные варианты могут быть построены поверх SD2, такие как добавление специализированных доверенных лиц и прямое голосование по конкретным вопросам, но SD2 как базовая зонтичная система требует, чтобы всегда использовались универсальные прокси.

В спорте алгоритм PageRank используется для ранжирования результатов: команд Национальной футбольной лиги (НФЛ) США; индивидуальные футболисты; и спортсмены Бриллиантовой лиги.

PageRank использовался для ранжирования мест или улиц, чтобы предсказать, сколько людей (пешеходов или транспортных средств) придут на отдельные места или улицы. В лексической семантике он использовался для устранения неоднозначности слов , семантического сходства , а также для автоматического ранжирования синсетов WordNet в соответствии с тем, насколько сильно они обладают данным семантическим свойством, таким как положительность или отрицательность.

не следует

В начале 2005 года Google внедрил новое значение, nofollow , для атрибута rel в HTML- ссылках и элементах привязки, чтобы разработчики веб-сайтов и блоггеры могли создавать ссылки, которые Google не будет рассматривать для целей PageRank - это ссылки, которые не больше составляют «голосование» в системе PageRank. Отношение nofollow было добавлено в попытке помочь в борьбе со спамодексированием .

Например, раньше люди могли создавать множество сообщений на досках объявлений со ссылками на свои веб-сайты, чтобы искусственно завышать свой PageRank. С помощью значения nofollow администраторы доски сообщений могут изменить свой код, чтобы автоматически вставлять rel = 'nofollow' во все гиперссылки в сообщениях, тем самым предотвращая влияние этих конкретных сообщений на PageRank. Однако этот метод предотвращения также имеет различные недостатки, такие как снижение ценности ссылки в законных комментариях. (См .: Спам в блогах # nofollow )

Пытаясь вручную контролировать поток PageRank между страницами на веб-сайте, многие веб-мастера практикуют так называемое формирование PageRank - это акт стратегического размещения атрибута nofollow на определенных внутренних ссылках веб-сайта, чтобы направить PageRank к ним. страницы, которые веб-мастер посчитал наиболее важными. Эта тактика использовалась с момента появления атрибута nofollow, но может оказаться неэффективной после того, как Google объявил, что блокирование передачи PageRank с помощью nofollow не перенаправляет этот PageRank на другие ссылки.

Смотрите также

использованная литература

Цитаты

Источники

Соответствующие патенты

внешние ссылки

(Google использует логарифмическую шкалу.)