Исследование "Индексы цитирования сайтов Рунета"

Исследование "Индексы цитирования сайтов Рунета" от Алексея Тутубалина

 

Алексей Тутубалин провел исследование, целью которого было изучение распределения значений индексов цитирования для сайтов Рунета (покрываемых проектом Черный квадрат), а так же проверка гипотизы о том, что различные методики подсчета дают хорошо скоррелированные результаты.

Анализировались индексы цитирования для WWW-сайтов в доменах второго уровня в TLD .RU и .SU за периот с 24 сентября 2006 года. Анализ распределения PR по сайтам (был построен график в координатах PR/количество сайтов) показывает, что для головных страниц сайтов Рунета получается зависимость, характерная для цитирования в научных работах: значительно меньшая доля документов с экстремально низкими индексами цитирования.

Тематический индекс цитирования Яндекса (ТИЦ), как утверждает автор, отслеживался на анализируемых 272969 сайтов вручную. При сравнении ТИЦ и PR (логарифмические шкалы) для первых пяти (из девяти) логарифмических классов, имеется практически точное совпадение функций распределения (сайтов по классам). Это позволяет утверждать, что Toolbar PageRank получен путем логарифмирования целых значений индекса цитирования, а шум в области малых значений вызван, в первую очередь, ошибками округления. Делаются следующие выводы:

  • Google строит индексы цитирования по всем WWW-страницам, а Яндекс - только по русскоязычному подмножеству. В результате, максимальный индекс цитирования по Яндексу будет меньше.
  • Google учитывает все сайты одинаково (в соответствии с их весом, полученным при расчете PageRank). ТИЦ, согласно описанию учитывает тематическую близость. Тематическая близость, по всей видимости, определяется близостью рубрик каталога Яндекса. Таким образом, отсутствующий в каталоге сайт имеет меньше шансов получить высокий ТИЦ.

Сравнивая данные индексов цитирования конкретного сайта с данной таблицей можно определить "международность" или "рунетность" данного сайта: у "более рунетного" сайта ТИЦ будет больше медианного.