СЕМИНАР "КАК РАБОТАЮТ ЯНДЕКС.НОВОСТИ И ЯНДЕКС.БЛОГИ"

Третьего апреля Яндекс пригласил небольшое количество журналистов на семинар "Как работают Яндекс.Новости и Яндекс.Блоги". Специалисты, ответственные за эти сервисы, рассказали, на каких принципах строится их работа, какие технологии применяются, какие у сервисов есть проблемы и как они решаются, а после этого ответили на вопросы журналистов.

Семинар широко не анонсировался, представителям прессы отправляли личные приглашения. Это было следствием того, что подобные семинары для Яндекса - некая новая форма общения с экспертами и пользователями. Компания планирует проводить такие встречи для более широкой аудитории, но сначала желает в экспериментальном формате определить, как их лучше всего организовывать.

Возможно, первая встреча оказалась посвящена новостям и блогам потому, что в адрес Яндекса часто слышатся обвинения и в том, что этими сервисами легко манипулировать, и в том, что Яндекс их в каких-то целях "подкручивает". Позиция Яндекса по этому вопросу основана на том, что его сервисы - это лишь зеркала, которые отражают динамику мнений пользователей ("Я.Блоги") или работу масс-медиа ("Я.Новости"). Каким именно образом формируется заголовок и содержание того или иного новостного сюжета; почему этот, а не другой пост попадает в "Топ Блогосферы"&nbsp- всё это Яндекс попытался объяснить.

Суть блогосферы, по Яндексу, в том, что это - хранилище мнений. Люди читают другие блоги, ищут по ним и смотрят рейтинги для того, чтобы быть в курсе мнений по некоему вопросу.

Цифры Яндекс.Блогов и основные сервисы

  • Миллион запиcей и комментариев из блогов и форумов каждый день
  • 7 млн. источников индексируется
  • индексируется 14 млн. профилей пользователей. Примерно половина пользователей создает блог и не делает там ни одной записи, а, например, использует для комментирования или забрасывает. Отсюда разница
  • всего около миллиарда документов
  • блоги - одна пятая Рунета (по количеству элементов для индексации)
  • Новые записи индексируются в течении 10 минут на более чем 120 блогхостингах

Яндекс.Блоги состоят из следующих сервисов (в порядке значимости): поиск, темы дня и популярные записи ("топ поиска по блогам", "ТППБЯ"), рейтинги и пульс блогосферы.

Поиск - это самый нужный для людей сервис по блогам. Однако, многим интернет-маркетологам гораздо интереснее Топ Блогосферы, так что вначале - о нём.

"Популярные записи", или Топ Блогосферы

Антон Волнухин, ответственный за поиск по блогам, рассказал, что "коммерческой ценности" пребывание в популярных записях не несёт - самый большой возможный трафик оттуда исчисляется единицами тысяч посетителей блога. Накручивают топ обычно те, кто хочет манипулировать мнениями. Именно из-за таких накрутчиков появляются обвинения Яндекса в том, что он редактирует топ вручную - тогда как на самом деле, по словам Антона, формируется он полностью автоматически.

Какова же "формула ранжирования" записей в Топе Блогосферы?

  1. Записи сортируются по количеству ссылок на пост за последние три дня.
  2. Ссылки учитываются только с блогов, существующих более полугода
  3. ссылки за последние 8 часов имеют удвоенный вес - это нужно, чтобы топ чаще "освежался"
  4. Записи теряют вес каждый час нахождения в топе - с той же целью
  5. В топ может попасть одновременно не более 1 записи из 1 блога.
  6. Рейтинг пересчитывается каждые 20 минут
  7. Чем меньше раз тот или иной блог ссылался на блог, содержащий топовую запись, тем весомее ссылка.

Перед Яндексом, конечно, стоит задача борьбы с накруткой топа. Планируется добавлять больше источников данных для рейтингования - учитывать комментарии и посещаемость. В ближайшее время пользователи смогут посмотреть разные неотфильтрованные срезы по каждому из источников - и накрутки станут видны каждому. Наконец, планируется сделать больше разных рейтингов, отчего уменьшится потенциал влияния на умы каждого из них.

Как работает поиск по блогам

Индексная база ППБ пополняется, во-первых, записями на уже известных поиску блог-хостингах, во-вторых тем, что пришло через форму добавления blogs.yandex.ru/add.xml, и, наконец, источниками из веб-поиска, который обнаруживает в интернете ссылку на новый RSS. Однако, блогом не считается всё то, что отдает RSS. По умолчаню RSS-поток вообще не считается блогом, есть ряд автоматических правил отнесения его к таковым. Ошибки автоматов правят руками контент-менеджеры.

В результате автономный блог на нестандартном, не известным роботам движке, может не попасть в индекс ППБ. Владельцу такого дневника надо писать в блоговый саппорт и просить себя проиндексировать.

Антон Волнухин с прискорбием признал тот факт, что управлять индексированием и участием в поиске своего блога его владелец может только при помощи писем в саппорт. Это никому не удобно, поэтому Яндекс собирается сделать панель управления взаимоотношениями блога и Яндекса, дав каждому блоггеру полный контроль над его присутствием в сервисах для блогосферы. Пока этого нет, многие вопросы решаются не очень удобно для блоггеров потому, что Яндекс хочет сохранить своеобразный дипломатический нейтралитет.

Например, если запись попала в ТППБЯ, а потом исчезла из блога, ссылка из топа начнёт автоматически вести на сохраненную копию записи. Яндекс ведь не знает, почему именно исчезла запись, захотел ли её стереть блоггер или Хакер Хелл, или Abuse Team из ЖЖ.

Основные отличия поиска по блогам от поиска по Вебу состоят в следующем:

  • очень быстрая индексация записей. По личному опыту редакции этого блога, в ЖЖ записи индексируются буквально за пять минут.
  • в результатах поиска ранжирвание по времени
  • поиск обрабатывает большое количество маленьких текстов
  • есть возможность учитывать информацию об авторе (соцдем) и его связях внутри социального сервиса. Это позволяет в расширенном поиске задать пол, возраст, место жительства и искать, например, информацию по блогам двадцатилетних москвичек.
  • данные не переиндексируются каждый раз, а накапливаются в индексе
  • RSS не содержит информации об удалении записи, поэтому удаленный пост остается в блоговом индексе, пока автор не напишет в поддержку.

Главные проблемы поиска по блогам - это спам, фильтрация дублей, индексирование удаленных и скрытых записей.

33% записей в блогах являются спамом. Обычно такие записи представляют собой автоматически сгенерированные тексты (записи и комментарии) с нужными ключевыми словами или ссылками, предназначенные для влияния на веб-поиск и рейтинги. Для борьбы со спамом применяются как специальные блоговые технологии, так и Спамооборона. Яндекс считает, что ему удается удерживать уровень спама в поиске и его влияние на рейтинги невысоким.

Проблема дублей состоит в том, что среди одинаковых записей показывается самая поздняя. Из этого вытекает, во-первых, то, что, скопировав запись, можно попасть в поиск вместо её автора, а во-вторых то, что из нескольких трансляций журнала запись показывается в той, в которую позже всего попала. Решение, опять же, одно - писать в саппорт, жаловаться на злостное копирование записей или указывать ту трансляцию, которую хочется видеть в поиске. Аналогично, в порядке переписки с саппортом, убирается из поиска удаленная или скрытая в режим "для друзей" запись.