Яндекс при ранжировании документов использует не менее 163 факторов

Всегда хотелось знать, сколько же факторов ранжирования документов у Яндекса. До сих пор мне этого не известно, но я точно знаю, что не менее ста шестидесяти трёх.

Стали доступны доклады Российского семинара по Оценке Методов Информационного Поиска (РОМИП), который в этом году прошел 16 сентября в Петрозаводске. На семинаре обсуждали алгоритмы поиска нечетких дубликатов, поиск изображений по визуальному подобию, классификации запросов и оптимизацию факторов для поиска нормативных документов.

Также с докладом “Оптимизация алгоритмов ранжирования методами машинного обучения” выступали сотрудники Яндекса, которые для ранжирования документов белорусского проекта BY.WEB использовали 163 фактора. Правда “спалены” были только несколько факторов, да и то общеизвестные.

В представленном Яндексом докладе описывается опыт использования методов машинного обучения при оптимизации качества ранжирования поисковой программы по наборам документов BY.WEB и KM.RU. Самостоятельно изучить доклад вы можете по этой ссылке, я лишь приведу некоторые самые интересные факты.

Задача ранжирования состоит в упорядочении документов коллекции по убыванию степени их соответствия запросу, т.е. более релевантные документы должны иметь более высокий ранг. Для решения этой задачи большинство поисковых систем используют “функции релевантности” для сортировки коллекции документов согласно числовой оценке соответствия запросу, каждого из них.

Как правило, релевантность является функцией от набора факторов. В качестве факторов выступают различные числовые характеристики, которые должны помогать различать релевантные документы и нерелевантные. Для многих поисковых систем результирующая функция релевантности является простой комбинацией небольшого множества (5-15 штук) факторов.

Некоторые сложные факторы могут быть сами использованы в качестве самостоятельных функций ранжирования. Для ранжирование коллекции BY.WEB было учтено 163 раздичных фактора. Большинство из факторов представляют собой простые числовые характеристики документа или запроса. Ключевым моментом в построении ранжирования является способ комбинации факторов, т.е. вид функции релевантности. Для получения функции ранжирования используются методы машинного обучения. Такой подход позволяет достаточно легко добавлять новые факторы, тем самым развивая и улучшая поисковую систему.

Совершенно очевидно, что именно по такой схеме сегодня Яндекс и работает.

В своем докладе Яндекс приводит несколько примеров используемых факторов:

  • наличие точного вхождения запроса в тексте документа;
  • наличие точного вхождения запроса в заголовке документа;
  • группа факторов, состоящая из различных модификаций формулы Okapi_BM25;
  • русскоязычность документа;
  • логарифм количества ссылок на документ;
  • процент ссылок на документ, содержащих точное вхождение запроса.

В общем, порой, сами поисковые системы дают пищу для ума, а иногда и откровенные подсказки.

* * *

Труды РОМИП’2009. Google предлагает принять участие в опросе на счет поиска будущего. Регионы и города, причисленные к ним, по версии Арзамас+16. Проект, посвященный Audi и ее роли в автоспорте.



Еще по теме можно почитать:

  • “Снежинск” окопался в регионах
  • Яндекс жрет мой моск!
  • Пятницо: чем отличаются пользователи Яндекс и Google?
  • Яндекс позвал меня в клуб бетатестеров - многозначительный пост ни о чем
  • Яндекс сломался… и сломал другим сервисы, жизнь, лишив денег…
  • Комментариев: 4

    1. TimNet пишет:

      круть. спс за мега полезную инфу.

    2. Сергей Конорев пишет:

      интересно почему логарифм количества ссылок… и какой логарифм?

      плюс к тому никоим образом не приоткрыта самая главная завеса — способ определения “качества” ссыки по Яндексу… вот это была бы самая интересная инфа для меня на нынешний момент!

    3. Алексей пишет:

      логарифм количества ссылок на документ - не что иное, как аналог пейджранка, PR
      Т.е. если на страницу А 1000 ссылок, а на страницу Б - 100, то это не значит, что А в 10 раз круче Б.

    4. Зуефф пишет:

      Количество ссылок, как говорят авторитеты, архиважно, и необязательно, что это будут сайты с высоким ТИЦ , главное что б не ГС.

    Оставьте свой отзыв!

    Новости Беларуси

    02.02.2010

    Президент отрегулировал Байнет - с 1 июля 2010 года интернет в Беларуси заживет по новым правилам

    1 февраля Президент Беларуси подписал Указ № 60 “О мерах по совершенствованию использования национального сегмента сети интернет”. Если кратко резюмировать его самую интересную суть, то получится, что в 2010 году интернет подешвеет и не раз, за несоблюдение авторского права в Байнете можно будет получить штраф или сесть (ссылки на первоисточник информации теперь должны проставляться по […]

    19.01.2010

    В зоне .by еще осталось 38% нераскупленных двухбуквенников

    Двухсимвольные домены всегда были на особом счету (они короткие, их легко запомнить и набрать на клавиатуре), в зонах .com, .net, .org их размели очень быстро. Не долго свободными были такие домены и в зоне .ru. А сейчас они являются лакомыми объектами покупки и продажи.
    На прошлой неделе в Рунете был поставлен новый рекорд продажи двухсимвольного доменного […]

    21.12.2009

    В Беларуси подешевел интернет

    Монополист связи “Белтелеком” сделал белорусам рождественский подарок - цены для частных и корпоративных клиентов были снижены - по некоторым позициям весьма существенно. Это именно то, о чем я говорил еще в сентябре (правда, с существенной задержкой).
    Вслед за действиями монополиста стоит ожидать традиционных ходов от коммерчестких провайдеров, которые всегда снижают ценник на сопоставимый уровень.
    Новые тарифы […]

    15.12.2009

    В Беларуси сделали свой конструктор сайтов

    Витебская компания “Астра Вебтехнологии” в конце осени начала коммерческую эксплуатацию нового конструктора сайтов BYKONUR. Вся система построена на базе Astra.CMS, позволяющей за короткое время на основе шаблонных решений собрать собственный сайт вплоть до полнофункционального интернет-магазина.
    Пользователи не ограничены структурой сайта, которую они могут задать самостоятельно, попутно настраивая цветовое решение и основные элементы сайта.
    “Пользоваться готовым решением […]

    Реклама

    Новости IT-сферы

    20.01.2010

    Sape - источник знаний и доходов “молодежи”

    Сегодня биржа продажи/покупки ссылок SAPE анонсировала новый функционал для оптимизаторов. Если вы все еще учитесь SEO, то не нужно иметь много мозгов, чтобы понять современные принципы продвижения, исходя из анонсированных возможностей.
    Итак:

    в ручном поиске появилась возможность в критериях указать рубрику(и) Яндекс.каталога, при этом в результатах поиска появятся как сайты из Яндекс.каталога, так и те сайты, […]

    12.01.2010

    Mail.ru так и не начал использовать поиск Google

    15 декабря прошлого года Mail.ru сообщил, что с нового года сменит партнера по поиску и контекстной рекламе. На место неуступчивого Яндекса (не захотел больше размещать свой поиск на Mail.ru без упоминания, что это его собственная технология) должен был прийти Google. Но американский поисковик на сегодняшний день представлен лишь контекстом, пока же Mail.ru прикрутили к своему поиску […]

    16.12.2009

    Яндекс старается задержать пользователей “предложением” информации из своих сервисов

    Сегодня ночью случился очередной ап поисковой выдачи. Пусть еще рано делать какие-то выводы, но засилию Википедии в поисковой выдаче приходит конец. Сегодня впервые заметил, что свободная энциклопедия сдала свои позиции по достаточно большому числу запросов.

    Помимо всего прочего Яндекс стал интегрировать комплекную информацию, соответвующую поисковому запросу, над результатами поиска. Как видно на скринах, для Гродно такой […]

    15.12.2009

    Началось голосование за лучший seo-блог Рунета

    В блоге Константина Рощупкина стартовал традиционный ежегодный конкурс на звание лучшего seo-блога. По 13 декабря включительно в комментариях проводился отбор номинантов. Сейчас идет голосование, которое закончится в полночь 20 декабря.
    В этом году в конкурсе принимают участие 18 блогов, на 1 меньше прошлогоднего показателя. Кстати, в числе номинантов на звание лучшего seo-блога и s13.by.
    Каждый посетитель […]