Яндекс при ранжировании документов использует не менее 163 факторов

Всегда хотелось знать, сколько же факторов ранжирования документов у Яндекса. До сих пор мне этого не известно, но я точно знаю, что не менее ста шестидесяти трёх.

Стали доступны доклады Российского семинара по Оценке Методов Информационного Поиска (РОМИП), который в этом году прошел 16 сентября в Петрозаводске. На семинаре обсуждали алгоритмы поиска нечетких дубликатов, поиск изображений по визуальному подобию, классификации запросов и оптимизацию факторов для поиска нормативных документов.

Также с докладом “Оптимизация алгоритмов ранжирования методами машинного обучения” выступали сотрудники Яндекса, которые для ранжирования документов белорусского проекта BY.WEB использовали 163 фактора. Правда “спалены” были только несколько факторов, да и то общеизвестные.

В представленном Яндексом докладе описывается опыт использования методов машинного обучения при оптимизации качества ранжирования поисковой программы по наборам документов BY.WEB и KM.RU. Самостоятельно изучить доклад вы можете по этой ссылке, я лишь приведу некоторые самые интересные факты.

Задача ранжирования состоит в упорядочении документов коллекции по убыванию степени их соответствия запросу, т.е. более релевантные документы должны иметь более высокий ранг. Для решения этой задачи большинство поисковых систем используют “функции релевантности” для сортировки коллекции документов согласно числовой оценке соответствия запросу, каждого из них.

Как правило, релевантность является функцией от набора факторов. В качестве факторов выступают различные числовые характеристики, которые должны помогать различать релевантные документы и нерелевантные. Для многих поисковых систем результирующая функция релевантности является простой комбинацией небольшого множества (5-15 штук) факторов.

Некоторые сложные факторы могут быть сами использованы в качестве самостоятельных функций ранжирования. Для ранжирование коллекции BY.WEB было учтено 163 раздичных фактора. Большинство из факторов представляют собой простые числовые характеристики документа или запроса. Ключевым моментом в построении ранжирования является способ комбинации факторов, т.е. вид функции релевантности. Для получения функции ранжирования используются методы машинного обучения. Такой подход позволяет достаточно легко добавлять новые факторы, тем самым развивая и улучшая поисковую систему.

Совершенно очевидно, что именно по такой схеме сегодня Яндекс и работает.

В своем докладе Яндекс приводит несколько примеров используемых факторов:

  • наличие точного вхождения запроса в тексте документа;
  • наличие точного вхождения запроса в заголовке документа;
  • группа факторов, состоящая из различных модификаций формулы Okapi_BM25;
  • русскоязычность документа;
  • логарифм количества ссылок на документ;
  • процент ссылок на документ, содержащих точное вхождение запроса.

В общем, порой, сами поисковые системы дают пищу для ума, а иногда и откровенные подсказки.

* * *

Труды РОМИП’2009. Google предлагает принять участие в опросе на счет поиска будущего. Регионы и города, причисленные к ним, по версии Арзамас+16. Проект, посвященный Audi и ее роли в автоспорте.



Еще по теме можно почитать:

  • “Снежинск” окопался в регионах
  • Яндекс жрет мой моск!
  • Пятницо: чем отличаются пользователи Яндекс и Google?
  • Яндекс позвал меня в клуб бетатестеров - многозначительный пост ни о чем
  • Яндекс сломался… и сломал другим сервисы, жизнь, лишив денег…


  • Комментариев: 4

    1. TimNet пишет:

      круть. спс за мега полезную инфу.

    2. Сергей Конорев пишет:

      интересно почему логарифм количества ссылок… и какой логарифм?

      плюс к тому никоим образом не приоткрыта самая главная завеса — способ определения “качества” ссыки по Яндексу… вот это была бы самая интересная инфа для меня на нынешний момент!

    3. Алексей пишет:

      логарифм количества ссылок на документ - не что иное, как аналог пейджранка, PR
      Т.е. если на страницу А 1000 ссылок, а на страницу Б - 100, то это не значит, что А в 10 раз круче Б.

    4. Зуефф пишет:

      Количество ссылок, как говорят авторитеты, архиважно, и необязательно, что это будут сайты с высоким ТИЦ , главное что б не ГС.

    Оставьте свой отзыв!

    Новости Беларуси

    16.02.2010

    Белорусские налоговики начали штрафовать фрилансеров

    Белорусские налоговые органы начали прессовать фрилансеров. В 2008 году блог Лены Морозовой, псевдо налогового инспектора, кторый якобы вычислял и штрафовал фрилансеров, был удачным пиаром. Сейчас же все стало реальностью - налоговые инспекторы Минска проводят “контрольные закупки” среди фрилансеров, работающих в интернете.
    Алгоритм прост. Налоговый инспектор на одной из многочисленных фриланс-бирж находит исполнителя из Беларуси и делает заказ. После встречи для предоплаты следуют задержание, […]

    10.02.2010

    Miralinks интересуется у белорусов о целесообразности создания ЦОПа в стране

    В свете последних изменений в законодательстве страны, я говорю про злополучный указ №60, в интернете на форуме Миралинкса на публичное обсуждение вынесен вопрос создания отдельного для белорусов ЦОПа на территории страны. Это связано прежде всего с предоставлением возможности белорусским сеошникам начать легально работать в интернете.
    В качестве аргументов в пользу создания такого ЦОПа приводятся следующие […]

    02.02.2010

    Президент отрегулировал Байнет - с 1 июля 2010 года интернет в Беларуси заживет по новым правилам

    1 февраля Президент Беларуси подписал Указ № 60 “О мерах по совершенствованию использования национального сегмента сети интернет”. Если кратко резюмировать его самую интересную суть, то получится, что в 2010 году интернет подешвеет и не раз, за несоблюдение авторского права в Байнете можно будет получить штраф или сесть (ссылки на первоисточник информации теперь должны проставляться по […]

    19.01.2010

    В зоне .by еще осталось 38% нераскупленных двухбуквенников

    Двухсимвольные домены всегда были на особом счету (они короткие, их легко запомнить и набрать на клавиатуре), в зонах .com, .net, .org их размели очень быстро. Не долго свободными были такие домены и в зоне .ru. А сейчас они являются лакомыми объектами покупки и продажи.
    На прошлой неделе в Рунете был поставлен новый рекорд продажи двухсимвольного доменного […]

    Реклама

    Новости IT-сферы

    10.03.2010

    К концу 2010 года может появиться домен .xxx

    Корпорация по присвоению имен в интернете (ICANN) на этой неделе в очередной раз инициирует рассмотрение вопрос создания в Сети нового домена .xxx, который в первую очередь будет обслуживать порноиндустрию.
    Первая попытка создания доменной зоны .xxx была раскритикована США. Сейчас ICANN возвращается к данному вопросу на конференции в Найроби.
    Инициатором создания новой доменной зоны является компания ICM Registry. Возможно, […]

    04.03.2010

    MAIL.RU представил свой новый сервис - ссылки

    В рамках конференции и нтернет-сообществ “i-Community 2010″, которая сейчас проходит в Москве, компания MAIL.RU презентовала новый сервис - ссылки@mail.ru.

    Совсем скоро у оптимизаторов появится еще один трастовый сервис, с помощью которого можно немного помочь своим проектам…
    К слову, сейчас mail.ru генерирует порядка 8% поискового трафика Рунета.
    * * *
    ADS. Срочная аренда гусеничного экскаватора hitachi на выгодных условиях.

    02.03.2010

    Пользователи из регионов составляют 38% аудитории контекстных объявлений

    В очередном публичном исследовании компании “Бегун”, приводятся очень интересные цифры. Выяснилось, что пользователи Москвы и области совершают 27% кликов по объявлениям “Бегуна”, пользователи Петербурга и области – 7,5%, на зарубежье (включая Украину) приходится 27%, и на регионы России – 38% (значения округлены).

    За год регионы приросли в своей доле на 6%, при этом величина бюджетов в регионах […]

    27.02.2010

    77% всех whois-записей содержат неверную информацию о владельцах

    National Opinion Research Center в своем исследовании определил, что более двух третей или 77% всех Whois-записей, где говорится о владельце того или иного домена в сети, содержат неполную или заведомо ложную информацию. Это относится не только к национальным доменам, но и к международным зонам com, net, org, info и biz.
    В конце 2007 года проводили похожее исследование, […]