Яндекс при ранжировании документов использует не менее 163 факторов

Всегда хотелось знать, сколько же факторов ранжирования документов у Яндекса. До сих пор мне этого не известно, но я точно знаю, что не менее ста шестидесяти трёх.

Стали доступны доклады Российского семинара по Оценке Методов Информационного Поиска (РОМИП), который в этом году прошел 16 сентября в Петрозаводске. На семинаре обсуждали алгоритмы поиска нечетких дубликатов, поиск изображений по визуальному подобию, классификации запросов и оптимизацию факторов для поиска нормативных документов.

Также с докладом “Оптимизация алгоритмов ранжирования методами машинного обучения” выступали сотрудники Яндекса, которые для ранжирования документов белорусского проекта BY.WEB использовали 163 фактора. Правда “спалены” были только несколько факторов, да и то общеизвестные.

В представленном Яндексом докладе описывается опыт использования методов машинного обучения при оптимизации качества ранжирования поисковой программы по наборам документов BY.WEB и KM.RU. Самостоятельно изучить доклад вы можете по этой ссылке, я лишь приведу некоторые самые интересные факты.

Задача ранжирования состоит в упорядочении документов коллекции по убыванию степени их соответствия запросу, т.е. более релевантные документы должны иметь более высокий ранг. Для решения этой задачи большинство поисковых систем используют “функции релевантности” для сортировки коллекции документов согласно числовой оценке соответствия запросу, каждого из них.

Как правило, релевантность является функцией от набора факторов. В качестве факторов выступают различные числовые характеристики, которые должны помогать различать релевантные документы и нерелевантные. Для многих поисковых систем результирующая функция релевантности является простой комбинацией небольшого множества (5-15 штук) факторов.

Некоторые сложные факторы могут быть сами использованы в качестве самостоятельных функций ранжирования. Для ранжирование коллекции BY.WEB было учтено 163 раздичных фактора. Большинство из факторов представляют собой простые числовые характеристики документа или запроса. Ключевым моментом в построении ранжирования является способ комбинации факторов, т.е. вид функции релевантности. Для получения функции ранжирования используются методы машинного обучения. Такой подход позволяет достаточно легко добавлять новые факторы, тем самым развивая и улучшая поисковую систему.

Совершенно очевидно, что именно по такой схеме сегодня Яндекс и работает.

В своем докладе Яндекс приводит несколько примеров используемых факторов:

  • наличие точного вхождения запроса в тексте документа;
  • наличие точного вхождения запроса в заголовке документа;
  • группа факторов, состоящая из различных модификаций формулы Okapi_BM25;
  • русскоязычность документа;
  • логарифм количества ссылок на документ;
  • процент ссылок на документ, содержащих точное вхождение запроса.

В общем, порой, сами поисковые системы дают пищу для ума, а иногда и откровенные подсказки.

* * *

Труды РОМИП’2009. Google предлагает принять участие в опросе на счет поиска будущего. Регионы и города, причисленные к ним, по версии Арзамас+16. Проект, посвященный Audi и ее роли в автоспорте.



Еще по теме можно почитать:

  • Яндекс использует карты Беларуси незаконно?
  • Честный Яндекс. 300 WMR тому, кто угадает тИЦ
  • “Снежинск” окопался в регионах
  • Яндекс жрет мой моск!
  • Яндекс отказывается искать для белорусов


  • Комментариев: 4

    1. TimNet пишет:

      круть. спс за мега полезную инфу.

    2. Сергей Конорев пишет:

      интересно почему логарифм количества ссылок… и какой логарифм?

      плюс к тому никоим образом не приоткрыта самая главная завеса — способ определения “качества” ссыки по Яндексу… вот это была бы самая интересная инфа для меня на нынешний момент!

    3. Алексей пишет:

      логарифм количества ссылок на документ - не что иное, как аналог пейджранка, PR
      Т.е. если на страницу А 1000 ссылок, а на страницу Б - 100, то это не значит, что А в 10 раз круче Б.

    4. Зуефф пишет:

      Количество ссылок, как говорят авторитеты, архиважно, и необязательно, что это будут сайты с высоким ТИЦ , главное что б не ГС.

    Оставьте свой отзыв!

    Новости Беларуси

    01.09.2010

    “Черного списка” сайтов, который должен был появиться в Байнете 1 сентября, нет

    С 1 сентября 2010 года в Беларуси должна была заработать система блокировки нежелательных сайтов. Такая норма содержится в совместном постановлении Оперативно-аналитического центра и Минсвязи “Об утверждении положения о порядке ограничения доступа пользователей интернет-услуг к информации, запрещенной к распространению в соответствии с законодательными актами”.
    Список таких сайтов, к которым ограничивается доступ, должна была составить БелГИЭ, а закупка, монтаж […]

    03.08.2010

    Яндекс ввел для Беларуси региональный ИЦ и свой каталог

    ADS. В Киеве 28 Августа пройдет практический SEO семинар, минимум воды максимум практики. Количество мест ограничено!
    У белорусов появился свой Яндекс.Каталог. Примечательно, что вместе с каталогом появился и региональный индекс цитирования. Таким образом, при сортировке в каталоге учитывается не только тематическая авторитетность сайта, но и авторитетность в своем регионе.
    При этом в рубриках, где информация не зависит от региона, […]

    29.07.2010

    Пятый “Деловой Интернет” состоится 14-15 октября

    Пятая ежегодная конференция “Деловой интернет” состоится 14-15 октября в “Минск-Арене”.
    За пять лет конференция смогла вырасти до масштабов самого большого оффлайнового отраслевого события об интернете в Беларуси. Если в 2006 году в мероприятии приняли участие триста человек, то к 2009 эта цифра достигла полутора тысяч. Главными организаторами традиционно выступают белорусский информационный портал TUT.BY и компания “Белтелеком”. […]

    06.07.2010

    Изменения в доменной зоне .by: “халявщики” не смогут зарабатывать на воздухе

    Со вчерашнего дня в Беларуси изменился порядок регистрации доменов в национальной зоне .by. Благодаря новому порядку регистрации киберсквоттерам теперь будет сложнее “уводить” сладкие домены (об этом ниже) - отныне заявки на регистрацию доменов в зоне .by принимаются без согласования с ОАЦ (на эту процедуру уходило до 3 дней).
    Также с 5 июля нет возможности “зарезервировать” домен без оплаты на месяц. Ранее […]

    Реклама

    Новости IT-сферы

    30.08.2010

    “Яндексу” предъявлен иск за отказ индексирования спам-сайтов

    Завод GT7, занимающийся производством газового и нефтехимического оборудования судится с крупнейшим российским интернет-поисковиком “Яндекс”, утверждая, что тот незаконно отказался включить в свою поисковую систему четыре его сайта. В результате GT7 пришлось прибегнуть к платным услугам — размещению контекстной рекламы в системе “Яндекс.Директ”. Сайты завода — поисковый спам, уверяет “Яндекс”. Юристы подобных судебных разбирательств в России […]

    07.07.2010

    Поисковая доля Яндекса впервые превысила 60%

    Доля Яндекса на поисковом рынке Рунета впервые за последние четыре года превысила 60%. С начала года Яндекс “вырос” на 9,7%. По итогам июня он являлся поставщиком 64,6% поискового трафика, в то время как доли его основных конкурентов снизились. Mail.ru за полгода “упал” на 27%, Rambler потерял 11,8% поиска, Google чуть меньше — 6%.
    Доли Rambler, Mail.ru на поисковом рынке продолжают […]

    06.07.2010

    SeoDigest №11

    Увидел свет новый номер журнала для людей работающих и подрабатывающих в интернете SeoDigest. В одиннадцатом номере (его можно скачать по этой ссылке) рекомендую обратить внимание на следующие статьи:
    Идеи для блогов
    Возраст домена: вникаем в нюансы
    Какой трафик в Твиттере?
    Сложные поисковые запросы: поведения пользователя

    * * * 
    ADS. Трубы ПВХ смотри на сайте http://etp.com.ua/news/pvc_pipe.html. VPS - недорогой и надежный виртуальный сервер […]

    13.05.2010

    В домене .рф заработали первые сайты

    В ночь с 12 на 13 мая заработали первые сайты в кириллической доменной зоне .рф. Это президент.рф и правительство.рф. Все открывается, все работает.

    Набирать названия этих сайтов можно практически в любых браузерах.
    В настоящее время проходит приоритетное резервирование доменов в зоне .рф. На него имеют право российские органы власти и обладатели зарегистрированных товарных знаков. Позднее разместить свои сайты в […]

    Ссылки