Яндекс при ранжировании документов использует не менее 163 факторов

Всегда хотелось знать, сколько же факторов ранжирования документов у Яндекса. До сих пор мне этого не известно, но я точно знаю, что не менее ста шестидесяти трёх.

Стали доступны доклады Российского семинара по Оценке Методов Информационного Поиска (РОМИП), который в этом году прошел 16 сентября в Петрозаводске. На семинаре обсуждали алгоритмы поиска нечетких дубликатов, поиск изображений по визуальному подобию, классификации запросов и оптимизацию факторов для поиска нормативных документов.

Также с докладом “Оптимизация алгоритмов ранжирования методами машинного обучения” выступали сотрудники Яндекса, которые для ранжирования документов белорусского проекта BY.WEB использовали 163 фактора. Правда “спалены” были только несколько факторов, да и то общеизвестные.

В представленном Яндексом докладе описывается опыт использования методов машинного обучения при оптимизации качества ранжирования поисковой программы по наборам документов BY.WEB и KM.RU. Самостоятельно изучить доклад вы можете по этой ссылке, я лишь приведу некоторые самые интересные факты.

Задача ранжирования состоит в упорядочении документов коллекции по убыванию степени их соответствия запросу, т.е. более релевантные документы должны иметь более высокий ранг. Для решения этой задачи большинство поисковых систем используют “функции релевантности” для сортировки коллекции документов согласно числовой оценке соответствия запросу, каждого из них.

Как правило, релевантность является функцией от набора факторов. В качестве факторов выступают различные числовые характеристики, которые должны помогать различать релевантные документы и нерелевантные. Для многих поисковых систем результирующая функция релевантности является простой комбинацией небольшого множества (5-15 штук) факторов.

Некоторые сложные факторы могут быть сами использованы в качестве самостоятельных функций ранжирования. Для ранжирование коллекции BY.WEB было учтено 163 раздичных фактора. Большинство из факторов представляют собой простые числовые характеристики документа или запроса. Ключевым моментом в построении ранжирования является способ комбинации факторов, т.е. вид функции релевантности. Для получения функции ранжирования используются методы машинного обучения. Такой подход позволяет достаточно легко добавлять новые факторы, тем самым развивая и улучшая поисковую систему.

Совершенно очевидно, что именно по такой схеме сегодня Яндекс и работает.

В своем докладе Яндекс приводит несколько примеров используемых факторов:

  • наличие точного вхождения запроса в тексте документа;
  • наличие точного вхождения запроса в заголовке документа;
  • группа факторов, состоящая из различных модификаций формулы Okapi_BM25;
  • русскоязычность документа;
  • логарифм количества ссылок на документ;
  • процент ссылок на документ, содержащих точное вхождение запроса.

В общем, порой, сами поисковые системы дают пищу для ума, а иногда и откровенные подсказки.

* * *

Труды РОМИП’2009. Google предлагает принять участие в опросе на счет поиска будущего. Регионы и города, причисленные к ним, по версии Арзамас+16. Проект, посвященный Audi и ее роли в автоспорте.



Еще по теме можно почитать:

  • Яндекс использует карты Беларуси незаконно?
  • Честный Яндекс. 300 WMR тому, кто угадает тИЦ
  • Основные принципы ранжирования документов в Яндексе и Google одинаковы
  • “Снежинск” окопался в регионах
  • Яндекс жрет мой моск!


  • Комментариев: 4

    1. TimNet пишет:

      круть. спс за мега полезную инфу.

    2. Сергей Конорев пишет:

      интересно почему логарифм количества ссылок… и какой логарифм?

      плюс к тому никоим образом не приоткрыта самая главная завеса — способ определения “качества” ссыки по Яндексу… вот это была бы самая интересная инфа для меня на нынешний момент!

    3. Алексей пишет:

      логарифм количества ссылок на документ - не что иное, как аналог пейджранка, PR
      Т.е. если на страницу А 1000 ссылок, а на страницу Б - 100, то это не значит, что А в 10 раз круче Б.

    4. Зуефф пишет:

      Количество ссылок, как говорят авторитеты, архиважно, и необязательно, что это будут сайты с высоким ТИЦ , главное что б не ГС.

    Оставьте свой отзыв!

    Новости Беларуси

    03.04.2012

    В доменной зоне .by имя можно отобрать практически у любого

    Законодательство Беларуси в свере IT еще настолько сырое, что зияющие дыры игрыют на руку не совсем честным “бизнесменам”. Опустим вопрос заработка, т.к. на сегодняшний день в белорусских реалиях актуален вопрос “опускания”.
    О том, как вас могут опустить с вашим доменом в зоне .by, отобрав его, рассказал на конференции “Деловой Интернет: Гродно” Повалишев Сергей, возглавляющий компанию “Хостер Бай”. […]

    01.04.2012

    MediaBarCamp 2012 наступает!

    3-6 мая 2012 в Литве состоится пятый международный МедиаБарКэмп, посвященный использованию новых возможностей социальных медиа и развитию медиа-активизма среди молодежи. MediaBarCamp организуется Swedish International Liberal Centre, Green Forum, Centerpartiets Internationella Stiftelse, Olof Palme Internattional Center и Беларуской партией “Зелёные”.
    Самое главное, что несмотря на то, что мероприятие в основном организовано для белорусов, принять в нем участие […]

    27.02.2012

    Домены в зоне .by теперь можно регистрировать мгновенно

    С 25 февраля 2012 года в доменной зоне .by значительно упрощены правила регистрации.
    Отныне отменена процедура обязательного согласования с Администратором доменной зоны, которая ранее занимала до пяти дней, также отмена процедура резервирования домена пользователями до его оплаты на срок до 30 дней. Последний факт искусственно закрывал возможность для регистрации интересных имен, породив спекуляции на рынке доменных […]

    05.09.2011

    “Деловой Интернет” стал платным - 5 долларов за участие

    3-4 октября 2011 года в Минске состоится шестая ежегодная конференция “Деловой Интернет-2011“. И впервые конференцию решено сделать платной и без привычного для многих генспонсора - государственного телекоммуникационного монополиста “Белтелекома”. Ожидается значительное просеивание рядов слушателей от школьников и просто прохожих, которых было бы очень много в центре Минска (конференция впервые переехала в самое удачное место для […]

    Реклама

    Новости IT-сферы

    20.01.2012

    В Рунете тестируют убийцу конструкторов-сайтов

    В начале 2000-ых в Рунет пришли конструкторы сайтов, платные и условно-бесплатные, успешные и не очень. По сути с десяток лет все было очень даже спокойно, конкуренция друг с другом на компаниях особо и не сказывалась, а новые плюшки появлялись исключительно за деньги. И вот на сцене появился setup.ru.
    Вы спросите, чем же он так хорош и […]

    19.10.2011

    Нелимитируемые переводы через Яндекс.Деньги возможны через сервис онлайн-идентификации

    Пользователи систем электронных денег теперь смогут проводить платежи на любые суммы, а не на максимально разрешенные антиотмывочным законодательством 15 тыс. руб., как это было до сих пор. Это станет возможным благодаря сервису онлайн-идентификации, запускаемому системой “Яндекс.Деньги” и бюро кредитных историй (БКИ) “Эквифакс кредит сервисиз”. По пути онлайн-идентификации клиентов готовы пойти и другие системы электронных денег […]

    05.10.2011

    За две недели “Яндекс” подешевел на 40%

    Инвесторы посчитали “Яндекс” переоцененным. Из-за небольшой потери поискового рынка России за акцию “Яндекса” дают $18,8, тогда как еще в июле одна акция оценивалась в $38,5.
    В России “Яндекс” впервые за последние годы начал терять долю рынка. В третьем квартале она снизилась всего на 0,5%, но этого хватило, чтобы по итогам минувшей среды акции “Яндекса” подешевели на […]

    08.09.2011

    Инструменты оптимизатора: новый бесплатный сервис проверки Google карт сайта

    В сети появился новый seo-сервис для оптимизаторов - Google Sitemaps Status Checker. Как пояснил Павел Мальто из SEO Research Inc., сервис выполняет только одну, но очень полезную функцию: каждый час проверяет статусы карт сайтов и отправляет на почту уведомление, если Google обнаружит ошибку.

    SEO-сервис будет полезен владельцем сайтов, у которых автоматически геренируются карты сайтов, другими словами, […]

    Ссылки