Яндекс при ранжировании документов использует не менее 163 факторов
Всегда хотелось знать, сколько же факторов ранжирования документов у Яндекса. До сих пор мне этого не известно, но я точно знаю, что не менее ста шестидесяти трёх.
Стали доступны доклады Российского семинара по Оценке Методов Информационного Поиска (РОМИП), который в этом году прошел 16 сентября в Петрозаводске. На семинаре обсуждали алгоритмы поиска нечетких дубликатов, поиск изображений по визуальному подобию, классификации запросов и оптимизацию факторов для поиска нормативных документов.
Также с докладом “Оптимизация алгоритмов ранжирования методами машинного обучения” выступали сотрудники Яндекса, которые для ранжирования документов белорусского проекта BY.WEB использовали 163 фактора. Правда “спалены” были только несколько факторов, да и то общеизвестные.
В представленном Яндексом докладе описывается опыт использования методов машинного обучения при оптимизации качества ранжирования поисковой программы по наборам документов BY.WEB и KM.RU. Самостоятельно изучить доклад вы можете по этой ссылке, я лишь приведу некоторые самые интересные факты.
Задача ранжирования состоит в упорядочении документов коллекции по убыванию степени их соответствия запросу, т.е. более релевантные документы должны иметь более высокий ранг. Для решения этой задачи большинство поисковых систем используют “функции релевантности” для сортировки коллекции документов согласно числовой оценке соответствия запросу, каждого из них.
Как правило, релевантность является функцией от набора факторов. В качестве факторов выступают различные числовые характеристики, которые должны помогать различать релевантные документы и нерелевантные. Для многих поисковых систем результирующая функция релевантности является простой комбинацией небольшого множества (5-15 штук) факторов.
Некоторые сложные факторы могут быть сами использованы в качестве самостоятельных функций ранжирования. Для ранжирование коллекции BY.WEB было учтено 163 раздичных фактора. Большинство из факторов представляют собой простые числовые характеристики документа или запроса. Ключевым моментом в построении ранжирования является способ комбинации факторов, т.е. вид функции релевантности. Для получения функции ранжирования используются методы машинного обучения. Такой подход позволяет достаточно легко добавлять новые факторы, тем самым развивая и улучшая поисковую систему.
Совершенно очевидно, что именно по такой схеме сегодня Яндекс и работает.
В своем докладе Яндекс приводит несколько примеров используемых факторов:
- наличие точного вхождения запроса в тексте документа;
- наличие точного вхождения запроса в заголовке документа;
- группа факторов, состоящая из различных модификаций формулы Okapi_BM25;
- русскоязычность документа;
- логарифм количества ссылок на документ;
- процент ссылок на документ, содержащих точное вхождение запроса.
В общем, порой, сами поисковые системы дают пищу для ума, а иногда и откровенные подсказки.
* * *
Еще по теме можно почитать:Труды РОМИП’2009. Google предлагает принять участие в опросе на счет поиска будущего. Регионы и города, причисленные к ним, по версии Арзамас+16. Проект, посвященный Audi и ее роли в автоспорте.
“Снежинск” окопался в регионах Яндекс жрет мой моск! Пятницо: чем отличаются пользователи Яндекс и Google? Яндекс позвал меня в клуб бетатестеров - многозначительный пост ни о чем Яндекс сломался… и сломал другим сервисы, жизнь, лишив денег…
22 Сентябрь 2009 в 6:14 pm
круть. спс за мега полезную инфу.
23 Сентябрь 2009 в 12:36 pm
интересно почему логарифм количества ссылок… и какой логарифм?
плюс к тому никоим образом не приоткрыта самая главная завеса — способ определения “качества” ссыки по Яндексу… вот это была бы самая интересная инфа для меня на нынешний момент!
8 Октябрь 2009 в 9:59 am
логарифм количества ссылок на документ - не что иное, как аналог пейджранка, PR
Т.е. если на страницу А 1000 ссылок, а на страницу Б - 100, то это не значит, что А в 10 раз круче Б.
11 Декабрь 2009 в 3:16 pm
Количество ссылок, как говорят авторитеты, архиважно, и необязательно, что это будут сайты с высоким ТИЦ , главное что б не ГС.