Обучение поисковых систем

В настоящее время представляется сложным создать запрос, по которому будет находиться менее десяти страниц. По большинству запросов появляются миллионы результатов поиска. Интернет разрастается со скоростью света, таких миллионных результатов становится все больше и больше. Показывать пользователю все страницы со словами из запроса – задача невыполнимая. Ведь для того, чтобы отыскать необходимую страницу, человеку придется просматривать сотни предложенных страниц поиска. Система поиска должна располагать найденные ею страницы в необходимом порядке. То есть в самом верху пользователь видит подходящие (релевантные) результаты поиска. Такой процесс имеет название - ранжирование. Качество поиска (качество ответа на поставленный пользователем в поисковой строке вопрос) определяет именно ранжирование.

 

Единственный правильный ответ на какой-либо запрос при нынешней скорости развития интернета, конечно же, найти невозможно. Так что поисковик обязан самостоятельно решать, какой ответ будет правильным, а какой – нет.

 

Миллионы запросов каждый день обрабатывает Яндекс. Примерно четверть таких запросов – неповторяющиеся. Таким образом написать идеальную программу для современной поисковой системы не представляется возможным, нельзя предугадать каждый запрос и лучший ответ для него. Можно лишь построить работу поисковой системы таким образом, чтобы она самостоятельно решала какой ответ верный, выбирая из миллионов документов. Чтобы это осуществлялось, необходимо заставить систему самостоятельно обучаться.

 

Подобная задача существует не только в поисковых технологиях. Невозможно без обучения машины распознать речь или рукописный текст. Еще в 50-е годы двадцатого столетия появился термин «машинное обучение». Фактически он означает попытку обучить компьютер (машину) решать те из задач, которые с легкостью решил бы и человек, но формализовать путь их решения представляется слишком сложным делом. Результатом такого машинного обучения является то, что компьютер может демонстрировать поведение, которое не было в нем запрограммировано.

 

Задача поисковой системы – построить правило, которое позволяло бы определять для каждого поступающего запроса, какая из миллионов страниц является верным и лучшим ответом, а какая – не является. Чтобы это произошло, система должна анализировать свойства веб-страниц и запросов поиска. Все веб-станицы обладают какими-либо признаками. Одни из них – статические и связаны с самой страницей, к примеру, количество ссылок на эту веб-страницу. Другие признаки могут быть динамическими, то есть, связаны и с запросом, и со страницей (присутствие в тексте страницы слов запроса, их расположение и количество).

 

Поисковый запрос также имеет свойства. Одно из них – геозависимость. Оно характеризуется тем, что для верного ответа на поставленный запрос необходимо знать регион, из которого запрос был задан. Такие свойства запросов и страниц, измеряемые числами, называют факторами ранжирования. Соответственно, что для более точного поиска нужно учитывать множество факторов.

 

В формуле ранжирования сочетаются разные факторы.