Трудности переобучения поисковых систем

С начала 2000-х годов в работе поисковых систем стало применяться машинное обучение. Для различных систем применяют различные модели обучения. Главная проблема, которая встает над разработчиками машинного обучения – переобучить систему. Дело в том, что переобучившаяся машина сильно напоминает студента, который долго занимался науками, допустим, посвятил огромное количество времени на прочтение книг по психологии. Естественно, что он почти не общался с настоящими людьми, и поэтому объясняет их самые простые действия сложными психологическими моделями поведения. Конечно же, поведение его друзей и близких для него всегда неожиданно.

В работе системы это выглядит так: допустим, компьютер владеет огромным количеством факторов (то есть запросов и наиболее лучших ответов), а размер обучающей выборки (составленной с помощью оценочной работы асессоров) очень мал. Тогда компьютер начинает поиск несуществующих закономерностей. В итоге среди множества страниц, которые подверглись оценке системы между собой, оказываются две с несуразной комбинацией признаков, к примеру, фоном красного цвета, с размером 5 кб, с текстом, который начинается на букву "а".

Но эти страницы непременно будут релевантные подаваемому запросу. Машина примет подобную случайную комбинацию факторов лучшим свойством релевантности запросу. Однако все действительно важные документы по запросу, которые такой комбинацией факторов не обладают, будут казаться ему нерелевантными.

В качестве построения формулы ранжирования Яндекс пользуется собственным методом машинного обучения — Матрикснет. Он устойчив к переобучению.