Когда
говорят о поисковых системах, очень часто
упоминают загадочно звучащее слово "релевантность".
"Да ну его, у него поиск нерелевантный!"
- говорят об одной поисковой системе. "Отлично
ищет, классная релевантность!" - говорят о
другой. Таким образом, можно догадаться, что
релевантность - это хорошо, а отсутствие
релевантности - плохо. Да, именно так и есть!
Релевантность - это степень соответствия
документа запросу.
Что значит "степень
соответствия"? Вот смотрите. Например, вы
студент (школьник, аспирант, кандидат,
профессор) и вам нужно написать какой-то
реферат. Как продвинутое дитя
интернетовского века вы не собираетесь его
писать самостоятельно, а надеетесь найти
соответствующий текст в Интернете и выдать
его за свой. Не берясь оценивать подобное
действо с точки зрения морали, будем
рассматривать это просто как пример.
Итак, прежде всего вам нужно
найти сайт с рефератами. Вы заходите на
поисковую систему и вводите слово для
поиска "рефераты". Поисковая система
заглядывает в свою индексную базу и видит
там ссылки примерно на 8 миллионах страниц,
на которых это слово встречается 30
миллионов раз. Причем это слово
присутствует как на страницах сайта "Банк
рефератов", так и на страницах дневника
блондинки Леночки, где дословно написано
следующее: "Сегодня пыталась писать
реферат. Шесть ногтей покрасила, но так
ничего и не написала. Какой-то сегодня прям
нерефератный день, дивчонки, да?"
Так какую ссылку пользователь
хочет получить первой: на банк рефератов
или на страничку блондинки Леночки, где
просто употребляется слово "реферат"?
Разумеется, на банк рефератов! Вот это и
называется - релевантность, то есть степень
соответствия запросу.
Каким образом поисковая система
может определить эту релевантность, то есть
какие из страничек, где встречается
заданная поисковая строка, наиболее
интересны и полезны пользователю? В этом
как раз и заключается ноу-хау различных
поисковиков, однако общий принцип у них
достаточно похож: проверяется, сколько раз
заданное словосочетание встречается на
отобранных страничках; проверяется
расстояние между словами; анализируется
количество ссылок на данную страницу;
смотрится, каким шрифтом (стилем) набрана на
странице искомая фраза; ну и оценивается
возраст сайта.
Вот что такое релевантность.
P. S. Подробно о том, как правильно искать в
Интернете, читайте здесь.