Поисковые системы

Комментариев нет 13 апреля, Понедельник, 2009

Рубрика: SEO, Релевантность

Поисковые системы

Google вычисляет SEO-спам

Поисковые системы — основное звено современного Интернета. Этих сервисов достаточно много, но внимание вебмастеров рунета чаще всего оказывается направленным на лидирующие: Google и Яндекс.

Если рассматривать всё содержимое Сети в качестве одного огромного гипертекста, то упорядочивают его именно поисковые системы. Они составляют и хранят огромный предметный указатель всех сайтов, всех страниц разбросанных в Сети, и выделяют в нём ключевые слова.

Для этого поисковая машина, основной программный комплекс поисковых систем, индексирует все Web-страницы. Этот процесс делится на несколько этапов. Прежде всего составляется начальный список страниц, содержащий адреса, которые в дальнейшем будут проиндексированы и покажут поисковым программам — какие страницы необходимо проиндексировать кроме них.

Чаще всего для решения этой задачи просто загружается список из какого-то каталога сайтов. После этого поисковый робот начинает сбор и сохранение всех гипертекстовых ссылок на страницы других сайтов, которые находит на каждой из загруженных страниц. Снежный ком растёт. Переходя по этим ссылкам, поисковые машины составляют огромные базы данных, содержащие адреса миллионов страниц.

Чем больше ссылок на какую-то страницу обнаружит поисковый робот — тем больше вероятность того, что она будет проиндексирована. И, наоборот, — для страниц, на которые не ссылаются другие сайты, шансы оказаться, не то чтобы на хороших местах в поисковой выдаче, но и вообще в индексе, существенно снижаются.

Поисковый индекс — это выборка содержания страницы. Чтобы его составить поисковая система должна получить её текст. Сбором этой информации занимаются особые модули поисковых систем, которые носят название «crawler», пауки или поисковые роботы. Функциональность этих программ заключается в посещении собранных ранее адресов, и закачивании на определённые сервера необработанной текстовой информации. Она передаётся следующему модулю, который носит название индексный робот.

Индексный робот должен пронумеровать все страницы, которые передал ему поисковый робот и составить базу данных из всех слов, встречающихся на сайтах, соотнеся их с этими страницами. На одном из первых этапов этой работы — он очищает полученный результат от «мусора» или данных, которые для этого не нужны. К примеру, элементов разметки HTML. База данных слов связывается с адресами страниц.

Все эти процессы происходят незаметно для пользователей поисковых систем. Впоследствии, когда они введут какой-то поисковый запрос, то программа не пойдёт искать информацию непосредственно в Интернете, но обратится к собственному индексу. Ответом будут ссылки на все сайты, где содержится искомое слово или словосочетание.

Обычно поисковые системы показывают титул страницы, дату её создания, цитату из текста и подсвечивают искомое выражение. В случае если было введено несколько слов, то анализируется каждое из них. В самом верху списка результатов выдачи показываются страницы, которые содержат все введённые слова.

Конечно, мы рассмотрели только основу процесса. Современные поисковые системы стремятся к тому, чтобы самые лучшие результаты достались тем сайтам, которые могли бы захотеть видеть люди. Другими словами, соответствующие ожиданиям пользователей поисковых систем. Такие страницы принято называть релевантными. Релевантные страницы — это страницы сайтов, которые имеют отношение к рассматриваемой проблеме, уместные по отношению к определённому запросу. О том, как делать такие страницы, на что смотрят поисковые системы в первую очередь, мы погорим в следующий раз. Однако этот разговор может оказаться напрасным, если мы не поймём структуру индекса и не разберёмся в основных моментах и принципах его формирования.

RSS-подписка

Комментарии закрыты.