Поисковый индекс

Комментариев нет 13 апреля, Понедельник, 2009

Рубрика: SEO, Релевантность

Поисковый индекс

Оставить твой ГС в индексе или нет...

На самом деле поисковые компании не придумывали что-то новое, но использовали проверенное веками. Сам по себе поисковый индекс достаточно прост. Все мы знаем, что любая книга, кроме непосредственно содержания, включает в себя издательский индекс, предметный указатель и библиографическое описание. Если библиография книги ближе к метаданным сайта, то предметный указатель к индексу его страниц.

Для создания поискового индекса в первую очередь убираются все теги и весь программный код. Получается чистый текст. После этого из него выбираются все буквенно-цифровые последовательности, которые разработчики программ считают логическими словами. Из этих слов формируются отдельные отсортированные по алфавиту списки. Далее вступает в силу «машинная морфология» и начинается лингвистическая обработка собранных слов.

Это делается для экономии места и времени. Слова, которые могут встречаться в тексте в самых разных падежах или склонениях, возвращаются к номинальному варианту. В результате все слова в индексе будут заменены на их основы.

Каждое слово, вернее — основа, называется вхождением, а все вхождения нумеруются. Не исключено, что страницы этого сайта в индексе будут выглядеть так:

Система 1 1
Поисковый 1 2
Робот 1 3
Релевантность 1 4

где слово «система» — основа, 1 — номер страницы, а 1, 2, 3, 4, в третьей колонке, — номера вхождения основ.

На практике индекс несколько сложнее. Вместо основ в индексе могут храниться только их ID, а сами слова собираются и индексируются отдельно. Кроме того, такой принцип достаточно стар. Современный индекс поисковых систем — это координатный индекс. Кроме номера страницы, номера вхождения и основы, поисковые системы сохраняют ещё и данные о месторасположении ключевого слова на странице. Таким образом, поисковые системы обладают ещё и информацией для организации правильной выдачи при вводе пользователем многословных запросов. В результате образуется возможность показа наиболее релевантных страниц и цитат.

Вообще индекс это интернет, который вывернут наизнанку. В нормальной ситуации мы находим сайт, потом переходим на страницу, а потом уже обращаем внимание на слова. Поисковый индекс это способ показать нам страницы при вводе слов. Поэтому такой индекс иногда называют инвертированным или инвертным индексом. Кроме него существует ещё и не вывернутый наизнанку или прямой индекс. Именно оттуда поисковые системы берут цитаты. Прямой индекс это копия интернета, снятая в том момент времени, когда поисковые роботы собирали информацию, чтобы передать её индексному роботу.

Ещё несколько лет назад эта копия не включала в себя элементы разметки. Но теперь поисковые системы хранят всё больше и больше информации. Просто говоря, Google хранит на своих серверах копию почти всего интернета, а Яндекс — всего рунета.

Интересно, что это время от времени вызывает всплеск эмоций у бизнесменов различного уровня. Особенно нервозными оказываются представители масс-медиа компаний, которые ставят компании Google в упрёк то, что те нарушают авторские права, используя их контент без разрешения. На это представители компании Google отвечают, что благодаря им миллионы людей находят сайты СМИ и становятся их читателями. Тем не менее, судебные иски продолжаются.

RSS-подписка

Оставить комментарий

Вы можете пользоваться следующими тэгами XHTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>