Индексация слов

Комментариев нет 13 апреля, Понедельник, 2009

Рубрика: SEO, Релевантность

Индексация слов

Индексация слов

Для того чтобы научиться делать релевантные страницы нам потребуется найти ответ на вопрос о том, какие слова хранят поисковые системы.

На сегодняшний день будет правильным утверждение: крупнейшие поисковики хранят все слова, кроме разделителей и специальных символов. Они отбрасывают знаки препинания и теги. Каких-то других стоп-слов в популярных поисковых системах давно уже не осталось. Несколько лет назад отбрасывались предлоги, частицы, союзы. Это было связано с желанием хранить данные в наиболее компактном виде. Сегодня, когда стоимость хранения мегабайта существенно снизилась из-за стремительного падения цен на жёсткие диски, потребность в этом исчезла.

Да и пользователи поисковых систем всё чаще вводят запросы с предлогами, к примеру, «недвижимость в Москве», но не «недвижимость Москва». Желая создать условия для наиболее комфортного использования своих сервисов, поисковые компании стремятся хранить и индексировать все слова. Знание этого важно для умения составлять правильные ключевые слова для оптимизации и продвижения сайта в рейтингах поисковых систем. Те запросы, по которым оптимизация и продвижение будет эффективнее.

Тем не менее, в наши дни не снижается роль прямых вхождений и остаётся актуальной машинная морфология. Как известно русский язык, как и английский, — язык флективный, то есть обладающий огромным арсеналом различных словоформ, образующихся благодаря использованию окончаний. Мы уже отмечали, что поисковые системы превращают все формы слова в одну — основу, и хранят именно основы слов.

Это правильно и с точки зрения экономичности, рациональности, и с точки зрения организации релевантной выдачи. Ведь большая часть пользователей стремится к тому, чтобы поисковая система понимала, что слова «машина» и «машины» вводятся с желанием получить информацию по одному и тому же вопросу. В общем случае существительное русского языка имеет двенадцать словоформ. Хранить все двенадцать крайне нецелесообразно.

Машинной морфологией, с помощью которой они возвращаются к одному слову, обладают все поисковые системы. Для этого организуются словари. Неизвестные слова поисковые системы хранят в виде прямого вхождения, как хранилась бы пиктограмма или иероглиф — «один в один». Впрочем, Google таким образом хранит вообще все слова. Это очень важно понимать для оптимизации страниц под русскоязычный Google.

Какие-либо обработки слов и машинная морфология используются этой поисковой системой только для улучшения выдачи, но не из-за экономии места. В общем случае «заказать столы» и «заказ столов» для Google практически один и тот же запрос. Другими словами, машинная морфология задействуется в тот момент, когда обрабатывается запрос, а не когда происходит индексирование страниц.

RSS-подписка

Оставить комментарий

Вы можете пользоваться следующими тэгами XHTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>