Поисковый индекс

Оставить твой ГС в индексе или нет...
На самом деле поисковые компании не придумывали что-то новое, но использовали проверенное веками. Сам по себе поисковый индекс достаточно прост. Все мы знаем, что любая книга, кроме непосредственно содержания, включает в себя издательский индекс, предметный указатель и библиографическое описание. Если библиография книги ближе к метаданным сайта, то предметный указатель к индексу его страниц.
Для создания поискового индекса в первую очередь убираются все теги и весь программный код. Получается чистый текст. После этого из него выбираются все буквенно-цифровые последовательности, которые разработчики программ считают логическими словами. Из этих слов формируются отдельные отсортированные по алфавиту списки. Далее вступает в силу «машинная морфология» и начинается лингвистическая обработка собранных слов. Подробнее »



