Работа ботов-индексаторов
Темой прошлой статьи из этой темы было рассмотрение принципа работы поисковой машины. В данной заметке хотелось бы разобраться в том, на чем основана работа индексного бота.
Начнем с того, что веб-страницы бывают двух видов: динамические и статические. Особенности конкретного вида можно в общих чертах понять уже из их названия. Страницы статические – это те, которые остаются неизменными во времени. Создают такие страницы с использованием HTML (Hyper Text Markup Language) – языка гипертекстовой разметки. Сам HTML языком программирования не является, но при помощи его специальных команд – html-тегов – оформляются отображения текстов, графиков, таблиц и других объектов на странице. На самом деле, самый простой веб-документ содержит в своей основе не текст, а особый код, и html-теги могут быть таким кодом.
Когда робот приступает к индексации текста страницы, закачанной пауком, прежде всего происходит удаление всего ненужного - конверсирование кода страницы в так называемый “сырец”. В мусор отправляется графика, любые программные коды, html-теги и прочее.
Необходимо помнить, что при ранжировании вхождение слов, входящих в html-теги или в поисковый запрос обязательно учитывается. Происходит это потому, что определенное форматирование несет еще и смысловую нагрузку: ведь заголовок гораздо важнее, чем просто обыкновенный текст в статье. Это поисковая машина учитывает. Внутренняя оптимизация требует особого рассмотрения, к которому мы вернемся позже. (далее…)