→

Книга Основы баннерной рекламы онлайн - страница 10

Подготовка интернет-проекта к индексированию поисковыми системами

Как было сказано в предыдущей главе, регистрация интернет-проекта в поисковых системах и каталогах ресурсов является одним из наиболее эффективных способов привлечения посетителей. Однако второй метод в большинстве случаев зависит исключительно от того, как устроена процедура занесения информации о ресурсе в базу данных каталога, а подход к индексированию Web-документов поисковиками с полной уверенностью можно назвать индивидуальным и вполне предсказуемым. Регистрируясь в каталоге, пользователь вносит в установленные формы данные о сайте так, как он хочет. Однако далеко не всегда информация о ресурсе будет отображена впоследствии в каталоге в первозданном виде: многие подобные серверы по-своему редактируют описание ресурсов, руководствуясь при этом собственными доводами.

Поисковые системы, в отличие от встроенных в каталоги поисковых двигателей, ищут не в пределах определенной серверными настройками базы данных, а по всей сети, выводя страницы, находящиеся в их индексах. Этим занимаются так называемые поисковые роботы (spiders, wanderers, robots). При обращении к серверу робот проверяет наличие специального файла robots.txt в его корневой директории, в котором могут быть вручную установлены правила индексирования тех или иных документов узла. Однако не все роботы «умеют» читать указанную в этом файле информацию; часть из них не поддерживает специальный стандарт описания правил индексирования файлов Standard for Robot Exclusion. К сожалению, сегодня не все Web-мастера и координаторы интернет-проектов имеют представление об этом стандарте, к тому же не каждый системный администратор, настраивающий Web-сервер, придает применению правил описания для поисковых роботов должное внимание. Однако дальнейший разговор пойдет не о стандарте Standard for Robot Exclusion, что требует изучения специальных параметров описания правил и работы с Web-сервером, а о том, как правильно подготовить страницы своего интернет-проекта для индексирования поисковыми роботами.

Релевантность документов

Когда пользователь вводит в строке запроса поисковой системы какое-то слово или словосочетание, робот обращается ко всем проиндексированным страницам. Количество полученных результатов может достигать десятков и даже сотен тысяч. Робот выводит результаты по критерию наибольшего соответствия содержания документов запросу пользователя, который называется релевантностью. Другими словами, самые подходящие страницы будут размещены в начале результирующего списка. Рассмотрим факторы, которые влияют на релевантность ключевых слов.

Количество ключевых слов. Под количеством ключевых слов (keywords) подразумевается их частота присутствия в документе (не путать с указанием ключевых слов в мета-тегах, разговор о которых пойдет ниже). То есть страница, на которой робот обнаружит пятнадцать раз запрошенное пользователем слово, будет более релевантна, чем та, которая содержит это слово всего три раза. Этот фактор, как правило, зависит от тематики ресурса и профессиональной этики Web-мастера. Логично допустить, что если страница называется «Лучшие бесплатные программы для Unix», в ее тексте навряд ли можно встретить слова «эротика», «макияж» или «трубопровод». Зато «система» или «Unix» могут встретиться десятки раз. Но когда вопрос траффика перерастает в вопрос жизни или смерти, некоторые Web-мастера идут на неэтичный шаг: указывают в документе ключевые слова, совершенно не имеющие отношения к теме ресурса. Делается это обычно очень мелким шрифтом в самом низу страницы или цветом, совпадающим с задним фоном. Реже эти методы берут на вооружение люди, стремящиеся искусственным путем повысить релевантность своих документов: одно и то же ключевое слово указывается большое количество раз.

Густота (плотность) ключевых слов. Под густотой (плотностью) ключевых слов принято понимать степень отношения количества ключевых слов к остальным словам в пределах документа. Поисковые роботы считают более релевантной страницу с одним конкретным словосочетанием слов, нежели документ, в котором есть помимо этого словосочетания другие слова и фразы.

Расположение ключевых слов. Web-страница имеет ряд особых мест, поместив ключевые слова в которые, можно надеяться на более высокую релевантность в индексах поисковых систем. Прежде всего это самое начало документа: текст, содержащий ключевые слова в верхней части страницы, заметно повысит релевантность. Так же часто включают ключевые слова между парными тегами <title></title>. Многие допускают ошибку, загромождая заголовок ключевыми словами. Такой подход имеет, как минимум, три больших минуса: во-первых, исходный размер HTML-файла заметно увеличивается; во-вторых, при выдаче результатов поисковики выводят данные, указанные в заголовке (<titlex/title>), что делает название найденных документов малопривлекательными; в-третьих, пользователю будет довольно сложно положить закладку в своем браузере на страницу с таким длинным заголовком. Кроме этого, на релевантность документов влияет наличие выделенных фрагментов текста (теги форматирования <STRONG>, <B>, <EM>, <U>, <I>, <H1>, <H2> и др.) и внесение ключевых слов в комментарии, поле альтернативного текста <ALT> и мета-теги (о них речь пойдет позже). Комментарии обособляются символами <!– и –> и могут включать абсолютно любую информацию (она в окне браузера не отображается), например:

<!– Далее в книге идет текст, посвященный мета-тегам –>

Поле альтернативного текста <ALT>, предназначенное для появления подсказок к графическим элементам при наведении на них курсора, тоже имеет большой вес, когда речь заходит о релевантности страниц. Для сравнения приведем следующий пример. На странице абстрактного предприятия «Фирма» размещена кнопка about.gif размером 5 Кбайт со ссылкой, ведущей в раздел, рассказывающий об истории возникновения предприятия.

Можно предложить три варианта использования поля альтернативного текста <ALT>:

Релевантность страниц согласно порядку применения поля <ALT> будет изменяться от первого варианта к последнему. Документ, где кнопке присвоено поле «История возникновения ООО Фирма», будет иметь более высокую релевантность, чем тот, чья кнопка имеет значение тега <ALT> «about.gif, 5 Кб».

Мета-теги

Мета-теги по сути имеют два основных атрибута – HTTP-EQUIV и NAME. Первый можно отождествить с HTTP-заголовками, и мета-теги с этим атрибутом на ряде серверов могут быть автоматически преобразованы в HTTP-заголовки. Нас больше интересует атрибут NAME, а точнее, его значения «keywords», «description» и «robots» как влияющие на индексирование поисковыми слайдерами (программами-роботами).

МЕТА NAME="keywords" CONTENT="…"

Здесь в значении атрибута CONTENT следует указывать ключевые слова и словосочетания. Делается это через запятую. Сюда можно добавить слова, которые не встречаются в документе (или встречаются крайне мало), но имеют отношение к тематике сайта (что снова повысит релевантность). Не стоит избегать использования словосочетаний: во-первых, многие пользовательские запросы состоят из нескольких слов, а во-вторых, документ с указанием в качестве keywords целой фразы, будет иметь большую релевантность, чем страница, где вместо ключевой фразы определены ее отдельные слова (например «электронные магазины» или «электронные» и «магазины»). В среднем допускается указывать до 150–200 символов в качестве ключевых слов.

META NAME="description" CONTENT="…"

Значение атрибута CONTENT в данном случае уместно использовать, если в самом документе нет (или очень мало) тематического описания вашего сайта. Дело в том, что большинство поисковых систем в результирующем списке рядом с заголовком выводит 70—150 символов, относящихся к характеристике найденного документа. Если робот не обнаружит данного значения, его внимание будет обращено к проверке страницы с целью нахождения текста, характеризующего документ, и его дальнейшего вывода в результирующем списке. Оптимальным решением является параллельное использование значений ключевых слов и описания (возможно дублировать ключевые слова в конструкции META NAME="description" CONTENT="…").

МЕТА NAME="robots" CONTENT="…"

Эта конструкция предназначена для того, чтобы указать поисковому роботу, индексирующему ваш сайт, что надо добавлять в индексы, а что нет. Последний случай не является редким, т. к. существует множество ситуаций, когда просто необходимо запретить индексирование: чаты, баннерные показы и пр. Есть шесть возможных значений атрибута CONTENT для данной конструкции:

• ALL – разрешение индексации документа со всеми присутствующими в нем гиперсвязями;

• NONE – запрет индексации документа со всеми присутствующими в нем гиперсвязями;

• INDEX – разрешение индексации документа;

• NO INDEX – запрет индексации документа;

• FOLLOW – разрешение индексации присутствующих гиперсвязей;

• NO FOLLOW – запрет индексации присутствующих гиперсвязей.

Если этот мета-тег пропущен или не указано значение атрибута CONTENT, то поисковый робот понимает это как конструкцию CONTENT="INDEX, FOLLOW? (эти два значения аналогичны ALL).

Проблемы индексирования страниц

В процессе подготовки страниц к индексированию роботами пользователь может столкнуться с целым рядом затруднений.

Страницы с фреймами. В сети огромное количество сайтов, созданных с применением многооконной структуры (фреймов), а большинство поисковых систем не умеют с ними работать. Что же делать? Оказывается, выход есть. Если вы когда-нибудь работали с фреймами, то знаете, что подобно роботам некоторые браузеры их не поддерживают, для чего в документе, определяющем адреса загрузки составных страниц, ставится парный тег <NOFRAMES>/NOFRAMES>. В нем обычно пишут что-то вроде «Ваш браузер не поддерживает фреймы», дается ссылка на последнюю версию Microsoft Internet Explorer или Netscape Navigator, а в лучшем случае – на безфреймовый вариант сайта. Разумеется, информация, заключенная в данный тег, не отображается браузерами, имеющими поддержку фреймовых структур. Поэтому туда можно поместить подробное описание вашего сайта, указать ключевые слова и словосочетания. И потом, нельзя забывать заголовок начальной страницы, в котором тоже следует определить ключевые слова.

Невозможность индексирования. Причин тому может быть несколько. Некоторые поисковые роботы индексируют страницы, расположенные только в зоне. ru и соответствующих ей городских зонах, поэтому, если ваш сайт размещен на зарубежном сервере, в индексы он не попадет. Некоторые слайдеры имеют ограничение на занесение в индексы не более какого-то числа ресурсов с одного домена. В конце концов, возможно, что вы случайно вместо значения index мета-тега указали noindex или сделали синтаксическую ошибку в составлении конструкции тегов мета-данных, влияющих на процесс индексирования Web-документов.

Страницы← предыдущая следующая →