Индексация сайтов и управление индексацией при помощи атрибута nofollow, метатегов nofollow, noindex и файла robots.txt. Ранжирование сайтов

Для индексации сайтов поисковики применяют специальные программы, именуемые пауками, или спайдерами. Это виртуальные роботы, читающие страницы сайта, обычно начинающие обход с главной страницы и переходя на другие страницы по ссылкам. Чем популярнее сайт и чем чаще на нем обновляется контент, тем чаще пауки заходят на интернет-ресурс.

Веб-мастера и владельцы сайтов могут самостоятельно управлять некоторыми функциями индексации сайтов. Для этого можно применять 4 способа:

1. Управление индексацией сайтов при помощи атрибута (тега) nofollow, когда этот тег помещается в отдельную ссылку.
2. Использование метатега nofollow (просьба не путать с тегом nofollow), работающего на уровне целой страницы, когда этот метатег добавляется в секцию <HEAD> своей страницы.
3. Метатег запрета индексации noindex, работающий на уровне страницы, он также добавляется в секцию <HEAD> конкретной веб-страницы.
4. Файл robots.txt — работает на уровне всего сайта и управляет индексацией всех страниц сайта. Этот файл помещается в корневой каталог сайта.

Все эти инструменты для управления индексацией сайтов выполняют свою уникальную функцию. Чтобы пользоваться этими полезными инструментами правильно, нужно четко понимать, зачем они нужны и как их применять. Для этого сначала определимся с такими важными понятиями в СЕО-отрасли, как сбор информации, ее индексация и ранжирование сайтов.

Сбор информации

Сбор информации — в результате этого процесса паук загружает страницу, сканирует ее на предмет наличия ссылок, затем проходит по этим ссылкам, чтобы найти больше страниц. Необходимо учитывать, что хотя поисковый робот и заходит на страницу, это совсем не значит, что весь ее контент обязательно будет сохранен на серверах. Также это не значит, что страница обязательно будет отображена в результатах поиска. Это лишь означает одно — поисковик знает об этой странице.

Индексация сайтов

Индексация сайтов, а точнее индексация страниц происходит после того, как робот зашел на страницу и обработал ее контент с целью извлечения ключевых запросов, говорящих, о чем эта конкретная страница. После этого данные о странице сохраняются для будущих показов в поисковых результатах выдачи. Не все страницы, прошедшие сбор информации, проходят процесс индексации.

Ранжирование сайтов

Ранжирование сайтов — результат расчета поисковой системы (ПС) с учетом контента, находящегося на конкретной странице, на сайте и по ссылкам. Это необходимо, чтобы определить, где и по каким ключевым фразам должна отображаться в результатах поиска та или иная страница.

Атрибут NOFOLLOW

Цель этого атрибута (тега) — донести до ПС мысль о том, что ссылка с атрибутом NOFOLLOW не должна включаться в оценку рейтинга конкретной страницы. На практике это означает следующее: ссылка с тегом NOFOLLOW не будет увеличивать рейтинг страницы, на которую она проставлена. Но страница будет обработана, проиндексирована и будет ранжироваться во многих ПС. Поэтому название этого тега придумано не в лучшем виде. По-русски правильнее было бы сказать не «Не следовать», а «Следовать, но не передавать вес».

Важно иметь в виду, что официальная позиция компании Google такова, что пауки Google не следуют по ссылкам с тегом NOFOLLOW. А вот Яндекс и большинство других поисковиков следуют. Поэтому нельзя полагаться на ссылки с NOFOLLOW, если нужно предотвратить индексирование или сбор информации поисковиками. И все же тег NOFOLLOW можно применять для Гугла, чтобы не подчеркивать неважные ссылки, например, на страницу Контакты.

Метатег NOFOLLOW

Странно, что для двух абсолютно различных важных атрибутов — тег NOFOLLOW и метатег NOFOLLOW не придумали разных названий. Это похоже на ситуацию, когда в одной семье двух детей (мальчика и девочку) зовут одинаково — Саша (например) и в семье из-за этого сплошные неудобства — зовут мальчика, прибегает девочка и наоборот 🙂

Метатег NOFOLLOW означает, что поисковик не проследует ни по одной из ссылок на странице, но авторитетность этих страниц будет учитываться с учетом ссылок на них. То есть метатег NOFOLLOW работает на всю страницу и он не влияет на передачу веса на закрываемую этим метатегом страницу от поисковиков.

Используется он очень редко и не рекомендуется в применении. При помощи него больше вероятность навредить сайту, чем его приподнять в поисковой выдаче (из-за того, что вносится хаос в логичную внутреннюю ссылочную структуру сайта).

Метатег NOINDEX

Метатег запрета индексации NOINDEX говорит лишь о том, что страница запрещена к индексации поисковиками. При этом поисковики собирают информацию со страницы и следуют по ссылкам, расположенным на ней. Если Вам необходимо, чтобы некоторые страницы не попадали в поиск, но при этом хотите, чтобы поисковики следовали по ссылкам на этих страницах, то следует применять этот метатег. На практике он применяется редко.

Файл robots.txt

Чтобы запретить поисковикам индексацию определенных страниц или целых каталогов применяется файл robots.txt. Это единственный важный файл, который любые поисковики обязаны прочитать на любом сайте перед тем, как совершать другие действия. Но читать-то они читают, но вот инструкциям следуют не всегда. Если спайдер идет в каком-либо направлении, то страницы, заблокированные в robots.txt, не будут подвержены сбору информации. Но рейтинг они смогут получать. Эти заблокированные страницы будут отображаться в списках Гугл, так как Гугл все равно приходит по ссылкам, ведущим на эти заблокированные страницы.

Следует заметить, что robots.txt не гарантирует полной неиндексации страниц. Ситуация такова, что не надо полагаться на них, если у Вас есть конфиденциальная информация. Такую информацию надо закрывать паролями, а не robots.txt.

Статьи о продвижении сайтов Главная Мой Google+