Многие вебмастера знают, зачем нужен файл robots.txt и какие функции он выполняет. Если кто-то не в курсе, то постараемся наполнить, что, robots.txt – это текстовый файл, в котором описаны инструкции для поисковых систем и их роботов.

С помощью данного файла можно запрещать индексацию определенных страниц сайта, указывать зеркало сайта или указывать расположение файла sitemap.xml. Есть большое количество функций, но, ниже будут описаны только самые популярные и необходимые для каждого сайта. В качестве примера возьмем самый популярный движок для сайта – WordPress.

Оптимизируем файл robots.txt для WordPress.

Данный файл нужно составлять ещё на начальном этапе создания сайта, потому что он него много зависит. Главное правильно его составить, потому что при небольших проблемах толку от этого файла не будет. Среди вебмастеров есть мнение, что многие поисковые системы не берут к вниманию файл robots.txt и индексируют только то, что они сами хотят. Но, сейчас не об этом, хотя такие случаи случаются очень редко. Ниже будут описаны основные командные функции файла:

User-Agent

Указываем имя поискового робота, с которым будем работать. Примечательно то, что данное поле в robots.txt не может быть пустым

Allow и Disallow

Команды обозначают разрешение индексации и соответственно запрет индексации. В данном случае можно указывать как определенные страницы сайта, так и весь сайт. Примечательно то, что команда Allow работает только с Яндексом и Гуглом.

В самом начале используется Allow и только потом можно использовать Disallow. Между ними ни в коем случае нельзя указывать пустую строку, аналогичная ситуация и с User-Agent.

Host

С помощью данной команда можно указать главное зеркало сайта. Данная команда доступна только для Яндекса. По этому поводу нужно привести цитату: «Данная директива не гарантирует выбор указанного главного зеркала, тем не менее, алгоритм при принятии решения учитывает ее с высоким приоритетом»

Sitemap

Указания для робота места размещения карты сайта с расширением xml

Также часто используют специальный символ *, с помощью которого указывается произвольная последовательность символов. После обозначения всех команд перейдем собственно к созданию самого файла robots.txt. Открываем текстовый документ и в первой строке пишем User-Agent. Это список самых популярных ботов Интернета – Yandex, YandexBlog, Googlebot, StackRambler, msnbot (бот Bing).

Если создается простой сайт, то не нужно выделять определенные боты, потому что его успешно будут индексировать все поисковые системы, но, если есть блог, то лучше всего указать бот поисковой системы Яндекс.Блоги:

User-agent: YandexBlog
Disallow:

User-Agent: *

Если используется несколько слов User-Agent, то перед каждым должна быть пустая строка! Лучше всего начинать описывать конкретные роботы и только потом устанавливать знак *. После этого используем команды Allow и Disallow.

Allow: /wp-content/uploads/
#в данном случае открываем доступ к папке uploads, чтобы увеличился трафик с картинок, потому что после этого будем закрывать от индексации папку из высшего уровня wp-content.

После этого переходим к Disallow. Эта директория очень важная, потому что благодаря ней можно закрывать все те папки, где образуются дублированные страницы блога. В данном случае всё индивидуально, но, нужно заметить, что без грубых нарушений дублирования контента никаких санкций со стороны поисковых систем не будет.

Не нужно бояться никаких санкций со стороны поисковых систем делая качественные и уникальные сайты. Для начала лучше всего закрыть все служебные директории:

Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content

После этого закрывать от индексации папки можно за выбором и ниже будет приведен список наиболее популярных директорий:

Disallow: /tag
#страницы, где расположены теги, можно с легкостью продвигать, так что перед закрытием данной директории нужно подумать
Disallow: /category
Disallow: /archive
#перед закрытием данной директории нужно обязательно посмотреть на ссылку вывода статей и если она выглядит так – http://ваш сайт/archive/123, то можно с легкостью закрыть от индексации все записи блога
Disallow: /author
#закрывается только тогда, когда такая директория присутствует на сайте

Теперь в обязательном порядке закроем от индексации следующие страницы:

Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Disallow: /?feed=
Disallow: /?s=

После этого всего устанавливаем следующие команды:

Host: ваш сайт.ru
Sitemap: http:// ваш сайт.ru/sitemap.xml

С указанием пути карты сайта xml всё просто и здесь вопросов не должно возникать. Но, при указании зеркала сайта важно не использовать www, потому что в других случаях доменное имя не будет смотреться. Если вебмастер хочет упоминать домен с www, то нужно указывать это в директиве Host.

Также есть ещё несколько команд, которые так или иначе помогут различным владельцам сайтов. Данные директивы больше всего подойдут для поисковой системы Яндекса. После определения всех функций получается robots.txt следующего вида, который успешно используется на множествах сайтов:

User-agent: YandexBlog
Disallow:

User-Agent: *
Allow: /wp-content/uploads/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /tag
Disallow: /category
Disallow: /archive
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Disallow: /?feed=
Disallow: /?s=

Host: ваш сайт.ru
Sitemap: http://ваш сайт.ru/sitemap.xml