Что такое файл robots.txt?

Здравствуйте, уважаемые читатели проекта «Тюлягин»! Сегодня мы с вами поговорим об одном из трех базовых первостепенных настроек по оптимизации вашего сайта — файле robots.txt. После прочтения этой статьи вы узнаете для чего нужен данный файл и что такое robots.txt. Я расскажу вам как создать и правильно настроить файл robots.txt для сайта на движке WordPress. Также мы рассмотрим с вами основные способы настройки индексации сайта через файл robots.txt, включая запрет индексации отдельных страниц и всего сайта поисковыми системами.

Содержание статьи:

Что такое файл robots.txt и зачем он нужен?

Файл robots.txt или другими словами индексный файл — это файл в текстовом формате txt, создающий ограничения индексирования поисковым роботам на серверах http, https и ftp. Именно из-за того что файл robots.txt предназначен для поисковых роботов он носит такое созвучное название. Данный стандарт был принят в 1994 году, то есть ему уже 25 лет, и используется большинством крупных поисковых систем. Файл robots.txt содержит строгий синтаксис, который выражает набор исключений и инструкций для поисковых систем, а точнее для их алгоритмов и роботов, сканирующих сайты. Файл robots.txt должен обязательно записан в кодировке UTF-8, иначе поисковые роботы его не поймут. Файл robots.txt загружается в корневой каталог вашего сайта и должен быть доступен по адресу https://ваш_сайт.ru/robots.txt. Если все правильно и файл доступен, то содержимое роботс отобразится в вашем браузере, при вводе адреса в браузерную строку. Все правила индексации и исключения, записанные в файле robots.txt действуют только в отношении того протокола и хоста, где он размещен. То есть файл роботс ти икс ти никак не влияет на сканирование внешних ссылок на другие сайты.

Файл robots нужен для правильного сканирования поисковыми роботами вашего сайта. Поисковые роботы, или как их также называют краулеры, с помощью инструкций, записанных в файле robots.txt узнают какие разделы сайта не надо сканировать. То есть для управления индексацией сайта помимо карты сайта в формате xml, у нас есть в наличии такой инструмент как файл robots.txt. Если карта сайта помогала нам указать какой важный контент есть на сайте и как часто он обновляется для поисковых роботов, то инструмент индексации robots.txt наоборот позволяет ограничить доступ к неважному контенту, который не надо индексировать.

Какой же контент не стоит индексировать поисковым системам для успешного продвижения вашего сайта? В первую очередь не стоит индексировать все внутренние файлы вашего сайта, то есть те файлы которые обеспечивают функционирования движка сайта. Также рекомендуется ограничивать индексацию дублирующего контента, то есть тех страниц или разделов сайта которые частично или полностью дублируют более важные разделы сайта. Как пример дублирующего контента являются страницы тегов, на которых находятся ваши записи, которые уже есть на главной странице и в рубриках. Также вы можете ограничить от индексации какие-то личные страницы с контактами или другими приватными данными, чтобы они не попали в выдачу поиска. Также я рекомендую ограничить страницы с внутреннем поиском сайта и страницы с любой формой отправки информации и контактных данных.

Если не ограничивать данную информацию от поисковых систем и их роботов, то она попадет в поисковую выдачу, что сильно повлияет на успешное продвижение вашего сайта, так как снизит вес остальных страниц с более важным контентом. Кроме того попадание личной информации и другой внутренней информации устройства вашего сайта может навредить лично вам и функционированию сайта и его безопасности.

Как создать файл robots.txt

Создать файл robots.txt весьма легко, так как этот текстовый фал с популярным разрешением txt. Cделать это можно с помощью Notepad++ или любого другого текстового редактора, включая обычный блокнот. Если вы не планируете запрещать что либо на своем сайте от индексации вы можете оставить файл robots.txt пустым и закончить на этом его создание. Однако останавливаться на этом я бы вам не советовал. Сам процесс создания файла не должен вызвать сложности даже у новичков, а вот с наполнением и синтаксисом robots.txt есть что обсудить. Именно от правильного написания инструкций и синтаксиса файла роботс зависит успешная индексация вашего сайта поисковыми системами.

Синтаксис и символы файла robots.txt

Любой правильный файл robots.txt начинается с директивы User-agent, которая указывает к какому поисковому роботу обращены нижеследующие инструкции. Так на текущий момент существует 302 общепризнанных поисковых робота, со списком которых можно ознакомится на сайте robotstxt.org. Если вы указываете инструкции для всех поисковых роботов сразу, то имеет смысл поставить в директиве символ * ( User-agent: * ). Либо указать конкретного работа, например:

User-agent: Yandex или User-agent: Googlebot

После директивы User-agent вы расставляете команды для текущего робота на запрет или разрешение индексации тех или иных разделов, страниц и записей вашего сайта. Для запрета сканирования и индексации страниц используется команда Disallow, для разрешения сканирования противоположная команда Allow. Если вашем файле нет ни одной команды Dissallow, то принято считать что весь ваш сайт доступен для индексации. Приведем несколько пример, использования данных команд:

Данная запись приведет к индексированию всего сайта:

User-agent: *
Disallow:

А эта наоборот к запрету индексации всего сайта или закрытию сайта для всех роботов

User-agent: *
Disallow: /

Также для правильного заполнения robots.txt, вам необходимо понимать что такое уровни сайта:

Для уровня страницы сайта директива запрета индексации страницы выглядит так: Disallow: /primer_stranici.html
Уровень папки сайта. Запрет индексации конкретной папки выглядит так: Disallow: /primer-papki/
Уровень типа контента или файла. Так, если вы не хотите, чтобы роботы индексировали все файлы в формате .jpg, используйте следующую команду: Disallow: /*.jpg

Помимо перечисленных команд вы также можете указать в своем файле robots.txt несколько дополнительных, например указать карту сайта и основное зеркало сайта. Раньше это было обязательной составляющей каждого файла robots, теперь же вы можете указывать это по своему желанию. Для того чтобы указать карту сайта в фале robots.txt вам необходимо написать команду Sitemap:

Sitemap: https://ваш_сайт.ru/sitemap.xml

Директива зеркала сайта или Host поддерживается поисковым роботом Яндекса, и не понимается Гуглом. Не так давно ее отменил как обязательную Яндекс, но можете ее указать на всякий случай. Эта директива сообщает поисковому роботу Яндекса какое из зеркал вашего сайта нужно учитывать для индексации (Зеркало — копия вашего сайта, доступная по другому адресу). Если сайт работает по протоколу https, то в адресе хоста следует его указать:

User-agent: Yandex
Allow: /catalog
Disallow: /
Host: https://mysite.ru

Также есть и ряд других директив которые можно указать в вашем файле robots:

Директива Crawl-delay необходима для слабых серверов, чтобы снизить нагрузку во время индексации страниц сайта роботом. Параметр указывается в секундах. Чем большее число вы укажете тем меньшая нагрузка на сервер будет. По умолчанию рекомендую ставить Crawl-delay: 3 для слабых серверов. Если с вашим сервером все ок, то можете пропустить команду.
Директива Clean-param нужна для исключения страниц сайта с динамическими адресами. Данная команда учитывается только роботами Яндекса и служат для удаления лишних динамических ссылок. Пример синтаксиса для данной команды:

Clean-param: param1[&param2&param3&param4&..&paramn] [Путь]

Первая часть param1[&param2&param3&param4&..&paramn] описывает ненужный динамический адрес который требуется очистить, а вторая часть [Путь] указывает на страницу или раздел сайта к которому применяется директива Clean-param.

Помимо директив в синтаксисе файла robots.txt важно также учитывать и специальные символы — «/, *, $, #»:

С помощью слэша / мы запрещаем индексацию для поисковых роботов. Мы уже показывали, что если стоит один слеш в директиве Disallow, то мы запрещаем индексировать весь сайт. С помощью двух знаков слэш мы запрещаем индексирование отдельно директории: /tmp/.
Звездочка * подразумевает любую последовательность знаков в названии файла. Если мы хотим запретить индексацию jpg картинок в папке image мы должны указать следующую команду: Disallow: /image/*.jpg$
Последний знак доллара $ в команде выше ограничивает действия знака звездочки. Если необходимо закрыть от индекса содержимое папки image, но нельзя запретить ссылки, которые включают /image, команда в файле роботс будет следующей: Disallow: /image$
И наконец, знак решетки # используется в файле роботс для комментариев, которые можно оставить для коллег, которые также работают с вашим сайтом. Все записи со знаком решетки # поисковые роботы не учитывают.

Настройка индексации с помощью правильного файла robots.txt для WordPress

В качестве примера правильно составленного файла robots.txt я решил выбрать сайт на движке WordPress. На это есть как минимум две причины, во-первых, данный сайт написан на данном движке, и я уже имею опыт составления правильных фалов robots.txt чтобы с полной компетентностью показывать его на примере. А во-вторых, большинство сайтов в интернете функционирует именно на движке WordPress, поэтому данный пример файла robots.txt будет востребован у большинства читателей.

Первый правильный robots.txt для WordPress более короткий, так как включает директивы индексации для всех поисковых роботов в общем:

User-agent: *
Disallow: /cgi-bin
Disallow: /?
Disallow: /wp-
Disallow: /wp/
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: */wlwmanifest.xml
Disallow: /xmlrpc.php
Disallow: *utm*=
Disallow: *openstat=
Allow: */uploads

# Не будет лишним указать адрес карты сайта
Sitemap: https://ваш_сайт.ru/sitemap.xml
Sitemap: https://ваш_сайт.ru/sitemap.xml.gz

# Также можно указать хост (зеркало) сайта для Яндекса, хотя теперь это необязательно.
Host: https://ваш_сайт.ru

Второй пример правильного файла robots.txt для WordPress является расширенным и содержит отдельные директивы для поисковых роботов Гугла и Яндекса:

User-agent: *
Disallow: /cgi-bin
Disallow: /?
Disallow: /wp-
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: */wlwmanifest.xml
Disallow: /xmlrpc.php
Disallow: *utm*=
Disallow: *openstat=
Allow: */uploads

User-agent: GoogleBot # директивы для поисковых роботов Google
Disallow: /cgi-bin
Disallow: /?
Disallow: /wp-
Disallow: /wp/
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: */wlwmanifest.xml
Disallow: /xmlrpc.php
Disallow: *utm*=
Disallow: *openstat=
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php

User-agent: Yandex # директивы для поисковых роботов Яндекса
Disallow: /cgi-bin
Disallow: /?
Disallow: /wp-
Disallow: /wp/
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: */wlwmanifest.xml
Disallow: /xmlrpc.php
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php

# Как и для предыдущего варианта файла robots.txt можете указать основное зеркало сайта для робота Яндекса
# а также расположение карты сайта для поисковых роботов

Как проверить файл robots.txt

Для того чтобы проверить правильно ли составлен файл robots.txt для вашего сайта, вы можете использовать специальные инструменты вебмастера Яндекс и Гугл. Так с помощью данного инструмента в личном кабинете вебмастера Яндекса или Гугл поисковика вы сможете проверить текущий и предыдущие версии вашего файла robots.txt, можете сразу же в режиме онлайн внести любые изменения и проверить какие страницы и раздела запрещены для индексации в текущем файле robots.txt. В случае наличия каких-либо ошибок или предупреждений связанных с неправильным файлом robots.txt вы будете уведомлены в кабинете вебмастера, кроме того сервис даже подчеркнуть ту строку или участок синтаксиса который ведет к ошибке.

Ну а на этом сегодня все о файле robots.txt для вашего сайта. Добавляйте статью и сайт в закладки! Удачного вам сайтостроения и до новых встреч на страницах проекта Тюлягин!