Настройка robots txt для сайта WordPress

Здравствуйте, уважаемые читатели блога Goldbusinessnet.com. Недавно мы рассмотрели общие принципы составления роботс.тхт, который, напомню, является очень важной составляющей при настройке индексации веб-проекта. Теперь давайте перейдем к конкретике и разберем образцы этого файла для сайта или блога, работающего на самом популярном в мире движке WordPress.

Ежели вы начинающий вебмастер, то обязательно перейдите по только что предоставленной ссылке и ознакомьтесь с публикацией, которая станет хорошим теоретическим подспорьем для понимания всех нюансов при практической настройке файла robots.txt для WP-сайта. Из этого материала вы сможете получить представление о правильном синтаксисе, а также о том, какие директивы нужно применять в тех или иных случаях, ну и узнаете еще массу полезных вещей.

В этой же статье я постараюсь простым языком донести до вас не только особенности, которые необходимо учесть при генерации этого файлика именно для движка WordPress, но и место, где он должен находиться, а также возможность его проверки и редактирования.

Содержание

Роль роботс.тхт и особенности его создания для Вордпресс
Образцы файла robots.txt, подходящие сайту на WP
Правильный роботс тхт для WordPress в современном исполнении
Где лежит robots txt, как его проверять и редактировать

Роль роботс.тхт и особенности его создания для Вордпресс

Поскольку сам файл robots txt является лишь одним из нескольких средств настройки индексации (наряду с XML картой сайта, атрибутом content мета тега роботс и rel canonical), есть возможность применять их в комплексе, чем и пользуются многие грамотные вебмастера. Давайте разберемся, с какой целью лучше брать на вооружение комплексный метод и какими плюсами он обладает.

Вообще, на заре сайтостроения создание веб-ресурсов требовало серьезной подготовки. Тогда в интернете существовали исключительно сайты, состоящие из простых HTML-страниц, которые веб-мастер добавлял вручную. Практически все они были достойны индексации, а потому файл роботс.тхт в те времена был практически не нужен.

Все изменилось с появлением так называемых систем управления контентом, часто в просторечии называемых движками сайта, самым востребованным из которых был и остается Вордпресс (здесь читайте подробности о WP). Собственно, именно по причине огромной популярности мы и будем рассматривать образцы robots txt на примере этой CMS.

Всем хорош Вордпресс, он отлично формирует страницы сайтов и блогов на автомате и по многим параметрам опережает конкурентов. Но есть, конечно, и минусы. Одним из основных недостатков является то, что этот движок (как и многие его собратья) генерируют многочисленные дубли и вспомогательные страницы, также имеет в своем составе системные файлы, многие из которых не несут полезной информации. Поэтому нам нужно отделить мух от котлет и дать разрешение ботам поисковиков индексировать только нужные пользователям страницы.

Логично, что индексироваться должен полезный контент, который в случае с блогом WordPress сосредоточен на главной, в рубриках, на статических страницах и в статьях (записях). Все остальные странички должны быть исключены из индекса (пагинация, поиск, дополнительные вебстраницы, генерируемые разного рода плагинами и т.д.).

Конечно, можно использовать роботс тхт по полной и закрыть от индексирования абсолютно все предполагаемые для этого объекты (дубли, страницы с малополезным контентом, системные файлы CMS WordPress) с помощью соответствующих директив. И такой образец пока работает на многих успешных веб-ресурсах.

Но в будущем это положение вполне может измениться к худшему. Почему? Это вы поймете из последующих рассуждений. Первым моментом, который заставляет серьезно задуматься, является заявление Гугла о том, что директивы роботс.тхт носят чисто рекомендательный характер:

Правила, обозначенные в robots.txt, сообщают поисковым роботам, какие страницы на вашем сайте надо обрабатывать, а какие нет. Это позволяет уменьшить число запросов, получаемых сервером, но не гарантирует отсутствие этих вебстраниц в поиске. Они там могут появиться, если Googlebot найдет ссылки на запрещенные странички с других ресурсов в интернете. Если вы не желаете, чтобы те или иные материалы вебсайта были представлены в Google, используйте атрибут noindex мета-тега robots.

Таким образом, постепенно идет тенденция к сокращению объема файла роботс и исключения из него директив disallow для вебстраниц с малополезным контентом и указания noindex в их HTML-коде (это же касается и исключения дублей с помощью проставления rel canonical). Причем, что важно, это работает как в отношении Yandex, так и Google.

Важное дополнение: в отличие от запрещающих правил, прописанных в robots txt, атрибут noindex одноименного метатега всегда строго исполняется роботами Гугла. Однако, надо иметь ввиду, что noindex, указанный в HTML-коде страницы, запрещенной одновременно и в файле роботс, будет недоступен для ботов, а следовательно, данная вебстраница будет все-равно загружена, и может отобразиться в результатах поиска.

На данный момент после отказа Яндекса от директив Host и Crawl-delay вполне реально его сближение с главным конкурентом в этом аспекте, тем более, что все выше названные средства настройки индексации принимаются обоими поисковиками рунета.

Какой же можно сделать вывод на основании всего сказанного выше? Современный период в области управления индексацией можно назвать переходным, поскольку поисковики на данный момент еще терпимо относятся к сайтам, владельцы которых используют прежний подход к формированию robots txt. Так что вебмастера пока могут спать спокойно.

Поскольку, как я уже сказал, кроме robots txt существует несколько инструментов для настройки индексации (главным образом это касается одноименного мета-тега и атрибута rel=»canonical», упомянутых выше), на данный момент единственно правильного и идеального файла даже для похожих по структуре проектов не существует. Вы сами можете в этом убедиться, осуществив поиск в сети. Различных вариаций много и большинство из них работает.

Вы без труда можете подсмотреть и образец для этого блога. Он давно не редактировался, да и зачем менять то, что не вызывает проблем. Но в будущем, наверное, все-таки придется вернуться к этому вопросу, тем более, что на некоторых своих ресурсах я уже применяю новый подход.

А потому имейте ввиду, что на каком-то этапе и вам, вполне возможно, потребуется произвести какие-то мероприятия ввиду изменяющихся требований поисковых систем, а также определенных сложностей, которые могут быть вызваны использованием той или иной CMS.

Я писал о вполне реальной истории, когда пришлось бороться с replytocom и другими дублями, которые генерировал Вордпресс. Эта битва закончилась успешно, но пришлось потрудиться. Это еще раз доказывает, что в жизни все постоянно меняется, и к этому надо быть готовым.

С тех пор много воды утекло. Но нужно соблюдать паритет и вспоминать не только негативные стороны, но и отмечать позитив. В этом смысле надо отдать должное разработчикам WordPress, которые постоянно устраняют недостатки, и на данный момент многие из тех проблем, о которых я писал в том мануале, уже не актуальны. До идеала еще далеко, но прогресс налицо.

Кстати, если говорить непосредственно о системном подходе к управлению индексированием, то важную техническую роль здесь играет, пожалуй, главный плагин Вордпресс All in One SEO Pack (получите подробную информацию об этом расширении), который позволяет использовать все возможные настройки индексации, включая проставление нужных параметров мета тега robots, rel canonical, а также создание XML sitemap (в том числе динамического варианта) и виртуального robots.txt посредством специальных модулей, без прямого редактирования шаблонов темы.

Раз уж зашла речь о плагинах (в отношении их числа, кстати, Вордпресс является непререкаемым лидером, это одна из причин его сумасшедшей популярности в мире), так или иначе причастных к индексации, то упомяну и о Google XML Sitemaps, который не только генерирует карту сайта, но и проставляет при необходимости ссылку на нее в виртуальном роботс тхт.

Образцы файла robots.txt, подходящие сайту на WP

Ну, со всеми вводными, вроде бы покончено, пора предоставить вам несколько примеров файла robots.txt, которые построены по разным принципам, но все они работоспособны (о чем я сказал чуть выше). Сначала представлю правильный с точки зрения классических представлений вариант, который я позаимствовал отсюда:

User-agent: *                              # правила для всех роботов, кроме Яндекса и Google 
Disallow: /cgi-bin                         # папка на хостинге
Disallow: /?                               # все параметры запроса на главной
Disallow: /wp-                             # все файлы WP: /wp-json/, /wp-includes
Disallow: /wp/                             # если нет подкаталога /wp/ с CMS, правило можно удалить 
Disallow: *?s=                             # поиск
Disallow: *&s=                             # поиск
Disallow: /search/                         # поиск
Disallow: /author/                         # архив автора
Disallow: /users/                          # архив авторов
Disallow: */trackback                      # уведомления в комментариях о появлении ссылки на статью 
Disallow: */feed                           # все фиды
Disallow: */rss                            # rss фид
Disallow: */embed                          # все встраивания
Disallow: */wlwmanifest.xml                # файл Windows Live Writer (если не применяете, то удалите) 
Disallow: /xmlrpc.php                      # файл WordPress API
Disallow: *utm*=                           # ссылки с utm-метками
Disallow: *openstat=                       # ссылки с метками openstat
Allow: */uploads                           # открываем папку с файлами uploads

User-agent: GoogleBot                      # правила для Google (комментарии не дублируются)
Disallow: /cgi-bin
Disallow: /?
Disallow: /wp-
Disallow: /wp/
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: */wlwmanifest.xml
Disallow: /xmlrpc.php
Disallow: *utm*=
Disallow: *openstat=
Allow: */uploads
Allow: /*/*.js                             # открываем js-скрипты внутри /wp- (/*/ - для приоритета)
Allow: /*/*.css                            # открываем css-файлы внутри /wp- (/*/ - для приоритета)
Allow: /wp-*.png                           # изображения в плагинах, cache папке и т.д.
Allow: /wp-*.jpg                           # картинки в плагинах, cache папке и т.д.
Allow: /wp-*.jpeg                          # изображения в плагинах, cache папке и т.д.
Allow: /wp-*.gif                           # картинки в плагинах, cache папке и т.д.
Allow: /wp-admin/admin-ajax.php            # используется плагинами, чтобы не блокировать JS и CSS

User-agent: Yandex                                    # правила для Яндекса (комментарии не дублируются)
Disallow: /cgi-bin
Disallow: /?
Disallow: /wp-
Disallow: /wp/
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: */wlwmanifest.xml
Disallow: /xmlrpc.php
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php
Clean-Param: utm_source&utm_medium&utm_campaign   # Яндекс рекомендует удалять параметры меток
Clean-Param: openstat                             # а не закрывать их от индексации
                                                   
Sitemap: http://site.ru/sitemap.xml           # Укажите один или несколько файлов Sitemap             
Sitemap: http://site.ru/sitemap.xml.gz        # Указана ссылка на сжатый вариант карты сайта. 

# Не забудьте поменять "http://site.ru/" на протокол и домен вашего сайта.

Я немного урезал этого монстра, убрав из него, в частности директиву Host, которая более уже не актуальна. В остальном он более-менее подходит на роль универсального шаблона. Комментарии (текст после «#») объясняют практически все нюансы. Их, как я уже сказал, можно удалить.

Есть мнение, что отдельно прописанные директивы для Яндекса, Гугла и других поисковых систем (как это реализовано в примере выше) помогают ускорить индексирование, так как боты в этом случае значительно быстрее сканируют объекты сайта.

Но это всего лишь предположение, поскольку нюансы работы поисковых алгоритмов остаются в тайне. Лично я в своей практике не заметил какого-либо преимущества такого формата (но это ничего не значит, возможно, в этом есть свой резон).

Тем не менее, есть стандартный образец, более простой, где указаны одинаковые директивы для роботов всех поисковых систем. Подобный роботс.тхт на данный момент вполне действенный, особенно, после того, как Яндекс перестал учитывать директивы Host и Crawl-delay, тем самым его набор легитимных инструкций стал идентичным набору других крупнейших поисковиков:

User-agent: *
Disallow: /cgi-bin                     # папка со скриптами
Disallow: /?                           # все параметры запроса на главной
Disallow: /wp-                         # все файлы WP: /wp-json/, /wp-includes, /wp-content/plugins
Disallow: *?s=                         # поиск
Disallow: *&s=                         # поиск
Disallow: /search                      # поиск
Disallow: /author/                     # архив автора
Disallow: *?attachment_id=             # страница вложения
Disallow: */feed                       # все фиды
Disallow: */rss                        # rss фид
Disallow: */embed                      # все встраивания
Disallow: */page/                      # все виды пагинации
Allow: */uploads                       # открываем uploads
Allow: /*/*.js                         # внутри /wp- (/*/ - для приоритета)
Allow: /*/*.css                        # внутри /wp- (/*/ - для приоритета)
Allow: /wp-*.png                       # изображения в плагинах, cache папке и т.д.
Allow: /wp-*.jpg                       # картинки в плагинах, cache папке и т.д.
Allow: /wp-*.jpeg                      # изображения в плагинах, cache папке и т.д.
Allow: /wp-*.gif                       # картинки в плагинах, cache папке и т.д.
Allow: /wp-*.svg                       # изображения в плагинах, cache папке и т.д.
Allow: /wp-*.pdf                       # файлы в плагинах, cache папке и т.д.
Disallow: /wp/                         # когда WordPress установлен в подкаталог wp

Sitemap: http://site.ru/sitemap.xml    # карта сайта  
Sitemap: http://site.ru/sitemap.xml.gz # сжатая версия (.gz)

# Не забудьте поменять "http://site.ru/" на протокол и домен вашего сайта.

И, что важно, в отношении других инструментов по управлению индексацией, уже неоднократно мною упомянутых, русский поисковик и его главный конкурент в рунете также пришли к общему знаменателю. Единственным исключением является Clean-param, который учитывается только Яндексом. Однако, как я уже сказал, эту директиву вполне успешно может заменить значение noindex мета тега robots, который вполне понятен «зеркалу рунета».

Правильный роботс тхт для WordPress в современном исполнении

Выше мы говорили о том, что постепенно ситуация меняется к тому, что при создании сайтов задействуется практически весь имеющийся арсенал для управления индексацией. Вступают в действие мета-тег роботс и rel=»canonical», поэтому содержание robots.txt уменьшается в объеме.

Если вы только начинаете создавать свой ресурс на движке WordPress, то старайтесь запрещать к индексации объекты, используя в комплексе файл robots.txt с минимумом указанных в нем директив, а также noindex и rel canonical.

Для полноты картины я должен сообщить, что сейчас сразу после установки новейшей версии движка Вордпресс автоматически генерируется виртуальный файл robots.txt для сайта, который вполне можно считать правильным и одновременно универсальным (естественно, только для сайтов WP) исходя из сложившейся на данный момент ситуации:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Верх минимализма. Но все меняется, как и алгоритмы поисковых систем. Разработчики WordPress, которые не сидят сложа руки и, как я уже сказал, учитывают все последние веяния, касающиеся поискового продвижения, не просто так предлагают этот вариант.

Дело в том, что Гугл, а за ним и Яндекс, в связи с развитием сетевых технологий и, как следствие, расширением своих возможностей, сейчас желают «видеть» сайты точно в таком же виде, как их воспринимают пользователи. Это им необходимо для того, чтобы в более полном объеме давать оценку веб-ресурсам при ранжировании (учитывая не только состав содержимого вебстраниц и корректность контента, но и степень удобства сайта для использования, а также другие факторы).

Чтобы реализовать эту задачу, поисковики должны иметь доступ к JS, CSS, графическим файлам (вы можете ознакомиться с официальным объявлением от Яндекса по этому поводу), а также к библиотекам и стилям. Скажу больше, на данный момент Google вообще приветствует открытие всех файлов, которые отвечают за конфигурацию сайта.

Вот потому-то и можно считать выше приведенный краткий образец роботса вполне корректным. Единственное, там в целях безопасности закрыта системная папка «wp-admin». Но на данном этапе в WP реализована технология AJAX, которая отвечает за асинхронную загрузку страниц.

Файл admin-ajax.php с необходимой для реализации этой опции функцией хранится как раз в директории «wp-admin», запрет на индексацию которого вполне может заблокировать загрузку внутренних вебстраниц. Вот потому в выше предложенном варианте он включен с помощью Allow.

Несмотря на то, что Yandex старается не отставать от основного конкурента в совершенствовании алгоритмов, именно на данный момент пока нет явных доказательств, что российский поисковик перешел к той стадии, когда для его ботов нужно полностью открывать абсолютно все системные директории. Поэтому для менее смелых вебмастеров я приведу образец robots.txt, где для секции краулеров Яндекса прописаны более жесткие правила:

User-agent: *
Disallow: /wp-admin
Allow: /wp-admin/admin-ajax.php

User-agent: Yandex
Disallow: /wp-
Disallow: /xmlrpc.php
Disallow: /cgi-bin
Disallow: /*?*
Allow: *.js
Allow: *.css
Allow: *.jpg
Allow: *.png
Allow: *.gif
Allow: /wp-admin/admin-ajax.php

Sitemap: http://site.ru/sitemap.xml                     
Sitemap: http://site.ru/sitemap.xml.gz

Здесь с помощью директивы Allow открыты скрипты, CSS файлы и картинки практически во всех популярных форматах. В принципе, и этот вариант вполне себе рабочий. Просто, если вы решили использовать пока этот вариант, в ближайшем будущем необходимо следить за тем, как будут развиваться события, и вовремя отреагировать надлежащим образом на любые действия Яндекса в направлении изменения его предпочтений в отношении настройки индексации.

Где лежит robots txt, как его проверять и редактировать

Частенько начинающие пользователи задают вопрос о том, где хранится роботс.тхт и как его можно отредактировать. Ну, изначально после установки Вордпресс (тем или иным способом) физически он вообще отсутствует на сервере.

Чуть выше я упомянул о виртуальном файле роботс.тхт, который создается Вордпрессом. Его содержание по умолчанию для стандартного сайта было рассмотрено в качестве предпоследнего образца. Виртуальная сущность такого файлика является, скорее, преимуществом (хотя его дееспособность во многом зависит от корректности работы сервера), так как в этом случае у третьих лиц нет никакой возможности изменить его содержание, потому что он доступен только для просмотра в браузере после ввода в адресную строку такого URL:

http://site.ru/robots.txt

Кстати, таким способом вы можете изучить содержимое файла для любого сайта в сети (только не забудьте вместо «http://site.ru/» подставить нужный протокол и доменное имя).

Чтобы сформировать реальный robots.txt (и тут же отменить его виртуальный аналог) для своего проекта, создайте на компьютере обычный текстовый файл в простой программе «Блокнот» (она имеется в комплекте приложений Windows), наполните его нужным содержимым с учетом данной в этой статье информации, назовите «robots», сохраните с расширением .txt и загрузите на веб-сервер, поместив в корневую директорию сайта.

Именно в корне ресурса и должен находиться роботс.тхт, поскольку только лишь там будут черпать инструкции при обработке всех страниц веб-проекта боты поисковых систем.

Конечно, для создания и дальнейшего редактирования роботс тхт можно применить и прекрасную связку, состоящую из менеджера Файлзилла (здесь подробности об этом ФТП-клиенте) и весьма функциональной программы Нотепад с двумя плюсами. При желании здесь вы можете почитать подробнее о том, как закачать файл robots.txt на сервер и проверить его на корректность.