Robots txt — как закрыть или открыть индексацию папок, файлов, страниц или всего сайта в целом

Здравствуйте, уважаемые читатели блога Goldbusinessnet.com. Сегодня поговорим о важнейшем файле robots.txt, являющемся одним из краеугольных камней настройки индексации сайта как одного из аспектов его успешного продвижения в поисковых системах (для рунета наиболее значимыми являются Яндекс и Гугл, которым мы и уделим основное внимание).

Почему этот файлик настолько важен именно в наши дни и какую задачу он выполняет? Дело в том, что современное сайтостроение во многих случаях завязано на использовании той или иной системы управления контентом (CMS, или, по-простому, движков сайта). Это, в принципе, нужное изобретение, обладающее многочисленными плюсами и помогающее автоматизировать процесс.

Файл robots.txt для сайта

Но побочный эффект в работе CMS заключается в том, что они генерируют «мусорные» страницы, не несущие полезной информации для пользователей, попадание в индекс которых вполне может пагубно сказаться на ранжировании всего ресурса. Вот тогда-то и приходит на помощь тот самый robots.txt, который позволяет указать роботам поисковиков, сканирующим сайт, какие странички необходимо брать в индекс, а какие игнорировать.

Этот файл может иметь целую массу вариантов в зависимости от структуры сайта, его содержания и, конечно, типа CMS. Нельзя составить универсальный вариант для всех видов ресурсов, так как каждый из них обладает своими нюансами. Но если в дополнение к изучению этой публикации вы удосужитесь просмотреть статью, где даны примеры robots.txt для сайта WordPress, то наверняка сможете настроить файл роботс для любого проекта.

Значение robots txt и его связь с одноименным тегом

В статье об управлении индексированием ресурса (ссылка дана в самом начале статьи) я привел инструменты, которые в совокупности дают возможность произвести как грубую, так и тонкую настройку для каждой папки (раздела) и вебстраницы сайта. Напомню эти средства вкратце:

  • роботс.тхт — назначает правила индексации для всего вебсайта, включая отдельные его странички и целые папки (каталоги), с помощью специальных директив, предназначенных ботам поисковых систем (например, disallow, allow);
  • мета тег robots — прописывается в области head HTML-кода конкретной страницы и имеет специальный атрибут content, значения которого и являются по сути настройками, в том числе запрет (noindex) или разрешение (index) на ее индексирование;
  • rel canonical — указывает на каноническую (основную) страницу в ряду других, имеющих одинаковое содержание, но находящихся по разным URL-адресам. Является таким образом отличным средством борьбы с дублями;
  • XML карта сайта — предоставляет роботам поисковиков упорядоченный список страниц, которые необходимо проиндексировать.

Среди этих инструментов хочу отметить связку файла роботс.тхт, в котором прописаны условия индексирования для всего сайта, и мета тега robots, позволяющего настроить индексацию для конкретной страницы. Напомню, что в HTML-коде синтаксис правила, с помощью которого можно запретить индексацию вебстраницы, выглядит следующим образом:

<meta name="robots" content="noindex">

Все инструменты, перечисленные выше, вполне легитимные и принимаются практически всеми поисковыми системами, включая Yandex и Google. Я заговорил о связи robots.txt и одноименного метатега потому, что их взаимодействие помогает отключить индексацию для всех нужных страничек сайта, причем, гарантированно. Дело в том, что для разных поисковиков эти два средства имеют различный приоритет. Вот что говорит по этому поводу, например, Google:

Таким образом, файл роботс.тхт предназначен, прежде всего, для управления сканированием ботов Гугла. При этом для различных типов файлов находящиеся в нем запрещающие директивы действуют по-разному. Например, медиафайлы не только не будут обработаны, но и не появятся в результатах поиска. А вот в отношении вебстраниц все немного сложнее.

Дело в том, что веб-страницы могут быть представлены в поиске Google даже в том случае, если роботу Гугла запрещено их сканировать. Такое может произойти, ежели на других веб-ресурсах в интернете есть ссылки на эти странички. Поэтому, если вы пожелаете наверняка исключить их появление в поиске, надо использовать метатег роботс без запрета ее обработки в robots.txt.

Помните, что при наличии запрещающей директивы в robots.txt для той или иной страницы робот Google не сможет ее обработать, поэтому ему будет недоступен параметр noindex одноименного мета тега (даже если он указан), а значит, такая нежелательная вебстраница вполне может появиться в результате поиска.

Теоретически попадание в индекс страниц, не предназначенных посетителям, должно оказывать негативное влияние на раскрутку сайта в Гугле. Поэтому с целью систематизации для файлов и папок нужно ставить запрет в роботс.тхт, а для вебстраниц лучше использовать noindex.

Но на практике очень часто проекты, у которых в файле robots.txt запрещены для индексации все необходимые объекты, не испытывают серьезных трудностей и вполне себе успешны. Главное, что необходимо при этом выполнить — закрыть индексирование для всех нежелательных страниц тем или иным способом и открыть для тех, которые содержат полезный контент.

Таким образом, веб-проекты с разными принципами составления файла robots.txt продвигаются без проблем как в Яндексе (который не накладывает подобных ограничений), так и в Google. Но это на данный момент. Как будут работать их алгоритмы в дальнейшем, никто предсказать не в состоянии, поэтому я обязан был сообщить о всех нюансах.

Как составить роботс.тхт с помощью важнейших директив

Итак, переходим непосредственно к наполнению этого важнейшего файлика. Несмотря на то, что я стараюсь подробно освещать ключевые моменты данной темы, возможно, вам будут полезны данные, взятые из первоисточников, коими являются раздел помощи Яндекса и хелп Гугла.

Файл robots является текстовым (обязательно в кодировке ASCII или UTF-8) с расширением .txt, поэтому в качестве платформы для внесения содержимого в этот объект можно с успехом использовать простую программу «Блокнот» (она, например, входит в список стандартного софта операционной системы Windows), позволяющую сохранить файлик в нужном формате.

Можно, конечно, использовать и распрекрасное приложение Notepad++ (здесь все о продвинутом блокноте), без которого не представляют себе своей деятельности многие вебмастера.

Формат, синтаксис и структура

Разберем вкратце его синтаксические и структурные особенности. Содержимое этого файла состоит из правил, каждое из которых включает несколько таких строчек (директив):

<поле>:<необязательный пробел><значение><необязательный пробел><#необязательные комментарии>

Каждая директива начинается с новой строки. В этой схеме «поле» — название соответствующей директивы, после чего идет двоеточие. Далее можно оставить пробел для лучшей читабельности (необязательно). Следующая часть — значение (параметр), вновь необязательный пробел и комментарии после знака решетки «#», которые вносятся для пояснения конкретной директивы.

В качестве значений указывается наименование агента (робота), которому надлежит выполнять следующие ниже директивы, а также файлы и папки, к которым они должны быть применены. Если вы вписываете несколько правил (записей), то они разделяются пустой строкой.

Наверное, лучше представить рисунок, отражающий выше сказанное, чтобы было понятнее:

Далее вкратце рассмотрим еще некоторые нюансы синтаксиса роботс тхт:

1. Каждый краулер, указанный в качестве параметра «User-agent» (Yandex, Googlebot и т.д.), выполняет только те записи директив (Disallow, Allow), которые прописываются именно для него в отдельном правиле (блоке, секции). Требования, предъявляемые к другим ботам, он игнорирует. Исключение составляет лишь межсекционная директива «Sitemap», которая отделяется пустой строкой от всех правил. О ней мы обязательно поговорим подробнее.

2. Необязательные комментарии, перед которыми должен ставиться знак решетки «#», могут находиться в любом месте файла. Содержимое комментариев не учитывается пауком, таким образом оно никак не влияет на результат индексации.

3. Регистр элемента <поле> может быть любым (записи «User-agent» и «user-agent», а также «Disallow» и «disallow» совершенно равнозначны). Элемент <значение> чувствителен к регистру, если он не принадлежит «User-agent» (например, «YandexBot» и «yandexBot» идентичны), а вот записи «Disallow: /procop/» и «Disallow: /Procop/» будут по-разному восприняты ботами, так что будьте внимательны.

И еще. В файле роботс запрещено напрямую использовать символы национальных алфавитов, в том числе русские буквы. Поэтому нужно перекодировать кириллицу в последовательность специальных символов. Но здесь есть один очень важный нюанс.

Например, для обозначения кириллических доменных имен, которые могут вносится в качестве параметров директивы Host (о которой мы еще порассуждаем), надо применять кодирование посредством Punycode. Поэтому домен русскими буквами, например, такой:

сайт.рф

После преобразования в файле robots.txt будет выглядеть так:

Host: xn--80aswg.xn--p1ai

А вот для отображения параметров в виде URL-адресов (путей) в абсолютном или относительном виде правильнее будет применять перекодировку urlencode, которую можно осуществить, скажем, в этом специализированном онлайн-сервисе. Тогда, например, директива:

Disallow: /проект

В robots.txt примет такой вид:

User-agent: Yandex
Disallow: /%D0%BF%D1%80%D0%BE%D0%B5%D0%BA%D1%82

Для настройки правил индексирования существует несколько директив, из них стандартными считаются Disallow (Allow) и User-agent, которые должны присутствовать в обязательном порядке хотя бы единожды. Только в этом случае роботс тхт будет считаться корректным.

Директива User-agent

Необходимо сказать еще несколько слов о роботах Яндекса и Гугла в контексте информации об этой директиве. Основные роботы (по-другому, боты, пауки или краулеры) данных поисковых систем носят название соответственно YandexBot и Googlebot.

Однако, существует еще целый ряд пауков, отвечающих за индексацию изображений, новостей и т.д. Здесь вы можете лицезреть список ботов для Яндекса, а здесь — для Google.

Данная директива содержит название робота той поисковой системы, для которого и прописаны правила. Например, для основного бота Яндекса строчка с «User-agent» выглядит так:

User-agent: YandexBot

А вот если вы желаете дать указание сразу всем роботам, то эта директива уже будет такой:

User-agent: Yandex

В отношении Гугла ситуация немного другая. Ежели вы прописываете правила для основного робота этой поисковой системы, то они будут выполняться и остальными ботами Google:

User-agent: Googlebot

Если указания предназначены для ботов всех поисковиков, то строка будет такой:

User-agent: *

При необходимости запретить индексацию картинок в Гугле, например, в качестве значения user-agent вы указываете Googlebot-Image. Ну и так далее.

Директивы Disallow и Allow

Данные директивы, как было упомянуто выше, наряду с user-agent является обязательными и взаимоисключающими по своему смыслу (Disallow — запрещать, Allow — разрешать). Отмечу, что при указании их параметров используются регулярные выражения, которые формируются с помощью символов «*» и «$»:

  • «*» (звездочка) — обозначает любую (включая пустую) последовательность символов. По умолчанию в конце каждой директивы она подразумевается, даже если физически этот значок отсутствует;
  • «$» (знак доллара) — определяет окончание заданного значения директивы. То есть по сути он отменяет действие звездочки и означает конец URL (пути до файла или папки).

Сначала это немного сложно уразуметь, особенно начинающим. Но, надеюсь, ниже следующие примеры, в которых присутствуют регулярные выражения, внесут полную ясность. Далее давайте разберем различные образцы использования Disallow и Allow.

1. Для того, чтобы разрешить полностью индексировать сайт всеми поисковиками, следует указать Disallow с пустыми параметрами:

User-agent: *
Disallow:

Либо директиву Allow со значением «/» (слеш), который является обозначением корневого каталога, содержащего абсолютно все файлы сайта, которые и будут обработаны краулерами:

User-agent: *
Allow: /

Эту запись в соответствии с синтаксисом регулярных выражений можно представить и так:

User-agent: *
Allow: /*

То есть, звездочка обычно опускается и просто подразумевается. Это правило действительно для всех случаев. Имейте это ввиду при изучении примеров, последующих дальше.

2. Полный запрет индексации сайта достигается также двумя путями, а именно, с помощью обратных предыдущим директив. Вот таким образом:

User-agent: *
Disallow: /

Или так:

User-agent: *
Allow: 

3. Вот как можно запретить обработку ботами определенного каталога:

User-agent: *
Disallow: /catalog_1/

При этом полный (абсолютный) путь до данной директории будет такой:

http://mysite.ru/catalog_1/

4. В примере, последующем ниже, запрещены к индексации файлы (изображения, вебстраницы и др.), входящие в директорию «premier», а также те объекты, пути до которых (URL) после слеша начинаются с этого набора символов:

User-agent: *
Disallow: /premier

То есть, под запрет попадут, скажем, файлы со следующими абсолютными ссылками (среди них могут быть вебстраницы):

  • site.ru/premier
  • site.ru/premiers.html;
  • site.ru/premierpro.htm;
  • site.ru/premier-x/file_1.html.

Это происходит потому, что в конце значения директивы «/premier» по умолчанию присутствует символ «*», хотя он и не указан в реальности (читайте о регулярных выражениях в начале этой главы). Иначе говоря, приведенная выше запись абсолютно тождественна такой:

User-agent: *
Disallow: /premier*

5. В соответствии с синтаксисом регулярных выражений знак «$», как мы уже знаем, отменяет действие «*». Заменим в предыдущей записи звездочку на символ доллара:

User-agent: *
Disallow: /premier$

В этом случае запрет будет распространяться только на файл, к которому есть доступ по ссылке «site.ru/premier».

6. Допустим, что нам нужно исключить попадание в индекс файлов с расширением .php во всех папках. Тогда директива будет следующей:

User-agent: *
Disallow: /*.php

По умолчанию подразумевается звездочка в конце директивы (помните?):

User-agent: *
Disallow: /*.php*

А это означает запрет на абсолютно все файлики с этим расширением, включая веб-страницы, в ссылках на которые могут присутствовать различного рода параметры. Вот примеры полных путей на запрещенные объекты:

  • site.ru/file_1.php
  • site.ru/catalog_1/file_2.php
  • site.ru/catalog_2/file_3.php?parameters

Звездочка сразу за слешем определяет любые директории, в которых находятся файлы с .php.

7. Символ доллара в окончании директивы не позволяет индексировать только файлы с «чистым» расширением .php:

User-agent: *
Disallow: /*.php$

Для полного понимания приведу образцы ссылок на объекты, которые необходимо исключить из индекса (сравните с предыдущим примером):

  • site.ru/file_1.php
  • site.ru/catalog_1/file_2.php

8. Для того, чтобы запретить индексирование тех же файликов с расширением .php, но с ограничением в названиях папок и самих файлов, то можно составить вот такую конструкцию:

User-agent: *
Disallow: /*premier.php$

Ну и парочка объектов, подпадающих под эту запрещающую директиву:

  • site.ru/premier.php
  • site.ru/premierpro/file_1.php

9. Далее рассмотрим пример совокупного использования Allow и Disallow. Допустим, что нам надо запретить обработку краулерами определенной директории, но разрешить индексацию входящих в нее определенных файлов (вебстраниц):

User-agent: *
Disallow: /premier/
Allow: /premier/pro

Директива Sitemap

В качестве параметра Sitemap указывается URL, или полный путь до файла с картой веб-проекта (линк на соответствующую статью о sitemap в формате XML есть в начале публикации), в которой находится систематизированный перечень всех страниц, разрешенных для сканирования ботами. Это еще один аспект ускорения индексации. В составе роботс.тхт это выглядит так:

User-agent: *
Disallow: /premier/
...................
Allow: /premier/pro

User-agent: Yandex
Disallow: /premier/
...................
Allow: /premier/pro

User-agent: Googlebot
Disallow: /premier/
...................
Allow: /premier/pro

Sitemap: http://site.ru/sitemap.xml

Данная директива не связана с блоками, предназначенными конкретным краулерам (User-agent), поэтому она добавляется в конце через пустую строку и доступна для ботов всех поисковиков, которым предназначен robots.txt. Ежели ваш ресурс достиг приличного уровня, вследствие чего число URL в карте сильно возросло, то полезно будет добавить ссылку на сжатую версию карты:

https://site.ru/sitemap.xml.gz

В результате файл роботс примет такой облик:

User-agent: *
Disallow: /premier/
...................
Allow: /premier/pro

User-agent: Yandex
Disallow: /premier/
...................
Allow: /premier/pro

User-agent: Googlebot
Disallow: /premier/
...................
Allow: /premier/pro

Sitemap: http://site.ru/sitemap.xml
Sitemap: http://site.ru/sitemap.xml.gz

Если же количество урлов в карте превысило 50 000 либо ее вес достиг 50 Мб, то рекомендуется создать несколько файлов Sitemap (можно в сжатом виде) и указать в качестве параметра ссылку на так называемый файл индекса (который может носить такое же имя, то есть «sitemap.xml»).

Еще один нюанс. Поскольку присутствие XML sitemap в открытом доступе, как считается, дает возможность для незаконных манипуляций со стороны третьих лиц (включая воровство контента), многие вебмастера маскируют карту сайта, давая ей мудреное название, состоящее из набора разных символов (что вполне легитимно) и не вписывают директиву Sitemap в роботс.тхт.

Это вполне допустимо, по крайней мере для Yandex и Google (а ведь в рунете именно они правят бал), которые не требуют обязательного присутствия директивы «Sitemap», потому что XML карту можно добавить в соответствующих панелях вебмастеров этих поисковых систем.

Host для Яндекса

Этот элемент предназначен для указания главного зеркала сайта (с www или без) и его понимают только роботы Яндекса, поэтому директива Host прописывается в блоке правил, предназначенных именно российскому поисковику. Причем, если сайт работает на протоколе HTTP, то указывают просто домен ресурса. Так:

User-agent: Yandex
Disallow: /premier/
...................
Allow: /premier/pro
Host: site.ru

Или так:

User-agent: Yandex
Disallow: /premier/
...................
Allow: /premier/pro
Host: www.site.ru

В случае, ежели веб-проект имеет защищенный протокол, то в качестве параметра Host необходимо указывать полный урл. Так:

User-agent: Yandex
Disallow: /premier/
...................
Allow: /premier/pro
Host: https://site.ru

Либо так:

User-agent: Yandex
Disallow: /premier/
...................
Allow: /premier/pro
Host: https://www.site.ru

Таким образом можно было осуществлять выбор зеркала до недавнего времени.

На данный момент директива Host отменена в связи с некоторыми трудностями, которые часто возникали при переезде сайта. Теперь назначение главного зеркала происходит только при помощи 301 редиректа.

Подобное решение Яндекса позволило сделать шаг навстречу системному подходу и обобщению правил для поисковых систем, лидирующих в российском сегменте интернета, поскольку Google, как я отметил, никогда не учитывал директиву Host.

Clean-param

Дает указание краулерам не учитывать адреса с означенными параметрами, причем состоит из 2 частей: собственно параметра(-ов) и URL (пути) страниц, которые разделяет пробел. Синтаксис в развернутом виде можно представить так:

Clean-param: [p0&p1&p2&..&pn] [путь]

Где р0, p1, p2, …pn — наименование параметров (если более одного, то они разделяются между собой символом «&»). Важно отметить, что формат второй части Clean-param аналогичен общему синтаксису robots.txt в том смысле, что может содержать регулярные выражения, о которых мы уже говорили в этой статье.

Например, в конце записи [путь] подразумевается символ «*» (даже если звездочка не стоит), причем, он играет точно такую же роль, как и для значения любой стандартной директивы. Вот пример запрета различных видов UTM-меток («utm_campaign», «utm_medium», «utm_source», «utm_term», «utm_content»), которые используются при отслеживании эффективности переходов пользователей по ссылкам) для страниц определенного раздела веб-ресурса:

Clean-param: utm_campaign&utm_medium&utm_source&utm_term&utm_content /articles/

И для всего проекта в целом (напомню, что простой слеш «/» означает корень сайта):

Clean-param: utm_campaign&utm_medium&utm_source&utm_term&utm_content /

Хотя в этом случае вторую часть можно опустить:

Clean-param: utm_campaign&utm_medium&utm_source&utm_term&utm_content

В теории «Clean-param» возможно указывать в любом месте файла, потому как эта инструкция, наравне с «Sitemap», является межсекционной в понимании ботов Yandex. Но, поскольку она принимается только российским поисковиком, то вписывать ее следует в составе принадлежащего ему блока (иначе при проверке в том же Гугле файл роботс тхт может вызвать ошибки):

User-agent: Yandex
Disallow: /premier/
...................
Allow: /premier/pro
Clean-param: utm_campaign&utm_medium&utm_source&utm_term&utm_content

По сути эта директива помогает избавиться от дублирования. Ведь при использовании тех же меток (или GET-параметров) появляется целая куча вебстраниц с одинаковым содержанием, но с самыми разнообразными адресами:

https://www.site.ru/articles/product_1
https://www.site.ru/articles/product_1?utm_source=VK&utm_medium=referral&utm_campaign=6155685
https://www.site.ru/articles/product_1?utm_source=FB&utm_medium=referral&utm_campaign=32613
и т.д

В результате действия Clean-param именно первая страничка будет учтена и проиндексирована Яндексом, все остальные будут проигнорированы. Так как директива понимается исключительно «зеркалом рунета», то, мне кажется, более удачным вариантом будет применение rel=»canonical», который определяет основную вебстраницу и принимается обоими крупнейшими поисковиками.

Crawl-delay и расширенные директивы

Выше мы рассмотрели директивы, которые наиболее часто используются (или использовались ранее подобно Host). Осталось рассмотреть еще несколько, скорее, в качестве дополнительной информации, потому что они либо не учитываются ведущими поисковиками, либо уже отменены.

Crawl-delay — предназначена для систематизации нагрузки на сервер и указывает тайм-аут для слишком активных краулеров. В качестве параметра определяется время в секундах, при этом можно даже указывать дробные значения. Эта директива входит в группу правил для конкретного «User-agent», так как не все поисковые системы ее понимают (кстати, Гугл в их числе):

User-agent: *
Disallow: /premier/
...................
Allow: /premier/pro

User-agent: Yandex
Disallow: /premier/
...................
Allow: /premier/pro
Crawl-delay: 1.5

Указанное в данном примере время (1.5 секунды) робот Яндекса каждый раз должен «ожидать» перед обработкой следующей страницы. Совершенно очевидно, что для небольшого веб-ресурса данная директива излишня. Ну а для более крупных проектов она должна использоваться крайне осмотрительно, так как неверно проставленное значение способно привести к проблемам.

На данный момент Яндекс отказался от учета Crawl-delay. Это было сделано с целью ускорения появления новых страниц в поиске и их обновления, так как некорректно применяемые владельцами сайтов параметры часто замедляют скачивание документов. В качестве альтернативы создан инструмент «Скорость обхода» в панели вебмастеров.

В расширенной спецификации robots.txt встречается еще парочка директив, смысл которых понятен из следующих примеров:

Request-rate: 1/3 — загружать не больше одной страницы в течении трех секунд
Visit-time: 0530-0715 — загружать страницы только в промежуток с 5:30 до 7:15 по Гринвичу

Но они, насколько известно, сейчас не поддерживаются крупнейшими поисковыми системами. По крайней мере, Yandex и Google их точно игнорируют, а потому для продвижения в рунете они практически не нужны, по крайней мере, на данный момент.

Как создать правильный robots txt

Чтобы выполнить задачу, для начала нужно проанализировать структуру и содержание вашего сайта, решив, для каких типов объектов, включая вебстраницы, надо исключить попадание их в индекс, а для каких разрешить. Это поможет правильно настроить индексацию проекта.

Скажем, для стандартного современного информационного сайта или блога логично включить индексирование главной вебстраницы, рубрик, статей, постоянных страниц, которые содержат востребованный контент. Ну а отключить нужно то, что реально мешает:

1. Большинство создаваемых сегодня сайтов используют какие-либо движки (WordPress, Joomla и т.д.), в которых присутствует разные системные файлы и папки, а также созданные при помощи специальных функций вспомогательные страницы.

Все эти объекты не несут никакой полезной информации для пользователей, поэтому должны исключаться из индекса (конкретизировать и выдать универсальный список на все случаи жизни довольно сложно, но пример robots.txt для WP мы обязательно разберем).

Ежели этого не сделать, то, помимо всего прочего, огромное количество времени будет потрачено ботами на обработку всего этого «мусора» (с точки зрения полезности для посетителей), в итоге ценные материалы могут долго ожидать своей очереди. К тому же, бессистемно ползающие по закоулкам сайта поисковые пауки создадут приличную нагрузку на сервер, а это уже не шутки.

2. Еще одна задача — обеспечить уникальный контент на своем ресурсе и избежать дублей страниц, которые имеют одинаковое содержание, но располагаются по разным URL-адресам. Это можно сделать при помощи соответствующих значений директив Disallow и Clean-param (для Яндекса). Но, чтобы гарантированно этого достичь для обоих поисковиков, лучше определить канонические страницы посредством rel canonical. Комплексный подход тоже вполне реален.

Думаю, завершить теоретические выкладки надо примером готового роботс.тхт. Поскольку универсальный файл для всех сайтов, работающих на различных CMS, предоставить нереально, даю стандартный пример для движка WordPress, так как он является самым популярным в мире:

User-agent: *
Disallow: /cgi-bin                     # папка со скриптами
Disallow: /?                           # все параметры запроса на главной
Disallow: /wp-                         # все файлы WP: /wp-json/, /wp-includes, /wp-content/plugins
Disallow: *?s=                         # поиск
Disallow: *&s=                         # поиск
Disallow: /search                      # поиск
Disallow: /author/                     # архив автора
Disallow: *?attachment_id=             # страница вложения
Disallow: */feed                       # все фиды
Disallow: */rss                        # rss фид
Disallow: */embed                      # все встраивания
Disallow: */page/                      # все виды пагинации
Allow: */uploads                       # открываем uploads
Allow: /*/*.js                         # внутри /wp- (/*/ - для приоритета)
Allow: /*/*.css                        # внутри /wp- (/*/ - для приоритета)
Allow: /wp-*.png                       # изображения в плагинах, cache папке и т.д.
Allow: /wp-*.jpg                       # картинки в плагинах, cache папке и т.д.
Allow: /wp-*.jpeg                      # изображения в плагинах, cache папке и т.д.
Allow: /wp-*.gif                       # картинки в плагинах, cache папке и т.д.
Allow: /wp-*.svg                       # изображения в плагинах, cache папке и т.д.
Allow: /wp-*.pdf                       # файлы в плагинах, cache папке и т.д.
Disallow: /wp/                         # когда WordPress установлен в подкаталог wp

Sitemap: http://site.ru/sitemap.xml    # карта сайта  
Sitemap: http://site.ru/sitemap.xml.gz # сжатая версия (.gz)

# Не забудьте поменять "http://site.ru/" на протокол и домен вашего сайта.

Но, так как алгоритмы поисковиков ввиду развития технологий меняются, этот вариант (который пока является рабочим), возможно, с течением времени можно будет считать устаревшим. Вы можете ознакомиться со всеми образцами robots.txt, включая тот, который составлен в полном соответствии с последними веяниями в области управления индексированием.

После того, как файл роботс.тхт с помощью выше изложенного матерала будет создан, его нужно будет закачать на сервер, где он должен располагаться в корневой директории сайта (это можно сделать посредством полезного FTP-менеджера FileZilla, ссылка на материал об этой программе в последней главе), поскольку правила, прописанные в нем, применяются ко всем файлам и папкам, то есть, его URL должен иметь такую структуру:

http://site.ru/robots.txt

Любые другие варианты будут неверными и могут привести к хаосу при настройке индексации. Поэтому после создания и загрузки на сервер, где хостится ваш сайт, обязательно введите в поисковую строку представленный выше урл, только вместо «http://site.ru/» подставьте нужный протокол (возможно, вы используете «https») и доменное имя своего ресурса. Если содержание robots.txt откроется по указанному адресу, то и с этой стороны вы все сделали правильно.

Онлайн генераторы для создания robots.txt

Это вариант для ленивых или находящихся в постоянном цейтноте владельцев сайтов. Хотя лично я считаю, что ручная работа, особенно вкупе с человеческим интеллектом, который опережает «машинный разум» (несомненно имеющий свою плюсы) в некоторых важных аспектах, намного ценнее. Ну да ладно, как говорится, на вкус и на цвет…

В сети довольно много генераторов, с помощью которых можно создать файл роботс тхт онлайн. Все они имеют примерно схожий функционал, поэтому я выбрал один такой инструмент, который принадлежит известному сервису PR-CY.ru, что обеспечит корректность сформированного файла:

Разрешаете всем ботам индексировать сайт (хотя нас интересуют, в первую очередь, Yandex и Google, это не повредит), напротив опции «с задержкой» оставляете значение «0», поскольку на данный момент оба рунетовских поисковика не поддерживают директиву Crawl-delay, а для настройки данной опции в их панелях вебмастеров есть альтернативный инструмент.

Далее указываете полный путь до карты сайта, ну и те папки, содержимое которых подлежит запрету на сканирование. В результате генератор выдаст результат, который надо скопировать и вставить в поле соответствующей программы (как я отмечал, для этого подойдет как простой блокнот, так и его продвинутый вариант Notepad plus plus). Сохраняете полученный файлик с расширением .txt и загружаете его в корень сайта.

Загрузка файла на сервер, его анализ и проверка

Итак, неважно каким способом вы составили robots txt (вручную с учетом всех выше приведенных рекомендаций либо посредством онлайн генератора). Сохраненный файл затем надо закачать на сервер хостинга, где «живет» сайт. Напомню, что он должен находиться в корневой директории:

http://site.ru/robots.txt

Выше уже было отмечено, что осуществить это можно с помощью ФТП-менеджера (на мой вкус самым удобным и функциональным из них является Файлзилла):

Тем, кто только начинает свою деятельность по вебмастерингу, сообщу, что для проверки роботс вы должны зарегистрироваться в сервисах Яндекс Вебмастер и Google Search Console с тем, чтобы использовать полезные инструменты в том числе для анализа robots.txt своих сайтов.

Чтобы проверить созданный файл как на корректность его синтаксиса, так и на соответствие результата действия директив для различных групп страниц сайта, нужно проделать следующие шаги, предварительно войдя в панель вебмастеров упомянутых гигантов поиска.

1. В сервисе вебмастеров Яндекса

Вставьте в окно редактора содержимое вашего варианта роботс.тхт, находящегося в корне сайта, и нажмите кнопку «Проверить»:

Ниже вы получите результаты синтаксической проверки с сообщением о количестве ошибок:

Чтобы проанализировать, правильно ли настроена индексация всех URL (запрет или разрешение), не нужно указывать ссылки на абсолютно все страницы вебсайта. Просто поочередно введите по одному урлу, каждый из которых ведет на вебстраничку, представляющую ту или иную группу в зависимости от структуры ресурса (например, для блога это главная, рубрики, статические страницы и вебстарницы со статьями):

После нажатия соответствующей кнопочки появятся итоги анализа. Вполне возможно, что Яндекс забракует ваш robots.txt с точки зрения синтаксиса. Также вы можете обнаружить, что URL, которые вы планировали открыть для индексирования, заблокированы, или наоборот, к тем, которые должны быть закрыты, робот имеет доступ.

В этом случае у вас есть возможность поэкспериментировать в этом же редакторе Я.Вебмастера, изменяя содержимое и тут же каждый раз производя проверку, пока не добьетесь необходимого результата. Затем вы сможете скачать окончательный вариант файла на компьютер, после чего загрузить новую версию на сервер. Очень удобно.

2. В Google Search Console (Гугл Вебмастер) шаги аналогичные, конечно, со своими нюансами.

Точно также, как в Яндекс Вебмастере, вы можете вставить содержание будущего robots.txt, которое было составлено в том числе на рекомендациях, предоставленных в этой публикации, в редактор и проверить его. Но для начала лучше проанализировать на корректность все группы страничек, вводя их URL по очереди в соответствующее поле:

Если вас все устроило, то перейдите наверх к окну редактора и нажмите кнопку «Отправить», после чего появится окно, где указаны 3 шага, которые вы должны совершить для проверки:

Скачиваете отредактированный должным образом файлик с Search Console к себе на компьютер, добавляете его в корневой каталог сайта, проверьте, как он выглядит в браузере (доступен ли он для пауков Google) и сообщаете об его обновлении. Если после этих телодвижений возникли какие-то ошибки, проанализируйте их, вновь внесите необходимые изменения в том же окне и повторите выше описанные шаги, пока не добьетесь полного отсутствия ошибок:

Это будет означать, что robots txt полностью корректен во всех аспектах. Чтобы уж полностью избежать всех возможных белых пятен по теме, изучите материал в формате видео:

Поделиться с друзьями
Игорь Горнов

Создатель и администратор сайта Goldbusinessnet.com. Участник нескольких успешных проектов и автор более 1000 статей о работе в интернете, создании сайтов, полезных программах и сервисах.

Работа в интернете
Добавить комментарий

Нажимая на кнопку "Отправить комментарий", я даю согласие на обработку персональных данных и принимаю политику конфиденциальности.

  1. seoonly.ru

    Спасибо! Помогло)) теперь на всех сайтах хоть нормальные файлы сделаю. УРА!

    Ответить
  2. Сергей К.

    Большое Вам спасибо, Игорь и Василий, за понятные разъяснения и советы. И всего Вам доброго.

    Ответить
  3. Сергей К.

    Здравствуйте!

    Вопрос, на который не могу найти ответ. Был бы благодарен за Ваше мнение. Мой сайт — не блог, а сайт небольшого агентства недвижимости.

    Сайт на WordPress с ЧПУ, я подкорректировал robots согласно рекомендациям, а также примерам на различных сайтах. Наряду с прочими директивами имеются и вот эти:
    Disallow: /wp-includes/
    Disallow: /wp-content/plugins/
    Disallow: /wp-content/themes/

    Проверяю мои страницы в webmaster Гугла в разделе «Посмотреть как Googlebot». При таком robors на страницах отображаются только тексты, то есть сайт выглядит как полу-фабрикат. А фотографии, дизайн, элементы оформления, таблицы и т.д. не видны. Указывается, что блокировка этих элементов происходит из-за директив:
    Disallow: /wp-includes/
    Disallow: /wp-content/plugins/
    Disallow: /wp-content/themes/

    В этой связи вопрос. Так и должно быть, что сайт выглядит для поисковиков усеченным? Или всё же он будет понижен в результатах выдачи поисковиков из-за того, что он выглядит в их глазах ущербным? Если последнее верно, то что нужно сделать, чтобы исправить ситуацию?

    Сергей К.

    Ответить
    1. Игорь Горнов автор

      Нет, Сергей, подобные директивы для сайта WordPress, пусть и коммерческого, являются абсолютно правильными. Никакого понижения при ранжировании по этой причине быть не должно.

      Роботы поисковиков не могут посмотреть на сканируемую страницу «человеческими» глазами, поэтому для определения изображений мы и прописываем ALT и TITLE.

      То же самое касается и других элементов страницы, «глаза» GoogleBot в Вашем случае воспринимают вебстраницу в виде HTML-кода и оценивают ее так и только так.

      В конце концов, поведенческие факторы играют в ранжировании все более решающую роль и именно количеством проведенного на ней времени (а для коммерческого ресурса еще и числом определенных действий) выносится вердикт о качестве юзабилити и всех остальных составляющих.

      Ответить
    2. Василий

      Я дополню ответ Игоря. Можно открыть доступ роботу к некоторым css, js и файлам изображений темы. После этого робот увидит ваш сайт по-другому.
      У меня например, только после этого сайт прошел проверку на поддержку мобильности.

      Ответить
      1. Игорь Горнов автор

        Спасибо, Василий, дополнение действительно в тему. 🙂

        Ответить
  4. Дмитрий

    Забыл спросить, у меня в карте сайта некоторые записи встречаются по три-четыре раза, т.е. одна и та же запись может принадлежать нескольким рубрикам. Это нормально? На индексацию не влияет?

    Ответить
    1. Игорь Горнов автор

      Дмитрий, у Вас, как я понимаю, интернет магазин, у коммерческих ресурсов такая ситуация встречается нередко. Это делается по вполне понятным причинам, а именно, для удобства пользователей, когда товары классифицируются по разным признакам. Просто в этом случае нужно указать каноническую страницу с помощью мета тега Canonical.

      Ответить
      1. Дмитрий

        Игорь, спасибо! Я вроде все так и сделал.Теперь буду ждать, когда мой сайт полюбит яндекс))

        Ответить
        1. Игорь Горнов автор

          Хорошо, Дмитрий, удачи! Обращайтесь, если что.

          Ответить
          1. Дмитрий

            Игорь, опять вопрос… В плагине Платинум СЕО установил галочку напротив nofollow links to tag pages. Посмотрел в коде страницы ссылки на теги не закрыты nofollow. Это плагин не работает или запрет где-то в другом месте прописывается и другой командой?

          2. Игорь Горнов автор

            Дмитрий, запрет должен прописываться в коде страницы. Я от Platinum отказался, поскольку он давно не обновлялся, и перешел на All in One Seo Pack, он в этом отношении надежнее.

  5. Дмитрий

    Игорь, второй canonical я уже удалил на всякий случай)) А по поводу решения с картой сайта, буду ждать от вас новостей.

    Ответить
  6. Дмитрий

    Здравствуйте, Игорь! 1) У меня на сайте почти все записи выводятся на главную страницу, на основную 15 записей, и дальше страницы плагинации по номерам, тоже на каждой по 15 записей. У меня есть рубрика «Бренды» на которую выводятся те же самые записи, что и на главную, тоже по 15 записей на страницу. Отличается только главная страница от первой страницы рубрики, все остальные страницы плагинации главной и этой рубрики имеют одинаковые записи. Первая главная отличается от первой страницы рубрики чуть-чуть дизайном вверху и четырьмя записями анонса вверху и дополнительным текстом внизу. Получается, что рубрика «Бренды» почти полностью дублирует материал главной страницы, есть небольшие отличия, но в основном почти тоже самое. Как это отражается на индексации сайта? Может мне лучше закрыть индексацию всех страниц главной, кроме первой. Если да, то как это сделать? Какую директиву прописать в robots.txt ? Или лучше ничего не закрывать, т.к. небольшие отличия все-таки есть?
    2) Не могу понять, что запрещает директива Disallow : /*?*
    У меня к примеру, благодаря ей, яндекс исключил страницы с адресами типа этого /?p=23042
    Скорей всего это дубль, т.к. эта же страница с ЧПУ содержится в поиске яндекса, я прав?
    И что запрещают директивы Disallow: /*? и Disallow: /?
    Вообще, в чем разница у этих трех директив?
    Посмотрите мой robots.txt может, что-нибудь еще подскажите.

    Ответить
    1. Игорь Горнов автор

      Дмитрий, пост обновлен, почитайте внимательнее, там даны новые рекомендации по составлению robots.txt, также для настройки правильной индексации обязательно почитайте следующие материалы:

      http://goldbusinessnet.com/poiskovye-sistemy-i-brauzery/indeksaciya-sajta-v-poiskovyx-sistemax-yandeks-i-gugl/
      http://goldbusinessnet.com/dvizhok-wordpress/all-in-one-seo-pack-poiskovaya-optimizaciya-sajta-wordpress/
      http://goldbusinessnet.com/poiskovye-sistemy-i-brauzery/replytocom-dubli-stranic-wordpress/
      Ответить
      1. Дмитрий

        Игорь, спасибо, все почитал и сделал как вы рекомендуете, в роботе оставил запретов по минимуму, все остальное прописал в настройках плагина. Только использовал для этого плагин Platinum SEO Pack, думаю разница небольшая с плагином All in One SEO Pack. Запретил для индексации теги, суб-страницы, страницы поиска и т.д., разрешил индексировать только категории. В плагине поставил галочку напротив Canonical URLs. Возникла следующая ситуация… Теперь яндекс исключает все страницы карты сайта, кроме первой. Пишет, что документ является не каноническим. Посмотрел в коде каждой страницы карты сайта два раза стоит атрибут rel=»canonical» href=»http://www.dress-brand.ru/karta-sayta/» То есть он пишет, что канонической является только первая страница карты. Один раз этот атрибут стоит на странице в коде стилей, а второй раз в коде плагина плагина Platinum SEO Pack. Карту сайт создавал с помощью плагина Dagon Design Sitemap Generator. Как с этим разобраться? У вас на сайте, я посмотрел, карта сайта не разбита на страницы. Может и мне сделать всего одну страницу карты? Только у меня записей больше тысячи будет на ней. Что посоветуете?

        Ответить
        1. Игорь Горнов автор

          Дмитрий, действительно, вопрос по делу и очень актуальный. С картой сайта заморочки, я уже думал об этом, но пока к конкретному мнению не пришел. Буду советоваться с коллегами по этому вопросу.

          Пока решил не разбивать карту на страницы именно по причине ее некорректной индексации. Думаю, Вам тоже пока нужно отменить разделение на страницы. Что касается Platinum, то его используют некоторые блогеры, в том числе имеющие весьма успешные проекты.

          Я тоже вначале отдавал ему предпочтение, но отказался в дальнейшем по причине его редких обновлений. Одно время он не обновлялся более 2 лет. Все таки безопасность ресурса не последний по важности аспект.

          Ответить
          1. Дмитрий

            Игорь, спасибо!
            1) разбивку на страницы карты сайта пока уберу, это сильно повлияет на индексацию сайта?
            2) Что делать с первым rel=’canonical’ href=’http://www.dress-brand.ru/karta-sayta/’ он, кстати, я заметил с одинарными кавычками. Второй пусть остается, он от плагина Platinum SEO Pack. А с первым что? Ведь многие пишут, что два этих атрибута на странице нежелательны.
            3) Platinum SEO Pack установил еще когда начинал делать сайт, в те времена все предпочтение отдавали ему, а теперь ничего не меняю и не обновляю. Очень много на сайте уже вручную переделано, как то раз обновил вордпресс и несколько плагинов и все перестало работать, поэтому больше не рискую.
            4) когда с коллегами проясните, что с картой сайта делать, напишите ответ в мои комментарии, чтобы у меня на почте отобразилось, за обновлениями на вашем блоге не всегда удается следить, а так письмо на почту придет))

          2. Игорь Горнов автор

            Дмитрий, отвечаю по пунктам:
            1) Думаю, что на индексацию вовсе не повлияет. Наоборот, роботу будет проще.
            2) Я нашел только один canonical, если Вы не согласны, напишите, посмотрю внимательнее
            3) Я понял, в принципе Platinum тоже неплохо работает. Просто смотрите, если долго не будет обновлений (например, больше года), все-таки переходите на альтернативный вариант.
            4) Хорошо, просто такая куча дел сейчас навалилась, не знаю пока, когда этим займусь поплотнее

  7. Василий

    У меня тоже сейчас этот файл стал совсем лаконичным.

    Ответить
    1. Игорь Горнов автор

      Да, приходится пересматривать, ничего не попишешь. 🙂

      Ответить
  8. Алла

    Спасибо вам огромное! Даже с моим страхом перед этим всем ПОЛУЧИЛОСЬ!!!
    Подскажите, я проверила список URL:
    http://сайт.ru/ — разрешён
    http://сайт.ru/статья/ — разрешён
    http://сайт.ru/статья/#comment — разрешён
    http://сайт.ru/category/категория/ — разрешён
    http://сайт.ru/2012/06/ — разрешён
    Смущает, что разрешён коммент и архив. Это правильно?

    Ответить
    1. Игорь Горнов автор

      Алла, то что разрешен URL с #comment не страшно, поскольку значок решетки означает, что это хэш-ссылка (она помогает попасть на нужное место данной вебстраницы). Такие страницы поисковые системы не считают дублями. А вот архивы желательно запретить, если у вас стандартный блог Вордпресс.

      Однако, такой вид ROBOTS.TXT уже не является актуальным, в скором времени эта статья будет обновлена, также я планирую написать пост о том, как обеспечить правильную индексацию страниц в соответствии с современными реалиями. Следите за публикациями.

      Ответить
      1. Алла

        Игорь, спасибо вам огромное за блог и возможность получать ответы. Для таких новичков как я — это огромное подспорье!!! Прогрессирую с в собственных глазах: Disallow: /20*, правильно? если архив у меня, например.: …/2014/06 :)))

        Ответить
        1. Игорь Горнов автор

          Алла, пожалуйста. Однако, прочтите мой прошлый ответ на Ваш комментарий. 🙂 Буквально на днях этот пост будет полностью обновлен в соответствии с современными реалиями. Для блогов WordPress теперь актуален совсем другой ROBOTS.TXT. Вдобавок будут еще несколько статей о том, как правильно настроить индексацию. Потерпите немного.

          Ответить
  9. Алексей

    Здравствуйте Игорь! Подскажите пожалуйста, если у меня на блоге (блогу 5 месяцев) URL- ы на русском, после установки плагина RusToLat переведутся на латиницу, то проиндексированные страницы выпадут из выдачи, и при следующей индексации будут считаться, роботами, неуникальными? Или я ошибаюсь?

    Ответить
    1. Игорь Горнов автор

      Алексей, ситуация такая. Если Вы желаете перейти на латиницу в URL, то будет происходить переиндексация Ваших страниц в поисковых системах и на какое-то время они могут выпасть из индекса. Не уникальными старые адреса считаться не будут, поскольку будут вести на страницы с ошибкой 404.

      На базе своего опыта могу сказать, что я несколько раз делал различные глобальные изменения на своем блоге и, в общем то, катастроф не случалось в плане продвижения, все возвращается на круги своя. Конечно, это немного тормозит раскрутку проекта, но, по-моему, у каждого вебмастера в его жизни появляется необходимость что-то изменить.

      Главное, все хорошо взвесить прежде, чем принять решение. Кстати, почему Вы хотите перейти на латиницу? Я наблюдал несколько весьма успешных проектов, которые отлично живут с русскими адресами. Возможно, это даже плюс при продвижении в рунете. Правда, я сам такого опыта не имею, поэтому в этой части ничего посоветовать не могу. Также, возможно, при переходе стоит настроить 301 редирект, который будет обеспечивать автоматический переход на страницы с новыми URL.

      Ответить
      1. Алексей

        Спасибо Игорь! Стоит подумать наверное о настройке 301 редиректа.

        Ответить
  10. Димыч

    Вот еще я увидел на другом сайте:
    Disallow: /search/
    Disallow: /goto/
    Disallow: *.html/*
    Disallow: */sphinx/*
    Disallow: */*.js*
    Disallow: /daos/
    Disallow: */?p*
    Disallow: */?s*

    Ответить
  11. Светлана

    Автору респект. Вы многим новичкам помогли своей этой статьей, в т.ч. и мне. Добавить к комментариям нечего, просто хочу выразить огромное спасибо за ваш труд и пожелать удачи.

    Ответить
    1. Игорь Горнов автор

      Спасибо, Светлана.

      Ответить
  12. Елена

    Верю,конечно,хорошо хоть спросила.А то так бы удалила и решила,что всё верно))Если найду ответ,напишу)

    Ответить
    1. Игорь Горнов автор

      Хорошо, Елена, напишите, это и для других читателей будет полезно.

      Ответить
  13. Елена

    А вот что мне ответили: индексирование страниц Вашего форума сейчас запрещено в Вашем файле robots.txt правилом «Disallow: /*?*», запрет необходимо убрать.
    Подскажите,на что исправить или вообще удалить эту строку? вот мой robots:
    User-agent: *
    Disallow: /cgi-bin
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes
    Disallow: /trackback
    Disallow: */trackback
    Disallow: */*/trackback
    Disallow: */*/feed/*/
    Disallow: */feed
    Disallow: /*?*
    Disallow: /tag

    User-agent: Yandex
    Disallow: /cgi-bin
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes
    Disallow: /trackback
    Disallow: */trackback
    Disallow: */*/trackback
    Disallow: */*/feed/*/
    Disallow: */feed
    Disallow: /*?*
    Disallow: /tag
    Host: turkishlearn.ru
    Sitemap: http://turkishlearn.ru/sitemap.xml.gz
    Sitemap: http://turkishlearn.ru/sitemap.xml

    Ответить
    1. Игорь Горнов автор

      Елена, а каков адрес URL Вашего форума? Это отдельный домен 2 уровня или домен 3 уровня, входящий в состав Вашего основного сайта?

      Ответить
      1. Елена

        Я не знаю какой уровень) Я загружала на сайт через плагин mingle forum и вот такой адрес у него получился : http://turkishlearn.ru/forum-2

        Ответить
        1. Игорь Горнов автор

          Понятно, форум располагается в одной из директорий Вашего сайта, в этом случае действительно директива:
          Disallow: /*?*
          Запрещает индексацию генерируемых для форума страниц. Елена, к сожалению, форумами я не занимался, а потому квалифицированную помощь в этом вопросе оказать не могу, не обессудьте. Единственное, что могу сказать, там, наверное, нужно прописать несколько директив специально для форумных страниц, включая Allow, но делать это нужно аккуратно, чтобы не запретить к индексации нужные страницы и не наплодить мусорных.

          Ответить
          1. Елена

            Спасибо,буду разбираться) А вообще я удалила Disallow: /*?* или не стоит?

          2. Игорь Горнов автор

            Елена, если Вы удалите Disallow: /*?*, то этим самым разрешите индексацию многих страниц, не только форумных, в том числе дублей, попадание которых в поиск нежелательно.

          3. Елена

            Я вот на хэлпе нашла вот такое(это может относится к моему форуму,если у меня адрес страниц вот такой получается http://turkishlearn.ru/forum-2?mingleforumaction=viewforum&f=22.0 (мне кажется корявый какой-то,может что-то подправить).Знаю что не по вашей теме,но может подскажите,а то понаделаю.

            Дополнительные примеры
            #для адресов вида:
            http://www.site1.ru/forum/showthread.php?s=681498b9648949605&t=8243
            http://www.site1.ru/forum/showthread.php?s=1e71c4427317a117a&t=8243

            #robots.txt будет содержать:
            User-agent: Yandex
            Disallow:
            Clean-param: s /forum/showthread.php

          4. Елена

            А чего они мне на хэлпе ответили,:индексирование страниц Вашего форума сейчас запрещено в Вашем файле robots.txt правилом «Disallow: /*?*», запрет необходимо убрать.
            Я так поняла надо удалить это строчку))

          5. Игорь Горнов автор

            Елена, я так понимаю, этот совет был относительно запрета индексации страниц форума. Но Ваш robots.txt относится не только к форуму, а ко всему сайту, форум является одним из разделов Вашего сайта. Если уберете «Disallow: /*?*», то позволите индексировать кучу мусорных страниц, особенно, если будут комментарии, они у Вас на сайте открыты. Попробуйте спросить совета где-нибудь на форумах, если мне не верите. Одна голова хорошо, а несколько голов лучше.

  14. Елена

    Спасибо!Про запрещающие файлы поняла.Так значит это не в robots проблема?

    Ответить
  15. celena

    Добрый день!
    Подскажите как правильно прописать,чтоб индексировался форум на сайте.Форум я устанавливала через плагин.А как я поняла мы закрываем индексацию плагинов.Или не так?Спасибо

    Ответить
    1. Игорь Горнов автор

      Celena, страницы форума будут индексироваться, если Вы специально не пропишите запрещающие директивы. В файле robots.txt мы запрещаем текстовые файлы, входящие в состав плагинов, но никак не страницы, которые генерируются с их помощью.

      Ответить
  16. Виталий

    Здравствуйте. Подскажите как сделать, чтоб индексировалась страница моего сайта с фотографиями (http://kovkavolgograd.ru/?page_id=30)?
    С Ув.

    Ответить
    1. Игорь Горнов автор

      Виталий, эта страница без ЧПУ, в статье же есть инструкция.

      Ответить
      1. Виталий

        Спасибо Большое ! Наконец то разобрался.

        Ответить
  17. Andrey Zondervit

    У меня к вам вопрос в тему!

    Если после вашего домена, через слэш ввести robot.txt , то получится 404 — то есть страница не найдена! Как вы это сделали?

    Ответить
    1. Игорь Горнов автор

      Andrey, естественно так вы ничего не найдете. 🙂 А теперь попробуйте ввести не robot.txt, а robots.txt, уверен вы получите искомое.

      Ответить
  18. Василий

    Игорь, привет! Сейчас разбираюсь с файлом robots.txt, иногда, меняю там некоторые настройки.
    Интересуюсь этой темой. А не правильней ли, будет указывать директивы, которые написаны ниже, со слэшем на конце? Так вроде бы роботу будет легче искать эти папки. Без слэша он их тоже найдет, но затратит на это больше времени.
    Disallow: /cgi-bin/
    Disallow: /wp-admin/
    Disallow: /wp-includes/
    Некоторые еще закрывают такие файлы:
    Disallow: /wp-login.php
    Disallow: /wp-register.php
    или делают команду такого типа:
    Disallow: /wp-trackback
    А, если записать так:
    Disallow: /*.php
    В этом случае, все эти файлы будут закрыты от индексации и не нужно будет записывать несколько команд для конкретных файлов. Файлы с расширением php вроде бы не и нужно индексировать.
    Команду для trackback может быть стоит сделать такой:
    Disallow: /*trackback*
    В моем файле есть такая команда:
    Disallow: /category/*/*
    У меня на сайте нет подкатегорий. Поэтому, возможно, два последних символа лишние?

    Ответить
    1. Игорь Горнов автор

      Привет, Василий, рад тебя видеть.
      В отношении постановки слэша. Запись со слэшем на конце означает запрет на индексацию всей директории вместе со всеми находящимися там файлами. Если слэш не ставить, то запрет будет распространяться не только на данную папку, но и на любой файл, начинающийся с такого названия. Например:

      Disallow: /category/ — запрещает индексацию директории category и всех файлов в ее составе.
      Disallow: /category — запрещает индексацию не только папки category, но и любых файлов типа category.png, category.php, а также всех папок, в названии которых присутствует category, например, «category1», «category89» ну и так далее. Как видишь, разница весьма существенная.

      Что же касается файлов с расширением .php, то бывают страницы со скриптами, заканчивающиеся таким образом, поэтому прописывать подобные директивы имеет смысл.

      Знак «*» обозначает любую последовательность символов. Подкатегорий нет, поэтому, действительно, последние два символа можно не использовать, но на скорости индексации, думаю, это особенно не скажется.

      В любом случае, при сомнении каждый конкретный случай лучше проверить в панели вебмастеров Яндекса и Гугла, это очень существенная возможность контроля корректности составленного robots.txt.

      Ответить
      1. Василий

        Игорь, если например, команда Disallow: /trackback закрывает все категории и файлы, то зачем еще указывать дополнительные команды:
        Disallow: */trackback
        Disallow: */*/trackback
        Ведь первая команда все закрывает, мне это не совсем понятно.

        Ответить
        1. Игорь Горнов автор

          Василий, эту директиву можно записать и так:

          Disallow: /*trackback*
          она аналогична записи:

          Disallow: */trackback
          Disallow: */*/trackback

          Ты прав, одна строчка короче двух и запись выглядит синтаксически более верной, хотя двойная строка и не является ошибкой и адекватно воспринимается ботами поисковиков. Я периодически обновляю статьи, но дело идет медленно, до этой пока не добрался.

          Ответить
        2. Андрей

          Василий, чтобы не вводить читателей в заблуждение, вношу поправку в ваш вопрос-сообщение:
          Disallow: /trackback — запрещает папку (с внутренним содержанием), ТОЛЬКО если она расположена в корневой позиции;
          Disallow: */trackback — запрещает к индексации папку, расположенную на ЛЮБОМ уровне вложенности (хоть в корне, хоть глубже);
          Disallow: */*/trackback — запрещает папку, расположенную в первом и глубже уровне вложенности. При этом корневая не запрещается.
          Поэтому всё закрывает правило Disallow: */trackback.
          Это всё легко проверяется на _http://webmaster.yandex.ua/robots.xml на выдуманном имени сайта. (Регистрация там не нужна.)
          Но для бота Гугла всё это я не проверял — у меня ещё нет собственного сайта.

          И ещё — по правилам бота Яндекса звёздочка в конце всегда подразумевается, поэтому её можно не писать в случае
          Disallow: */trackback* .

          А ответ Игоря Disallow: /*trackback(*) запрещает в любой позиции вложенности не только папку /trackback, но и папки с префиксом, например, папку /wp-trackback(*) .

          Ответить
  19. Tatjana

    Ещё раз, здравствуйте, Игорь! У меня попутный вопрос: право доступа к файлу робота у меня стоит 666, а к файлу карты 644. Это правильно?

    Ответить
    1. Tatjana

      т.е. наоборот, робот- право доступа 644, карты- 666.

      Ответить
    2. Игорь Горнов автор

      Tatjana, у меня и там, и там 644.

      Ответить
  20. Tatjana

    Огромное спасибо за материал. Самый лучший из тех, что я нашла в интернете!

    Ответить
    1. Tatjana

      И ещё такой вопрос: я вставила скопированный у вас вариант файла и некоторые его части Яндекс показывает с красной волнистой полосой. Это нормально?
      Спасибо.

      Ответить
      1. Игорь Горнов автор

        Tatjana, где это Вы заметили? В панели вебмастера Яндекс?

        Ответить
        1. Tatjana

          Добрый день! Да, в панели Яндекса, при анализе робота.
          Подчёркивает следующую часть между символами слэш :
          Disallow: /cgi-bin
          Disallow: /wp-admin
          Disallow: /wp-includes
          Disallow: /wp-content/plugins
          Disallow: /wp-content/cache
          Disallow: /wp-content/themes

          Ответить
          1. Игорь Горнов автор

            Tatjana, честно говоря, не знаю, что и сказать. Подчеркивание красной волнистой линией означает наличие ошибок в правописании. По виду у Вас текст корректен. Думаю, ничего критического, проверьте порядок индексации. Если результаты окажутся соответствующими правилам, не забивайте голову.

  21. Proz

    Спасибо за отличную статью. Как раз на этой неделе искал образец роботса и воспользовался Вашими рекомендациями.

    Ответить
  22. Хрустик

    спасибо большое очень интересный материал. Решил множество своих проблем

    Ответить
  23. Ирина

    Добрый день, Игорь. Я абсолютный новичок, и видимо, что- то упорно делаю не так. При загрузке файла на хостинг все происходит согласно инструкции, я вижу информацию, что операция выполнена успешно. Но отредактировать файл robots txt не удается. Когда я нажимаю «Edit», файл не открывается, а опять выводится информация, что операция выполнена. При проверке файла robots txt на своем сайте, он выглядит следующим образом:

    User-agent: *
    Disallow: /wp-admin/
    Disallow: /wp-includes/

    Sitemap: _http://v-polshu-sam.ru/sitemap.xml.gz

    Подскажите, пожалуйста, в чем может быть моя ошибка?

    Ответить
    1. Игорь Горнов автор

      Ирина, ну ничего страшного, все решаемо. Возможно, какой-то сбой в работе сервера на хостинге. Вы, как понимаю, редактируете роботс через интерфейс вашего хостинга. Попробуйте проделать эту операцию через notepad++, об этом редакторе можете найти подробный материал на блоге. Найдите статью, вбив запрос в поисковое поле сайта. Только после редактирования не забывайте сохранять файл. Этот способ более надежен для редактирования, хотя для новичков посложнее, но Вы обязательно разберетесь.

      Ответить
  24. Михаил Трутень

    Спасибо, автор! Большое уважение, что все так подробно расписано. Что-то один сайт не индексируется нормально. Обычно вордпресс быстро в индекс влазит, а тут прям беда (есть подозрения на шаблон), но теперь с картой сайта и robots посмотрим, что к чему будет )

    Ответить
    1. Игорь Горнов автор

      Михаил, ну карта и роботс просто определяющие вещи в этом деле.

      Ответить
  25. Евгений

    Привет! Я тоже новичок, пошел делать, спасибо за информацию. Подпишусь на комменты.
    User-agent: *
    Disallow: /wp-admin/
    Disallow: /wp-includes/

    Ответить
    1. Игорь Горнов автор

      Удачи, Евгений.

      Ответить
  26. Владимир

    Здравствуйте. Я новичок в сайтостроении. Почитал немного о том, как роботы индексируют сайты. Как я понял, чтобы страница проиндексировалась роботом, на неё должна быть где-то ссылка, не важно, на моём сайте или где-то ещё.
    Поэтому мне не понятно, зачем в файле robots прописывать, например, такие строки:
    Disallow : /wp-admin
    Disallow : /wp-includes
    Disallow : /wp-content/plugins
    Disallow : /wp-content/cash
    Disallow : /wp-content/themes
    Ведь если ссылок на файлы из этих папок на сайте нет, то робот их всё равно не увидит.

    Ответить
    1. Игорь Горнов автор

      Владимир, ссылки на сайте на эти директории не обязательно должны быть размещены, чтобы робот поисковиков сунул туда свой любопытный нос, если, конечно, Ваш домен попал в индекс. Конечно, ссылки на указанные Вами страницы будут индексироваться дольше тех страниц, которые Вы продвигаете, но то, что будут проиндексированы, сомнений никаких. Так зачем Вам лишняя головная боль? Тем более, что редактирование роботс занимает считанные минуты.

      Ответить
  27. Vladimir

    Спасибо за статью, очень полезная и нужная штука, недавно узнал о ней и сразу решил настроить. Спасибо.

    Ответить
  28. Эльвир

    У самого на этом блоге роботс не такой какой рекомендуешь людям.

    Ответить
    1. Игорь Горнов автор

      Естественно, Эльвир. Почитай внимательно статью и комментарии, этот robots.txt только основа для стандартного блога WordPress, в процессе развития ресурса он претерпевает изменения (вносятся изменения). В мире нет ничего вечного и застывшего, тем более в таком деле как сайтостроение. Нет навеки универсального роботса для всех ресурсов.

      Ответить
  29. Анатолий

    Шаблон на robots.txt у меня работает только на сайте где есть ЧПУ. А вот на сайте где нет ЧПУ не работает(. Теги как индексировались так и индексируются. Может знает в чем проблема?

    Ответить
    1. Игорь Горнов автор

      Анатолий, а Вы статью полностью читали? Там дано четкое разграничение для robots.txt с ЧПУ и без.

      Ответить
      1. Анатолий

        Да читал все, и применил именно шаблон который без чпу.

        Ответить
        1. Игорь Горнов автор

          Хорошо, понял, Анатолий. Видите ли, строго говоря изначально директивы robots.txt не слишком строго исполнялись поисковыми ботами, это считалось, скорее, рекомендацией им, поэтому многие вебмастера настрадались от этого и принимали дополнительные меры. Однако в последнее время влияние директив роботса ужесточилось и они практически полностью исполняются. А Вы давно установили rrobots.txt? Если совсем недавно, то причина ясна. Дело в том, что поисковики весьма инертны и не сразу бросаются исполнять директивы, прописанные в новоиспеченном файле robots.txt, поэтому придется немного подождать. Для успокоения души проверьте работоспособность роботса в панели вебмастеров Яндекс или Гугл.

          Ответить
  30. Вячеслав

    Спасибо за статью, очень помогла!

    Ответить
  31. Albert718

    Помогите составить robots.txt пожалуйста!

    Ответить
    1. Игорь Горнов автор

      Albert, мне кажется, в статье я все подробно описал. Если у вас стандартный блог Вордпресс, используйте за основу уже готовый robots.txt.

      Ответить
  32. Валентина

    Здравствуйте, Игорь! Огромное спасибо за такую подробную статью, пойду составлять robots txt :))

    Только скажите, пожалуйста, у меня в строке браузера показывает адрес сайта prosto-edem.ru (без www). А вот в консоли вордпресс (Общие настройки) в строках WordPress (URL) и Адрес сайта (URL) — _http://prosto-edem.ru.
    Не получается ли, что это разные адреса для поисковиков? Или это нормально?

    И еще по поводу изображений: у меня гугл индексирует подписи к фотографиям:(. Достаточно ли для решения этой проблемы закрыть от индексации папку attachment?
    Заранее благодарю за ответ!

    Ответить
    1. Игорь Горнов автор

      Валентина, если у Вас прописан адрес сайта в файл robots.txt, то он и будет главным для поисковиков, так что будьте на этот счет спокойны. Теперь что касается подписей под фотографиями. Если Вы имеете ввиду свои авторские подписи на главной и пояснительный текст под изображениями на страницах статей, то они будут проиндексированы, поскольку это текстовый контент, но ничего страшного в этом нет. Наоборот, поисковики будут ассоциировать ресурс с Вашем именем, а на страницах со статьями этот текст, как мне кажется, связан с Вашей темой. Можете добавлять к пояснительному тексту КС, по которым продвигаете каждую статью. Единственное, что бы я посоветовал, давать название фотографиям, включая в них КС. Например, у Вас фотографии именованы таким образом: image_011.jpg, но можно ведь и так: shtorm_na_more.jpg. Тогда эти фотографии будут оптимизированы под поиск по картинкам, а для Вашего ресурса это особенно важно, ведь у Вас фотоблог, если я не ошибаюсь?

      Ответить
      1. Валентина

        Спасибо, Игорь, за ответ и советы! 🙂
        Только разве эти проиндексированные страницы с подписями не будут являться дублями?
        Вот они, например _https://www.google.ru/search?q=site:prosto-edem.ru&newwindow=1&hl=ru&ei=aixWUoO7LsiF4AS9voCwBQ&start=90&sa=N&biw=1280&
        bih=857&dpr=1

        Ответить
        1. Игорь Горнов автор

          Валентина, это неполные дубли. Для обычного блога это не особенно страшно, ведь анонсы статей на главной и страницах категорий тоже являются неполными дублями, поскольку содержат такую же первую картинку к посту и начальный кусок текста. Но основной контент скрыт и появляется лишь на странице записи. Для стандартного блога Вордпресс эта ситуация рабочая, но у Вас фотоблог, где изображения играют более значимую роль, поэтому, думаю, здесь ситуация несколько другая. Я не понимаю, почему в поиске эти страницы с картинками, ведь директория attachment у Вас закрыта в robots.txt, или Вы ее закрыли недавно? Если так, то придется немного подождать, гугловские боты весьма инертны и не сразу воспринимают отредактированный robots.txt.

          Ответить
          1. Валентина

            Да, Игорь, я закрыла ее недавно, посл прочтения Вашей статьи. Значит, жду 🙂

  33. Мария

    Здравствуйте, Игорь
    Если Вам не трудно, посмотрите мой вновь составленный robots.txt. Я его загрузила 16.09. Игорь, а почему-то в поисковой строке Яндекса robots.txt показывается старый, а в Яндекс-вебмастере- новый. Я что-то сделала не так?
    И у меня пришло сообщение еще в июне что робот Goolbot не может получить доступ к моему сайту. Это из-за неправильного robots.txt. Как исправить положение. Или сейчас будет доступ, потому что теперь другой robots.txt
    Пожалуйста, поясните ситуацию. Я еще плохо разбираюсь в таких тонкостях.

    Ответить
    1. Игорь Горнов автор

      Мария, этот вариант robots.txt вполне удобоваримый с учетом структуры Вашего блога. А Вы не ошиблись? Наверное, в окне браузера показывается новый вариант, потому что он уже загружен на сайт, а В Яндекс Вебмастер старый вариант показывается потому, что новый Вы туда не загрузили. В разделе «Анализ robots.txt» есть кнопка «загрузить robots.txt с сайта».
      Очень тяжело сейчас определить причину отказа роботу в доступе, причин может быть масса. Подождите немного и посмотрите, как будут индексироваться страницы в дальнейшем. Если вебстраницы будут появляться в поиске, значит, все нормально.

      Ответить
  34. Руслан

    ок, как насчет папки и файлов attachment? смледует ли их закурывать от инжексации?, ведь одно и то же изображение может генериться под несколькими урлами

    Ответить
    1. Игорь Горнов автор

      Совершенно верно, Руслан, attachment тоже следует закрыть от индексации.

      Ответить
  35. Мария

    Спасибо, Игорь за хорошую и подробную статью. Добавлю директивы и в robots.txt
    Мне остается добавить только

    Dussallow:/tag
    Dussalow:/*?* (у меня естьЧПУ)

    А ставить или нет запрет на индексацию категорий. Или достаточно этих директив?

    Ответить
    1. Игорь Горнов автор

      Нет, Мария, если Вы закрыли метки, то категории нужно оставить открытыми, у Вас стандартный блог Вордпресс.

      Ответить
  36. Мария

    Здравствуйте, Игорь.
    Мой сайт попал под АГС..Я думаю, что из-за дублированного контента. Я запретила индексацию тегов(меток) и архивов, но открыла рубрики (категории) в плагине All in One SEO Pack.
    Вопрос:
    Мне нужно запрещать индексировать теги и архивы в robots.txt или достаточно запрета в плагине All in One SEO Pack?

    Ответить
    1. Игорь Горнов автор

      Видите ли, Мария, в настройках All in One SEO Pack запрет на индексацию осуществляется с помощью мета тега ROBOTS. На данном этапе его эффективность понизилась, поэтому я советовал бы продублировать запрет на индексацию нужных Вам разделов в файле robots.txt.

      Ответить
  37. Дмитрий

    Здравствуйте Игорь, скажите пожалуйста зачем закрывать тэги, архивы и т.п. от индексации, ведь если продавать ссылки в sape, то получается, что ты уменьшаешь количество страниц сайта.

    Ответить
    1. Игорь Горнов автор

      Видите ли, Дмитрий. Я вообще считаю, что «чистый» ресурс не должен быть обременен продажей ссылок, тем более с помощью такой заспамленной биржи как Sape. Я не говорю, что продажных ссылок вообще не должно быть, в конце концов исключительно белыми методами очень тяжело раскрутить сайт, особенно на начальном этапе. Тут еще многое зависит от того, для каких целей создан вэб-ресурс. Если сайт создается исключительно для линкопродажи, это одно. Но даже в этом случае закрытие мусорных страниц и дублей принесет Вам большую пользу в виде повышения доверия к ресурсу поисковиков в отличие от сиюминутной финансовой выгоды, которую Вы получите, открыв для индексации лишние страницы. Полученный траст (доверие) в дальнейшем может пригодится, если Вы вдруг захотите перепрофилировать свой сайт. Ну, а если у Вас СДЛ, созданный на долгие годы, и который Вы намерены серьезно развивать, то таких ссылок и вовсе должно быть минимальное число, для заработка лучше использовать другие методы. В общем, активно занимаясь продажей ссылок, Вы создаете предпосылки к тому, что Ваш сайт будет рано или поздно заспамлен. Конечно, так зарабатывают многие, но это не мой путь, поэтому изначально я делаю акцент в своих публикациях на предположение, что читатели создают именно СДЛ. А в этом случае главным является минимизация числа дублей, которые нужно закрывать от индексации. Надеюсь, понятно изложил ответ на Ваш вопрос.

      Ответить
      1. Дмитрий

        Большое спасибо за ответ.

        Ответить
  38. Ольга

    У Вас что-то последняя (фейсбуковская?) социальная кнопка не «фурычит»!

    Ответить
    1. Игорь Горнов автор

      По-моему, все работает.

      Ответить
  39. Ольга

    Здравствуйте, уважаемый Игорь Горнов! Помогите пожалуйста, мне с этим злополучным ФАЙЛОМРОБОТС. ФАЙЛРОБОТС установила несколько месяцев назад по совету автора очень раскрученного сайта. И все было хорошо. 27.07.13 и 3.08.13 я получила письма с информацией, что Googlebot не может получить доступ к файлу robots.txt на моём сайте, и из-за этого сканирование сайта отложено.
    Но я с 12.07.13 по 12.08.13. в интернет не выходила и никаких работ на моем сайте не проводила, тем более с файлом robots.txt.
    Появились много дублирующих статей и еще много…много… проблем.
    Что делать с этой напастью!?? помогите , пожалуйста!!!! Уж очень мне, как особо одаренной, трудно разобраться во всех тонкостей создания файла роботс.
    Последняя надежда на Вас! Заранее благодарна!

    И еще вопрос: у меня плагин Cyr-To-Lat, или нужно заменить на RusToLat?
    Спасибо!

    Ответить
    1. Игорь Горнов автор

      Ольга, не мудрено, что с таким robots у Вас возникли проблемы. Скопируйте файл robots.txt из статьи и вообще, почитайте материал подробнее, этот мануал понравился многим, даже на авторитетных форумах меня проплюсовали (не хвастовства ради, а лишь для того, чтобы убедить Вас в том, что не потеряете драгоценное время). Просто на данный момент я перегружен работой, очень много просьб о помощи, а чтобы составить для Вас корректный файл robots.txt, потребуется время. Если Вам все-таки будет тяжело справиться и понять досконально все нюансы, обращайтесь, но только лишь спустя некоторое время. А сейчас скопируйте роботс из статьи (только обратите внимание, что Вам нужен файл robots для стандартных блогов WordPress c ЧПУ). Это намного лучше, чем теперешний Ваш вариант.
      Плагины Cyr-To-Lat и RusToLat тождественны по своим задачам, однако Cyr-To-Lat давно не обновлялся, а это чревато не только ослаблением безопасности Вашего ресурса, но и опасностью того, что плагин не будет корректно работать с более поздними версиями WordPress. Поэтому лучше поставить RusToLat.

      Ответить
      1. Ольга

        Большое спасибо за совет! В будущем я Вас обязательно побеспокою. Статья действительно сильная, много я их переворошила в интернете. Вы — лучший!

        Ответить
  40. Ricky

    У меня роботс несколько отличается от вашего, сравнил есть конечно похожие моменты, составил уже не помню как, проанализируйте — сайт вроде норм работает:
    User-agent: *
    Disallow: /cgi-bin
    Disallow: /wp-admin/
    Disallow: /wp-includes/
    Disallow: /wp-content/plugins/
    Disallow: /wp-content/cache/
    Disallow: /wp-content/themes/
    Disallow: /wp-trackback
    Disallow: /wp-feed
    Disallow: /wp-comments
    Disallow: /category/
    Disallow: /author/
    Disallow: /page/
    Disallow: /tag/
    Disallow: /feed/
    Disallow: */feed
    Disallow: */trackback
    Disallow: */comments
    Disallow: /*?
    Disallow: /*?*
    Disallow: /*.php

    User-agent: Yandex
    Disallow: /cgi-bin
    Disallow: /wp-admin/
    Disallow: /wp-includes/
    Disallow: /wp-content/plugins/
    Disallow: /wp-content/cache/
    Disallow: /wp-content/themes/
    Disallow: /wp-trackback
    Disallow: /wp-feed
    Disallow: /wp-comments
    Disallow: /category/
    Disallow: /author/
    Disallow: /page/
    Disallow: /tag/
    Disallow: /feed/
    Disallow: */feed
    Disallow: */trackback
    Disallow: */comments
    Disallow: /*?
    Disallow: /*?*
    Disallow: /*.php
    Host: _www.webliberty.ru
    Sitemap: _http://www.webliberty.ru/sitemap.xml

    Ответить
    1. Игорь Горнов автор

      Да, Ricky, если у Вас стандартный блог Вордпресс, все ненужные страницы здесь закрыты. И вообще, если индексация проходит нормально, то есть страницы, которые должны индексироваться, находятся в поиске и дублей нет, robots.txt настроен правильно. Проверяйте время от времени корректность индексации в панели вебмастеров Яндекс и Гугл.

      Ответить
      1. Ricky

        Спасибо

        Ответить
  41. Константин

    _http://avtobagazhnik.com.ua/bagazhniki/bagazhniki-mont-blanc/bagazhniki-mont-blanc.html — индексировать;
    _http://avtobagazhnik.com.ua/bagazhniki/bagazhniki-mont-blanc — запретить;
    _http://avtobagazhnik.com.ua/bagazhniki — запретить.

    Ответить
    1. Игорь Горнов автор

      Константин, так ничего не получится, потому что если Вы хотите индексировать страницу _http://avtobagazhnik.com.ua/bagazhniki/bagazhniki-mont-blanc/bagazhniki-mont-blanc.html, то и разделы, через которые она выводится, нужно разрешить к индексации, а Вы эти разделы хотите запретить. Налицо ошибка в структуре сайта, таким образом плодятся дубли. Как я понимаю, у Вас у каждой категории есть еще и подкатегории, например:
      Категория: Багажники
      Подкатегории: Багажники Mont Blanc, Багажники Десна, Багажник на микроавтобусы и т.д.
      Сейчас получается, что у Вас полные дубли страниц, причем вывода на категории нет, сразу на подкатегории. Предлагаю включить ссылки на категории. Конечная страницы, скажем на подкатегорию Багажники Mont Blanc будет выводится так:
      _http://avtobagazhnik.com.ua/bagazhniki/bagazhniki-mont-blanc.html
      Так Вы избежите, по крайней мере, полных дублей. На странице категорий у вас будут ссылки на все лоты всех подкатегорий, на страницах подкатегорий — только на лоты данной подкатегории. Конечно, неполных дублей таким образом не избежать, но это больное место Вордпресса, они и меня есть. Правда, я переделал вывод категорий с помощью функции the_excerpt, убрав дубли картинок, но у Вас специфический сайт. Конечно, решать Вам, как лучше поступить в конечном итоге.

      Ответить
  42. Константин

    доброе время суток.
    Ситуация такая:
    Допустим есть url: _http://домен/category/123/456/789/
    Запись 123 запрещена к индексированию:
    Disallow: /category/123
    А запись 456 нужно индексировать.
    Можно ли так делать, если да, то как правильно это прописать?

    Спасибо.

    Ответить
    1. Игорь Горнов автор

      Константин, дайте конкретный URL страницы, которую необходимо запретить к индексации через robots.txt, чтобы было понятно.

      Ответить
  43. Артем Шматок

    Полезная статья. особенно для таких новичков как я) Воспльзуюсь советами.

    Ответить
  44. Константин

    спасибо за статью!
    я создал файл robots.txt для своего сайта.

    На странице яндекса — анализ robots.txt. Вроде все правильно.
    Яндекс показывает, что все, что мне не нужно индексировать — запрещен правилом…

    А на станице яндекса «проверит сайт» запрещенные к индексации страницы все еще есть.

    Они должны исчезнуть с этой страницы со временем?
    Через сколько?
    Или как ?

    спасибо

    Ответить
    1. Игорь Горнов автор

      Да, конечно, они исчезнут со временем. Поисковые роботы весьма инертны, поэтому это занимает какое-то время.

      Ответить
  45. Константин

    доброе время суток.
    У меня 2 вопроса:

    1.Среди файлов на своем WP не нашел папку cqi-bin.
    В какой именно папке она должна находиться или ее нужно самому создать?

    2.У меня на WP продающий сайт.
    И главня страница, на которую выводятся все статьи у меня скрыта — в меню ее нет.
    Но у нее есть конкретный адрес (Url)! На этой странице дублируются многие статьи с отдельно созданных страниц.

    Как закрыть от индексации конкретную страницу, эту или любую другую по необходимости?

    спасибо

    Ответить
    1. Игорь Горнов автор

      1. Папки для исполнения скриптов может и не быть, это зависит от хостинга. Можно создать самому, но лучше сначала обратитесь к хостеру.
      2. Очень просто, для запрета индексации пропишите окончание URL в robots.txt

      Disallow:/рубрика или раздел/окончание URL — если это страница 3 уровня

      Однако главную страницу я бы не рекомендовал запрещать к индексации, потому что таким образом Вы запретите индексировать весь сайт. У Вас, что же полные дубли статей на ней? Если только анонсы, то ничего страшного нет.

      Ответить
  46. Татьяна

    Ой, Игорь, да вы философ! Спасибо за поддержку! Пропишусь ка я на вашем проекте! Столько нужного. Буду вами ))) исправлять свои проблемы. А их у чайников, как вы понимаете… Вот сечас утро, а ужасный гугл ни одного не прислал уника… А у Яндекса немножко есть… Просто я зимой запустила свой сайт, и теперь пожинаю плоды… Спасибо еще раз!

    Ответить
    1. Игорь Горнов автор

      Ну, философские рассуждения обычно одолевают при соответствующем настроении. Кстати, тема проекта у вас удачная в том смысле, что работа с блогом может принести Вам не только моральное удовлетворение, но и поддержать в финансовом плане. Я думаю, раз Вы создали такой ресурс, значит являетесь специалистом в области английского языка. Ну, а изучение иностранных языков интересует немало людей. Здесь и платные уроки можно со временем организовать, и монетизация с помощью Google Adsense или Яндекс Директ принесет свои плоды, релевантные объявления на эту тему получить, думаю, несложно.

      Ответить
  47. Татьяна

    У меня тоже специфический контент. Вообще-то, хоть немножко разобралась благодаря вам… Тяжело живется чайнкам… А то трафик упал конкретно, может от того, что у меня очень много звуковых файлов, у меня аудио уроки английского. Может папку аудио закрыть?

    Ответить
    1. Игорь Горнов автор

      Татьяна, не падайте духом, у всех бывают нелегкие времена. Вы же знаете, что жизнь полосатая. За неудачей следует успех, потерпите немного и все наладится, я уверен. А вот почему трафик упал, нужно подумать…Кстати, посещаемость понизилась с поиска и Яндекс, и Гугл? Что касается аудио, не думаю, что в этом причина, потопу что в наше время целые блоги функционируют на аудиоподкасте.

      Ответить
  48. Алексей

    Здравствуйте!
    Спасибо за статью!
    У меня такой вопрос.
    Сделал жене блог на wordpress. У нее много постов, но мало текста, больше картинки. И получается так, что в рубриках весь текст, а где «Подробнее» только дополнительные картинки.
    Значит надо как-то закрыть рубрики от индексирования.
    Там вложенные рубрики получаются.
    Сделал так:
    Disallow: /category/
    Но еще остается рубрика/подрубрика/статья.
    Причем урлы есть как с /category/рубрика/, так и просто /рубрика/подрубрика/статья.
    Что-то еще надо закрывать тут или нет?
    Надо ли закрывать рубрики?

    Ответить
    1. Игорь Горнов автор

      Алексей, вообще-то рубрика и категория одно и то же. Категории закрывать не стоит, поскольку статьи у Вас выводятся именно через категории (рубрики). Закрыв рубрики, рискуете запретить индексацию статей, в мануале я об этом предупреждал, лучше закройте теги. Либо закройте рубрики, откройте теги. Строение блога стандартное. Я понимаю, что тема специфическая, однако все-таки посоветовал бы добавить немного текста. Может быть, какие-то исторические факты или легенды, связанные с тем или иным украшением, читателям было бы интереснее, да и поведенческие факторы таким образом улучшаются. Если хотите все же запретить к индексации категории и подкатегории, Ваш вариант абсолютно верен. Только у Вас еще архивы, их тоже желательно запретить к индексации, либо архивы оставьте, а закройте теги и рубрики.

      Ответить
  49. Ruson

    Игорь спасибо за ответ, с роботсом разобрался и чтобы не повторять одни и те же строки решил использовать универсальный вариант:
    Disallow: */trackback
    который отлично работает на многоязычном ресурсе, это всеравно что если бы я прописал все ниже привдененые варианты:
    Disallow: /trackback
    Disallow: */*/trackback
    Disallow: ru/trackback
    Disallow: en/trackback
    Disallow: ua/trackback

    Ответить
    1. Игорь Горнов автор

      Я рад, Ruson, что получилось с мультиязычным ресурсом. Думаю, этот опыт будет всем полезен.

      Ответить
  50. Александр

    Доброго времени.
    Еще один вопрос:постоянные ссылки на моем блоге составлены по ЧПУ (доменное имя,рубрика в которую определена статья,и сама статья).Не могу разобраться с категориями (получается,если в роботсе закрыть категории,то поисковик не проиндексирует?).И подскажите пожалуйста,как узнать выходят ли мои статьи через категории или архивы.
    Благодарю.

    Ответить
    1. Игорь Горнов автор

      Александр, Ваши статьи выходят через категории, если имеете ввиду тот блог, адрес которого Вы указали при написании комментария. А проверить очень просто: нажмите ссылку для перехода на страницу любой категории, в адресной строке будет category, далее название этой категории. Если перейдете на любую страницу со статьей из этой же категории, адрес будет содержать: URL категории, затем URL статьи. Все просто. Если закрыть категории, то проиндексированы не будут не только категории, но и статьи, в мануале я на это обращал внимание, почитайте внимательнее, не хотелось бы несколько раз объяснять одно и то же. Если запрещаете архивы, разрешаете категории и наоборот.

      Ответить
      1. Майя

        Здравствуйте, Игорь. Недавно Яндекс «обиделся» на мой сайт (по статистике liveinternet, за две недели из 13 страниц в «Позиции в Яндекс» осталась одна, причем было много топовых позиций). Скажу сразу, категории были закрыты. Сайт с ЧПУ. Сейчас поставила robots.txt как у Вас. При переходе с категории на страницу некоторые записи выводятся «URL категории, затем URL статьи», но некоторые «URL категории, затем URL статьи и плюс что-то непонятное типа ?preview=true&preview_id=3501&preview_nonce=a98a5a6bb0». С таким окончанием при проверке URL в Яндексе выдает результат: запрещен правилом /*?*, но ведь сайт с ЧПУ? Без такого окончания та же ссылка — разрешена (кстати, эта позиция с 6 места за неделю исчезла совсем). Подскажите, пожалуйста, что это может быть, и вернутся ли страницы в поиск, если robots.txt изменен (как описано у Вас).

        Ответить
        1. Игорь Горнов автор

          Уважаемая Майя! Естественно, что статьи с такими непонятными окончаниями являются дублями, немудрено, что Яндекс обиделся. Ведь хранение в базе данных поисковиков такого количества дублированных страниц оказывает огромную нагрузку на систему. Вы говорите, что при проверке URL после изменения содержания robots.txt страницы с нормальными ссылками разрешены, а вебстраницы с окончаниями — нет. Так и должно быть, постепенно эти “мусорные” вэб-страницы исчезнут из индекса, но на это нужно время, к сожалению, потому что боты поисковиков весьма инертны. Не паникуйте, если Вы поменяли роботс, корректные страницы обязательно будут проиндексированы и займут соответствующее положение при ранжировании. Только имейте ввиду, если Вы открыли категории, то желательно теги (метки) закрыть, потому что лишние дубли никому не нужны.

          Ответить
          1. Майя

            Спасибо Вам большое, метки закрыты, паника ушла.

    2. Александр

      Доброго времени,Игорь.
      Благодарю за корректный ответ.Да статьи выходят на моем блоге через категории,роботс подправил,теперь нормально.Вчера яндекс проиндексировал страницы (ура!).
      По вопросу о «*» тоже вроде бы понятно.Прости, но еще один вопрос:
      если «*»поставить перед флешем,например */category ,то запрет будет на страницы в разделе категорий, а если */*/category то запрет на страницы в категориях и на страницы в подкатегорих(подразделы).
      С уважением,Александр.

      Ответить
      1. Игорь Горнов автор

        Пожалуйста, Александр. Мне понятна Ваша радость по поводу попадания страниц ресурса в индекс, сам выказывал такие же эмоции. Что касается */*/category, то да, такая директива запрещает подкатегории и категории.

        Ответить
  51. Александр

    Доброго времени.
    Пожалуйста подскажите:для чего необходимо ставить знак «*», например
    Disallow: /trackback
    Disallow: */trackback
    Disallow: */*/trackback
    Disallow: */*/feed/*/
    Disallow: */feed
    а если звездочка внутри /*/,например:
    Disallow: /*comments
    Disallow: /*?replytocom
    Disallow: /*.php
    Никак с этими «*» не получается разобраться.
    Прошу совета.
    С уважением,Александр.

    Ответить
    1. Игорь Горнов автор

      Александр, знак «*» означает запрет индексации для страниц, в состав URL которых входят данные знаки, слова или фразы. Например, директива
      Disallow: /comments
      означает, что запрещен к индексации будет только раздел comments.
      Disallow: /*comments
      запрещает не только страницы данного раздела, но и те страницы или разделы, в URL которых входит это слово как часть ссылки. Надеюсь, теперь Вам понятно.

      Ответить
  52. Ruson

    Здравствуйте. Подскажите пожалуйста для чего ві прописіваете по нескольку раз строки типа:
    Disallow: /trackback
    Disallow: */trackback
    Disallow: */*/trackback

    ведь во второй строке условие уже будет выполняться или я чего то недопонимаю?

    и еще, если у меня двуязычный сайт где язык отмечается как _sitename.com/ru/page.php
    следует ли в правило Disallow: /tag/
    добавить звездочку Disallow: */tag/

    Спасибо.

    Ответить
    1. Игорь Горнов автор

      Ruson, звездочка означает последовательность любых символов в составе URL. Первая строчка означает запрет на индексацию данного раздела. Вторая строчка означает запрет на индексацию всех разделов, которые содержат trackback и т.д. Для двуязычного сайта такой конструкции с тем, чтобы роботы следовали директивам, думаю, что нужно прописать так для запрета тегов:
      Disallow: /tag/
      Disallow: /ru/tag/
      И продублировать остальные директивы, добавив ru. Но, Ruson, имейте ввиду, что это мое мнение! Я в этом не уверен, поскольку еще не имел дел с двуязычными ресурсами в таком ракурсе, просто дал свой вариант, следуя элементарной логике. В любом случае, вы спокойно можете проверить, будет ли работать такая конструкция, проанализировав robots.txt в Панели Вебмастера Яндекс или Google. В последней трети статьи дан пример, как это делается в Яндекс.Вебмастер. Первая строчка для директории, содержащей основной язык (как я понял, это не русский), вторая для вспомогательной директории (русский язык). Попробуйте для начала составить такой вариант robots.txt и проверить, будет ли он работать.

      Ответить
  53. Ruslan

    Огромное спасибо за статью, очень понятно и доступно объяснено все.
    Молодец!

    Ответить
  54. Галина

    Спасибо Вам большое от «блондинки» 🙂
    Все получилось!!!
    Только вот мой сайт, похоже, уже попал под фильтр Яндекса. Ну что ж, будем дальше разбираться…

    Ответить
  55. alik

    я проверил после того как вставил твой код и мне дало там много чего
    я не могу всё это написать скинь мне почту я тебе пришлю фото с экрана

    Ответить
    1. Игорь Горнов автор

      Почта на странице Контакты.

      Ответить
  56. alik

    послушай, а если не хочу яндекс???
    если я хочу гугл, бинг, aol, yahoo. пока всё.
    если я переименовал свой wp-content???
    я так полагаю что его надо переименовать???
    если я чпу настроил то что мне надо писать это—> Disallow: /*?*
    спасибо

    Ответить
    1. Игорь Горнов автор

      alik, если ты заметил, robots.txt состоит из 2 частей: одна специально для Яндекс, другая для роботов остальных поисковиков. Для ЧПУ да, именно Disallow: /*?*, в статье же сделан акцент на это. Если wp-content переименован, то, естественно, необходимо указать новый вариант и в роботсе. Еще раз обращаю внимание, что файл robots.txt, представленный в мануале, это каркас для стандартного блога WordPress. С течением времени, если внесены глобальные изменения, то следует дописывать новые директивы. Это легко отслеживать в панели Вебмастеров Яндекс и Гугл. Появились “мусорные страницы”, которые, по твоему мнению, не должны быть в индексе, редактируешь роботс соответствующим образом.

      Ответить
  57. Галина

    ОТличная инструкция.

    Осмелюсь даже предположить — лучшая в рунете на сегодняшний день!

    Спасибо большое)

    Ответить
    1. Игорь Горнов автор

      Я, думаю, Галина, Вы переоцениваете мои способности, хотя, не скрою, приятно. 🙂

      Ответить
  58. Ольга Баженова

    Спасибо. Буду разбираться!

    Ответить
  59. Ольга Баженова

    Игорь, здравствуйте! Моно задать Вам пару вопросиков?
    Если не секрет, что у Вас за плагин — соц. сети слева по вертикали, хочу такой же.
    И самое важное, может знаете: у меня дубль главной страницы — http://dlyamam-i-detok.ru/stati/. Как мне закрыть его от индексации?
    Заранее, спасибо за помощь!

    Ответить
    1. Игорь Горнов автор

      Ольга, пожалуйста, вот ссылка: http://share42.com/ru. Второй вопрос не понял, что за дубль, откуда он взялся?

      Ответить
      1. Ольга Баженова

        Спасибо за ссылку.
        Мне установили шаблон премиум Striking. В подвале у меня теперь меню. Там есть страница «Статьи»- которая выводит также как и главная страница ленту записей. Эта страница у меня в админке заявлена как «Блог Страница». Только вот получается, что она дубль.

        Ответить
        1. Игорь Горнов автор

          Бог ты мой, Ольга, так это Вы не сами устанавливали шаблон? Тогда эту страницу лучше не удалять, просто сделайте главную страницу статической, на которой можете описать материалы своего блога. В админке WordPress есть соответствующая опция. Для этого зайдите в настройки Вашей темы, там наверняка есть что-то подобное: на главной странице отображать последние записи или статическую страницу (выбрать). Тогда никаких дублей не будет. Многие вебмастера так делают: главная страница является статической, а на отдельной (у Вас это dlyamam-i-detok.ru/stati/) будут выводится последний статьи.

          Ответить
          1. Ольга Баженова

            Да не хочется мне статическую страницу на главной. У меня раньше так было, интереснее когда лента записей. А я удалила и вроде ничего не произошло. Попробую все таки связаться с человеком, который мне шаблон установил.

          2. Игорь Горнов автор

            Ольга, в каком смысле ничего не произошло? Страница удалена, выдает ошибку 404.

      2. Игорь Горнов автор

        Если эта дублированная страница Вам не нужна, то просто удалите ее через админку Вордпресс. После этого дождитесь индексации, должна появиться ошибка 404, затем в панели вебмастеров просто удалите ее url, там есть соответствующая опция.

        Ответить
        1. Ольга Баженова

          Ее зачем-то специально создали, она еще в хлебных крошках выводится.

          Ответить
          1. Ольга Баженова

            Удалила ее отовсюду. Посмотрю что будет. А удалить URL вы имеете ввиду в Яндекс Вебмастер?

        2. Ольга Баженова

          Я имею ввиду, что ничего с сайтом не произошло. А ошибка 404 естественно будет, только я не поняла где ее удалить можно, я никогда раньше не удаляла URL.

          Ответить
          1. Игорь Горнов автор

            Ольга, почитайте здесь. В принципе, исключение из индексации осуществится и так, просто таким образом Вы ускорите этот процесс. Только обязательно проверьте, что Google сканировал эту страницу и в панели вебмастеров в разделе «Состояние»→«Ошибки индексации» выдается 404 ошибка. Только после этого удаляйте. Аналогично с Яндексом.

  60. Rencontrez

    Спасибо за статью! Воспользовался вашими данными, теперь жду результатов.

    Ответить
  61. Сергей Янковой

    Очень исчерпывающее описание. Надеюсь поможет мне. Только мне не понятно почему то проходит индексация в Яндекс, то нет и я ничего не менял.

    Ответить
    1. Игорь Горнов автор

      Сергей, если Ваш ресурс молодой, то это обычное явление для Яндекса, который славится резкими телодвижениями, Гугл более плавно работает. Так что если у Вас пропадают страницы из индексации, затем появляются, ничего страшного, все нормализуется. Вот если из поиска Google внезапно вылетит куча страниц, надо обратить на это более пристальное внимание.

      Ответить
  62. Андрей

    Спасибо за отличную статью !, все понятно и очень наглядно (тем более хостинг совпадает), а то я по незнанию у себя такого наворотил,

    Ответить
    1. Игорь Горнов автор

      Андрей, надеюсь, сейчас все в порядке?

      Ответить
      1. Андрей

        Да сейчас нормально спасибо )

        Ответить
  63. Дмитрий

    Да статья хорошая но все равно надо вдумчиво читать и ..запрещать индексацию тоже надо очень внимательно….У меня вот на сайте всего около 700 статей а проиндексированно 2000 страниц..я так понимаю это именнно из-за того что файл робот .тхт неправильно составлен.
    А правда что если не закрывать теги рубрики и т.д…то пр возниконовении большого количества копий страниц….будет плохо индексироваться ???

    Ответить
    1. Игорь Горнов автор

      Да, конечно, Дмитрий, чем больше дубликатов страниц, тем более недружелюбно относятся к нему поисковые системы. А в каком поисковике у Вас проиндексировано 2000 страниц? И каким инструментом Вы пользовались при получении этой информации? Если в панели Google Webmaster Tools — это одно, а если из какого-либо сервиса — это другая песня, бывает, что они предоставляют некорректную или устаревшую информацию. Вообще, я уже неоднократно отвечал, в том числе в комментариях, что я, например, предпочитаю закрывать теги (или метки) от индексации, а категории (рубрики) открывать. В любом случае, чтобы не плодить дубли, что-то одно из них обязательно должно быть запрещено

      Ответить
  64. Алексей

    Спасибо,чувак!Я наконец то разобрался….с пятого раза)

    Ответить
  65. Вадим

    Спасибо Игорь! Здоровья.

    Ответить
    1. Игорь Горнов автор

      И Вам также, Вадим. Пожелали самого дорогого, спасибо.

      Ответить
  66. Вадим

    Доброго дня Игорь! Статьи у Вас супер! Все идет как по маслу. И тут возникла проблемка, не знаю в какую папку загружать файл robots txt.

    Ответить
    1. Игорь Горнов автор

      Здравствуйте, Вадим. Мне очень приятно, что у Вас все складывается, значит, статьи написаны понятно и подробно, чему я безмерно рад. А файл robots.txt должен находится в корневой папке на сервере хостера: public_html/название_вашего_сайта/robots.txt. Я же описал загрузку файла через браузер. Но хостинги у всех разные, я понимаю, возможно, Вы не смогли сориентироваться. Тогда попробуйте загрузить с помощью notepad++. В общем, загружаете в папку с названием Вашего проекта, в notepad++ все очень четко разложено по полочкам.

      Ответить
  67. Ольга Баженова

    Все поняла, спасибо. Оставляю пока без изменений. Подпишусь к вам, чтобы не пропустить статью. Кстати, а правда, что если не закрыт анонс на главной странице (конечно, я поняла, что его закрывать нельзя), то картинка также дублируется, а значит становится уже не уникальной?

    Ответить
    1. Ольга Баженова

      Я может уже надоела Вам со своими вопросами, но еще разочек ответьте: зачем в файле robots две карты sitemap?

      Ответить
    2. Игорь Горнов автор

      Ольга, понимаете, хотя картинка дублируется вместе с частью текста, это не так страшно, поскольку это главная страница, которая играет особую роль и на динамических ресурсах, где контент часто меняется, она очень удобна для читателя, который сразу видит свежий материал. Немного другая история с категориями, об этом я уже упоминал. Поэтому в случае с главной страницей блоги находятся в равных условиях в глазах поисковых систем, которые пытаются обеспечить удобство для пользователей.

      Ответить
      1. Игорь Горнов автор

        Да нет, что Вы. Ваша любознательность вполне понятна и объяснима. Все когда-то начинают и сталкиваются с кучей всего непонятного, особенно в вебмастеринге. А второй вариант карты sitemap в сжатом виде помогает упаковать и уменьшить ее вес. Если у Вас огромный портал, количество ссылок и страниц может достигать несколько десятков тысяч. Не думайте об этом, второй вариант карты никак отрицательным образом не скажется на Вашем ресурсе. Не беспокойтесь, поисковые роботы сами выбирают нужный вариант.

        Ответить
        1. Ольга Баженова

          Спасибо за развернутые ответы! Очень мне помогли! Надеюсь еще многое смогу почерпнуть на вашем ресурсе.

          Ответить
          1. Игорь Горнов автор

            Не за что, Ольга. Спасибо Вам за активность.

  68. Ольга Баженова

    Подскажите, пожалуйста, в представленном файле закрыт от индексации анонс статьи на главной странице?

    Ответить
    1. Игорь Горнов автор

      Нет, Ольга, главная страница, на которую выводятся статьи, не закрыта от индексации. Это не выгодно с точки зрения продвижения ресурса, поскольку главная страница имеет больший вес в глазах поисковых систем.

      Ответить
      1. Ольга Баженова

        Спасибо, Игорь за ответ. То есть получается, что анонс дублируется. Не может ли это повлиять на отношение поисковых систем? Просто дело в том, что я попала под фильтр АГС Яндекса. Поддержка отписалась, что не устраивает качество контента. Однако статьи у меня полностью уникальны и думаю, что интересны. Не могу разобраться в чем проблема. Вот проверяю файл robots txt, правда ничего в этом не понимаю. Файл очень похож на ваш пример, вроде все нормально. Яндекс Вебмастер выдает корректную работу файла.

        Ответить
        1. Игорь Горнов автор

          Ольга, это неполные дубли, которые не оказывают такого отрицательного влияния. Польза от продвижения главной страницы блога полностью перекрывает эффект от создания частичных дублей. Конечно, на большинстве ресурсов дубли возникают еще и на страницах рубрик, но мне удалось их избежать, об этом будет отдельная публикация. Я посмотрел Ваш сайт, навскидку содержание очень позитивное, файл robots.txt в принципе составлен правильно. Однако мне больше по душе оставлять открытыми для индексации категории, а не теги (метки). Хотя у разных успешных проектов встречаются оба варианта, это не должно быть основой для попадания под АГС. Позже посмотрю более внимательно. Как Вы понимаете, для подробного анализа требуется время.

          Ответить
          1. Ольга Баженова

            Большое спасибо, Игорь, что решили мне помочь! Я буду очень благодарна, если проанализируете мой сайт!

          2. Ольга Баженова

            А разве, если я открою категории — это не будет дубль?

          3. Игорь Горнов автор

            Ольга, категории также дают дубли, но это не полные дубли, которые можно избежать, призвав на помощь инструменты WordPress и функцию “the exсerpt”, кстати, статью на эту тему планирую написать на следующей неделе. Но если у Вас открыты теги (метки), а категории закрыты и если у Вас молодой ресурс, пока ничего не меняйте. Спустя некоторое время, после того, как Ваш ресурс наберет траст (авторитет) в глазах поисковых систем, можно потихоньку начать оптимизировать его под seo. Никогда не делайте резких радикальных изменений, даже если Вам кажется, что какой-то участок требует редактирования. Поэтому если у Вас закрыты категории, а открыты теги, ничего страшного нет. Просто по моему мнению, для стандартного блога лучше категории оставлять открытыми, а теги использовать для удобства читателей, потому, что категории можно изменить вплоть до полной ликвидации дублей, как изображений, так и текста.

          4. Ольга Баженова

            Добрый день, Игорь! Хочу поделиться своей радостью! Удалось выйти из под фильтра Яндекса! Я снова в поиске. Вчера были проиндексированы страницы, а сегодня к этому времени уже 100 посетителей с Яндекса. Так что это возможно, с момента бана прошло только 2 месяца.

          5. Игорь Горнов автор

            Отлично, Ольга! Я очень рад за вас, правда! Выход из-под фильтра событие незаурядное. Пожелаю Вам больше не испытывать подобных потрясений. 🙂

  69. Lionelll

    На моем блоге в индексацию попадают странички с датами, типа этой goodforma.com/2012/01/ и подобные. Как можно их запретить в роботсе?

    Ответить
    1. Игорь Горнов автор

      Это страницы с архивами, для них необходимо прописать следующую директиву:
      Disallow: /2012/
      Только после этого обязательно проверьте корректность учета этой директивы роботами поисковых систем в панели вебмастеров Google и Yandex.

      Ответить
  70. Viktoria Zlata

    Благодарю! Подробно и понятно расписано, все до мелочей, как раз так, как мне нужно!

    Успехов в 2013 году! ))

    Ответить
  71. White rabbit

    Полезный пост 🙂

    Ответить
  72. Руслан

    Здравствуйте. У меня не было файла роботс а страницы были такие ваш сайт.ru/?p=123

    Яндекс загрузил 1 в поиске 1. Возможно что в этом причина была?

    Ответить
    1. Игорь Горнов автор

      Руслан, немного не понял. Если Вы говорите о том, что в поиске Яндекса было мало страниц Вашего сайта, то, конечно, долгое отсутствие robots.txt могло быть причиной, поскольку такое отсутствие обуславливает появление многочисленных дублей страниц Вашего ресурса.

      Ответить
      1. Руслан

        Теперь я сделал ЧПУ и залил Роботс. Как думаете, яндекс бот снимет фильтр?

        Ответить
        1. Игорь Горнов автор

          Конечно, Руслан, снимет, но надо набраться терпения.

          Ответить
  73. алекс

    спасибо очень подробно

    Ответить
  74. Април

    Спасибо большое. Я долго ломал голову, какой роботс написать. Вы правы, у каждого блогера своя методика в этом вопросе. Но я доверюсь вам и поступлю по вашим рекомендациям. Хуже точно думаю не будет.

    Ответить
  75. Владимир

    Ё моё, ну наконец-то нашел на просторах интернета то, что искал. И ещё больше! Спасибо от всей души. Пол дня убил на то как создать «робота» и как его затолкать в корневую папку, а по вашей четкой инструкции (правда применимо к моему сайту получилось с некоторой интерпретацией), я за 10 минут создал и разместил «робота» на сайте. Вот это настоящий инструктаж! Спасибо огромное!

    Ответить
    1. Игорь Горнов автор

      Пожалуйста, Владимир! Спасибо за Ваш эмоциональный комментарий. 🙂

      Ответить
  76. Максим

    Отличная статья, подойдет как для новичка, так и для человека с опытом. Написано доступно и понятно

    Ответить
    1. Игорь Горнов автор

      Спасибо, Максим.

      Ответить
  77. Татьяна

    Отличная статья! Вы очень мне помогли сегодня!!

    Ответить
    1. Игорь Горнов автор

      Спасибо за отзыв, Татьяна.

      Ответить
  78. Екатерина

    Здравствуйте. Подскажите пожалуйста, при обработке робот файла при добавлении сжатой карты сайта эта карта не обрабатывалась? С чем может быть это связано?

    Ответить
    1. Игорь Горнов автор

      Екатерина, поясните, пожалуйста, где не обрабатывалась? Вы имеете ввиду XML карту сайта? Попробуйте зайти в панель вебмастеров Yandex или Google и проверьте работоспособность файла sitemap.xml там. О результатах сообщите.

      Ответить
  79. Простой

    Такой вот вопрос возник. А нужно ли / как скрывать /скрыть такое: сайт.ру/2012/08??
    А то в яндекс вебмастере показывается, что это вот про индексировалось: сайт.ру/2012/08.
    То есть как я понимаю архив в индексацию влез?

    Ответить
    1. Игорь Горнов автор

      Да, архивы желательно запретить к индексации.

      Ответить
      1. Простой

        А не подскажите как их правильно запретить от индексации, если они в шаблоне вот так вот выводятся:
        сайт.ру/2012/09
        сайт.ру/2012/08

        Ответить
        1. Игорь Горнов автор

          Если у Вас сайт на WordPress, то следующим образом: Disallow: /2012/ . После того, как произведете изменения в файле robots.txt, зайдите в панель вебмастера Yandex и проверьте работоспособность файла. Почитайте здесь. Введите url нескольких архивных страниц и если получите ответ, что страницы запрещены к индексации, то все сделано корректно. Также можно проверить и в панели вебмастера Google. О результатах обязательно сообщите. Спасибо за комментарий.

          Ответить
  80. Yz

    Не составил robots.txt для своего сайта. Сейчас в индексе Гугла видно только archive, category и auhtor. Сайт не просел а просто улетел в выдаче Гугла на задворки. Возможно ли вернуть прежние позиции, составив robots.txt?

    Ответить
    1. Игорь Горнов автор

      Конечно, возможно. Хотя для этого придется подождать.

      Ответить
  81. Анатолий

    Здравствуйте. Подскажите пожалуйста, могут ли директории на разных хостингах отличаться по названию. В частности, меня интересует «cqi-bin». Если я правильно понял, это папка? Что-то я не могу её найти на хостинге «jino.ru». Может я что-то не допонял?

    Ответить
    1. Игорь Горнов автор

      Анатолий, Вы, наверное имели ввиду cgi-bin? Это папка для исполнения CGI-скриптов. Если ее нет, то можно создать.

      Ответить
  82. Михаил

    Скажите,непонятно,почему вы считаете что feed,надо закрыть,ведь тогда сервис яндекс-блоги выдает такую запись: » name.ru запрещает поиск по сообщениям. Попросите его разрешить поиск.» Зачем закрывать rss,тогда блог станет недоступным в яндекс-блогах.

    Ответить
    1. Игорь Горнов автор

      Михаил, feed — дублирование контента, которое необходимо всячески закрывать от индексации.

      Ответить
  83. Наталья Кочеткова

    Добрый день. А что делать, если документ запрещен в файле robots.txt и у меня таких документов аж 1268? Одна половина разрешена, другая запрещена.

    Ответить
    1. Игорь Горнов автор

      Судя по тому, Наталья, что у Вас много страниц, сайт уже долго живет. 🙂 Если у Вас блог или сайт WordPress, то разрешены должны быть статьи и главная страница, может быть еще категории или теги (на мой взгляд, разрешить лучше категории), все остальные страницы должны быть запрещены во избежание появления дублей. Хочу еще обратить Ваше внимание, что Google может индексировать запрещенные в robots.txt страницы, но, как показывает практика, ничего страшного в этом нет, хотя многие, и я в том числе, удаляют лишние страницы вручную время от времени, соответственно увеличивается процент страниц ‘не под фильтрами’.

      Ответить
  84. Svargan

    Здравствуйте! Большая вам благодарность за ваши труды! Вопрос. У меня в робо — файле последние данные в трех строчках, где хост и сайтмап от другого сайта, знакомый делал мне сайт и просто скопировал со своего. Будет ли это влиять на мой сайт в целом?
    С ув. Дмитрий

    Ответить
    1. Игорь Горнов автор

      Уважаемый Дмитрий! Конечно, хост должен содержать адрес Вашего сайта, как и сайтмап. Ведь поисковые системы индексируют именно ваш сайт.

      Ответить
      1. Svargan

        Благодарю за ваш ответ! Я исправил в программе FileZilla FTP клиенте робо — файл, проверил в яндексебемастер и стало как надо. Могла ли такая ошибка повлиять на резкий обвал нужных страниц моего сайта в раздаче именно яндекса по нужным ключевикам, причем речь не идет о сдвиге пределах нескольких позиций, тут несколько десятков страниц, а кое где и вылет где раньше был на 1 — 3 странице?

        Ответить
        1. Игорь Горнов автор

          Конечно, Дмитрий, несомненно, могла. Теперь вам надо немного потерпеть, чтобы все вошло в норму. Я думаю, переиндексация произойдет через некоторое время. А вообще периодический вылет из индекса Яндекса вполне обычное дело, особенно для молодых сайтов. Я тоже с этим сталкивался, когда сразу по несколько страниц вылетало из индекса, но потом через пару апов все приходило в норму. Терпения и удачи Вам, Дмитрий!

          Ответить
          1. Svargan

            Добро, обождем, хотя робот поисковика совсем недавно был на сайте. Еще раз благодарю вас за помощь. Теперь знаю куда обратиться за советом!
            Успехов Вам!
            С ув. Дмитрий

  85. Наталья Кочеткова

    Спасибо, все очень подробно. Вы помогли мне понять проблему с индексацией моего сайта.

    Ответить
    1. Игорь Горнов автор

      Пожалуйста, Наталья.

      Ответить
  86. Андрей

    Поискал в инете составить правильный robots.txt ,нашел много вариантов составленных файлов и все утверждают ,что они правильные.Как разобраться какой именно подходит мне и именно его следует загрузить в корневую папку WordPress.

    Ответить
    1. Игорь Горнов автор

      Андрей, файл robots.txt, представленный мной, это ‘каркас’, то есть основные директивы, прописанные в нем, одинаковы у большинства сайтов, построенных на CMS WordPress. Конечно, с развитием проекта robots.txt может претерпевать изменения. Различия могут заключаться в следующих нюансах. Некоторые вебмастера запрещают к индексации теги, некоторые категории для избежания дублей страниц(в robots.txt запрет индексации тегов описывает директива Disallow: /tag/,запрет индексации категорий Disallow:/category/. Я, например, считаю, что категории лучше оставить открытыми, так как связь со статьями у них более последовательная и понятная, они не являются в полной мере дублями, тем более, их легче можно преобразовать таким образом, что исчезнет полностью ‘подозрение’ на дубль у поисковиков. В скором времени я у себя на блоге тоже планирую переделать категории таким образом. У некоторых вебмастеров другая точка зрения. Поймите, Вы не найдете в сети абсолютно одинаковых файлов robots.txt, поскольку каждый проект уникален, каждый имеет свои нюансы, но ‘каркас’ должен быть! Мой совет, если Вы не доверяете моему варианту, посмотрите, как он составлен у других блогеров, Вы обязательно обнаружите общие составляющие. Это и будет Ваш каркас. Но! Обратите внимание, что опытные вебмастера редко закрывают от индексации и категории, и теги; но то и другое разрешать индексировать тоже чревато.

      Ответить
  87. Андрей

    Здравствуйте!
    В вашем файле robots, если вместо строк: wp-admin, wp-content, wp-includes, и т. д.,
    поставить просто одно значение: Disallow: /wp-
    Это будет правильно?
    И ещё, для чего прописывать сжатый файл карты сайта?

    Ответить
    1. Игорь Горнов автор

      Да, директива Disallow: /wp- запрещает индексацию всех папок и файлов,расположенных в корневой папке. Сжатая версия sitemap.xml создается для уменьшения нагрузки на каналы связи, обычно это нужно на крупных проектах, но кто знает, до какой величины вырастет Ваш? В любом случае, сжатая версия у Вас уже есть. Она никоим образом не скажется отрицательно на Вашем ресурсе.

      Ответить
  88. Мария

    Здравствуйте! статья и правда хорошая и подробная, но у меня как раз проблема с robot.txt. Подскажите пож-та, я установила robot.txt, но при проверке мне выдает ошибку:

    404 Не найдено
    Запрашиваемая страница / robot.txt не найдена на этом сервере. Как исправить чтобы все работало правильно? спасибо заранее

    Ответить
    1. Игорь Горнов автор

      Уважаемая Мария, а как Вы проверяли? Он у Вас прекрасно отображается, по крайней мере в браузере Google Chrome, это говорит о том, что все в порядке. Попробуйте еще раз набрать
      в вашем браузере адрес: krassivoe.ru/robots.txt. Только будьте повнимательнее, не robot, а robots!

      Ответить
  89. Владимир Фесюк

    Спасибо за пост! Если честно, то мне, как блогеру, не работающему по тематике оптимизации, нет ни времени ни желания вникать во все тонкости составления файла роботс, как, впрочем, и других. Поэтому пользуюсь готовыми рецептами, наиболее на мой взгляд (быстрее интуитивный) удачные и мне подходят. Мой нынешний файл отличается от предложенного вами 1-2 строками, но что-то решил поменять на Ваш — он мне больше нравится.

    Ответить
    1. Игорь Горнов автор

      Спасибо за отзыв, Владимир! Только проверьте robots.txt в гугл или яндекс мастере.

      Ответить
  90. Владимир

    Игорь, добрый день. Ваша статья — глоток свежего воздуха для меня. Вы уже продвинутый Veb мастер. Я же только начинаю свои шаги. Не могли бы Вы мне посоветовать, что делать. У меня две проблемы:
    1.При прогоне страниц Yandex говорит,»этот URL не принадлежит вашему домену» , хотя в robots.txt имя сайта прописано без www.
    2.В адресах страниц со статями,осталась кириллица и в конце адреса следующее: «…/#more-789»
    Заранее спасибо.
    Владимир

    Ответить
    1. Игорь Горнов автор

      Здравствуйте, Владимир!
      Отвечаю:
      1. У вас может быть ошибка в прописании директивы Host в robots txt: Host: вашсайт.ru — правильный вариант. Обратите внимание, что после двоеточия обязательно пробел и без http//:
      2. Чтобы избавиться от #more в адресной строке, необходимо войти в папку wp-includes\post-template.php через админ-панель вашего хостинга, открыть файл и отредактировать его следующим образом: в строчке $output .= apply_filters( ‘the_content_more_link’, ‘ a href=»‘ . get_permalink() . «#more-$id\» class=\»more-link\»>$more_link_text«, $more_link_text ); вместо #more-$id\ оставить только «\».Если это для вас сложно, то в принципе можно пока оставить как есть, так как есть мнение, что поисковые роботы различают тег «more» и страницы не являются дубликатом. В подтверждение могу сказать, что на некоторых продвинутых блогах в адресной строке присутствует «more».

      Что касается кириллицы, то вам надо установить простенький плагин RusToLat c официального сайта wordpress.org/extend/plugins/rustolat/ . Надеюсь, как загружать и активировать плагины, вы знаете. Этот плагин производит транслитерацию текста с кириллицы на латинский алфавит.

      Ответить
  91. PashaMax

    Спасибо за статью, для таких новичков как я — это просто палочка-выручалочка. Вроде все проверил, с роботом все ок. Но только мой сайт до сих пор не появляется в рейтинге вебомера, с чем это может быть связано?

    Ответить
    1. Игорь Горнов автор

      Ничего страшного, чтобы сайт появился в вебомере, должно пройти время.

      Ответить
  92. kickboxer

    спасибо, полезная статья, возьму на заметку, тем более я с вордпресом не знаком.

    Ответить
  93. sergei

    Хорошо когда статьи дополняют друг друга, а не освещают по разному и не знаешь как поступать, кому верить.Мне конечно как новичку тяжело еще все это проделать ,но в закладки занес буду разбираться, спасибо за хорошую информацию.СЕРГЕЙ.

    Ответить
    1. Игорь Горнов автор

      Пожалуйста, Сергей. Все когда-то начинают, поэтому рад Вам помочь.

      Ответить
  94. Сергей

    Хорошая, понятная статья и очень нужная!
    Автору Поклон. Молодец!

    Ответить
    1. Игорь Горнов автор

      Сергей, спасибо за отзыв. Надеюсь, Вам понравиться и в дальнейшем.

      Ответить
  95. CLASSIK

    хорошая статья, на пару дней обогнала мою, теперь блин даже не охото выкладывать ничего 🙁 молодец.

    Ответить
    1. Игорь Горнов автор

      Ну, почему же, Сlassic? Опубликуйте свой взгляд на проблему. Я же тоже писал статью, зная, что в интернете куча материала на эту тему!

      Ответить
      1. CLASSIK

        Спасибо, опубликовал, кстати мою статью взяли в учебник по SEO , от форума seobuilding.ru — вам тоже рекомендую туда попасть. Спасибо за ваши статьи. Приятно читать. Если нужна будет помощь — пишите.

        Ответить
        1. Игорь Горнов автор

          Спасибо за отзывы, Classic. Очень рад,что вы не отказались от написания статьи. Спасибо за рекомендацию, возможно, воспользуюсь.

          Ответить