Как найти и удалить replytocom и другие дубли страниц WordPress. Читать всем!

Здравствуйте, уважаемые читатели блога Goldbusinessnet.com! Сегодня начинаем яростную борьбу со страницами replytocom и им подобными дублями на блоге WordPress, хотя следовало бы поделиться с вами такой важной информацией еще пол года назад, когда я впервые ощутил на собственной шкуре их подлую сущность и начал кропотливо изучать возможности выхода из кризиса. Ничего не поделаешь, по некоторым причинам я не смог этого сделать, но лучше поздно, чем никогда.

Мои постоянные читатели, наверное, заметили, что когда в заголовке присутствует призыв, значит, тема действительно архиважная. Сегодня как раз такой случай. Возможно, некоторые из вас уже в курсе, публикации на эту тему уже просочились в сеть. По этой причине вы, конечно, можете смело проигнорировать этот пост.

Однако, все же посоветовал бы не спешить с таким решением, поскольку я не собираюсь пересказывать содержание статей других блогеров, а предложу свое видение ситуации, равно как и практические шаги по удалению дублей. Тем более, что имею моральное право на данный материал, потому что сам дошел до понимания, что и как следует предпринять по исправлению ситуации в плане удаления дублей.

replytocom

Прежде, чем продолжить рассмотрение сегодняшней темы, хочу порекомендовать несколько статей блога Goldbusinessnet.com. Для опытных вебмастеров все детали данного поста не представляют сложности, а вот для начинающим пользователям я бы порекомендовал сначала ознакомиться с ниже следующими материалами, так как они тесно связаны между собой и могут прояснить некоторые нюансы:

Система, необходимая для ликвидации дублей на Вордпресс

Где-то к марту этого года я добился стабильной работы своего блога, наконец-то показатели посещаемости стали плавно расти вверх, а не двигаться скачкообразно. Была проделана немалая работа и я справедливо полагал, что к осени блог сможет достигнуть аудитории в несколько тысяч человек в сутки. Для этого были серьезные предпосылки. Но человек полагает, а бог располагает. Внезапно в начале апреля начался медленный, но неотвратимый спад посещаемости:

Я грешным делом подумал, что это обычное сезонное явление, дело близится к лету. Но, во-первых, спад посещаемости начался гораздо раньше, чем обычно, а во-вторых, оказался более интенсивным в процентном отношении, чем можно было ожидать, опираясь на прошлый опыт.

Последней каплей, переполнившей чашу терпения, стало падение скорости индексации статей, причем, как в Яндексе, так и в Гугле. Например, Google стал индексировать новые статьи нескольких дней, а Yandex и вовсе стал не замечать их в течении двух недель! Возможно, это стало небольшой подсказкой для понимания того, что дело в неправильной настройке индексирования страниц, поэтому я уперся рогом и начал копать.

Надо сказать, что неотложные дела не позволили мне вернуться к решению этой проблемы ранее середины лета, когда я плотно взялся за дело. Если вам интересно, то отправной точкой для меня стало внимательное изучение способов закрытия тех или иных URL от индексации. Причем я решил идти от первоисточника, что во многих случаях является наиболее правильной стратегией. Начать решил со знаменитого файла robots.txt, о котором сказано в тексте помощи панели вебмастеров Яндекса и Гугла. Вот, например, что по этому поводу вещает Google:

Мы не можем в полной мере гарантировать, что URL, перечисленные в файле robots.txt, никогда не будут сканироваться. В некоторых случаях можно применять другие методы, чтобы определенные URL нельзя было найти через поисковые системы.

Понимаете, что это означает? То, что все запреты на индексирование, которые мы ставили ранее, в сущности на являются гарантированно обязательными для выполнения. Естественно, в основном индексе они не появлялись, но ведь у дядюшки Google есть в загашнике еще и дополнительный, или, как его еще называют, сопливый (supplemental).

Именно туда он и засасывает без разбору весь «мусор», включая запрещенные в файле роботс.тхт, документы. Видимо, после какого-то момента в контексте ужесточения факторов ранжирования произошли изменения, после которых Гугл начал наказывать вебресурсы за наличие дублей в ДИ.

Некоторые блогеры сейчас рвут на себе волосы и извиняются перед читателями за то, что давали якобы неправильные роботсы. Черта с два! В то время никто не мог предвидеть, что ситуация так повернется, проекты с прежним robots.txt прекрасно развивались, невзирая на наличие огромной кучи документов в «соплях».

Просто жизнь двигается вперед, алгоритмы поисковых систем оптимизируются и нам приходится перестраиваться. Кстати, Яндекс, хотя и не имеет ДИ, думаю, тоже не в восторге от наличия кучи всякого хлама, который загружают боты. Вот как на тот момент выглядело у меня соотношение находящихся в индексе документов и загруженных роботами:

Общее количество загруженных страниц превышает число проиндексированных почти в 10 раз! Понятно, что это ненормальная ситуация. Не буду вас утомлять описанием своих дальнейших метаний. Главное, результат пришел. Взгляните еще раз на цитату из помощи вебмастерам Google, приведенную мной выше.

Там бьет по глазам фраза, что можно использовать другие методы гарантированного полного исключения ненужных URL из индекса. Таким методом оказалась возможность использования мета тега ROBOTS, который можно прописывать в HTML коде вебстраницы. Выдержка из гугловского справочного центра:

Итак, резюмируя, скажу, что система правильного запрета на индексацию для блога или сайта Вордпресс чрезвычайно проста и состоит из трех основных шагов:

1. Необходимо удалить из robots.txt все предназначенные для исключения документы и оставить только технические директории, связанные с файлами движка. Это страницы рубрик (category), архивов, меток (tag), все вэбстраницы пагинации (page), документы, в URL которых присутствуют «replytocom», «feed», «attachment», «comments», «trackback», «?», «s=» и т.д.:

2. Прописать для документов, где это возможно, в HTML коде выше означенный мета тег ROBOTS, указав в качестве значения атрибута CONTENT параметр NOINDEX. Для всех страниц пагинации (URL которых содержат переменную page и числа больше 1) нам еще потребуется указать NOFOLLOW. Тем самым мы внесем небольшую лепту в урегулирование ссылочной массы.

3. Для документов, в которых нет возможности быстрыми и доступными способами указать ноиндекс и нофоллоу, использовать другие методы, позволяющие гарантированно избежать индексации.

Всю техническую часть практической реализации этой системы вы сможете найти в специальной главе ниже по тексту, где я дам подробную пошаговую инструкцию.

Чем опасны replytocom и им подобные дубли

Врага нужно знать в лицо, тогда и шансы на успех в борьбе с ним повышаются многократно. Поэтому попробуем разобраться, откуда вообще появляются дубли и как обнаружить подобные страницы на своем блоге WP. После того, как мы их найдем, останется применить к ним тактику уничтожения, о чем речь пойдет ниже.

Начнем с того, что после написания очередной статьи на блоге движок WordPress может генерировать несколько URL, по которым она доступна. Например, через категорию:

site.ru/category/article1

Через тег, или метку, что одно и то же:

site.ru/tag/article1

Либо через архив:

site.ru/archive/article1

По всем этим адресам будет открываться одна и та же статья, но страниц-то несколько, которые будут дублировать друг друга! Кроме того, если у вас стандартный блог, то анонсы той же статьи будут располагаться на вебстранице соответствующей рубрики и на главной. Хотя это и не полные дубли, но все же. Идем дальше. Отдельная история — вэбстраницы replytocom, которые генерируются, если у вас установлены древовидные комментарии вот такого вида:

Эта форма чрезвычайно удобна, поскольку позволяет отслеживать общение с каждым из пользователей. Однако, вы заметили ссылку «Ответить» (по английски «Reply») внизу каждого сообщения? Она как раз и ведет на страницу, в составе URL которой будет присутствовать пресловутый replytocom. Например:

site.ru/category/article1?replytocom=4321

Допустим, ваш блог WP весьма популярен и некоторые посты вызывают буквально поток комментариев. Каждое сообщение от пользователей будет сопровождаться такой вот ссылочкой «Ответить», а, значит, появлением очередного дубля! А если таких комментов на каждый пост несколько десятков или даже целая сотня? Это сто дублей с одной только статьи!

А ежели таких материалов на сайте приличное количество? Представляете, какая прорва дублированного контента только с replytocom может оказаться на блоге! Думаю, с полным правом replytocom можно назвать главным врагом блогеров WordPress.

Конечно, древовидные комментарии очень удобны, о чем было сказано выше, и я, например, не собираюсь от них отказываться и в дальнейшем. Просто необходимо предпринять определенные меры по удалению replytocom. Все практические инструкции последуют в следующей главе ниже по тексту.

Кроме того, что replytocom и другие подобные вебстраницы увеличивают многократно число дублей, они могут стать причиной серьезного нарушения баланса ссылочной массы вашего проекта, что может привести к наложению фильтров и резкой потере позиций сайта в поисковой выдаче.

В идеале количество входящих на ваш сайт ссылок должно превосходить число исходящих. Появление дублей replytocom и других напрочь ломает это соотношение и даже способно привести к ссылочному взрыву (резкому увеличению числа исходящих линков).

Постараюсь объяснить попонятнее. Скажем, вы опубликовали очередной пост в блог и проставили в нем 3-4 ссылки на полезные ресурсы. Одновременно получили добрую сотню комментариев к новоиспеченной публикации. Что произойдет дальше? Правильно, будет образовано сто дублей этой статьи, естественно, с находящимися внутри исходящими линками. Кстати, прописанный в исходящих ссылках атрибут REL=»NOFOLLOW» тега A ситуацию не спасает, поскольку и Яндекс, и Гугл все равно учитывают такие гиперссылки, пусть и с определенными оговорками.

В результате мы получаем 300-400 направленных на сторонние ресурсы линков, которые моментально нарушают равновесие! Шок, правда? Надеюсь, я вас достаточно напугал, чтобы вы решили дочитать пост до конца с целью узнать, как побороть такую напасть. Кроме replaytocom и других генерируемых Вордпрессом дублей существует еще немало «мусора», которые мы и научимся сейчас искать.

Поиск дубликатов страниц на WP

Ну, а теперь переходим к выявлению всей этой нечисти. Начнем, конечно же, с replytocom. В качестве «подопытного» вебсайта позволю себе предложить один из подходящих ресурсов, найденных мной в сети, надеюсь, владелец не обидится, ведь все это для общего нашего блага, коллеги. Итак, вводим в поисковую строку Гугла вот такую конструкцию:

Попробуйте пролистать странички результатов поиска до момента, когда внизу появится ссылка «Показать скрытые результаты». Запомните ее номер (в нашем примере 15). После того, как нажмете на этот линк, получите полную выдачу, включающую уже эти скрытые документы. Переходите на ту страничку (15). На ней или же на следующей вы увидите вебстраницы, попавшие в дополнительный индекс:

Сюда входят категории, теги, дубли replytocom. Обратите внимание на число проиндексированных страниц (основной + дополнительный индекс). На верхнем скриншоте представлен только основной. Десятикратная разница. Таким образом, можем сделать вывод, что в сопли попала огромная прорва всякого мусора. Комментарии излишни. Теперь можно конкретизировать поиск и найти только дубли replytocom:

Затем по очереди вместо replytocom вставляйте другие параметры, которые могут встречаться в составе URL, генерируемых движком WP:

feed
tag
attachment
attachment_id
page
category
comment-page
trackback

Все подобные вэбстраницы являются либо дублями, либо «мусором», который не должен присутствовать в поиске. Ну, что, проверили свой блог на наличие этих дублей, результат не вдохновил? Ничего, в следующей главе будем применять практические шаги по исправлению ситуации.

Пошаговая инструкция по настройке правильной индексации в WordPress

Итак, наша задача не только удалить все дубли и «мусорные» страницы из индекса, но и сделать так, чтобы они туда вообще не попадали. Переходим к практическим шагам по выполнению этой задачи.

1 шаг. Удаляете из файла robots.txt все лишние директивы (четвертый скриншот сверху от начала статьи) или составляете правильный роботс, если его у вас пока еще нет (ссылка на соответствующий материал также дана в начале этого поста). Чтобы вам не отвлекаться, повторю еще раз корректный вариант robots.txt:

User-Agent: *
Disallow: /wp-
Host: site.ru
Sitemap: http://site.ru/sitemap.xml

User-agent: Googlebot-Image
Allow: /wp-content/uploads/
 
User-agent: YandexImages
Allow: /wp-content/uploads/

Только не забудьте вместо site.ru указать название своего хоста. Еще раз поясню, что запрещающей директивой Disallow закрываем только файлы движка с префиксом wp. А директивой Allow разрешаем специальным ботам Гугла и Яндекса (Googlebot-Image и YandexImages) индексировать изображения, чтобы они могли участвовать в поиске по картинкам.

2 шаг. Прописываем CONTENT=»NOINDEX,FOLLOW» для страниц категорий, архивов, меток (тегов):

<meta name="robots" content="noindex,follow" />

Этим действием мы запрещаем индексацию страниц, но разрешаем переходы по ссылкам для этих страниц, поскольку это позволит сохранить скорость индексирования нужных документов. Далее для абсолютно всех страниц пагинации указываем «CONTENT=NOINDEX,NOFOLLOW», уменьшая тем самым число неполных дублей:

<meta name="robots" content="noindex,nofollow" />

Технически все это можно сделать быстро и красиво, не залезая в код шаблонов WordPress, а просто проставив галочки в разделе «Настройки индексирования» плагина All in One SEO Pack:

Use nofollow for paginated pages/posts — активация этой опции как раз и позволяет внедрить в HTML код вебстраниц пагинации значение нофоллоу мета тега ROBOTS (не путать с атрибутом rel=»nofollow», который присутствует в гиперссылках). Таким образом, для всех первых, не имеющих в своем адресе параметра page, вэбстраниц рубрик, тегов, архивов в коде будет присутствовать такая конструкция:

<meta name="robots" content="noindex,follow" />

А вот для всех пронумерованных документов с переменной page (страницы пагинации категорий, архивов и главной, если она является динамической и содержит анонсы последних постов) этот фрагмент будет включать также запрет следовать по ссылкам:

<meta name="robots" content="noindex,nofollow" />

3 шаг. В админке WP из левого меню выбираем раздел «Настройки» — «Обсуждение» и в подразделе «Другие настройки комментариев» снимите галочку напротив опции «Разбивать комментарии верхнего уровня на страницы», если она у вас там стояла:

Этим мы ликвидируем возможность образования дополнительных URL в виде пагинации (разделения на страницы) для комментов. Кстати, можно сразу же снять галочку напротив опции «Разрешить древовидные (вложенные) комментарии», чтобы одним ударом покончить с replytocom. Для меня, например, это неприемлемо, о чем было сказано выше.

4 шаг. Ну а теперь для тех, кто также, как я, не желает отказываться от древовидных комментариев, необходимо в корне зарубить всякую возможность возникновения URL с replytocom и другими дублями, где нет возможности внедрить параметр NOINDEX. Будем делать это с помощью указания редиректа 301 (перенаправления на оригинальную страницу).

Для этого откройте (лучше в notepad++ или подобном ему редакторе) файл .htaccess, который находится в корне вашего сайта (там, где вордпрессовские папки wp-admin, wp-login и т.д.) и впишите следующий код:

RewriteCond %{QUERY_STRING} replytocom=
RewriteRule ^(.*)$ /$1? [R=301,L]

Теперь попробуйте открыть в соседней вкладке страницу, нажав на ссылку «Ответить», вы получите примерно такой URL в адресной строке:

http://site.ru/category/article1/#comment-63102

Не пугайтесь того, что в адресе присутствует параметр «#comment-63102». Вэбстраницы с хеш-ссылками, которые определяются наличием знака решетки, с точки зрения поисковых систем не являются дублями. По сути replytocom для всех вэбстраниц с комментариями удален безвозвратно.

Однако, если вы попробуете подвести курсор к тому же линку «Ответить», то заметите, что в строке состояния в левом нижнем углу браузера появится URL, где все еще присутствует ненавистный параметр replytocom. Для его полного уничтожения нужно в файле FUNCTION.PHP вашей темы Вордпресс вписать вот такой код:

function replace_reply_to_com( $link ) {
return preg_replace( '/href=\'(.*(\?|&)replytocom=(\d+)#respond)/', 'href=\'#comment-$3', $link );}
add_filter( 'comment_reply_link', 'replace_reply_to_com' );

После того, как вы сохраните обновленный файл FUNCTION.PHP, параметр replytocom должен исчезнуть из появляющегося внизу адреса. И последним аккордом добавим еще один код в .htaccess, с помощью которого также через 301 редирект избавимся еще от целой кучи параметров, которые могут присутствовать в URL дублей:

RewriteRule (.+)/feed /$1 [R=301,L]
RewriteRule (.+)/comment-page /$1 [R=301,L]
RewriteRule (.+)/trackback /$1 [R=301,L]
RewriteRule (.+)/comments /$1 [R=301,L]
RewriteRule (.+)/attachment /$1 [R=301,L]
RewriteCond %{QUERY_STRING} ^attachment_id= [NC]
RewriteRule (.*) $1? [R=301,L]

После этих изменений файл .htaccess должен выглядеть примерно так (показываю свой вариант):

# BEGIN WordPress

RewriteEngine On
RewriteBase /
RewriteCond %{QUERY_STRING} ^replytocom= [NC]
RewriteRule (.*) $1? [R=301,L]
RewriteRule (.+)/feed /$1 [R=301,L]
RewriteRule (.+)/comment-page /$1 [R=301,L]
RewriteRule (.+)/trackback /$1 [R=301,L]
RewriteRule (.+)/comments /$1 [R=301,L]
RewriteRule (.+)/attachment /$1 [R=301,L]
RewriteCond %{QUERY_STRING} ^attachment_id= [NC]
RewriteRule (.*) $1? [R=301,L]
RewriteRule ^index\.php$ - [L]
RewriteCond %{REQUEST_FILENAME} !-f
RewriteCond %{REQUEST_FILENAME} !-d
RewriteRule . /index.php [L]


# END WordPress

Это все. После всех описанных выше операций индексироваться на вашем блоге WordPress, если, конечно, он имеет стандартную структуру, будут только следующие URL: главная, все посты и статические страницы. Причем все вэбстраницы пагинации и прочие дубли не только не будут включены в индекс Яндекса и Гугла, но и не будут загружаться роботами поисковых систем.

В завершение еще раз взгляните на самый первый скриншот этой статьи, где наблюдалось падение посещаемости по графику LI где-то до середины сентября. Но потом начался подъем, причем более интенсивный, чем был до этого спад. Это как раз то время, когда я активно занимался удалением дублей. Кроме того, именно в это время восстановилась быстрота индексации статей блога как со стороны Яндекса, так и Гугла. По-моему, вывод напрашивается сам собой.

Поделиться с друзьями
Игорь Горнов

Создатель и администратор сайта Goldbusinessnet.com. Участник нескольких успешных проектов и автор более 1000 статей о работе в интернете, создании сайтов, полезных программах и сервисах.

Работа в интернете
Добавить комментарий

Нажимая на кнопку "Отправить комментарий", я даю согласие на обработку персональных данных и принимаю политику конфиденциальности.

  1. Yngvarr

    Игорь, спасибо за ответ.
    Но, все же, интуитивно я чувствовал, что что-то не так — слишком мало там информации для ПС в этом коротком robots.txt. В результате поисков я таки нашел сведения о том, что ваш укороченный вариант абсолютно валиден, но новичкам его ставить не следует — это для продвинутых веб-мастеров, понимающих что к чему. Это не мое мнение, а вот из этой статьи, в которой также приведен похожий на ваш пример:
    http://seo-mayak.com/seo-prodvizhenie/poiskovye-sistemy/meta-teg-robots-indeksaciya-sajta.html
    Себе я поставил обычный вариант с более ясными перечнями Disallow:

    Ответить
    1. Игорь Горнов автор

      Yngvarr, конечно, это Ваш выбор. Просто имейте ввиду, что если Вы закрываете документы в robots.txt, то огромное количество «мусорных страниц» будет загружаться роботами (несмотря на то, что они не будут проиндексированы), засоряя базу данных поисковиков, что они ой как не любят.

      Это не совсем хорошо для продвижения. В том-то и дело, что надо не просто убирать запрещающие директивы в robots.txt, а делать это в совокупности с использованием нужных параметров мета тега Robots (в том числе при помощи плагина All in One SEO Pack), в статье я об этом упоминал.

      Ответить
  2. Yngvarr

    Здравствуйте, Игорь.
    Такой вопрос: у вас в статье оптимальный файл robots.txt выглядит следующим образом:
    https://s8.hostingkartinok.com/uploads/images/2017/03/19aedc15806aee87f2e99d647574c042.png
    Однако robots.txt вашего сайта выглядит совсем иначе — вот так:
    https://s8.hostingkartinok.com/uploads/images/2017/03/c74a3da953249160455ab23b3c4b26be.png
    Скажите, а какой файл ставить, если на новый сайт? Почему такие разительные отличия? Проверял на других сайтах вебмастеров — тоже везде довольно длинные robots.txt.

    Ответить
    1. Игорь Горнов автор

      Yngvarr, в принципе, оба варианта работают. Если у Вас обычный стандартный блог Вордпресс, смело ставьте мой действующий вариант, поскольку он уже проверен временем. В статье все подробно расписано, так что не вижу смысла вновь по новой все объяснять. Файл roborts.txt, наверное, самый неоднозначный инструмент, потому его содержание всегда будет тестироваться и изменяться в соответствии с алгоритмами поисковых систем.

      Ответить
  3. Антонина

    И еще, я правильно поняла, что не страшно если сначала индексируются ссылки вложенности картинок? Например так http://gladiator-sport.com.ua/shop/pure-wey-syvorotochnyj-koncentrat/sostav-pure-wey. Или они должны как-то по-другому выглядеть? Когда я добавляю картинку, как правильно — убирать ссылку или нет?

    Ответить
    1. Игорь Горнов автор

      Антонина, немного не понял вопроса. Данная Вами ссылка ведет на страницу сайта. Если Вы имеете ввиду кликабельность картинки, то я, например, кликабельным делаю только первое изображение.

      Ответить
  4. Антонина

    Игорь, спасибо за ответ! Поскольку редиректы мне пока не нужны, я решила не тормозить пока на этом сложном, для меня вопросе. Для того чтобы решить вопрос с индексацией ссылок (вложенность картинок), как я уже говорила выше, поменяла плагин All in On на Yoast SEO. Имеет намного больше функций, одна из которых мне очень понравилась, это возможность прописать мета теги к меткам и категориям товара, поскольку у меня интернет-магазин то выводятся только товары, без анонсов и описаний. А для того чтобы написать полноценное описание категории с добавлением картинки, я воспользовалась плагином Rich Text Tags, Categories, and Taxonomies. Поскольку не получилось текст всунуть вниз, под товары, воспользовалась шорткодом. Посмотрите что получилось http://gladiator-sport.com.ua/product-category/protein. Но, теперь у меня возник вопрос, стоит ли закрывать медиафайлы от индексации ? (а такая возможность есть в Yoast SEO) гугл вебмастер пишет что не стоит. А если не закрывать, то получается вот так http://gladiator-sport.com.ua/shop/bcaa-active-500-g-nezamenimye-aminokisloty/bcaa-active

    Ответить
    1. Игорь Горнов автор

      Антонина, в принципе Василий прав, но именно об этом сказано в статье. Думаю, Вы не проигнорировали эту информацию и налицо Ваше желание избавиться от дублей путем использования серверных директив именно для страниц, которые проблематично закрыть от индексации посредством robots noindex.

      Возможно, Вы поступили правильно, перейдя на Yoast SEO, поскольку у Вас коммерческий ресурс, а данный плагин, конечно, предоставляет больше возможностей.

      Что же касается медиафайлов, то мне кажется, их нежелательно запрещать к индексации, поскольку поисковики очень часто отдают предпочтение тем ресурсам, которые имеют весь спектр контента. Тем более, что Ваш ресурс является коммерческим, где конкуренция чрезвычайно высока. Но это мое частное и, увы, субъективное мнение.

      Ответить
      1. Антонина

        Спасибо Игорь за помощь! После Вашего ответа я все же вернулась к htaccess. И вот что я обнаружила в wiki хостера — По умолчанию режим интерпретатора PHP для ваших сайтов стоит как – apache. Поэтому скорее всего мне и не нужно настраивать NginX, они и так связаны. После чего сделала настройки по Вашей рекомендации. Понаблюдаю, мне кажется у них какой-то сбой был. Еще где-то видела информацию, что в директории может присутствовать какой-то скрипт, который и перезаписывает этот файл. Может Вы сталкивались?

        Ответить
        1. Игорь Горнов автор

          Антонина, в принципе Ваши рассуждения о связи NGINX и Apache вполне корректны, и сбой вполне может быть. Насчет перезаписывающего скрипта ничего конкретного сказать не могу.

          Ответить
  5. Антонина

    Игорь, я снова к Вам за советом. На моем новом сайте не получается проделать все ваши рекомендации, все изменения что я делаю в файле htaccess возвращаются к стандартным настройкам на следующий день. Вот что мне ответил хостинг — «Т.к. статические файлы отдаются на уровне веб сервиса NginX, а не веб-сервиса Apache2, указанные Вами директивы не будут работать.
    То, что Вы хотите сделать делается немного по-другому — с помощью файла robots.txt.» И когда я говорю, что это не решает проблему, а также не дает возможность настроить редиректы в будущем, все равно настаивают что это лучшее решение, ссылаются на support гугл и яндекс. Сайт только начал индексироваться и первыми в индекс попали медиафайлы и категории, при этом ссылки вложенности картинок- ?attachvent_id, или двойная ссылка — мой сайт — карточка товара — картинка, при этом сама карточка товара в индекс не попадает. Подскажите как быть в этом случае. Я наткнулась на статью http://vds-admin.ru/nginx/zamena-rewriterule-v-nginx-dlya-razlichnykh-cms (сорри за ссылку), но не совсем поняла что делать. Мне нужно прописывать правила в файле nginx.conf, или все таки в htaccess? Фраза — «Задача: заменить правила .htaccess, соответствующими директивами в конфигурационном файле nginx.conf.» — вообще привела меня в тупик. Спасайте…

    Ответить
    1. Игорь Горнов автор

      Антонина, к сожалению, вопрос непростой, и для его решения требуется представлять ситуацию изнутри, я такой возможностью не располагаю. К тому же, с такой проблемой напрямую не сталкивался, в этом случае хотя бы был готовый алгоритм. В моем понимании, поддержка хостинга обязана помогать Вам в таком вопросе.

      В принципе, в статье, о которой Вы упомянули, дается решение. Вам нужно просто прописать предоставленные там правила в nginx.conf (эквивалент для веб сервера nginx). Правда, не могу Вам гарантировать, что это рабочий вариант, поскольку информация касается версии WordPress 2.7.1. Впрочем, попробовать стоит.

      Ответить
    2. Василий

      Антонина, как они предлагают, сделать запреты в файле robots, это не поможет. Как вариант решения проблемы: вам нужно будет все открыть в файле robots, а дубли закрывать с помощью мета тега роботс noindex, nofollow в СЕО плагине, или с помощью кода.

      Ответить
  6. Сергей

    Игорь, большое спасибо за подробную статью. Столкнулся с проблемой дублей, как то не придавал этому значения, но в последнее время стало напрягать то, что по выдаче на запрос стали вместо основной страницы выводиться черте какие, иной раз даже не по теме.
    Вчера и сегодня принял описанные тобой меры. Надеюсь поможет)

    Ответить
    1. Игорь Горнов автор

      Сергей, возможно первоисточником твоей проблемы является другая причина. Однако, действия, направленные на удаление дублей, в любом случае пойдут во благо.

      Ответить
      1. Сергей

        Сначала статья индексируется нормально и на соответствующий запрос выдается с нормальным описанием. Со временем, в место описания появляется запись пита «количество комментариев:9, игорь, света, юля…» или что то в этом роде.

        Ответить
  7. RichardBum

    Хорошо, если у вас сделаны эти три простейших пункта, но это еще не значит, что вы знаете, как удалить дубли страниц.

    Ответить
  8. Алексей

    здравствуйте! воспользовался вашим методом

    function replace_reply_to_com( $link ) {
    return preg_replace( '/href=\'(.*(\?|&)replytocom=(\d+)#respond)/', 'href=\'#comment-$3', $link );}
    add_filter( 'comment_reply_link', 'replace_reply_to_com' );

    не получается ответить на другой комментарий Вернее ответить могу только комментарий идет как новый вконце всех комментариев Как это можно поправить?

    Ответить
    1. Игорь Горнов автор

      Алексей, в данном случае я не могу дать Вам конкретный ответ. Наверняка это связано с особенностями Вашей темы. Честно, говоря, с такой проблемой я не сталкивался. А Вы уверены, что данная ошибка связана с предложенной мною функцией?

      Ответить
  9. Алексей

    Подскажите, а как быть с дублями teg? В htaccess вроде бы не было каких либо записей по этому поводу!

    Ответить
    1. Игорь Горнов автор

      Алексей, Вы, наверное, имеете ввиду tag (тег)? Если да, то для запрета их индексации проставляете галочку напротив опции «NOINDEX для архивов меток» в настройках плагина All in One Seo Pack, в статье эта информация присутствует. Это то самое и есть.

      Ответить
  10. Игорь Черноморец

    Здравствуй Игорь.До вчерашнего дня я читал и слышал информацию о дублях очень схожую на твою и соответственно делал все эти действия.Но вчера прочитал на одном блоге, что в файле Роботс нельзя вообще ничего закрывать для Гугла, а для Яндекса нужно закрыть все!!! Что в принципе не соответствует твоему примеру этого файла! Что ты можешь посоветовать?

    Ответить
    1. Игорь Горнов автор

      Игорь, я советую придерживаться моего примера. Весь смысл описанных мной действий — избавление от дублей и, соответственно, уменьшение количества загружаемых роботами ПС страниц. В случае следования моим инструкциям так и происходит. Подтверждение этому можно получить как в панели Вебмастеров Гугла, так и Яндекса.

      Ответить
      1. Игорь Черноморец

        Спасибо! Значит ты советуешь закрыть в Роботсе все разделы WP и для яндекса и для гугла, а всё остальное открыть? У меня на данный момент для Гугла вообще всё открыто, но я сделал редирект в файле .htaccess как и ты показал в статье. В файле function.php прописал мета тег:
        function my_meta_noindex () {
        if (
        is_paged() // Все и любые страницы пагинации
        ) {echo «».».»\n»;}
        }

        add_action(‘wp_head’, ‘my_meta_noindex’, 3); // добавляем свой noindex,nofollow в head

        А для яндекса в файле роботс закрыл всё:
        User-agent: Yandex
        Disallow: /wp-admin
        Disallow: /wp-includes
        Disallow: /wp-content/plugins
        Disallow: /wp-content/cache
        Disallow: /wp-content/themes
        Disallow: /feed/
        Disallow: */feed
        Disallow: */trackback
        Disallow: */comments
        Disallow: /*?
        Disallow: /*?*
        Disallow: /tag
        Ты считаешь, что мне нужно стереть все разделы типа: feed,trackback,comment и т.п.?

        Извини меня заранее за то, что я тебя нагружаю этими вопросами и напихал кучу кодов тебе в коммент 🙂 Просто, почему то я тебе доверяю, хотя на твоём сайте впервые

        Ответить
        1. Игорь Горнов автор

          Да не за что извиняться, тезка, комментарии для этого и существуют, чтобы предоставлять читателям возможность общения. Что касается существа вопроса, то да, именно так я рекомендую поступить, если у тебя стандартный блог WordPress. Ведь я даю советы только в том случае, если убежден в их корректности и проверил предмет сомнений на собственной шкуре.

          После того, как сделаешь все по моей инструкции, посмотри в Вебмастере Яндекса, насколько уменьшится общее число загружаемых Яндексом страниц. Ведь несмотря на некоторые различия, по основным направлениям оба поисковика придерживаются одинаковых концепций в плане отношения к дублям.

          И правила индексирования документов у них схожие: роботы и Яндекса, и Гугла не загружают страницы, в которых прописан NOINDEX. А вот если документ запрещен к индексации в ROBOTS.TXT, то такие страницы все равно загружаются.

          Подумай сам, какое отношение к таким документам будет у ПС, если они совершенно бесполезны в плане предоставления информации, но занимают серверное пространство. Спасибо за доверие. 🙂

          Ответить
          1. Игорь Черноморец

            Игорь, ты меня убедил! Все правильно. Просто все твердят, что алгоритм Яндекса работает иначе и он не забирает в индекс ссылки внесенные в Роботс и вообще никак к ним не относится. А я тоже заметил, что основных страниц в индексе 61, а еще 230 остальных. Меня это очень смутило. Именно поэтому я начал искать снова информацию о дублях и так вышел на твой блог.
            Огромное тебе спасибо за терпение, все разъяснения и ответы.

          2. Игорь Горнов автор

            Не за что, Игорь. Удачи тебе и твоему проекту!

  11. Антонина

    Игорь, я поняла — это все плагин IGIT Related Post With Thumb творит.

    Ответить
    1. Игорь Горнов автор

      Хорошо, что Вы разобрались, Антонина. Вордпресс просто замечательный движок, его плагины позволяют расширять функционал практически до бесконечности. Однако, приходится следить за генерированием дублей, которые плодят некоторые расширения. Ничего не поделаешь, все, как в реальной жизни. Если получаешь какие-то преференции, обязательно за это приходится адекватно платить.

      Ответить
  12. Антонина

    Игорь, подскажите пожалуйста как избавиться от таких дублей — после основного адреса —
    #igit_rpwt_main_image
    #igit_rpwt_thumb
    #igit_title
    причем дублируется так каждая запись, кроме страниц.
    Буду признательна!

    Ответить
  13. Василий

    Привет, Игорь. У тебя в статье, для страниц навигации рекомендован такой код:

    Почему для этих страниц выбрано именно «nofollow»? Я долго думал над этим вопросом, и в итоге, у себя сделал «follow». Мой вывод такой — робот заходит на эти страницы, а затем переходит по ссылкам на статьи сайта. Зачем его, в этом случае, ограничивать? Передача веса, переходы, все в пределах сайта, все переходит в статьи.
    Какое твое мнение об этом?

    Ответить
    1. Василий

      А код работает только в квадратных скобках?

      Ответить
      1. Игорь Горнов автор

        Василий, а что, есть сомнения, что может как-то иначе?

        Ответить
    2. Игорь Горнов автор

      Василий, я сначала тоже принял такое же решение. Но немного подумав, решил провести эксперимент, запретив следование по ссылкам. Ведь робот имеет карту сайта, так что мне кажется, что индексация в этом случае должна быть более оптимальной.

      Кроме того, прописав follow, у меня страницы пагинации в Яндексе не исчезают из индекса, похоже «зеркало рунета» индексирует их по входящим ссылкам. Прописав nofollow, надеюсь, что пронумерованные страницы исчезнут из индекса. Кстати, в последнее время у меня были проблемы с индексированием в Яндексе, а после этих нововведений они исчезли.

      Хотя, возможно, дело еще в пресловутых атрибутах пагинации rel=»prev» и rel=»next» , которые возникают в HTML коде. Однако, судя по всему, сообщество продвинутых блогеров 🙂 с тобой во главе уже решило эту проблему, в связи с чем выражаю вам огромную благодарность. После ее решения, думаю, что и твой вариант с FOLLOW будет корректным.

      Ответить
      1. Василий

        Понятно. То-то я думаю, а почему Яндекс у меня не удаляет из индекса, несколько страниц пагинации, там же стоит noindex. Я не держусь за follow, поэтому без проблем, на этих страницах сделаю nofollow.
        В последнее время он непонятно стал добавлять в индекс статьи. Некоторые появляются там на следующий день, а другие через неделю.

        Ответить
        1. Игорь Горнов автор

          Вот-вот, Василий, у меня та же песня. Но с follow — nofollow это пока лишь теория, причем моя собственная, на практике пока не подтвержденная.

          Просто не вижу в упор других причин, почему Яндекс не удаляет из индекса страницы пагинации. Ну что же, спустя некоторое время обменяемся с тобой мнениями, насколько эта мера с введением nofollow эффективна.

          Ответить
  14. Алла

    Спасибо, Игорь! Беру на вооружение. Правда я иногда не совсем понимаю, что делаю… ))) поэтому делаю все «на автопилоте» о Вашей инструкции. Потому что только создание карты сайта и роботс помогло моему сайту перескочить с 38 на 6 место. Ещё раз СПАСИБО!!!

    Ответить
    1. Игорь Горнов автор

      Алла, ну у Вас структура блога имеет стандартный вариант, так что все должно работать корректно. А насчет того, что иногда не понимаете определенных шагов, то это не беда. Постепенно этот недостаток сойдет на нет со временем.

      Ответить
  15. Сергей

    Интересное изложение материала ! мне нравиться!

    Ответить
    1. Игорь Горнов автор

      Спасибо на добром слове, Сергей. 🙂

      Ответить