Индексация сайта в поисковых системах Яндекс и Гугл — как настроить, проверить и ускорить индексирование страниц

Здравствуйте, уважаемые читатели блога Goldbusinessnet.com! Наступила пора уделить внимание основному аспекту продвижения сайта, а именно, условиям его индексации в наиболее раскрученных поисковых системах рунета, коими являются Яндекс и Гугл. Причем, важно не только индексирование проекта в целом, но и его отдельных разделов и страниц.

Особенно это актуально для молодых сайтов и блогов, которые не успели еще завоевать популярность и получить определенный уровень доверия со стороны ПС. Поэтому очень важно выполнить необходимые действия, позволяющие заявить о своем web-проекте и загнать его вебстраницы в индекс. Именно мероприятия в полном объеме поспособствуют правильной индексации вэбсайта, а, следовательно, обеспечат его успешную раскрутку.

Сегодня я вас проинформирую не только о том, с помощью каких инструментов можно настроить попадание нужных вебстраниц ресурса в индекс, но и посредством чего можно проверить индексирование, а также предоставлю практические способы его ускорения.

Основные инструменты для настройки индексации сайта в поисковых системах

После того, как вы решили создать свой вебсайт (здесь и здесь о том, с чего начать его создание) и осуществили свою идею, необходимо поставить в известность Yandex и Google (их доля поиска в рунете составляет более 90%, поэтому будем рассматривать в основном эти поисковики). Регистрация сайта в поисковых системах и будет первым шагом к тому, чтобы ваши материалы были доступны нуждающимся в них пользователям.

Зарегистрировать вебсайт следует на специальных сервисах Вебмастеров Яндекса (тут) и Гугла (тут). Таким образом вы не только официально подтвердите права на свой веб-ресурс, но и поимеете достаточно мощный инструментарий, с помощью которого будете получать вполне конкретную, а, главное, актуальную, информацию о сайте на постоянной основе.

Итак, регистрация вэбсайта в поисковых системах успешно завершена. Что дальше? А вот далее необходимо правильно настроить директивы для ботов ПС. Управлять процессом индексации вебресурса позволяют нижеследующие инструменты:

1. Файл robots.txt — в нем прописываются директивы, которые запрещают или, наоборот, разрешают роботам ПС индексировать ту или иную вэбстраницу либо раздел проекта. Обязательно прочтите статью об этом важном элементе в файловой системе вэбресурса, ссылку на которую я дам ниже по тексту, поскольку в ней дана самая актуальная информация.

2. Мета тег robots — он внедряется в начало HTML-кода вэбстраницы внутри тега HEAD и имеет в своем арсенале атрибут content, который, в свою очередь, может характеризоваться несколькими параметрами, из них наиболее часто используются (no)index, (no)follow для управления индексом контента и ссылками, находящимися на данной вебстранице.

Таким образом, существуют разные варианты значений этого атрибута, которые дают различные указания ботам поисковых систем: (no)index — (не)индексировать содержание, (no)follow — (не)следовать по ссылкам.

Кстати, если вы пользуетесь (или планируете это делать) для управления сайтом каким-либо популярным движком, то наверняка для него существует SEO расширение, посредством которого можно задать настройки тега robots для страниц или разделов проекта.

Скажем, если вы остановили свой выбор на WordPress, то для этой CMS существует отличный плагин All in One SEO Pack, c помощью которого вы сможете легко и быстро осуществить тонкую настройку индексации нужных вебстраниц.

После указания необходимых директив в коде HTML странички (который, скажем, в Хроме вызывается применением комбинации клавиш Ctrl+U) можно проверить их корректность:

В этом случае для роботов индексирование данной вэбстраницы запрещено, но разрешено следование по ссылкам. Кстати, если оба этих параметра имеют положительное значение, то их можно объединить, указав правило таким образом:

<meta name="robots" content="all">

Где ««all=index,follow»». И, наоборот, в случае отрицательных значений обоих параметров запись будет выглядеть так:

<meta name="robots" content="none">

Здесь none=noindex,nofollow. Более подробно использование параметров мета тега ROBOTS дано в выдержке помощи панели вебмастеров Яндекса:

3. Карта сайта (здесь про плагин Google XML Sitemaps, который помогает ее создать для Вордпресса) — упорядочивает ссылочную структуру ресурса и тем самым облегчает ботам поисковых систем следование по ссылкам и быструю индексацию материалов.

4. Rel canonical — указывает на каноническую (основную) страницу в ряду других с аналогичным содержанием, которая наиболее достойна находиться в основном индексе. Тоже весьма действенное средство, учитываемое как Яндексом, так и Гуглом, что немаловажно.

Как контролировать индексирование сайта в Яндексе и Гугле

Очень серьезно отнеситесь к прочтению следующего фрагмента этой статьи, поскольку он очень важен и поможет вам правильно настроить индексацию страниц с самого начала, если вы новичок в продвижении вэбсайтов, и исправить свои ошибки, ежели они у вас уже имеются.

Как вы, наверное, осознали, настройка того, какие документы (страницы) проекта следует исключить из индекса, осуществляются и посредством директив в файле роботс тхт, и с помощью указания соответствующего значения в мета-теге роботс.

Дело в том, что очень важно использовать оба этих средства в тесной связке. Ранее все вебмастера без лишних раздумий прописывали все запрещающие директивы в файле robots.txt. В общем, это работало, работает и сейчас. Но! Простое закрытие доступа ботам поиска таким способам к тем или иным страницам приводит к загрузке целого вороха всякого ненужного хлама.

Это, помимо всего прочего, еще и куча дублированных документов, генерируемых современными CMS (часть которых устраняется грамотным применением 301-го редиректа, в том числе зеркала сайта с WWW и без), и еще огромное число исходящих ссылок с вебресурса, вполне способное нарушить баланс ссылочной массы и испортить вам всю малину.

Особенно это касается Гугла, который запихивает все эти "мусорные" вебстраницы в так называемый дополнительный, или "сопливый", индекс (Supplemental Index). Чтобы проверить, как обстоят дела в этом отношении у вас, вбейте домен вашего сайта (что такое доменные имена и их уровни) в поисковую строку Google в такой форме:

site:site.ru

Для примера возьму вебсайт одного из моих читателей (надеюсь, он не обидится), чтобы наглядно продемонстрировать ситуацию. Итак, вводим адрес домена по выше описанной схеме и получаем результат. В начале списка будут располагаться ссылки на все находящиеся в основном индексе статьи, которые, по большому счету, несут основную информацию для пользователей:

Но если перейти, используя пагинацию (нумерацию), на последнюю страницу результатов поиска, то можно встретить вот такую надпись, информирующую о наличии похожих материалов:

Это означает, что в основном индексе Гугла в данном конкретном случае находится 129 страниц. Однако, скрытые результаты и входят в упомянутый мною выше сопливый индекс. Если в нем много web-страниц, это может замедлить индексирование сайта, даже если эти документы корректно запрещены к индексации в robots.txt.

Чтобы узнать, какое количество вебстраниц содержится в гугловских соплях, жмем на ссылку «Показать скрытые результаты», а затем вновь листаем до последней странички основного индекса (в нашем случае до 13). Последними как раз и окажутся те самые ненужные материалы:

В этом примере ситуация не критична, поскольку проиндексированы всего 294 вэбстраницы (129 в основном индексе, остальные в дополнительном). Очень часто встречается более плачевная ситуация, когда в соплях оказывается число документов, в десятки (а иногда даже в сотни!) раз превышающее их количество в основном индексе.

В гугловской панели для вебмастеров эту ситуацию можно проследить, если перейти в раздел «Индекс Google»«Статус индексирования»:

На этом скриншоте вы можете увидеть, как изменилась картина на моем блоге после того, как я предпринял некоторые усилия по исправлению ситуации, то есть поменял содержание файла robots.txt, удалив из него лишние запрещающие директивы и вместо этого прописав для этих же вэбстраниц content="noindex" для мета-тега robots.

Поначалу общее число загруженных ботами страниц превышало 1500 (синяя линия на графике), в то время как по-настоящему полезные для пользователей материалы размещались лишь на 170-180. Почти десятикратное превышение количества "мусора" над качественным контентом!

После принятия соответствующих мер, о которых я расскажу чуть ниже, за несколько месяцев картина резко изменилась и теперь уже в индексе за редким исключением находятся только те статьи, которые обязаны там быть, дополнительный индекс практически пуст.

Если в контексте данной проблемы говорить о Яндексе, то там ситуация попроще, поскольку "зеркало рунета" официально не имеет дополнительного индекса. В старом Yandex Webmaster в разделе «Индексирование» предоставлялась информация о страницах в поиске и загруженных роботом (и графическое отображение данной информации наподобие гугловского имелось).

Причем, после предпринятых мною действий по исправлению ситуации общее количество загруженных вебстраниц также уменьшилось, что нашло свое отражение на графике. Поэтому, хотя в новом интерфейсе Вебмастера эти данные предоставлены в несколько другом формате, суть дела, думаю, это не меняет.

И еще одна чрезвычайно важная вещь. В определенное время я заметил, что индексирование публикаций блога Goldbusinessnet.com вдруг резко замедлилось, в Гугле оно растянулось до нескольких дней, а в Яндексе вообще до двух недель!

Так вот, после завершения операции по правильной настройке индексации ситуация не просто выправилась, теперь новые статьи буквально влетают в индекс в течении нескольких минут после опубликования, причем это касается обоих поисковиков. Выводы делайте сами.

Прежде, чем перейти непосредственно к практическим действиям по настройке индексирования в соответствии с современными требованиями, разберемся, почему необходимо использовать файл robots.txt и тег роботс в тесной связке. Это происходит по причине особых настроек в алгоритмах сканирования ботов поисковиков, особенно это касается Гугла.

Первичным при этом считается роботс.тхт. Если прописать в нем запрещающие директивы для определенных разделов или файлов вебсайта, то они не попадут в ОИ, но все равно будут загружены ботами и отправлены в ДИ. А вот ежели при сканировании тем же ботом Google в коде документа будут обнаружены значения content="noindex", то это моментально остановит его от загрузки "мусорных" страниц.

Думаю, доказательство моих слов вы уже получили, когда я рассказал чуть выше о своих шагах в этом направлении и предоставил соответствующий скриншот со своего аккаунта в Google. Ну, а теперь переходим к практике. В принципе, ничего особенного делать не нужно.

Необходимо просто подстроить свой robots.txt в соответствии с рекомендациями, которые в полном объеме найдете в статье, ссылка на которую дана в начале этого мануала, где мы говорили об инструментах настройки индексации.

Если вкратце, то сначала необходимо удалить из robots.txt запреты для страниц вэбсайта, в коде которых потом прописать noindex для мета тега роботс. Действовать нужно именно так, иначе схема не будет работать корректно.

Идем дальше. Параметры мета тега роботс можно прописать в настройках СЕО плагина, если таковой имеется для ЦМС, которую вы используете. Как я уже сказал, для WordPress это ALL in One SEO Pack. Если вы по каким-то причинам еще не установили этот плагин, то обязательно сделайте это, без него успеха не видать.

Последние обновления в SEO Pack позволяют прописать все нужные значения роботса (noindex, nofollow). Для этого в админке Вордпресс переходим во раздел «Инструменты SEO» и ставите там галочки в разделе «Настройки индексирования»:

Обратите внимание, что рубрики у меня не закрыты, поскольку через них выводятся статьи. Есть разные мнения, закрывать ли категории или нет. Я этого не делаю, чтобы обеспечить корректное перетекание веса на страницы, да и основная структура сайта при этом сохраняется, что, кстати, может положительно быть воспринято роботами поисковиков, которые его сканируют. Кстати, своим мнением по этому вопросу вы вполне можете поделиться в комментариях.

И еще. Всем хороши современные движки, включая самый популярный из них Вордпресс, но, как я уже говорил, они способны генерировать дублированный контент различного характера, что разработчики не всегда вовремя отслеживают.

Поэтому вебмастера должны также мониторить ситуацию и предпринимать необходимые действия в виде директив, прописываемых посредством robots.txt либо мета тега роботс, чтобы не пустить свое детище под откос. В контексте выше сказанного весьма полезным будет материал о появлении возможных дублей в WP и способах борьбы с ними.

Предложенная мною схема комплексного применения этих средств управления индексацией исходит из моей сущности перфекциониста, стремящегося к совершенству, и, в общем, применяется далеко не всеми вебмастерами, что не мешает им успешно продвигать свои сайты. Но еще раз повторяю, что в моем случае именно этот механизм позволил ускорить индексацию страниц, что тоже является одним из факторов успешного продвижения.

Методы проверки индексирования сайта

Посмотрим теперь, как нам проверить индексацию сайта в Яндексе и Гугле. С этой целью можно воспользоваться различными онлайн сервисами, например, CY-PR.com, которым пользуюсь я сам. Однако для получения полной информации, в том числе касающейся важных аспектов SEO продвижения, желательно зарегистрироваться на этой странице, нажав на соответствующую ссылку в верхнем правом углу.

После того, как пройдете регистрацию, на этой же вебстранице вводите в форму URL ресурса (что такое урл и как его узнать) и получаете полный расклад по вашему сайту, где в состав аналитического отчета входит и количество проиндексированных в Яндексе и Google страниц:

Конечно, самое оптимальные средства, с помощью которых осуществляется проверка индексации сайтов, являются собственно панели для вебмастеров соответствующих поисковых систем. Скажем, в Вебмастере Яндекса это раздел «Страницы в поиске», о котором я уже упоминал:

Здесь вы можете узнать не только количество проиндексированных страниц, но и порядок их распределения по разделам, а также получить информацию по новым, удаленным и исключенным из индекса вебстраницам на основании тех или иных прописанных директив.

В том же разделе Я.Вебмастера есть вкладка, в которой вы можете проверить статус URL любой страницы, включая дополнительную информацию в виде корректности HTTP ответа сервера, который тоже оказывает влияние на индексирование:

Ну и для полноты картины можно взять еще онлайн сервис массовой проверки индексации, например, этот. Вводите до 30 URL разных сайтов, причем необязательно указывать адреса главных страниц, поскольку домен будет обнаружен автоматически:

Спустя непродолжительное время после запуска вы сможете узнать результаты и посмотреть, какое количество страниц содержится в индексе для каждого из доменов. При возникновении ошибки можно повторить операцию либо произвести проверку вручную, нажав на изображение руки и перейдя таким способом прямо на страницу выдачи Яндекса или Гугла.

Еще одним инструментом, которым я часто пользуюсь при анализе сайта, является один из плагинов для Хрома, а именно RDS bar (в этой статье о данном расширении все подробности), причем проверить количество проиндексированных Гуглом и Яндексом страниц вы можете для любого сайта, доступного в интернете. Для образца возьмем один из трастовых ресурсов:

Общая оценка полученной картины следующая. Число страниц, попавших в индекс обоих поисковиков, практически одинаково (небольшая разница вполне допустима, она обусловлена некоторыми различиями в алгоритмах ранжирования Yandex и Google). Что примечательно, в Гугле наблюдается стопроцентное присутствие документов в основном индексе, а это как раз подчеркивает правильно проведенную настройку индексирования.

Способы ускорения индексации страниц сайта

Раз мы рассматриваем все необходимые условия попадания страниц вебсайта в индекс, должны быть и способы ускорить процесс. Действительно, таких методов немало, но заметное влияние оказывают лишь некоторые из них. Предложу только те, которыми пользуюсь сам и которых должно хватить за глаза для быстрой индексации даже совсем молодых проектов.

1. Аддурилки поисковых систем Яндекс и Google. Это смешное название произошло от английского сочетания addurl, что в переводе на русский язык означает «добавить url». Собственно, это простая форма, в которую нужно внести адрес ресурса. Для добавления вэб-сайта или отдельной web-страницы в поиск Google это можно сделать на этой странице. Однако, чтобы осуществить эту операцию, обязательно надо войти в свой гугловский аккаунт.

Аддурилка Яндекса даже в старом варианте мне нравилась больше, в том смысле, что гораздо более информативна, чем аналогичный сервис Google. После глобального обновления Я.Вебмастера этот сервис был переформатирован, и теперь входит в один из разделов вебмастерской панели под названием «Переобход страниц», куда вы можете добавить адреса документов, которые желаете проиндексировать в первую очередь:

В аддурилки можно вносить не только URL своих проектов, но и те адреса вебстраниц ресурсов, где размещены ссылки на ваш проект. Это ускоряет индексацию, вследствие чего вы быстрее получаете прибавку показателей трастовости (здесь читайте о тИЦ и ПР сайта) от ПС.

2. Регулярность написания и обновления статей. Естественно, чем чаще вы пишите, тем больше шансов на постепенное ускорение индексации. Делаю акцент именно на постоянство внесения актуальных изменений в старые посты и публикования свежих материалов.

То есть, если вы пишите статьи, например, каждый день, а затем делаете двухмесячную паузу, то это хуже, чем, допустим, ежели выпускаете публикации стабильно три раза в неделю и при этом не делаете продолжительных перерывов. Но здесь нужно сделать поправку на возраст ресурса. Чем старше вебсайт, тем меньше влияние этого правила на скорость индексирования.

3. Анонсы в социальные сети. Это важная составляющая для всех без исключения проектов. Думаю, все уже озаботились добавлением кнопок социальных сетей на свой вэбсайт (здесь и здесь вы найдете подробные инструкции об их установке), включая молодых вебмастеров. Самый простой способ — каждый раз после опубликования очередного поста делать постинг анонсов в соцсети с помощью этих самых кнопок.

Этот метод очень действенный, поэтому не пренебрегайте им. Тем более, что занимает считанные минуты. Поисковики очень быстро реагируют на сигналы из социальных сетей, поскольку буквально пасутся там, и проиндексируют ссылку на пост не откладывая это дело.

Кроме всего прочего, если вы найдете возможность применить автоматический постинг в Facebook (тут — как зарегистрироваться, войти и настроить свою учетную запись в этой сети, а здесь — о загрузке фото и обложки для Моей страницы в Фейсбуке) и Твиттер, тогда вообще такая процедура не будет занимать ни секунды, все происходит на автопилоте.

4. Уникальность контента (советую ознакомиться с онлайн сервисами антиплагиата и программами для проверки степени эксклюзивности содержимого страниц). Это сильно помогает в том плане, что поисковые системы гораздо больше времени уделяют белым проектам, которые не похожи на другие и несут полезную информацию. Обращаю на это особое внимание.

5. Пингование статей. Суть здесь заключается в том, что каждый раз после опубликования нового материала поисковым системам посылается пинг (сигнал), что статья готова. Для CMS WordPress есть отличная опция по автоматической настройке пингования. Для этого в админ панели WP перейдите из бокового меню в настройки написания, где внизу увидите «Сервисы обновления»:

Здесь по умолчанию уже даны URL нескольких сервисов, которые, в общем-то, являются посредниками и передают информацию об обновлениях на web-сайте непосредственно поисковикам. Я, например, добавил еще несколько адресов, которые на данный момент являются работоспособными. Вот URL всех служб обновления, которые я использую в качестве одного из способов ускорения индексации новых материалов у себя на блоге:

http://rpc.pingomatic.com/
http://www.blogsearch.google.com/ping/RPC2
http://www.blogsearch.google.ru/ping/RPC2
http://blogsearch.google.co.uk/ping/RPC2
http://www.xianguo.com/xmlrpc/ping.php
http://ping.fc2.com
http://blogupdate.org/ping/
http://ping.bloggers.jp/rpc/
http://ping.fc2.com
http://feedburner.google.com/fb/a/ping
http://www.wasalive.com/ping/
http://weblogs.com/RPC2/
http://www.weblogs.com/RPC2/
http://www.syndic8.com/xmlrpc.php
http://r.hatena.ne.jp/rpc
http://blog.goo.ne.jp/XMLRPC
http://rpc.weblogs.com/RPC2
http://blogsearch.google.us/ping/RPC2

6. Грамотная внутренняя перелинковка страниц сайта (тут и тут писал о линковке в WordPress). Это вполне естественно, поскольку правильная структура организации переходов по ссылкам с одной вэбстраницы на другую способствует тому, что роботы поисковиков обходят все разделы вэбсайта, ничего не упуская, и делают это быстро и с "удовольствием".

Еще статьи по данной теме:
Самые интересные публикации из рубрики: Поисковые системы и браузеры

4 отзыва

  1. Наталья

    Здравствуйте, Игорь.У меня такая ситуация: две статьи на моем сайте не проиндексированы. При чем статьи написанные ранее и позднее проиндексированы. А эти две статьи нет. Хотя процедуру оповещения поисковиков делаю для все статей одинаковую - сразу после публикации на сайте прогоняю по аддурилкам яндекс и гугл, публикую в твиттере, фейсбуке, контакте, одноклассниках. Подскажите, пожалуйста, что нужно сделать чтобы индексировались все стать без исключения?

  2. Игорь

    Наталья, это бывает у меня тоже, так что не переживайте. Иногда Яндекс совершает какие-то непонятные телодвижения. Думаю, через некоторое время статьи будут проиндексированы. Если нет массового выпадения страниц из индекса, тревогу бить нет смысла.

  3. Наталья

    Понятно 🙂 спасибо

  4. Наталья Краснова

    Может я опоздала с ответом, но считаю, что эти две статьи не имеют ценности для пользователей, по мнению Яшки конечно!

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Чтобы ввести любой код, вставьте его между [php] и [/php]. Ссылка (URL), помещенная в текст комментария, не будет активной. C целью ее выделения и более удобного копирования можно заключить ее между тегами <pre> и </pre>.