Поиск битых ссылок на сайте с помощью Яндекса и Гугла, плагина и онлайн сервиса Broken Link Checker, а также программы Xenu Link Sleuth

Здравствуйте, уважаемые читатели блога Goldbusinessnet.com. Наверное, я своим читателям уже все уши прожужжал о необходимости учитывать малейшие нюансы при SEO раскрутке сайта. Но что делать, если это действительно так. Поисковое продвижение настолько важная штука, что необходимо выполнять не только разовые действия, но и регулярные мероприятия, в том числе проверять свой сайт на наличие битых (неправильных, неработающих или «мертвых») ссылок.

Подобные линки могут присутствовать на любом ресурсе, даже на самом авторитетном, поскольку причин их возникновения несколько, в том числе это может быть следствием преобразований, связанных с изменением URL адресов страниц сайта. Слишком большое число нерабочих ссылок (здесь трудно оперировать конкретными цифрами) способно не только серьезно подорвать доверие проекта со стороны посетителей, но и вызвать негативную реакцию поисковых систем.

Поэтому время от времени нужно сканировать страницы своего вебсайта, чтобы найти и удалить накопившиеся неправильные линки. Естественно, вручную эту работу делать реально лишь при условии, если ваш веб-ресурс небольшой и имеет только несколько страничек. Для более-менее крупного проекта поиск и удаление битых ссылок удобнее осуществлять при помощи программ, плагинов и онлайн сервисов, лучшие образцы которых (в основном бесплатные) мы и разберем.

Начнем плясать от печки и разберемся в сначала с тем, что значит выражение «битая ссылка» в специализированном интернет-лексиконе. Если обойтись без заумных терминов, то это просто-напросто гиперссылка, ведущая на несуществующую страничку с ошибкой 404:

Откуда же берутся битые ссылки? На самом деле вопрос не праздный, он требует разъяснений, потому что это очень важно применительно к оптимизации любого веб-проекта. Вообще все ссылки (соответственно и испорченные тоже) можно разделить на три вида:

  1. внутренние — ведут на документы (вебстраницы), файлы, изображения со страниц того же самого веб-ресурса;
  2. исходящие внешние — ведут на странички сторонних вебсайтов;
  3. входящие внешние — проставлены на вебстраницы сайта с внешних веб-проектов.

Первые два случая связаны с действиями либо администратора сайта (который с той или иной целью может преобразовать его структуру, перенести проект на новый домен, удалить некоторые странички), либо пользователей, имеющие частичные права на формирование контента (скажем, комментирование на блоге). Образованные при этом нерабочие ссылки могут быть исправлены простым редактированием. Вот некоторые причины их возникновения на блоге WordPress:

  • некорректная перелинковка страниц, результатом которой ссылка с одной страницы на другую оказывается испорченной. То есть, например, вы поставили ссылку со страницы, а потом переделали ее адрес (URL);
  • неправильные ссылки с комментариев под постами. Пример: кто-то оставил коммент со ссылкой на свой ресурс, а затем забросил или удалил проект. Появляется битая ссылка;
  • Нерабочие гиперссылки с постов на какие-то внешние сайты, которые канули в лету (поменяли адрес или вообще были удалены).

А вот линки с других ресурсов (так называемые обратные ссылки, являющиеся составной частью внешней оптимизации) могут образовываться уже по вине владельцев сторонних вебсайтов либо пользователей, которые допустили ошибку при проставлении ссылки на ваш проект с какого-нибудь иного ресурса (например, форума). На эти гиперссылки повлиять уже труднее (хотя можно, например, установить 301 редирект на корректный урл).

Поиск битых ссылок в панелях вебмастеров Яндекс и Гугл

Поскольку именно поисковые системы ранжируют все вебресурсы в выдаче, то представляется логичным использовать данные по неправильным линкам, которые собираются их роботами. Получить эту информацию можно в панелях вебмастеров Яндекса и Гугла, которую затем можно применить для исправления ситуации, удалив нерабочие ссылки через админку своего проекта.

Начнем с Яндекс Вебмастера (здесь подробный мануал об этом сервисе). Нужный инструмент для поиска испорченных линков находится во вкладке «Ссылки»:

Для того, чтобы из всех неработающих гиперссылок отфильтровать именно битые, необходимо из выпадающего списка выбрать пункт «Запрещены к индексированию или не существуют», а затем деактивировать показ запрещенных к индексации линков нажатием на соответствующую пиктограмму левой кнопкой мышки:

В результате система отобразит только лишь неправильные ссылки, причем слева будут даны URL-адреса страниц, в контенте которых присутствуют испорченные гиперссылки, а справа — сами урлы несуществующих страничек:

Остается лишь щелкнуть по ссылкам слева, перейти на соответствующие вебстраницы и по представленным в Я.Вебмастере анкорам найти нужные гиперссылки, которые и требуется исправить (удалить либо необходимым образом отредактировать).

Те же самые действия в Гугл Вебмастере (сейчас это сервис Google Search Console) можно осуществить в разделе «Индекс» — «Покрытие» во вкладке «Исключено»:

Ниже представлены сведения с типами исключенных вебстраниц. Жмем на «Не найдено (404)»:

Вследствие чего получаете искомые URL несуществующих страниц. Подводите курсор к нужной ссылке и щелкаете по появившемуся значку лупы для активации комплексной проверки урла:

Через некоторое время вы получите все данные, включая адрес ссылающейся страницы, после перехода на которую исправляете некорректную гиперссылку. Задачу можно считать решенной.

В случае, ежели для своего ресурса (блога или сайта) вы выбрали движок Вордпресс как самый популярный в мире, то наилучшим средством для решения задачи нахождения и ликвидации неработающих гиперссылок будет плагин Broken Link Checker.

Основные его преимущества заключаются в способности расширения производить повторное сканирование страниц сайта, а также прерывать проверку в период максимальной загруженности сервера. Ну а самый жирный плюс состоит в том, что редактирование и удаление битых ссылок можно осуществлять в одном и том же окне, не переходя для этого в редактор WordPress.

Итак, для начала потребуется установить Broken Link Checker одним из удобных вам способов и активировать, после чего он сразу начнет сканирование.

Что касается настроек данного расширения, могу сразу сказать, что для стандартного вебресурса разработчики Broken Link Checker выставили практически идеальный вариант по умолчанию, так что большинству пользователей по идее ничего там менять не нужно. Однако, если у вас сайт с особым наполнением либо вы разбираетесь досконально в том, что желаете поменять, то сделать это можно в разделе «Настройки» — «Проверка ссылок»:

Здесь поражает количество опций, которые можно настроить по своему разумению:

Вы в силах установить свое значение периодичности повторных проверок, востребовать отправку по электронной почте информации о вновь обнаруженных неправильных ссылках, применить пользовательский стиль для выделение неправильных URL и даже отметить галочкой опцию (впрочем, она уже установлена по умолчанию), в соответствии с которой плагин предложит альтернативные варианты для нерабочих гиперссылок.

Кроме «Общие» здесь находится еще четыре вкладки, в каждой из которых есть свои настройки. Вот наиболее важные из опций, которые можно отредактировать в каждой из вкладок:

  • «Искать ссылки в» — какие документы (вебстраницы, записи, комментарии) следует подвергнуть проверке;
  • «Что проверять» — можно определить объекты сканирования (текстовые гиперссылки, изображения, вставленные видеоролики с YouTube);
  • «Протоколы и API» — проверить ссылки при помощи HTTP (отмечен по умолчанию) и/или готовых программных кодов MediaFire, RapidShare, YouTube;
  • «Дополнительно» — возможно настроить работу плагина таким образом, чтобы он осуществлял поиск ограниченное время, а также прекращал сканирование при превышении заданного порога нагрузки на сервер.

По ходу проверки плагин будет постепенно находить битые гиперссылки, данные о которых можно посмотреть в админке Вордпресс во вкладке «Инструменты» — «Неправильные ссылки»:

Вот как это выглядит:

Для того, чтобы применить определенное действие сразу ко всем обнаруженным испорченным ссылкам (например, удалить их), то заполняете чекбокс (ставите галочку) рядом с названием одной из колонок «URL» и выбираете нужную операцию из выпадающего меню «Bulk Actions», а затем нажимаете на находящуюся рядом кнопочку «Apply» (применить).

Если желаете поработать отдельно с каждым линком, то здесь дана вся информация в четырех колонках: «URL» (адрес испорченного линка), «Состояние» (для неправильных ссылок это значение будет «404 Not Found»), «Тип/Текст» (анкор ссылки), источник (кликабельный заголовок страницы, где находится битая ссылка).

Подведя курсор к колонке «URL» вы сможете моментально удалить неугодную ссылку, причем при этом никуда переходить и ничего искать не надо. Кроме того, есть возможность линк должным образом отредактировать, то есть исправить, если в URL-адрес просто закралась ошибка.

В колонке «Источник» вы можете изменить содержание текста с битой гиперссылкой, полностью или частично, а также перейти на соответствующую страничку. Только будьте осторожны с опцией «Удалить», нажатие на которую приведет к ликвидации всего содержимого (статьи, комментария или другого контента), в состав которого входит неправильный линк.

После того, как закончите сеанс работы с Broken Link Checker, вы можете со спокойной душой деактивировать это расширение до следующей проверки (и это еще один его жирный плюс), чтобы не стимулировать возникновение излишней нагрузки на сервер хостинга.

В качестве следующего средства по поиску и ликвидации нерабочих гиперссылок хочу вам предложить один из онлайн сервисов, который мне приглянулся. Интересно, что он носит то же название, что и только что рассмотренный нами плагин для WP, а именно Broken Link Checker.

Не секрет, что онлайн-ресурсы имеют свои преимущества перед программами и расширениями (скажем, отсутствует надобность установки и вовлечение в процесс ресурсов своего компьютера либо сервера), однако, кое в чем и уступают (например, в наличии бо́льшего числа неточных данных). Впрочем, часто выбор зависит от характера задачи и приоритетов пользователей. Но при этом немаловажно учитывать еще и стоимость тех же онлайн услуг.

Есть, конечно и бесплатные сервисы либо отдельные тарифы даже для выполнения той или иной задачи по SEO оптимизации (а поиск битых ссылок по сути таковой и является), но они обычно предназначены для небольших сайтов с несложной структурой.

Broken Link Checker как раз предлагает бесплатное сканирование с ограничением в 3000 страниц (что, кстати, тоже немало). Если же для вас этого недостаточно, а кроме того, вы хотите еще и получить доступ к подробным отчетам и возможность скачивать их в формате Excel, то придется связаться с администрацией ресурса на предмет согласования расценок.

Ежели вы предпочитаете производить подобную работу онлайн и при этом ваш сайт не поражает воображение своим объемом (либо вы пожелали просто протестировать сервис), переходите на страницу Broken Link Checker, вводите URL проекта и жмите кнопку «Find broken links»:

Далее вас перебросит на следующую страничку, где нужно будет ввести капчу и выбрать способ сканирования (по идее второй вариант предполагает предоставление более подробных данных о каждой нерабочей ссылке), после чего повторно нажать кнопку активации:

После запуска процесса система постепенно будет находить неработающие гиперссылки, сообщение о которых будет поступать чуть ниже и формироваться в виде сводной таблички:

Сразу после окончания проверки или даже во время ее (так сказать, не отходя от кассы) можете приступить к исправлению найденных «мертвых» линков. Нажатие на «src» в колонке «Page where found» приведет вас к HTML-коду, где место расположения битой гиперссылки будет выделено другим цветом (клик по «url» откроет саму страницу в браузере):

Теперь остается отыскать в текстовом контенте веб-страницы (статье, комментарии и так далее) проблемный линк и удалить либо отредактировать его в соответствующем HTML-редакторе.

Я уже отметил, что приложения имеют свои преимущества перед онлайн сервисами, поскольку ту же задачу способны выполнить более детально. Естественно, я имею ввиду сравнение лучших по качеству представителей в своей области.

Xenu Link Sleuth, возможно, и уступает по своему функционалу некоторым платным программам (например, Netpeak Spider), но остается единственным качественным софтом для ПК, который без всяких ограничений и, что главное, бесплатно, способен проверить сайт и отследить все испорченные ссылки. Так как я сегодня обращаю основное внимание на бесплатные средства, то об этой программе и поговорим.

Хотя этот софт был задуман как средство по поиску битых линков, он способен выполнять и ряд других задач по SEO анализу внутренней структуры вебсайта. Но сегодня мы сконцентрируемся именно на выявлении неправильных ссылок.

Итак, скачайте Xenu Link Sleuth (последний релиз программы был в 2010 году, но это никак не отменяет ее актуальности по сей день) и установите на свой компьютер. Только имейте ввиду, что программа создана исключительно для операционной системы Windows.

После установки Xenu Link Sleuth и ее запуска выбираете из меню «File» — «Check URL» и во вновь появившемся окне впишите адрес главной страницы своего ресурса. Если желаете осуществить анализ не только внутренних, но и внешних линков, то отметьте галочкой «Check external links»:

Перед нажатием кнопки «ОК» при необходимости можно заполнить два поля:

1. «Consider URL’s beginning with this as ′internal′» — сюда можно добавить урлы, которые следует считать внутренними. Например, у вас есть основной проект, адрес которого выглядит так:

http://mysite.ru

Кроме этого, имеется поддомен (форум), связанный с основным проектом. Чтобы программа Xenu Link Sleuth подвергла анализу странички форума, то в данное поле требуется внести:

http://forum.mysite.ru

2. «Do not check any URL’s beginning with this» — добавляем урлы, которые не подлежат проверке программой. Это могут быть адреса счетчиков (скажем, http://top100.rambler.ru), баннеров и т.д.

И еще. Данное приложение имеет множество базовых (Basic) и дополнительных (Advanced) опций, которые можно открыть нажатием на кнопку «More options» (скриншот выше):

Давайте я перечислю наиболее важные настройки, которые очень разумно выставлены по умолчанию для стандартного сайта, но некоторые из них вы можете поменять при необходимости:

1. Parallel Treads — с помощью ползунка можно настроить число потоков, то есть количество одновременно проверяемых урлов (например, current: 4). Нужно учитывать, что чем их больше, тем сильнее нагрузка на сервер. В случае небольшого сайта с минимальным пакетом хостинга подходящее значение 2-4. Ежели при этом на веб-сервере используются специальные средства для оптимизации нагрузки, то даже для объемного проекта можно увеличить это число.

2. Maximum depth — максимальная глубина сканирования. Вы можете установить величину вложенности страниц, на которую будет распространяться проверка. Значение по умолчанию (999) означает гарантированное сканирование на всю глубину любого проекта, поскольку на практике даже близко нет ресурсов, имеющих столько дочерних подрубрик в составе своей иерархической структуры.

3. «Ask for password or certificate when needed» (запрашивать пароль или сертификат, когда необходимо). По ходу процесса под проверку могут попасть страницы, для которых используется защищенное соединение (протокол https). При наличии галочки напротив этой опции происходит запрос вышеуказанных данных.

Кроме того, можно отметить те пункты, в отношении которых будет составлен отчет (report) по результатам анализа (напомню, что поиск неправильных ссылок лишь одна из множества опций в функционале). Поэтому при желании сократить время исследования и задействовать минимум ресурсов можете проставить галочки только напротив тех разделов, которые вам действительно важны. Например, при желании получить данные о битых ссылках можете отметить:

  • «Broken links, ordered by links» — нерабочие гиперссылки, отсортированные по адресам;
  • «Broken links, ordered by page» — битые ссылки, которые будут упорядочены по страницам;
  • «Broken local links» — найденные неправильные внутренние линки.

После нажатия на кнопку «ОК» приложение начнет выводить ссылки на внутренние вебстранички (для блога, например, это записи, постоянные страницы, вебстраницы рубрик), а также линки на сторонние ресурсы (проставленные вами лично со статей либо комментаторами на свои сайты).

Поскольку нас интересуют в первую очередь именно нерабочие гиперссылки, то их в полученном отчете можно отфильтровать с помощью табулятора «Status», в итоге они будут сосредоточены вместе и отмечены красным. Для каждого линка будет указана причина его неработоспособности («no connection» — нет соединения, «not found» — страница с ошибкой 404):

Очевидно, что линки «not found» гарантированно являются некорректными, поэтому в отношении них следует принимать меры по исправлению ситуации безотлагательно. Что касается ссылок, помеченных «no connection», то для окончательного вердикта их можно проверить повторно.

С целью определения страниц, на которых расположена та или иная неработающая ссылка, надо кликнуть по ней правой кнопкой мыши и выудить из контекстного меню «URL Properties»:

Далее придется поработать вручную (степень трудовой нагрузки будет зависеть от количества найденных испорченных линков). Суть операции заключается в том, что каждый раз нужно скопировать адрес такой странички, вбить ее в поисковую строку браузера, после чего войти в админ-панель своего вебсайта и, получив доступ к ее редактированию, удалить либо подправить нерабочую гиперссылку. Кстати, помочь ее быстрее отыскать в контенте поможет текст ссылки, который предоставляет Xenu Link Sleuth в поле «Title or link text» (см. скриншот выше).

После окончания анализа ресурса программа Xenu’s Link Sleuth сделает запрос о формировании отчета (если согласны, то нажимаете кнопку «Да» на выведенном окошке с сообщением).

Отчет, в который будут включены пункты, выбранные при настройке (поиск неправильных ссылок там отмечен по умолчанию) будет представлен в формате HTML и открываться в браузере.

Поделиться с друзьями
Игорь Горнов

Создатель и администратор сайта Goldbusinessnet.com. Участник нескольких успешных проектов и автор более 1000 статей о работе в интернете, создании сайтов, полезных программах и сервисах.

Работа в интернете
Добавить комментарий

Нажимая на кнопку "Отправить комментарий", я даю согласие на обработку персональных данных и принимаю политику конфиденциальности.

  1. Владимир

    Игорь, спасибо за пожелания.

    Ответить
  2. Владимир

    В ТП Яндекса мне сказали, что поможет только удаление ссылок с самого сайта. А как вообще они удаляются с самого сайта?

    Цитирую: Такие ссылки нужно удалить непосредственно со страниц сайта (те, что в разделе внутренних ссылок обозначены в столбце «Откуда»), а сами эти страницы отправить на переобход, чтобы робот узнал об изменениях и обновил поисковую базу как можно быстрее.

    Ответить
    1. Игорь Горнов автор

      Владимир, здесь имеется ввиду физическое удаление старых ссылок, которые участвуют во внутренней перелинковке. У Вас интернет-магазин, поэтому на каждой страничке карточки товаров (а также на вебстраницах каталогов и главной) могут быть ссылки, которые ведут на страницы других товаров, ссылки которых подлежат изменению.

      Если этого не сделать, то Вы получите целую кучу страниц с ошибкой 404. Я понятно объяснил или немного путано? В общем, техподдержка ответила внятно, по крайней мер, понятно направление, куда двигаться. Конечно, работа предстоит нешуточная.

      Желаю Вам побыстрее с ней справиться и восстановить позиции веб-ресурса. Это искреннее пожелание, потому что на своей шкуре испытал самые разные проблемные истории, хотя в такую ситуацию и не попадал.

      Ответить
  3. Владимир

    Забыл добавить. Т.к карточку товара отвязали от групп товаров разумеется очень много редиректа и я не могу оценить на сколько это плохо в целом.

    Ответить
    1. Игорь Горнов автор

      Владимир, первый вариант (удаление и переобход) мне кажется более правильным, хотя это более долгий процесс (переиндексация и восстановление позиций займет немало времени). Второй вариант (редирект) кажется неплохим выходом, но меня смущает количество страниц.

      Самое ужасное, что никто (даже гуру SEO) не сможет сказать наверняка, как поведут себя поисковики. Я пытаюсь поставить себя на Ваше место, наверное, я все-таки выбрал бы первый вариант (но это, как Вы понимаете, мое субъективное мнение, которое не является истиной в последней инстанции, ведь случай нетривиальный).

      А вы не пытались написать Платону и получить ответ на этот вопрос, так сказать, из первых рук? Думаю, поддержка Яндекса ответила бы на него более предметно.

      Ответить
  4. Владимир

    Добрый день, Игорь. На форум обращался и пока без результативно. Готовых модулей нет, найти программиста который его сможет сделать тоже не получается.

    Подскажите пожалуйста как лучше поступить в моей ситуации:

    Из вебмастера выгрузить в эксель все страницы которые выдают код 404 и отправить их в вебмастере на удаление из поиска и подождать условно месяц пока робот их удалит, а потом поэтапно все страницы отправлять на переобход в вебмастере. Или настроить редирект.

    Пример:
    Было /catalog/goods-for-dogs/forage-dry-for-dogs/grandorf-dog-lamb-brown-rice-junior-all-breeds/ — отправляю на удалению

    Стало: /catalog/grandorf-dog-lamb-brown-rice-junior-all-breeds-id146307/ — потом отправляю на переобход

    Какой вариант может сработать (если сработает) и какой вариант будет правильный?

    Ответить
  5. Владимир

    Добрый день. Речь именно о 404 страницах. Есть интернет-магазин на движке HostCms. Дело в том, что в силу глупости и прочих обстоятельств получились 6к 404-х страниц. В силу нехватки знаний и опыта не понимаю как этот косяк исправить. Как это обычно бывает сломать все не сложно, а вот исправить куда сложнее.
    Как появились эти 404 страницы:

    1. Удаленный товар
    2. Смена товарной группы (до недавних пор карточка товара принадлежала группам)
    3. Варварское укорачивание ссылки без редиректа.
    4. Программисты убрали привязку товаров к группе и присвоили ссылкам айди, т.к групп много и могли бы быть дубли (подстраховались) ссылка стала такой /catalog/id147867-farmina-vet-life-dog-obesity-dieticheskij-suxoj-korm-dlya-sobak-/ и спустя 10 часов я их попросил вообще убрать айди, они сказали что это невозможно и попросил их убрать id147867 в конец ссылки, а вот кто бы знал, что около 1к страниц за эти 10 часов уже проиндексируются…

    Некоторые товары ушли из поиска, какие-то спустились в низ и ведут на 404 страницу.
    Было так /catalog/goods-for-dogs/forage-dry-for-dogs/farmina-vet-life/farmina-vet-life-dog-obesity-dieticheskij-suxoj-korm-dlya-sobak/

    Сейчас ссылка выглядит так /catalog/farmina-vet-life-dog-obesity-dieticheskij-suxoj-korm-dlya-sobak-id147867/

    Люди которые в поиске ищут этот товар попадают на первую ссылку. И разумеется уходят с сайта.

    Почему так получилось и что происходило с ссылкой:

    /goods-for-dogs/ этот кусок поменялся на /dogs/ и /forage-dry-for-dogs/ на /korm/ и полностью убралась /farmina-vet-life/ т.к карточка товара поднялась на уровень выше (без редиректа)

    В итоге получилась такая ссылка /catalog/dogs/korm/farmina-vet-life-dog-obesity-dieticheskij-suxoj-korm-dlya-sobak/

    Потом убрали привязку к группе товаров.
    И теперь она такая /catalog/farmina-vet-life-dog-obesity-dieticheskij-suxoj-korm-dlya-sobak-id147867/

    Теперь этот товар не найти в поиске, а только старую ссылку. Конечно можно настроить на эту страницу редирект первое что приходит на ум. Но таких страниц огромное множество делать руками это очень жестко и требуется очень много времени. Возможно есть какие-то оптимизированные процессы..
    По факту по мимо 6к страниц, которые отображает Вебмастер получил массу убитых ссылок, которые по ключевым запросам были в топе и на вторых страницах и теперь их там нет..
    Перерыл весь интернет и не могу понять реально ли это исправить самостоятельно, если без опыта это невозможно, то какого специалиста искать?

    Ответить
    1. Игорь Горнов автор

      Да, Владимир, дело действительно серьезное. К сожалению, с движком HostCms я незнаком, поэтому не смогу Вам оказать реальную помощь. А Вы не пробовали обратиться на форум поддержки HostCms? Ведь должен же быть какой-то модуль для ускорения процесса.

      Ответить
  6. Владимир

    Добрый вечер. А на сколько реально опытному пользователю исправить 6к внутренних страниц запрещенных к индексированию или не существующих? При исправлении или удалению таковых страниц пропадут ли они из вебмастера?

    Ответить
    1. Игорь Горнов автор

      Владимир, немного не понял вопрос. Если страницы запрещены к индексированию, то как Вы собираетесь их исправлять? Разрешить их? Так это спокойно можно сделать в robots.txt либо через мета-тег robots, прописав соответствующий атрибут «index» (для Вордпресса это можно сделать с помощью плагина All in One SEO Pack). Из Вебмастера они не пропадут. Что касается несуществующих страниц (как понимаю, это те, которые отдают код ответа 404?), то через некоторое время робот перестанет их обходить и они пропадут из Вебмастера.

      Ответить