Карта сайта XML и ее создание для Яндекс и Гугл c помощью sitemap generator онлайн и иных средств

Здравствуйте, уважаемые читатели блога Goldbusinessnet.com. В данной статье планирую собрать воедино все нюансы составления карты сайта (sitemap) в формате XML, поскольку это один из краеугольных камней создания и успешного продвижения веб-проекта.

Ведь именно сайтмап указывает поисковым системам (для рунета наиболее актуальны Яндекс и Гугл) наиболее важные веб-страницы, подлежащие индексации, в результате которой они станут доступными для посетителей через поиск, что и является конечной целью.

Прежде чем перейти к основной части статьи, замечу, что необходимо различать карту веб-сайта, выполненную посредством файла с расширением .xml, от сайтмапа для пользователей в формате HTML (создаваемой при помощи плагинов или без их участия).

Основное их отличие в том, что первый вариант удобен для ботов поисковиков и не находится в зоне прямой видимости, а второй, содержащий структурированный перечень ссылок на все web-страницы ресурса, доступен посетителям и играет роль средства навигации при их "путешествии по сайту" (кстати, HTML-вариант иногда используется и поисковыми системами при индексации в качестве дополнительного инструмента, особенно, когда проект включает много материалов).

Ниже мы подробнее рассмотрим, каков должен быть синтаксис и содержание файла «sitemap.xml» (кстати, он может носить и другое, произвольное название, об этом тоже поговорим) и какие варианты его создания существуют (вручную, с помощью онлайн-генераторов или плагинов).

Какова роль файла sitemap и его связь с robots.txt

Думаю, во вступительной части статьи я вас убедил в том, насколько важна карта сайта, которая создается в формате XML. Многие молодые вебмастера совершенно напрасно игнорируют этот шаг, что может привести к серьезному замедлению раскрутки ресурса. Не повторяйте их ошибок и каждый раз при создании сайта составляйте сайтмап, вреда это точно не принесет, а вот пользы в виде ускорения индексации страниц может быть немало.

Почему важно создавать сайтмап именно на современном этапе? Если отмотать десяток лет назад или даже чуть более, то в сети попадались исключительно ресурсы, содержавшие набор HTML-страничек, которые практически все несли полезный контент и предназначались к индексации.

Поэтому это облегчало задачу роботам поисковиков, которые сканировали подобные проекты и забирали в индекс все подряд. Сейчас же мы живем в эпоху CMS (систем управления контентом сайта, в просторечии именуемых движками), которые автоматизируют процесс создания сайтов. Но здесь есть и обратная сторона медали.

Все эти движки, включая самый популярный в мире WordPress, генерируют массу "мусорных" страниц и дублей, не содержащих нужного пользователям контента, попадание в индекс которых грозит обернутся жесткими санкциями со стороны поисковых систем. Вот поэтому-то и возникла необходимость как-то упорядочить процесс индексирования, чтобы отделить мух от котлет. Эту роль наряду с sitemap.xml выполняет и файл robots.txt, который работает с ним в связке.

Первый позволяет вам указать ботам (роботам) поисковиков, какие страницы вашего ресурса имеют полезное содержание, вследствие чего подлежат попаданию в индекс. Это позволит до минимума сократить время сканирования проекта, что будет ему только в плюс.

Ну а второй, robots.txt, с помощью соответствующих директив недвусмысленно показывает также и то, куда залезать не стоит. В результате боты Яндекса и Гугла не будут действовать "вслепую" и не сунутся туда, где находятся вспомогательные объекты (скажем, те же файлы движка).

Напрямую эти два важнейших файла связаны через директиву «Sitemap», указываемую в robots.txt, содержанием которой является абсолютная ссылка на карту веб-ресурса:

Sitemap: http://site.ru/sitemap.xml

Правда, на современном этапе данная директива необязательна как для Яндекса, так и Гугла, достаточно добавить роботс тхт и сайтмап в панелях вебмастеров этих поисковиков. При этом индексация останется максимально корректной.

Более того, сам файл карты сайта может иметь название, отличное от обычного «sitemap.xml». Многие вебмастера с целью усиления безопасности пользуются этим в полной мере и прячут его от нежелательных взоров, не только не упоминая в robots.txt, но и маскируя его сущность за произвольным набором символов, нигде этого не афишируя и внося путь до сайтмапа только лишь в Яндекс Вебмастер и Google Search Console. Вот пример:

http://site.ru/dyapjhsnylc.xml

Конечно, порой роботы ПС в соответствии с заложенным в них алгоритмом могут действовать непредсказуемо, но, поскольку официальные представители поисковиков сами настоятельно рекомендуют использовать sitemap.xml и robots.txt, в подавляющем большинстве случаев корректное применение этих файлов позволяет решить задачу. Ведь это выгодно всем.

Принципы создания карты сайта в формате XML

Поскольку в современных реалиях время просто бесценно и его перманентно катастрофически не хватает, на помощь приходят разные средства автоматизации. Не исключение и процесс создания карты сайта, тем более, что вручную ее делать, например, для крупных и часто обновляемых веб-проектов, мягко говоря, нереально.

Для каждой CMS существуют различного рода расширения и модули, помогающие решить такую задачу. Кроме того, на просторах глобальной сети есть достаточно специализированных онлайн генераторов для этих же целей. Их мы разберем чуть ниже.

Ну а сейчас обязательно ознакомимся с синтаксисом, который используется при генерировании sitemap, поскольку это может быть полезным, в том числе при составлении карты вручную для небольших ресурсов, которые редко обновляются.

Как я уже сказал выше, для реализации нашей задачи необходимо создать файл с расширением xml (это можно сделать с помощью любого подходящего редактора, лучшим из которых по моей оценке на данный момент является Нотепад с двумя плюсами), формат которого, что очень важно, поддерживается и Яндексом, и Гуглом. Вот наглядный пример такого файлика для блога:

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>https://goldbusinessnet.com/</loc>
    <lastmod>2018-12-23T12:00:37+01:00</lastmod>
    <changefreq>always</changefreq>
    <priority>1.0</priority>
 </url>
 ...........................................................
 <url>
    <loc>https://goldbusinessnet.com/kontakty/</loc>
    <lastmod>2018-12-23T12:00:39+01:00</lastmod>
    <changefreq>always</changefreq>
    <priority>0.8</priority>
  </url>
  ..........................................................
  <url>
    <loc>https://goldbusinessnet.com/osnovy-html/formy-v-html-tegi-form-input-atributy/</loc>
    <lastmod>2018-12-23T12:00:45+01:00</lastmod>
    <changefreq>always</changefreq>
    <priority>0.6</priority>
    ........................................................
  </url>
</urlset>

Если взглянуть на творение, представленное выше, то даже интуитивно можно определить, что здесь присутствует какая-то дополнительная информация кроме собственно ссылок на главную вебстраницу, постоянные страницы, рубрики и записи. И действительно, это так.

В первой строке содержатся данные о версии XML (в данном примере это «version="1.0"», которая является актуальной на данный момент) и кодировке (для обеспечения корректной работы файла в большинстве случаев должна быть указана «UTF-8»).

Вторая строка служит открывающим тегом <urlset> (который включает все элементы, касающиеся находящихся в карте урлов), содержащим ссылку на сайт с пространством имен языка XML:

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">

Эти две строки должны присутствовать в каждом подобном документе. После них идет полный набор открывающих и закрывающих тегов url, между которыми располагаются еще некоторые элементы, содержащие всю подноготную в отношении каждой ссылки на ту или иную страницу.

Это информация понятна роботам Яндекса и Гугла, а значит, позволяет точнее корректировать индексацию. Вот все элементы, которые могут присутствовать между <url> и </url>:

  • <loc> — указывает на локализованные страницы сайта;
  • <lastmod> — дата и время последнего редактирования страницы в международном формате YYYY-MM-DDThh:mm:ssTZD. Его синтаксис включает в себя несколько составляющих: секция даты (год - порядковый номер месяца - число месяца), секция времени, начинающаяся с T (часы - минуты - секунды), и секция TZD, отображающая часовой пояс, который может быть расположен как к востоку от нулевого меридиана Земли (при этом показатель TZD будет положительным, например, +01:00), так и к западу (-01:00). Москва, скажем, находится в третьем часовом поясе, следовательно, московское время сдвинуто на 3 часа (+03:00);
  • <changefreq> — частота обновления: всегда (always), раз в час (hourly), в день (daily), в неделю (weekly), в месяц (monthly), в год (yearly), никогда (never). Причем, значение «always» применяется к тем документам, которые изменяются при каждом доступе, а «never» в основном используется для архивов;
  • <priority> — приоритет страниц по сравнению с другими. Дело в том, что робот не каждый раз обходит полностью сайт, особенно если он поражает своими размерами. В этом случае он обязательно посетит страницы с наивысшим приоритетом, который имеет значения от 0 до 1. Причем, можно использовать и показатель по умолчанию, равный 0.5, ежели ваш ресурс небольшой и все его странички примерно одинаково важны.

Во всей этой структуре обязательным является лишь содержимое, заключенное между <loc> и </loc>, иные теги необязательны, но, как, наверное, вы уже поняли, пренебрегать ими не стоит.

Необходимо также отметить, что существуют определения требования к файлу сайтмап, вес которого в несжатом формате не должен превышать 50 МБ и количество присутствующих в нем URL не может быть более 50 000. Поэтому для больших сайтов потребуется иной подход.

Ежели размер файла и/или число урлов превышает допустимый предел, то создается несколько сайтмапов и формируется так называемый файл индекса, который содержит ссылки на них:

<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <sitemap>
    <loc>https://goldbusinessnet.com/sitemap1.xml.gz</loc>
    <lastmod>2014-10-01T18:23:17+00:00</lastmod>
  </sitemap>
  <sitemap>
   <loc>https://goldbusinessnet.com/sitemap2.xml.gz</loc>
   <lastmod>2014-10-01T18:23:17+00:00</lastmod>
  </sitemap>
</sitemapindex>

Для того, чтобы по возможности ликвидировать все белые пятна при изучении сегодняшней темы, попробуйте ознакомиться с FAQ (часто задаваемыми вопросами) и ответами на них, которые находятся на официальном сайте Sitemaps.org.

Как создать sitemap xml в генераторе онлайн

Суть содержания файлов для карты сайта нами изучена, настало время перейти к инструментам, которые позволяют автоматизировать этот процесс. Для начала отмечу онлайн сервисы, которые можно идентифицировать под общим названием sitemap generator.

Их достаточно в интернете, так что при желании вы можете быстро их найти и протестировать. Со своей стороны могу порекомендовать ресурс My Sitemap Generator, где не только можно выбрать из трех вариантов генерации подходящий, но и найти полезные материалы для вебмастеров:

Правда, бесплатный генератор здесь имеет ограничение в 500 URL, что, впрочем для небольшого ресурса вполне допустимо. Ну а платный вариант Pro сможет создать карту сайта до 1 000 000 страниц и при этом автоматически разбить ее на части с уже готовым файлом индекса всего лишь за $2.50. Число урлов в каждой из частей можно указать в настройках перед запуском процесса:

Скорее всего, вы пожелаете воспользоваться бесплатным генератором. В этом случае вписываете URL главной страницы сайта, при необходимости указываете эмайл (чтобы получить на почту уже готовый файл, не дожидаясь окончания его формирования на сервисе):

В нижней части находится блок настроек, которые по умолчанию очень тщательно подобраны и подходят для большинства стандартных проектов, поэтому, скорее всего, ничего там менять не придется. Но на всякий случай их можно просмотреть и при необходимости указать собственные параметры. После этого подготовку к запуску формирования карты можно считать оконченной, а посему вводите цифровую капчу (здесь все о понятии CAPTCHA) и жмите на кнопку «Старт!».

Через некоторое время (которое зависит от количества обрабатываемых урлов и при применении бесплатного генератора составляет лишь несколько минут) процесс генерации будет завершен, в результате вы получите готовый файл, который можно будет скачать прямо с сервиса. Если вы указали свой e-mail, то получите файлик прямо на свой ящик автоматически.

К сожалению, жирным минусом создания сайтмапа вручную и посредством обычного генератора является то, что содержание полученного файла необходимо время от времени обновлять по мере появления новых страниц. Хорошо, если вебресурс достиг пика своего развития либо не является проектом с быстро меняющимся содержимым, тогда повторную генерацию карты придется делать не так часто. Ну а если новый контент появляется постоянно?

В связи с этим обратить ваше внимание на еще один вариант, который имеется на My Sitemap Generator, в настройках которого есть опция, позволяющая через определенное время получать актуальную карту со ссылками на новые страницы. Однако, при реализации такой возможности вам тоже придется заплатить (есть четыре тарифных плана):

Обновление карты по заранее установленному расписанию происходит благодаря установке PHP-скрипта на сервер, где находится сайт.

Генерация сайтмап в Вордпрессе

Поскольку львиная доля ресурсов в современном интернете зиждется на CMS, есть логика в том, что в каждой из систем управления существуют свои инструменты по созданию sitemap. Так как именно WordPress заслужил право быть самым востребованным движком в мире, именно на его примере и рассмотрим те средства, которые способны решить эту задачу.

Начинаем с известного многим плагина Google XML Sitemaps, который регулярно обновляется на протяжении уже длительного времени, а потому очень популярен. Процесс скачивания, установки и активации этого расширения занимает считанные минуты.

По умолчанию все настройки установлены грамотно, поэтому для стандартного веб-сайта менять практически ничего не надо, тем более, что сделать это можно в любое время. В дальнейшем при необходимости вы сможете изменить, например, частоту обновления карты. Подробности об этом плагине узнаете, если перейдете по соответствующей ссылке, данной чуть выше.

По сути Google XML Sitemaps (и это вытекает из его названия) сконструирован применительно к Гуглу, но поскольку требования к формату сайтмапа этой поисковой системы и Яндекса практически тождественны, то и волноваться незачем.

Отличным альтернативным решением для вебмастеров может стать модуль «XML карта сайта», который входит в состав замечательного плагина All in One SEO Pack (в этом материале все о нюансах установки и настройки AiOSP). Сначала его нужно активировать в разделе «Управление модулями» и только после этого он будет доступен из левого меню панели управления WordPress:

Как и везде, дефолтные настройки вполне подходят обычному блогу или вебсайту. Акцентирую ваше внимание лишь на одной очень полезной фишке, дающей возможность генерирования динамической карты сайта. При включении этой опции сайтмап будет создаваться только по запросу поискового бота и, в отличии от обычного статического, не будет храниться на сервере.

Это дает массу преимуществ, поскольку подобный файл невозможно повредить, удалить или же перезаписать. Кроме того, вам уже не надо будет беспокоиться о его своевременном обновлении, поскольку добавление новых URL будет происходить на полном автомате. И, что важно, в наш меркантильный век вы бесплатно пользуетесь всеми этими преимуществами.

Безусловно, идеала на практике не существует, использование динамического сайтмапа имеет и свои минусы (например, он может дать сбой при какой-то неполадке в недрах плагина AiOSP). Из собственного опыта могу сказать, что применение этой опции на протяжении длительного весьма времени у меня складывалось вполне успешно. Хотя окончательное решение принимать вам.

Как загрузить XML карту на сервер хостинга

Ежели вы воспользовались для сотворения карты каким-то из модулей или расширений для сайта под управлением Вордпресса либо другого движка, то, скорее всего, файл сайтмап будет создан автоматически, и вам не придется предпринимать больше никаких шагов. При создании этого файлика вручную либо при помощи онлайн генератора вы должны будете залить его на сервер.

В случае сотворения XML-карты собственноручно, как я отмечал, логично будет воспользоваться продвинутым блокнотом Нотепад++, имеющим множество полезных функций. Создайте там файл «sitemap» (помните, имя его может быть произвольным?), наполните содержанием (о принципах его составления было сказано ранее в этой же статье) и сохраните с расширением .xml:

Сохраненный таким образом либо заранее созданный при помощи онлайн генератора уже готовый файлик требуется загрузить при помощи ФТП-клиента, самым популярным из которых заслуженно является Filezilla, на свой хостинг (как выбрать провайдера и как приобрести место для вебсайта), где находятся все файлы вашего веб-проекта.

Для корректной работы и облегчения доступа к нему поисковых ботов сайтмап рекомендуется поместить в корневую папку (которая в зависимости от конфигурации сервера обычно называется «public_html», «HTDOCS» либо ее наименование совпадает с доменным именем ресурса):

Как добавить sitemap в Яндекс и Гугл

Неважно, каким из описанных выше способов вы создавали карту XML, но для того, чтобы она эффективно помогала индексации страниц вашего сайта, необходимо ее добавить в панели Вебмастеров тех поисковых систем, в которых вы планируете продвигать свой проект.

Мы уже знаем, что для рунета главными являются Google и Yandex, поэтому туда мы немедля и отправимся, чтобы с помощью специально созданных для этого инструментов вписать путь до сайтмапа, пример которого я еще разок напомню:

https://goldbusinessnet.com/sitemap.xml

В Яндекс Вебмастере это можно сделать в разделе «Индексирование», только перед добавлением обязательно проверьте его на валидность (имейте ввиду, что в случае динамической карты сайта загрузить файл для проверки по ссылке возможности нет, так как физически он отсутствует):

В панели для вебмастеров Google (Search Concole) это же действие производится с помощью вот такой формы:

Пожалуй, затронуты все ключевые позиции по созданию и добавлению карты сайта, если я вдруг что-то упустил, у вас есть возможность устранить белые пятна с помощью прямого общения в комментариях. Ну и заодно осмелюсь предложить подписаться на обновления блога, если только тематика данного ресурса вас хоть сколь-нибудь привлекает.

Еще статьи по данной теме:
Самые интересные публикации из рубрики: Создание сайтов

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Чтобы ввести любой код, вставьте его между [php] и [/php]. Ссылка (URL), помещенная в текст комментария, не будет активной. C целью ее выделения и более удобного копирования можно заключить ее между тегами <pre> и </pre>.