вы можете воспользоваться услугами веб-студии filandor и filandor.com. Студия работает много лет и предоставляет комплексные услуги.
Поисковые роботы, также называемые пауками, — это боты, управляемые поисковыми системами, такими как Google, для автоматического сканирования веб-сайтов и их индексации. Первым шагом к индексации веб-страниц является доступ поисковых роботов к файлам robots.txt и чтение инструкций, определяющих, какие области веб-сайта разрешены или запрещены для сканирования.
Знание функциональных возможностей файлов robots.txt и методов изменения инструкций для поисковых роботов помогает понять новые аспекты оптимизации и безопасности веб-сайтов.
Оглавление
Что такое файл robots.txt?
Роботы.txt — это файл конфигурации, содержащий инструкции для ботов (в основном поисковых роботов), пытающихся получить доступ к определенным страницам или разделам веб-сайта. Он находится в корневом каталоге WordPress, это первый файл, который поисковые роботы видят при входе на сайт.
Чтобы увидеть инструкции этого файла, роботы поисковых систем должны поддерживать Протокол исключения роботов (REP). Этот протокол является стандартом, объясняющим, как боты (веб-роботы) взаимодействуют с веб-сайтами. На практике это заставляет их загружать файл robots.txt и анализировать информацию о том, какие области сайта они должны сканировать.
Однако не всем веб-сайтам нужен файл robots.txt, потому что поисковые системы обычно могут найти и проиндексировать все важные веб-страницы, и они не будут отображать неважные страницы в результатах поиска. Наличие файла robots.txt не является надежным механизмом защиты ваших веб-страниц от Google по двум причинам:
- Файл robots.txt содержит инструкции которые не позволяют ботам сканировать, а не индексировать страницы. Страница может быть проиндексирована, если на нее ведут внешние ссылки, даже если ее не сканируют боты.
- Не все боты строго следуют правилам в файле robots.txt, хотя наиболее важные из них — боты Google, Bing и Yahoo — подчиняются стандартам REP.


Тем не менее, есть и другие способы предотвратить появление вашей страницы WordPress в результатах поиска, например, добавить на страницу метатег noindex или защитить ее паролем.
Почему файлы robots.txt важны для SEO сайта
Поскольку файл robots.txt позволяет управлять поисковыми роботами, его инструкции существенно влияют на SEO (поисковую оптимизацию). Правильные директивы могут предоставить вашему сайту WordPress немало преимуществ.
Хорошо написанные инструкции могут запретить доступ плохим ботам смягчение их негативного влияния на общую скорость сайта. Однако вы должны помнить, что вредоносные боты или скребки электронной почты могут игнорировать ваши указания или даже сканировать файл robots.txt, чтобы определить, какие области вашего сайта следует атаковать в первую очередь. Лучше не полагаться на файл robots.txt как на единственный инструмент безопасности и использовать хорошие плагины безопасности, если у вас возникают проблемы с плохими ботами.
Даже хорошая активность роботов может привести к перегрузке серверов или даже к их сбою. Robots.txt может содержать инструкции для задержка сканирования чтобы сканеры не загружали слишком много фрагментов данных одновременно, что утяжеляло серверы.
Улучшенные директивы robots.txt гарантируют, что ваш сайт квота сканирования используется с максимальным эффектом и что краулинговый бюджет для ботов Google не превышен. Поскольку боты могут сканировать сайт максимальное количество раз за определенное время, полезно, если они сосредоточатся на действительно релевантных разделах. Вы можете добиться этого, заблокировав неважные страницы.
Что вы можете сделать с robots.txt
Как и все другие файлы веб-сайтов, файл robots.txt хранится на веб-сервере, и вы обычно можете просмотреть его, введя URL-адрес домашней страницы сайта, а затем /роботы.txt нравиться www.anysite.com/robots.txt. Файл нигде на сайте не связан, поэтому маловероятно, что пользователи получат к нему доступ случайно. Вместо этого большинство поисковых роботов, придерживающихся протокола REP, будут искать этот файл перед сканированием веб-сайта.
Как создавать и редактировать robots.txt
WordPress автоматически создает виртуальный файл robots.txt для вашего сайта и сохраняет его в корневом каталоге. По умолчанию такой файл содержит следующие директивы:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Однако если вы хотите изменить инструкции для поисковых роботов, вам необходимо создать настоящий файл robots.txt и перезаписать старый файл. Есть два простых способа сделать это:
Добавление правил в robots.txt
Теперь, когда вы знаете о преимуществах файла robots.txt и о том, как его можно редактировать, давайте посмотрим, что директивы этого файла может содержать и каких результатов он может достичь:
- user-agent: идентифицирует поисковый робот (названия поисковых роботов можно найти в базе данных robots);
- disallow: запрещает доступ к определенным каталогам или веб-страницам;
- разрешить: разрешает сканирование определенных каталогов и веб-страниц;
- карта сайта: отображает местоположение карты сайта;
- Crawl-delay: отображает количество миллисекунд, которое каждый бот должен ждать между запросами;
- *: обозначает любое количество элементов;
- $: обозначает конец строки.
Инструкции в robots.txt всегда состоят из двух частей: части, в которой указывается, к каким роботам применяется следующая инструкция, и самой инструкции. Посмотрите еще раз на приведенный выше пример:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Знак звездочки — это «дикая карта», означающая, что инструкции применимы ко всем ботам, которые случайно зайдут. Таким образом, всем ботам запрещено сканировать контент в /wp-admin/ каталог. Следующая строка перезаписывает предыдущее правило, разрешающее доступ к /wp-admin/admin-ajax.php файл.
Рекомендации по использованию файлов robots.txt
Ваш бизнес должен привлечь аудиторию, чтобы прийти на ваш сайт. Используйте свои знания о robots.txt и превратите его в эффективный инструмент для улучшения SEO и продвижения своих продуктов и услуг. Знание того, что robots.txt может и чего не может делать, уже является хорошим началом для повышения рейтинга вашего сайта. Вот несколько правил, которые следует помнить, чтобы максимально использовать robots.txt и не рисковать безопасностью своего сайта.
- Не используйте robots.txt для предотвращения доступа к конфиденциальным данным., такие как личная информация, от появления в результатах поисковых систем. Внешние источники могут содержать ссылки на вашу страницу и сделать ее индексируемой без вашего ведома.
- Ссылки на заблокированных страницах также не будут проиндексированы, что означает, что такие ссылки не получат ссылочный вес с ваших страниц.
- Лучше запретить каталоги, а не страницы если вы хотите скрыть конфиденциальный контент. Помните, что некоторые вредоносные боты могут искать конфиденциальные страницы в файле robots.txt.
- Вы можете использовать команду disallow, чтобы не допускать поисковых роботов к дубликатам страниц, например, одинаковый контент на разных языках. Однако пользователи не увидят их в поисковых системах, что не повысит рейтинг вашего сайта.
- Используйте правильный синтаксис при редактировании файла robots.txt — даже малейшая ошибка может сделать весь сайт недоступным для индексации.
- После того, как вы создадите и загрузите файл robots.txt, убедитесь, что вы правильно написали код, перейдя в Инструмент тестирования Google и следуя инструкциям.
- Как правило, хорошей практикой является включить расположение карты сайта в конце инструкций robots.txt чтобы роботы-сканеры не пропустили ничего важного. URL-адрес карты сайта может находиться на сервере, отличном от файла robots.txt, и вы можете включить более одной карты сайта.
Как популярные сайты WordPress используют свои файлы robots.txt?
Давайте посмотрим, как популярные веб-сайты, созданные с помощью WordPress, обрабатывают свои файлы robots.txt.
Observer.com




Наблюдатель использует стандартные инструкции WordPress robots.txt, запрещающие всем ботам сканировать каталог /wp-admin/, за исключением файла /wp-admin/admin-ajax.php и включая расположение их файлов Sitemap.
www.rollstone.com




На веб-сайте Rolling Stone есть файл robots.txt, который включает карты сайта, ограничения по умолчанию для всех ботов на сканирование файлов /wp-admin/ и конкретные инструкции для ботов Swiftbots и cXensebots не сканировать определенные страницы и иметь пятимиллисекундную задержку между запросами.
Vogue.com




Vogue.com отказывает всем ботам в доступе к большему списку страниц и ограничивает доступ ко всему веб-сайту ботам Linkcheck.
katyperry.com




Вот пример того, как SEO-плагин изменяет файл robots.txt. В данном случае это работа плагина Yoast, и всем ботам разрешено сканировать весь сайт. Строки, начинающиеся со знака «#», являются не директивами, а комментариями.
crocoblock.com




Файл robots.txt для сайта Crocoblock не накладывает ограничений на поисковые роботы. Вместо этого мы указали файлы, на которых мы хотели, чтобы боты сосредоточились.
Резюме
Файл WordPress robots.txt находится в корневом каталоге каждого сайта, и это первое место, которое посещают поисковые роботы, чтобы найти инструкции о том, какие части веб-сайта следует или не следует оценивать, индексировать и ранжировать. Возможность создавать и редактировать собственный файл robots.txt может помочь оптимизировать ваш веб-сайт для SEO и контролировать хороших ботов.
Если вы хотите избежать угроз безопасности, придерживайтесь рекомендаций по редактированию файлов robots.txt и узнайте, для чего можно и для чего нельзя использовать этот инструмент.