вы можете воспользоваться услугами наших специалистов и заказать продвижение сайта.

Взгляды автора полностью принадлежат ему (за исключением маловероятного случая гипноза) и могут не всегда отражать взгляды Моза.

Каждый веб-сайт в той или иной степени полагается на Google. Все просто: ваши страницы индексируются Google, что позволяет людям находить вас. Так и должно быть.

Однако это не всегда так. Много страниц никогда не попадут в индекс Google.

Если вы работаете с веб-сайтом, особенно с большим, вы, вероятно, заметили, что не каждая страница на вашем веб-сайте индексируется, и многие страницы ждут неделями, прежде чем Google их подберет.

Этой проблеме способствуют различные факторы, и многие из них являются теми же факторами, которые упоминаются в отношении ранжирования: качество контента и ссылки являются двумя примерами. Иногда эти факторы также очень сложные и технические. Современные веб-сайты, которые в значительной степени полагаются на новые веб-технологии, в прошлом, как известно, страдали от проблем с индексацией, а некоторые до сих пор.

Многие оптимизаторы поисковых систем по-прежнему считают, что Google не может индексировать контент из-за технических особенностей, но это миф. Хотя это правда, что Google может не проиндексировать ваши страницы, если вы не отправляете последовательные технические сигналы о том, какие страницы вы хотите проиндексировать, или если у вас недостаточный бюджет сканирования, не менее важно, чтобы вы соответствовали качеству своего контента.

Большинство веб-сайтов, больших или малых, содержат много контента, который следует проиндексировать, но это не так. И хотя такие вещи, как JavaScript, действительно усложняют индексацию, ваш веб-сайт может страдать от серьезных проблем с индексированием, даже если он написан на чистом HTML. В этом посте давайте рассмотрим некоторые из наиболее распространенных проблем и способы их решения.

Причины, по которым Google не индексирует ваши страницы

Используя специальный инструмент проверки индексации, я проверил большую выборку самых популярных интернет-магазинов в США на предмет проблем с индексацией. Я обнаружил, что в среднем 15% их индексируемых страниц продуктов нельзя найти в Google.

Результат был чрезвычайно удивительным. Далее мне нужно было узнать «почему»: каковы наиболее распространенные причины, по которым Google решает не индексировать то, что технически должно быть проиндексировано?

Консоль поиска Google сообщает о нескольких статусах неиндексированных страниц, например «Просканировано — в настоящее время не проиндексировано» или «Обнаружено — в настоящее время не проиндексировано». Хотя эта информация явно не помогает решить проблему, это хорошее место для начала диагностики.

Основные проблемы с индексацией

На основе большой выборки веб-сайтов, которые я собрал, наиболее популярные проблемы индексации, о которых сообщает Google Search Console, следующие:

1. «Просканировано — в настоящее время не проиндексировано»

В этом случае Google посетил страницу, но не проиндексировал ее.

Исходя из моего опыта, это обычно проблема качества контента. Учитывая бум электронной коммерции, который в настоящее время происходит, мы можем ожидать, что Google станет более требовательным, когда дело доходит до качества. Поэтому, если вы заметили, что ваши страницы «просканированы — в настоящее время не проиндексированы», убедитесь, что контент на этих страницах имеет уникальную ценность:

  • Используйте уникальные заголовки, описания и копии на всех индексируемых страницах.

  • Избегайте копирования описаний продуктов из внешних источников.

  • Используйте канонические теги для объединения повторяющегося контента.

  • Запретите Google сканировать или индексировать некачественные разделы вашего веб-сайта с помощью файла robots.txt или тега noindex.

Если вам интересна эта тема, я рекомендую прочитать книгу Криса Лонга просканировано — в настоящее время не проиндексировано: руководство по статусу покрытия.

2. «Обнаружено — в настоящее время не индексируется»

Это моя любимая проблема, потому что она может охватывать все, от проблем со сканированием до недостаточного качества контента. Это серьезная проблема, особенно в случае крупных магазинов электронной коммерции, и я видел, как это применимо к десяткам миллионов URL-адресов на одном веб-сайте.

Google может сообщить, что страницы продуктов электронной коммерции «обнаружены — в настоящее время не проиндексированы» по следующим причинам:

  • Проблема с бюджетом сканирования: в очереди сканирования может быть слишком много URL-адресов, и они могут быть просканированы и проиндексированы позже.

  • Проблема качества: Google может подумать, что некоторые страницы в этом домене не стоит сканировать, и решит не посещать их, ища шаблон в их URL.

Чтобы справиться с этой проблемой, требуется некоторый опыт. Если вы обнаружите, что ваши страницы «обнаружены — в настоящее время не проиндексированы», сделайте следующее:

  1. Определите, есть ли шаблоны страниц, попадающих в эту категорию. Может быть, проблема связана с определенной категорией товаров, а вся категория не имеет внутренней связи? Или, может быть, огромная часть страниц продуктов ожидает в очереди на индексирование?

  2. Оптимизируйте свой краулинговый бюджет. Сосредоточьтесь на обнаружении некачественных страниц, на сканирование которых Google тратит много времени. К обычным подозрениям относятся страницы отфильтрованных категорий и страницы внутреннего поиска — эти страницы могут легко попасть в десятки миллионов на типичном сайте электронной коммерции. Если робот Googlebot может свободно сканировать их, у него может не быть ресурсов для доступа к ценным материалам на вашем веб-сайте, проиндексированным в Google.

Во время вебинара «Рендеринг SEO» Мартин Сплитт из Google дал нам несколько советов по устранению проблемы «Обнаружено не проиндексировано». Проверьте это, если хотите узнать больше.

3. «Повторяющееся содержание».

Этот вопрос подробно рассматривается в Учебном центре Moz SEO. Я просто хочу указать здесь, что дублирование контента может быть вызвано разными причинами, например:

  • Варианты языка (например, английский язык в Великобритании, США или Канаде). Если у вас есть несколько версий одной и той же страницы, ориентированных на разные страны, некоторые из этих страниц могут оказаться неиндексированными.

  • Дублированный контент, используемый вашими конкурентами. Это часто происходит в индустрии электронной коммерции, когда несколько веб-сайтов используют одно и то же описание продукта, предоставленное производителем.

Помимо использования rel = canonical, 301 редиректа или создания уникального контента, я бы сосредоточился на предоставлении уникальной ценности для пользователей. Fast-growing-trees.com может быть примером. Вместо скучных описаний и советов по посадке и поливу на сайте можно увидеть подробный FAQ по многим продуктам.

Кроме того, вы можете легко сравнивать похожие товары.

Для многих продуктов есть FAQ. Также каждый покупатель может задать подробный вопрос о заводе и получить ответ от сообщества.

Как проверить индексирование вашего сайта

Вы можете легко проверить, сколько страниц вашего сайта не проиндексировано, открыв Отчет об индексном покрытии в Google Search Console.

Первое, на что следует обратить внимание, — это количество исключенных страниц. Затем попробуйте найти закономерность — какие типы страниц не индексируются?

Если у вас есть магазин электронной коммерции, вы, скорее всего, увидите неиндексированные страницы продуктов. Хотя это всегда должно быть предупреждающим знаком, вы не можете ожидать, что все страницы ваших продуктов будут проиндексированы, особенно на большом веб-сайте. Например, в большом магазине электронной коммерции обязательно будут дублирующиеся страницы и товары с истекшим сроком годности или отсутствующие в наличии. Этим страницам может не хватать качества, которое поместило бы их в начало очереди индексации Google (и это если Google решит сканировать эти страницы в первую очередь).

Кроме того, на крупных веб-сайтах электронной коммерции, как правило, возникают проблемы с бюджетом сканирования. Я видел случаи, когда в магазинах электронной коммерции было более миллиона товаров, в то время как 90% из них были классифицированы как «обнаруженные — в настоящее время не проиндексированные». Но если вы видите, что важные страницы исключаются из индекса Google, вы должны быть серьезно обеспокоены.

Как повысить вероятность того, что Google проиндексирует ваши страницы

Каждый веб-сайт индивидуален и может иметь разные проблемы с индексированием. Тем не менее, вот некоторые из лучших практик, которые должны помочь вашим страницам индексироваться:

1. Избегайте сигналов «Soft 404».

    Убедитесь, что на ваших страницах нет ничего, что может ложно указывать на мягкий статус 404. Это включает в себя все, что угодно, от использования «Не найдено» или «Недоступно» в копии до наличия числа «404» в URL-адресе.

    2. Используйте внутренние ссылки.
    Внутренние ссылки — один из ключевых сигналов для Google о том, что данная страница является важной частью веб-сайта и заслуживает индексации. Не оставляйте лишних страниц в структуре вашего веб-сайта и не забудьте включить все индексируемые страницы в свои карты сайта.

    3. Реализуйте надежную стратегию сканирования.
    Не позволяйте Google сканировать ваш сайт бесполезно. Если на сканирование менее ценных частей вашего домена тратится слишком много ресурсов, Google может потребоваться слишком много времени, чтобы добраться до нужного. Анализ журнала сервера может дать вам полное представление о том, что сканирует робот Googlebot и как это оптимизировать.

    4. Удалите некачественный и повторяющийся контент.
    На каждом большом веб-сайте в конечном итоге появляются страницы, которые не следует индексировать. Убедитесь, что эти страницы не попадают в ваши карты сайта, и при необходимости используйте тег noindex и файл robots.txt. Если вы позволите Google проводить слишком много времени в худших частях вашего сайта, это может недооценить общее качество вашего домена.

    5. Посылайте последовательные сигналы SEO.
    Один из распространенных примеров отправки непоследовательных сигналов SEO в Google — это изменение канонических тегов с помощью JavaScript. Как упомянул Мартин Сплитт из Google во время работы JavaScript SEO Office Hours, вы никогда не можете быть уверены в том, что Google будет делать, если у вас есть один канонический тег в исходном HTML и другой после рендеринга JavaScript.

      Интернет становится слишком большим

      За последние пару лет Google совершил гигантский скачок в обработке JavaScript, упростив работу оптимизаторов поисковых систем. В наши дни реже можно увидеть веб-сайты на базе JavaScript, которые не индексируются из-за конкретного технического стека, который они используют.

      Но можем ли мы ожидать того же самого с проблемами индексации, не связанными с JavaScript? Я так не думаю.

      Интернет постоянно растет. Каждый день появляются новые веб-сайты, а существующие растут.

      Сможет ли Google справиться с этой проблемой?

      Этот вопрос появляется время от времени. Мне нравится цитировать Google здесь:

      «У Google ограниченное количество ресурсов, поэтому, когда он сталкивается с почти бесконечным количеством контента, доступного в Интернете, робот Googlebot может найти и просканировать только часть этого контента. Затем из просканированного контента мы можем проиндексировать только его часть ».

      Другими словами, Google может посещать только часть всех страниц в Интернете и индексировать еще меньшую часть. И даже если ваш веб-сайт великолепен, вы должны помнить об этом.

      Вероятно, Google не будет посещать все страницы вашего веб-сайта, даже если он относительно небольшой. Ваша задача — убедиться, что Google может обнаруживать и индексировать страницы, важные для вашего бизнеса.