Googlebot и крауnинг-бюджет: как помочь поисковику видеть сайт

Большой сайт — больше тысячи страниц — рано или поздно сталкивается с тем, что Googlebot не успевает обходить его в темпе обновлений. Новые страницы попадают в индекс через две недели вместо двух дней, изменения старых страниц подхватываются с задержкой, а часть карточек товара вообще никогда не индексируется. Это и есть проблема crawl budget — бюджета обхода, который Google выделяет на ваш сайт.

В этой статье разбираем что такое crawl budget, кто страдает чаще всего, и какие конкретные шаги помогают.

Что такое crawl budget

Это объём страниц вашего сайта, которые Googlebot готов обойти за определённый период (обычно — сутки). Состоит из двух частей.

Crawl rate limit — техническое ограничение: сколько одновременных запросов и как часто Googlebot может делать к вашему серверу. Если сервер быстрый и стабильно отвечает быстрее 500 мс — лимит высокий. Если сервер тормозит или возвращает 5xx ошибки — Google автоматически снижает скорость, чтобы не повредить вам.

Crawl demand — спрос на обход: насколько Google хочет обходить ваш сайт. Зависит от:

Авторитетности домена (новый домен → низкий спрос, давний домен с трафиком → высокий)
Частоты обновлений (динамический контент → выше спрос)
Качества контента (тонкий/дубликатный → ниже спрос)
Текущего положения в индексе (популярные страницы — чаще)

Итоговый crawl budget = min(rate limit, demand).

Кому это важно, а кому нет

Crawl budget — проблема в основном больших и часто обновляющихся сайтов. Если у вас 50 страниц лендинга — не парьтесь, Google обойдёт их без проблем.

Реальные категории, где crawl budget критичен:

E-commerce с тысячами карточек товаров (особенно с фильтрами и комбинациями)
Новостные сайты и медиа с десятками статей в день
Маркетплейсы с пользовательскими генерируемыми объявлениями
Агрегаторы объявлений, недвижимости, вакансий
Большие блоги и порталы с архивом 1000+ статей
Многоязычные сайты с десятками языков

Если у вас 200 страниц и они обновляются раз в месяц — этот пост можно не читать.

Признаки проблемы

Как понять, что у сайта проблема с crawl budget:

Search Console → Coverage → Excluded → «Crawled — currently not indexed» содержит сотни страниц. Google их обошёл, но решил не индексировать. Часто это сигнал низкого качества или crawl budget потрачен впустую.
Discovered — currently not indexed — Google знает что страница есть, но ещё не обошёл. Если число растёт — точно crawl budget мало.
Server logs показывают, что Googlebot посещает «не те» страницы — фильтры каталога, страницы пагинации второго порядка, технические URL.
Sitemap содержит 5000 URL, проиндексировано 1500. Большая дельта — повод смотреть.
Обновления страниц подхватываются медленно — изменили title в понедельник, в поисковой выдаче новый title появился через две недели.

Где crawl budget «утекает»

Типовые виновники:

Фасеточная навигация в e-commerce

/catalog/dresses/?color=red&size=m&price=2000-3000&sort=popular — таких комбинаций по 4 фильтрам с 5 значениями каждый получится 625 URL. По 6 фильтрам — 15625. И каждый из них Googlebot пытается обойти.

Решение: Закрыть фильтры от индексации через meta robots noindex или X-Robots-Tag (но не через robots.txt — мы хотим, чтобы Google зашёл, увидел noindex и ушёл, не тратя crawl budget на повторные попытки).

Для критичных комбинаций (например, основных цветов) — оставить открытыми и сделать им осмысленные landing-страницы с уникальным контентом.

Внутренний поиск с GET-параметрами

/search?q=платье+красное+на+весну — каждый раз новый URL. Google обходит, ничего полезного не находит.

Решение: В robots.txt запретить Disallow: /search? (хотя robots.txt и не идеальный способ — лучше через noindex на странице результата поиска).

Бесконечная пагинация

/blog/page/2/ ... /blog/page/47/. Если на page/47 — статьи 5-летней давности, Google тратит на их обход crawl budget каждый день.

Решение: Self-canonical на каждую страницу пагинации (НЕ canonical на page/1 — это деиндексирует всё кроме первой). Для очень старых страниц — meta noindex, follow (страница не в индексе, но ссылки на ней индексируются и Googlebot идёт по ним).

Дубли с UTM-метками и трекинговыми параметрами

/article/123?utm_source=twitter, /article/123?fbclid=xxx, /article/123?gclid=xxx. Каждый раз новый URL для Google.

Решение: <link rel="canonical"> с чистым URL без параметров на каждой странице. Также — Search Console → URL Parameters (хотя в 2024 году Google этот инструмент по сути отключил). Plus Clean-param для Яндекса в robots.txt.

Старые редиректы цепочками

/old-url → 301 → /old-url-2 → 301 → /old-url-3 → 301 → /new-url. Google теряет crawl budget на каждый шаг цепочки.

Решение: Раз в полгода — аудит редиректов. Все цепочки длиннее одного шага сократить до прямого редиректа.

Soft 404

Страница возвращает HTTP 200, но контент — «извините, ничего не найдено» или пустая карточка товара. Google это распознаёт и тратит crawl budget на повторные проверки.

Решение: Возвращать настоящий 404 (или 410 если удалено навсегда) для несуществующих ресурсов. Для пустых карточек товаров — noindex пока товара нет в наличии.

Практические шаги по оптимизации

1. Аудит логов сервера

Это самый важный шаг и его никто не делает. Скачайте логи nginx за последний месяц, отфильтруйте по User-Agent (Googlebot), посмотрите какие URL он чаще всего посещает.

Если вы видите там тысячи запросов к /catalog/?filter=... — это утечка. Если бот часто ходит на 404 — это утечка. Если бот посещает страницы пагинации page/30+ — это утечка.

Инструменты для анализа: Screaming Frog Log Analyzer, GoAccess (CLI), Splunk для крупных сайтов. На маленьких можно даже grep + awk.

2. Sitemap-приоритезация

В sitemap.xml у каждого URL есть поля <priority> и <changefreq>. Большинство сайтов их игнорируют или выставляют одинаковые значения по умолчанию.

Используйте их по делу:

priority 1.0 — главная и 5-10 топ-страниц
priority 0.8 — категории и разделы
priority 0.6 — карточки товаров / статьи
priority 0.3 — архивные / устаревшие
changefreq weekly — для часто обновляющихся
changefreq monthly — стабильный контент
changefreq yearly — почти неизменный

Google использует это как подсказку. Не строгая инструкция, но влияет.

3. Удалить из sitemap то, что не должно быть в индексе

Sitemap — это «список того, что я хочу видеть в индексе». Если в нём есть пагинация, фильтры, страницы тегов, технические URL — уберите. Sitemap должен быть «чистым».

Идеальная цифра: число URL в sitemap = число страниц, которые вы реально хотите видеть в выдаче.

4. Strong internal linking

Хорошо связанный сайт обходится быстрее. На каждую важную страницу должно вести 3-5 внутренних ссылок. Глубина клика от главной не должна превышать 3.

Категорийные страницы, breadcrumbs, related-блоки, тематические подборки — всё это создаёт internal linking. Скрытый эффект: Google понимает приоритеты сайта без необходимости дофигачивать в каждый URL.

5. IndexNow для свежего контента

IndexNow — открытый протокол, через который вы пингуете поисковики о новых/изменённых URL. Поддерживают Bing (и через него ChatGPT), Яндекс, частично Google.

При публикации новой статьи или обновлении старой — отправляете POST-запрос с URL. Поисковик обходит её в течение часов, не недель.

Подробнее о подключении IndexNow — в материале о GEO/AEO оптимизации.

6. Server speed

Если ваш сервер отвечает за 200 мс, Google спокойно может делать 50 запросов в секунду. Если за 2 секунды — Google автоматически снижает скорость до 5 запросов в секунду, чтобы не уронить.

Ускорение сервера = автоматическое увеличение crawl budget. Не нужно ничего настраивать — Google сам подстраивается.

Что не работает

Несколько подходов, которые кажутся логичными, но не помогают:

Удалить старые статьи для «освобождения crawl budget». Старые статьи, на которые ведут ссылки, нужно сохранять (можно с обновлённой датой). Удалять стоит только реально мёртвый контент без трафика и ссылок.
Запретить всё через robots.txt. Это закрывает страницы от crawl, но не помогает с budget — Google всё равно знает о страницах через ссылки и пытается их обойти.
Просить Google в Search Console обходить чаще. Прямой такой настройки больше нет (была отключена в 2024). Только косвенно — через качество.

Резюме

Crawl budget — реальная проблема больших сайтов и в 2026 году. Но решается она не магией, а методичной работой: аудит логов, чистый sitemap, борьба с дублями и фасеточной навигацией, strong internal linking, быстрый сервер.

Хотите аудит crawl budget для вашего сайта? Напишите нам. Логи, sitemap, поведение Googlebot — разбираем за 3 рабочих дня.