Googlebot и крауnинг-бюджет: как помочь поисковику видеть сайт
Что такое crawl budget, почему Googlebot не успевает обойти большие сайты, и какие практические шаги помогают: настройка sitemap, internal linking, log-анализ.
Большой сайт — больше тысячи страниц — рано или поздно сталкивается с тем, что Googlebot не успевает обходить его в темпе обновлений. Новые страницы попадают в индекс через две недели вместо двух дней, изменения старых страниц подхватываются с задержкой, а часть карточек товара вообще никогда не индексируется. Это и есть проблема crawl budget — бюджета обхода, который Google выделяет на ваш сайт.
В этой статье разбираем что такое crawl budget, кто страдает чаще всего, и какие конкретные шаги помогают.
Что такое crawl budget
Это объём страниц вашего сайта, которые Googlebot готов обойти за определённый период (обычно — сутки). Состоит из двух частей.
Crawl rate limit — техническое ограничение: сколько одновременных запросов и как часто Googlebot может делать к вашему серверу. Если сервер быстрый и стабильно отвечает быстрее 500 мс — лимит высокий. Если сервер тормозит или возвращает 5xx ошибки — Google автоматически снижает скорость, чтобы не повредить вам.
Crawl demand — спрос на обход: насколько Google хочет обходить ваш сайт. Зависит от:
- Авторитетности домена (новый домен → низкий спрос, давний домен с трафиком → высокий)
- Частоты обновлений (динамический контент → выше спрос)
- Качества контента (тонкий/дубликатный → ниже спрос)
- Текущего положения в индексе (популярные страницы — чаще)
Итоговый crawl budget = min(rate limit, demand).
Кому это важно, а кому нет
Crawl budget — проблема в основном больших и часто обновляющихся сайтов. Если у вас 50 страниц лендинга — не парьтесь, Google обойдёт их без проблем.
Реальные категории, где crawl budget критичен:
- E-commerce с тысячами карточек товаров (особенно с фильтрами и комбинациями)
- Новостные сайты и медиа с десятками статей в день
- Маркетплейсы с пользовательскими генерируемыми объявлениями
- Агрегаторы объявлений, недвижимости, вакансий
- Большие блоги и порталы с архивом 1000+ статей
- Многоязычные сайты с десятками языков
Если у вас 200 страниц и они обновляются раз в месяц — этот пост можно не читать.
Признаки проблемы
Как понять, что у сайта проблема с crawl budget:
- Search Console → Coverage → Excluded → «Crawled — currently not indexed» содержит сотни страниц. Google их обошёл, но решил не индексировать. Часто это сигнал низкого качества или crawl budget потрачен впустую.
- Discovered — currently not indexed — Google знает что страница есть, но ещё не обошёл. Если число растёт — точно crawl budget мало.
- Server logs показывают, что Googlebot посещает «не те» страницы — фильтры каталога, страницы пагинации второго порядка, технические URL.
- Sitemap содержит 5000 URL, проиндексировано 1500. Большая дельта — повод смотреть.
- Обновления страниц подхватываются медленно — изменили title в понедельник, в поисковой выдаче новый title появился через две недели.
Где crawl budget «утекает»
Типовые виновники:
Фасеточная навигация в e-commerce
/catalog/dresses/?color=red&size=m&price=2000-3000&sort=popular — таких комбинаций по 4 фильтрам с 5 значениями каждый получится 625 URL. По 6 фильтрам — 15625. И каждый из них Googlebot пытается обойти.
Решение: Закрыть фильтры от индексации через meta robots noindex или X-Robots-Tag (но не через robots.txt — мы хотим, чтобы Google зашёл, увидел noindex и ушёл, не тратя crawl budget на повторные попытки).
Для критичных комбинаций (например, основных цветов) — оставить открытыми и сделать им осмысленные landing-страницы с уникальным контентом.
Внутренний поиск с GET-параметрами
/search?q=платье+красное+на+весну — каждый раз новый URL. Google обходит, ничего полезного не находит.
Решение: В robots.txt запретить Disallow: /search? (хотя robots.txt и не идеальный способ — лучше через noindex на странице результата поиска).
Бесконечная пагинация
/blog/page/2/ ... /blog/page/47/. Если на page/47 — статьи 5-летней давности, Google тратит на их обход crawl budget каждый день.
Решение: Self-canonical на каждую страницу пагинации (НЕ canonical на page/1 — это деиндексирует всё кроме первой). Для очень старых страниц — meta noindex, follow (страница не в индексе, но ссылки на ней индексируются и Googlebot идёт по ним).
Дубли с UTM-метками и трекинговыми параметрами
/article/123?utm_source=twitter, /article/123?fbclid=xxx, /article/123?gclid=xxx. Каждый раз новый URL для Google.
Решение: <link rel="canonical"> с чистым URL без параметров на каждой странице. Также — Search Console → URL Parameters (хотя в 2024 году Google этот инструмент по сути отключил). Plus Clean-param для Яндекса в robots.txt.
Старые редиректы цепочками
/old-url → 301 → /old-url-2 → 301 → /old-url-3 → 301 → /new-url. Google теряет crawl budget на каждый шаг цепочки.
Решение: Раз в полгода — аудит редиректов. Все цепочки длиннее одного шага сократить до прямого редиректа.
Soft 404
Страница возвращает HTTP 200, но контент — «извините, ничего не найдено» или пустая карточка товара. Google это распознаёт и тратит crawl budget на повторные проверки.
Решение: Возвращать настоящий 404 (или 410 если удалено навсегда) для несуществующих ресурсов. Для пустых карточек товаров — noindex пока товара нет в наличии.
Практические шаги по оптимизации
1. Аудит логов сервера
Это самый важный шаг и его никто не делает. Скачайте логи nginx за последний месяц, отфильтруйте по User-Agent (Googlebot), посмотрите какие URL он чаще всего посещает.
Если вы видите там тысячи запросов к /catalog/?filter=... — это утечка. Если бот часто ходит на 404 — это утечка. Если бот посещает страницы пагинации page/30+ — это утечка.
Инструменты для анализа: Screaming Frog Log Analyzer, GoAccess (CLI), Splunk для крупных сайтов. На маленьких можно даже grep + awk.
2. Sitemap-приоритезация
В sitemap.xml у каждого URL есть поля <priority> и <changefreq>. Большинство сайтов их игнорируют или выставляют одинаковые значения по умолчанию.
Используйте их по делу:
-
priority 1.0 — главная и 5-10 топ-страниц
-
priority 0.8 — категории и разделы
-
priority 0.6 — карточки товаров / статьи
-
priority 0.3 — архивные / устаревшие
-
changefreq weekly — для часто обновляющихся
-
changefreq monthly — стабильный контент
-
changefreq yearly — почти неизменный
Google использует это как подсказку. Не строгая инструкция, но влияет.
3. Удалить из sitemap то, что не должно быть в индексе
Sitemap — это «список того, что я хочу видеть в индексе». Если в нём есть пагинация, фильтры, страницы тегов, технические URL — уберите. Sitemap должен быть «чистым».
Идеальная цифра: число URL в sitemap = число страниц, которые вы реально хотите видеть в выдаче.
4. Strong internal linking
Хорошо связанный сайт обходится быстрее. На каждую важную страницу должно вести 3-5 внутренних ссылок. Глубина клика от главной не должна превышать 3.
Категорийные страницы, breadcrumbs, related-блоки, тематические подборки — всё это создаёт internal linking. Скрытый эффект: Google понимает приоритеты сайта без необходимости дофигачивать в каждый URL.
5. IndexNow для свежего контента
IndexNow — открытый протокол, через который вы пингуете поисковики о новых/изменённых URL. Поддерживают Bing (и через него ChatGPT), Яндекс, частично Google.
При публикации новой статьи или обновлении старой — отправляете POST-запрос с URL. Поисковик обходит её в течение часов, не недель.
Подробнее о подключении IndexNow — в материале о GEO/AEO оптимизации.
6. Server speed
Если ваш сервер отвечает за 200 мс, Google спокойно может делать 50 запросов в секунду. Если за 2 секунды — Google автоматически снижает скорость до 5 запросов в секунду, чтобы не уронить.
Ускорение сервера = автоматическое увеличение crawl budget. Не нужно ничего настраивать — Google сам подстраивается.
Что не работает
Несколько подходов, которые кажутся логичными, но не помогают:
- Удалить старые статьи для «освобождения crawl budget». Старые статьи, на которые ведут ссылки, нужно сохранять (можно с обновлённой датой). Удалять стоит только реально мёртвый контент без трафика и ссылок.
- Запретить всё через robots.txt. Это закрывает страницы от crawl, но не помогает с budget — Google всё равно знает о страницах через ссылки и пытается их обойти.
- Просить Google в Search Console обходить чаще. Прямой такой настройки больше нет (была отключена в 2024). Только косвенно — через качество.
Резюме
Crawl budget — реальная проблема больших сайтов и в 2026 году. Но решается она не магией, а методичной работой: аудит логов, чистый sitemap, борьба с дублями и фасеточной навигацией, strong internal linking, быстрый сервер.
Хотите аудит crawl budget для вашего сайта? Напишите нам. Логи, sitemap, поведение Googlebot — разбираем за 3 рабочих дня.