robots.txt в 2026: правила, ошибки и устаревшие директивы

robots.txt — самый старый и одновременно самый недооцениваемый файл в SEO-арсенале. Один неправильный Disallow может отрезать сайт от индексации на месяцы, а один пропущенный Clean-param — годами размножать дубли страниц в индексе Яндекса. В этой статье разбираем что должно и не должно быть в robots.txt по состоянию на 2026 год.

Что такое robots.txt — коротко

Это текстовый файл, лежащий в корне сайта по адресу https://yourdomain.ru/robots.txt. Перед обходом сайта поисковый робот скачивает этот файл и читает в нём инструкции — какие страницы можно индексировать, какие нет. Это сильная рекомендация (не директива), но и Яндекс, и Google её соблюдают.

Robots.txt работает на уровне URL-паттернов, не на уровне страниц. Если хотите скрыть конкретную страницу из выдачи, используйте meta robots noindex или X-Robots-Tag HTTP-заголовок — это надёжнее.

Базовый каркас 2026 года

Минимальный валидный robots.txt для коммерческого сайта в 2026 году выглядит так:

User-agent: *
Allow: /

User-agent: Yandex
Allow: /
Clean-param: utm_source&utm_medium&utm_campaign&utm_term&utm_content&yclid&gclid&fbclid

Sitemap: https://yourdomain.ru/sitemap.xml

Это всё. Никаких комментариев, никаких устаревших директив, никаких лишних блоков. Дальше разберём почему именно так.

Чего больше не должно быть

Host: устарел

До 2018 года Яндекс использовал директиву Host: для указания канонической версии домена (с www или без). С весны 2018 года Яндекс перестал её поддерживать — перешёл на стандартные 301-редиректы и <link rel="canonical"> в HTML. Google Host: никогда не понимал.

Если у вас в robots.txt всё ещё есть Host: yourdomain.ru — удаляйте без сожалений. Это просто шум, который никто не читает.

Crawl-delay для Google

Директива Crawl-delay: N указывает поисковику ждать N секунд между запросами. Google никогда её официально не поддерживал и в 2019 году подтвердил, что просто игнорирует. Скорость обхода Googlebot настраивается в Google Search Console (Settings → Crawl rate), а не в robots.txt.

В Яндексе Crawl-delay работал до недавнего времени, но в 2024-2025 году был выведен из поддержки. Если ваш сервер не справляется с нагрузкой от ботов — это проблема сервера, а не повод ставить искусственные задержки.

Комментарии в robots.txt

Часто встречаешь в файлах строки типа # Запрещаем индексацию /admin/. Это норма для скриптов и кода, но для robots.txt — лишний шум. Файл предназначен для роботов, не для людей. Комментарии не работают как директивы, занимают место в crawl budget на скачивание файла и не приносят никакой пользы.

Если нужно где-то документировать почему именно так настроен robots.txt — заводите внутреннюю документацию, а файл оставляйте чистым.

Disallow несуществующих путей

Любите перечислять «на всякий случай» все возможные служебные пути, которых даже нет на сайте? Это типовая ошибка из шаблонов:

Disallow: /admin/
Disallow: /backup/
Disallow: /tmp/
Disallow: /old/
Disallow: /api/
Disallow: /search-index.json

Если этих путей не существует, поисковику не нужно их запрещать. Каждая лишняя строка — повод для робота попробовать их посетить, чтобы проверить, и получить 404. Чистый файл с реальными ограничениями лучше захламлённого «защитного» списка.

Что должно быть для Яндекса отдельно

Clean-param — обязательно

Это директива, которую игнорируют 90% сайтов и из-за которой потом тонут в дублях. Clean-param говорит Яндексу: «эти GET-параметры не меняют контент страницы, не считай страницы с разными значениями дублями».

Что обязательно добавлять:

Clean-param: utm_source&utm_medium&utm_campaign&utm_term&utm_content
Clean-param: yclid&gclid&fbclid&_openstat
Clean-param: msclkid&dclid

Можно объединить в одну строку через &. Если на сайте есть свои технические параметры (например, ?ref=, ?source=, ?affiliate=) — добавляйте их тоже.

Без Clean-param сайт с рекламной кампанией Я.Директа может за месяц набрать в индексе несколько тысяч дублей: одна и та же страница, но с разными UTM-метками. Поисковик пытается их различать, ваш контент конкурирует сам с собой, позиции страдают.

Sitemap-ссылка

Можно указать в robots.txt полный путь к sitemap.xml: Sitemap: https://yourdomain.ru/sitemap.xml. Это сигнал поисковикам, что есть sitemap и где его искать.

Google и Яндекс читают sitemap и без этой директивы (если он лежит в стандартном месте), но не помешает. Только важно: ссылка должна быть абсолютной с протоколом, не относительной.

Типичные ошибки, ломающие SEO

Disallow: / в боевом режиме

Самая катастрофическая ошибка. Появляется обычно после миграции с тестового сервера:

User-agent: *
Disallow: /

Это значит «не индексировать вообще ничего». Сайт за неделю выпадает из выдачи Яндекса и Google. Восстановление требует не только исправления файла, но и нескольких недель ожидания, пока поисковики переобойдут сайт.

Проверяйте robots.txt сразу после каждого деплоя. Это вторая по приоритетности проверка после «сайт открывается».

Запрет на индексацию CSS/JS

В старые времена SEO-специалисты иногда блокировали Disallow: /css/ или Disallow: /js/ под влиянием шаблонов из 2012 года. Сейчас это вредит: Google и Яндекс рендерят страницу как браузер — им нужно загрузить и CSS, и JS, чтобы увидеть финальный контент.

Если у поисковика нет доступа к стилям и скриптам, он может решить, что ваш сайт «сломан», и понизить позиции. Никогда не блокируйте /static/, /_next/, /wp-content/, /assets/ и подобные директории.

Запрет на индексацию изображений

Похожая история: Disallow: /images/ или Disallow: /uploads/ казалась безобидной. Но это закрывает Google Images и Я.Картинки — отдельный источник трафика. Для интернет-магазинов и медиа это серьёзная потеря.

Если изображения индексировать не нужно, лучше использовать X-Robots-Tag: noindex в HTTP-заголовках для конкретных типов файлов через nginx-правило, а не блокировать всю директорию.

Trailing slash в Disallow

Disallow: /admin и Disallow: /admin/ — это разные правила. Первое запрещает И страницу /admin, И /admin/login, И /administrator/. Второе запрещает только пути, начинающиеся с /admin/.

Если хотите запретить конкретно подраздел — добавляйте slash в конце. Если префикс — без slash.

Robots.txt для разных платформ

Стандартный robots.txt подходит для большинства сайтов. Но есть нюансы.

WordPress обычно генерирует свой robots.txt динамически. Не нужно класть физический файл — это будет конфликт. Настраивайте через плагины Yoast SEO или RankMath.

Битрикс в новых версиях имеет настройки robots.txt в админке. Менять физический файл бессмысленно — Битрикс перезапишет при следующем обновлении.

Next.js (как у нас) — используйте robots.ts в app/ директории, где вы экспортируете объект MetadataRoute.Robots. Это TypeScript-первый подход, удобнее физического файла.

Astro — статический файл в public/robots.txt, без вариантов.

Как проверить что всё работает

После деплоя:

Откройте https://yourdomain.ru/robots.txt в браузере — должен показать ваш файл с правильным Content-Type: text/plain
Google Search Console → URL Inspection → введите любой URL вашего сайта → должно показать «URL is on Google» (если сайт уже проиндексирован) и «Crawling: Allowed»
Яндекс.Вебмастер → Инструменты → Анализ robots.txt → введите URL и нажмите «Проверить» — покажет какие правила применяются
Bing Webmaster Tools → robots.txt Tester (тот же принцип) — особенно важно для ChatGPT-цитируемости

Резюме

Чистый, минимальный robots.txt — лучший robots.txt. Никаких устаревших директив (Host, Crawl-delay), никаких комментариев, никаких запретов на несуществующие пути. Обязательно Clean-param для Яндекса, обязательно sitemap-ссылка. Никогда не блокируйте CSS/JS.

Если ваш robots.txt вызывает у вас сомнения — пришлите нам, проверим за 30 минут. Бесплатно. Дополнительные ссылки по теме — в наших услугах SEO.