robots.txt в 2026: правила, ошибки и устаревшие директивы
Что должно и не должно быть в robots.txt в 2026 году. Почему Host: больше не нужен, как настроить Clean-param для Яндекса, и какие ошибки до сих пор губят индексацию.
robots.txt — самый старый и одновременно самый недооцениваемый файл в SEO-арсенале. Один неправильный Disallow может отрезать сайт от индексации на месяцы, а один пропущенный Clean-param — годами размножать дубли страниц в индексе Яндекса. В этой статье разбираем что должно и не должно быть в robots.txt по состоянию на 2026 год.
Что такое robots.txt — коротко
Это текстовый файл, лежащий в корне сайта по адресу https://yourdomain.ru/robots.txt. Перед обходом сайта поисковый робот скачивает этот файл и читает в нём инструкции — какие страницы можно индексировать, какие нет. Это сильная рекомендация (не директива), но и Яндекс, и Google её соблюдают.
Robots.txt работает на уровне URL-паттернов, не на уровне страниц. Если хотите скрыть конкретную страницу из выдачи, используйте meta robots noindex или X-Robots-Tag HTTP-заголовок — это надёжнее.
Базовый каркас 2026 года
Минимальный валидный robots.txt для коммерческого сайта в 2026 году выглядит так:
User-agent: *
Allow: /
User-agent: Yandex
Allow: /
Clean-param: utm_source&utm_medium&utm_campaign&utm_term&utm_content&yclid&gclid&fbclid
Sitemap: https://yourdomain.ru/sitemap.xml
Это всё. Никаких комментариев, никаких устаревших директив, никаких лишних блоков. Дальше разберём почему именно так.
Чего больше не должно быть
Host: устарел
До 2018 года Яндекс использовал директиву Host: для указания канонической версии домена (с www или без). С весны 2018 года Яндекс перестал её поддерживать — перешёл на стандартные 301-редиректы и <link rel="canonical"> в HTML. Google Host: никогда не понимал.
Если у вас в robots.txt всё ещё есть Host: yourdomain.ru — удаляйте без сожалений. Это просто шум, который никто не читает.
Crawl-delay для Google
Директива Crawl-delay: N указывает поисковику ждать N секунд между запросами. Google никогда её официально не поддерживал и в 2019 году подтвердил, что просто игнорирует. Скорость обхода Googlebot настраивается в Google Search Console (Settings → Crawl rate), а не в robots.txt.
В Яндексе Crawl-delay работал до недавнего времени, но в 2024-2025 году был выведен из поддержки. Если ваш сервер не справляется с нагрузкой от ботов — это проблема сервера, а не повод ставить искусственные задержки.
Комментарии в robots.txt
Часто встречаешь в файлах строки типа # Запрещаем индексацию /admin/. Это норма для скриптов и кода, но для robots.txt — лишний шум. Файл предназначен для роботов, не для людей. Комментарии не работают как директивы, занимают место в crawl budget на скачивание файла и не приносят никакой пользы.
Если нужно где-то документировать почему именно так настроен robots.txt — заводите внутреннюю документацию, а файл оставляйте чистым.
Disallow несуществующих путей
Любите перечислять «на всякий случай» все возможные служебные пути, которых даже нет на сайте? Это типовая ошибка из шаблонов:
Disallow: /admin/
Disallow: /backup/
Disallow: /tmp/
Disallow: /old/
Disallow: /api/
Disallow: /search-index.json
Если этих путей не существует, поисковику не нужно их запрещать. Каждая лишняя строка — повод для робота попробовать их посетить, чтобы проверить, и получить 404. Чистый файл с реальными ограничениями лучше захламлённого «защитного» списка.
Что должно быть для Яндекса отдельно
Clean-param — обязательно
Это директива, которую игнорируют 90% сайтов и из-за которой потом тонут в дублях. Clean-param говорит Яндексу: «эти GET-параметры не меняют контент страницы, не считай страницы с разными значениями дублями».
Что обязательно добавлять:
Clean-param: utm_source&utm_medium&utm_campaign&utm_term&utm_content
Clean-param: yclid&gclid&fbclid&_openstat
Clean-param: msclkid&dclid
Можно объединить в одну строку через &. Если на сайте есть свои технические параметры (например, ?ref=, ?source=, ?affiliate=) — добавляйте их тоже.
Без Clean-param сайт с рекламной кампанией Я.Директа может за месяц набрать в индексе несколько тысяч дублей: одна и та же страница, но с разными UTM-метками. Поисковик пытается их различать, ваш контент конкурирует сам с собой, позиции страдают.
Sitemap-ссылка
Можно указать в robots.txt полный путь к sitemap.xml: Sitemap: https://yourdomain.ru/sitemap.xml. Это сигнал поисковикам, что есть sitemap и где его искать.
Google и Яндекс читают sitemap и без этой директивы (если он лежит в стандартном месте), но не помешает. Только важно: ссылка должна быть абсолютной с протоколом, не относительной.
Типичные ошибки, ломающие SEO
Disallow: / в боевом режиме
Самая катастрофическая ошибка. Появляется обычно после миграции с тестового сервера:
User-agent: *
Disallow: /
Это значит «не индексировать вообще ничего». Сайт за неделю выпадает из выдачи Яндекса и Google. Восстановление требует не только исправления файла, но и нескольких недель ожидания, пока поисковики переобойдут сайт.
Проверяйте robots.txt сразу после каждого деплоя. Это вторая по приоритетности проверка после «сайт открывается».
Запрет на индексацию CSS/JS
В старые времена SEO-специалисты иногда блокировали Disallow: /css/ или Disallow: /js/ под влиянием шаблонов из 2012 года. Сейчас это вредит: Google и Яндекс рендерят страницу как браузер — им нужно загрузить и CSS, и JS, чтобы увидеть финальный контент.
Если у поисковика нет доступа к стилям и скриптам, он может решить, что ваш сайт «сломан», и понизить позиции. Никогда не блокируйте /static/, /_next/, /wp-content/, /assets/ и подобные директории.
Запрет на индексацию изображений
Похожая история: Disallow: /images/ или Disallow: /uploads/ казалась безобидной. Но это закрывает Google Images и Я.Картинки — отдельный источник трафика. Для интернет-магазинов и медиа это серьёзная потеря.
Если изображения индексировать не нужно, лучше использовать X-Robots-Tag: noindex в HTTP-заголовках для конкретных типов файлов через nginx-правило, а не блокировать всю директорию.
Trailing slash в Disallow
Disallow: /admin и Disallow: /admin/ — это разные правила. Первое запрещает И страницу /admin, И /admin/login, И /administrator/. Второе запрещает только пути, начинающиеся с /admin/.
Если хотите запретить конкретно подраздел — добавляйте slash в конце. Если префикс — без slash.
Robots.txt для разных платформ
Стандартный robots.txt подходит для большинства сайтов. Но есть нюансы.
WordPress обычно генерирует свой robots.txt динамически. Не нужно класть физический файл — это будет конфликт. Настраивайте через плагины Yoast SEO или RankMath.
Битрикс в новых версиях имеет настройки robots.txt в админке. Менять физический файл бессмысленно — Битрикс перезапишет при следующем обновлении.
Next.js (как у нас) — используйте robots.ts в app/ директории, где вы экспортируете объект MetadataRoute.Robots. Это TypeScript-первый подход, удобнее физического файла.
Astro — статический файл в public/robots.txt, без вариантов.
Как проверить что всё работает
После деплоя:
- Откройте
https://yourdomain.ru/robots.txtв браузере — должен показать ваш файл с правильнымContent-Type: text/plain - Google Search Console → URL Inspection → введите любой URL вашего сайта → должно показать «URL is on Google» (если сайт уже проиндексирован) и «Crawling: Allowed»
- Яндекс.Вебмастер → Инструменты → Анализ robots.txt → введите URL и нажмите «Проверить» — покажет какие правила применяются
- Bing Webmaster Tools → robots.txt Tester (тот же принцип) — особенно важно для ChatGPT-цитируемости
Резюме
Чистый, минимальный robots.txt — лучший robots.txt. Никаких устаревших директив (Host, Crawl-delay), никаких комментариев, никаких запретов на несуществующие пути. Обязательно Clean-param для Яндекса, обязательно sitemap-ссылка. Никогда не блокируйте CSS/JS.
Если ваш robots.txt вызывает у вас сомнения — пришлите нам, проверим за 30 минут. Бесплатно. Дополнительные ссылки по теме — в наших услугах SEO.