Что такое файл robots.txt?

  • Файл robots.txt — это простой текстовый файл, размещенный на вашем веб-сервере, который сообщает веб-сканерам, таким как Googlebot , должны ли они получить доступ к файлу или нет.

Сведения о файле robots.txt

Основные примеры robots.txt

Вот некоторые распространенные настройки файла robots.txt (они будут подробно описаны ниже).

Разрешить полный доступ

 User-agent: *
Disallow:

Заблокировать доступ

 User-agent: *
Disallow: /

Заблокировать одну папку

 User-agent: *
Disallow: /folder/

Заблокировать один файл

 User-agent: * Disallow: /file.html 

Почему вы должны узнать о robots.txt?

  • Неправильное использование файла robots.txt может повредить вашему рейтингу.
  • Файл robots.txt управляет тем, как поисковые роботы видят ваши веб-страницы и взаимодействуют с ними.
  • Этот файл упоминается в нескольких руководствах Google.
  • Этот файл и боты, с которыми они взаимодействуют, являются фундаментальными частями работы поисковых систем.

Поисковые пауки

Первое, на что обращает внимание поисковый робот, такой как Googlebot , при посещении страницы — это файл robots.txt.

Googlebot и файл robots.txt

Он делает это, потому что хочет знать, есть ли у него разрешение на доступ к этой странице или файлу. Если в файле robots.txt указано, что он может войти, паук поисковой системы переходит к файлам страниц.

Если у вас есть инструкции для поискового робота, вы должны сообщить ему эти инструкции. Это можно сделать с помощью файла robots.txt. 2

Приоритеты для вашего сайта

Есть три важные вещи, которые должен сделать любой веб-мастер, когда дело доходит до файла robots.txt.

  • Определите, есть ли у вас файл robots.txt
  • Если он у вас есть, убедитесь, что он не вредит вашему рейтингу и не блокирует контент, который вы не хотите блокировать.
  • Определите, нужен ли вам файл robots.txt

Определение наличия файла robots.txt

Файл robots.txt всегда находится в одном и том же месте на любом сайте, поэтому легко определить, есть ли он на сайте. Просто добавьте «/robots.txt» в конец имени домена, как показано ниже.

 www.yourwebsite.com/robots.txt

Если у вас там есть файл, это ваш файл robots.txt. Вы либо найдете файл заполненным, либо найдете файл пустым, либо вообще не найдете файл.

Определите, блокирует ли файл robots.txt важные файлы.

Вы можете использовать консоль поиска Google для проверки файла robots.txt. Инструкции для этого можно найти здесь (инструмент не является общедоступным — требуется вход в систему).

Чтобы полностью понять, не блокирует ли ваш файл robots.txt то, что вы не хотите, чтобы он блокировал, вам необходимо понять, о чем он говорит. Мы расскажем об этом ниже.

Нужен ли вамфайл robots.txt?

Возможно, вам даже не понадобится файл robots.txt на вашем сайте. На самом деле часто бывает так, что он вам не нужен.

Причины, по которым вам может понадобиться файл robots.txt:

  • У вас есть контент, который вы хотите заблокировать от поисковых систем
  • Вы используете платные ссылки или рекламу, требующую специальных инструкций для роботов.
  • Вы хотите точно настроить доступ к вашему сайту от авторитетных роботов
  • Вы разрабатываете сайт, который работает, но пока не хотите, чтобы поисковые системы индексировали его
  • Они помогают вам следовать некоторым рекомендациям Google в определенных ситуациях.
  • Вам нужно что-то или все вышеперечисленное, но у вас нет полного доступа к вашему веб-серверу и его настройке.

Каждой из вышеперечисленных ситуаций можно управлять с помощью других методов, однако файл robots.txt является хорошим центральным местом, где можно позаботиться о них, и большинство веб-мастеров имеют возможность и доступ, необходимые для создания и использования файла robots.txt.

Причины, по которым вам может не понадобиться файл robots.txt:

  • Это просто и без ошибок
  • У вас нет файлов, которые вы хотите или должны заблокировать от поисковых систем.
  • Вы не попадаете ни в одну из ситуаций, перечисленных в приведенных выше причинах, чтобы иметь файл robots.txt

Можно не иметь файла robots.txt.

Если у вас нет файла robots.txt, роботы поисковых систем, такие как Googlebot, будут иметь полный доступ к вашему сайту. Это нормальный и простой метод, который очень распространен.

Как сделать файл robots.txt

Если вы можете печатать или копировать и вставлять, вы также можете создать файл robots.txt.

Это просто текстовый файл, а это значит, что вы можете использовать блокнот или любой другой текстовый редактор для его создания. Вы также можете сделать их в редакторе кода. Вы даже можете «скопировать и вставить» их.

Вместо того, чтобы думать: «Я создаю файл robots.txt», просто подумайте: «Я пишу заметку», это практически один и тот же процесс.

Что должен сказать файл robots.txt?

Это зависит от того, что вы хотите сделать.

запретить все и ничего не разрешать

Все инструкции robots.txt приводят к одному из следующих трех результатов.

  • Полное разрешение: весь контент может быть просканирован.
  • Полный запрет: контент не может быть просканирован.
  • Условное разрешение: директивы в файле robots.txt определяют возможность сканирования определенного контента.

Давайте объясним каждый.

Полное разрешение — весь контент может быть просканирован

Большинство людей хотят, чтобы роботы посещали все на их веб-сайте. Если это относится к вам, и вы хотите, чтобы робот проиндексировал все части вашего сайта, есть три варианта сообщить роботам, что они приветствуются.

1) Нет файла robots.txt

Если на вашем сайте нет файла robots.txt, то происходит вот что...

В гости приходит такой робот, как Googlebot. Он ищет файл robots.txt. Он не находит его, потому что его там нет. Затем робот может свободно посещать все ваши веб-страницы и контент, потому что это то, на что он запрограммирован в этой ситуации.

2) Создайте пустой файл и назовите его robots.txt.

Если на вашем веб-сайте есть файл robots.txt, в котором ничего нет, то происходит вот что...

В гости приходит такой робот, как Googlebot. Он ищет файл robots.txt. Он находит файл и читает его. Читать нечего, поэтому робот может свободно посещать все ваши веб-страницы и контент, потому что это то, на что он запрограммирован в этой ситуации.

3) Создайте файл с именем robots.txt и напишите в нем следующие две строки...

 User-agent: *
Disallow:

Если на вашем веб-сайте есть файл robots.txt с этими инструкциями, то происходит вот что...

В гости приходит такой робот, как Googlebot. Он ищет файл robots.txt. Он находит файл и читает его. Он читает первую строку. Затем он читает вторую строку. Затем робот может свободно посещать все ваши веб-страницы и контент, потому что это то, что вы сказали ему делать (я объясню это ниже).

Полный запрет — контент не может быть просканирован

Предупреждение. Это означает, что Google и другие поисковые системы не будут индексировать или отображать ваши веб-страницы.

Чтобы заблокировать все авторитетные поисковые роботы на вашем сайте, в файле robots.txt должны быть следующие инструкции:

 User-agent: *
Disallow: /

Делать это не рекомендуется, так как это приведет к тому, что ни одна из ваших веб-страниц не будет проиндексирована.

Инструкции robot.txt и их значение

Вот объяснение того, что означают разные слова в файле robots.txt.

User-agent

 User-agent:

Часть «User-agent» предназначена для указания направления к конкретному роботу, если это необходимо. Есть два способа использовать это в вашем файле.

Если вы хотите сказать всем роботам одно и то же, поставьте «*» после «User-agent». Это будет выглядеть так...

 User-agent: *

В приведенной выше строке говорится: «Эти указания применимы ко всем роботам».

Если вы хотите что-то сказать определенному роботу (в данном примере Googlebot), это будет выглядеть так...

 User-agent: Googlebot

В приведенной выше строке говорится: «Эти указания относятся только к роботу Googlebot».

Disallow:

Часть «Disallow» предназначена для того, чтобы сообщить роботам, какие папки им не следует просматривать. Это означает, что если, например, вы не хотите, чтобы поисковые системы индексировали фотографии на вашем сайте, вы можете поместить эти фотографии в одну папку и исключить ее.

Допустим, вы поместили все эти фотографии в папку под названием «photos». Теперь вы хотите запретить поисковым системам индексировать эту папку.

Вот как должен выглядеть ваш файл robots.txt в этом случае:

 User-agent: *
Disallow: /photos

Приведенные выше две строки текста в вашем файле robots.txt не позволят роботам посещать вашу папку с фотографиями. Часть «User-agent *» говорит «это относится ко всем роботам». Часть «Disallow: / photos» говорит «не посещать и не индексировать папку с моими фотографиями».

Конкретные инструкции Googlebot

Робот Google, который использует для индексации своей поисковой системы, называется Googlebot. Он понимает на несколько больше инструкций, чем другие роботы.

В дополнение к «User-name» и «Disallow» робот Googlebot также использует инструкцию «Allow».

Allow

 Allow:

Инструкции «Allow:» позволяют указать роботу, что он может видеть файл в папке, которая была «Запрещена» другими инструкциями. Чтобы проиллюстрировать это, давайте возьмем приведенный выше пример, говорящий роботу не посещать и не индексировать ваши фотографии. Мы поместили все фотографии в одну папку под названием «фотографии» и создали файл robots.txt, который выглядел так...

 User-agent: *
Disallow: /photos

Теперь предположим, что в этой папке есть фотография с именем mycar.jpg, которую вы хотите проиндексировать роботом Googlebot. С помощью инструкции Allow: мы можем указать роботу Googlebot сделать это, это будет выглядеть так...

 User-agent: *
Disallow: /photos
Allow: /photos/mycar.jpg

Это сообщит роботу Googlebot, что он может посетить файл «mycar.jpg» в папке с фотографиями, даже если в противном случае папка с фотографиями будет исключена.

Ключевые понятия

  • Если вы используете файл robots.txt, убедитесь, что он используется правильно.
  • Неверный файл robots.txt может помешать роботу Googlebot проиндексировать вашу страницу.
  • Убедитесь, что вы не блокируете страницы, которые нужны Google для ранжирования ваших страниц.