Что такое Googlebot?
- Googlebot — это поисковый робот, используемый Google.
- Он используется Google для поиска и извлечения веб-страниц.
- Информация, собранная роботом Googlebot, используется для обновления индекса Google.
Робот Googlebot посещает миллиарды веб-страниц и постоянно посещает страницы по всему Интернету.
Что такое Веб-сканер?
- Веб-сканеры (также известные как боты, роботы или пауки) — это тип программного обеспечения, предназначенного для перехода по ссылкам, сбора информации и последующей отправки этой информации куда-либо.
Что делает робот Google?
- Googlebot извлекает содержимое веб-страниц (слова, код и ресурсы, из которых состоит веб-страница).
- Если содержимое, которое он извлекает, имеет ссылки на другие вещи, это отмечается.
- Затем он отправляет информацию в Google.
Googlebot и ваш сайт
Информация, которую робот Googlebot отправляет обратно на компьютеры Google, обновляет индекс Google.
Индекс Google — это место, где веб-страницы сравниваются и ранжируются.
- Чтобы ваши веб-страницы можно было найти в Google, они должны быть видны роботу Googlebot.
- Чтобы ваши веб-страницы имели оптимальный рейтинг, все ресурсы веб-страницы должны быть доступны для робота Googlebot.
Разница между Googlebot и индексом Google
Googlebot
- Googlebot извлекает контент из Интернета.
- Googlebot никоим образом не оценивает контент, он только извлекает его.
- Единственное, что беспокоит робота Googlebot, это «Могу ли я получить доступ к этому контенту?» и «Есть ли какой-либо дополнительный контент, к которому я могу получить доступ?»
Индекс Google
- Индекс Google берет контент, который он получает от Googlebot, и использует его для ранжирования страниц.
Первый шаг для ранжирования Google — это получение роботом Googlebot.
Предоставление роботу Googlebot доступа к вашим страницам
Поскольку Googlebot — это способ, с помощью которого Google обновляет свой индекс, очень важно, чтобы Googlebot мог видеть ваши страницы.
Основные первые вопросы, которые должен задать веб-мастер, это...
- Может ли Googlebot «видеть» мои страницы?
- Может ли Googlebot получить полный доступ ко всему моему контенту и ссылкам?
- Может ли Googlebot получить доступ ко всем ресурсам моей страницы?
Рассмотрим каждого из них поближе...
1. Может ли Googlebot «видеть» мои страницы?
Чтобы получить представление о том, что Google видит на вашем сайте, выполните следующий поиск в Google...
site:yourwebsite.com
Поставив «site:» перед своим доменным именем, вы запросите у Google список страниц, которые Google проиндексировал для вашего сайта.
Совет: при этом убедитесь, что между «site:» и вашим доменным именем нет пробела. Вот пример использования этого сайта...
site:bcorrections.com
Если вы видите меньше ожидаемого количества страниц, вам, вероятно, потребуется убедиться, что вы не блокируете робота Googlebot с помощью файла robots.txt (файл robots.txt обсуждается далее на этой странице).
2. Может ли робот Googlebot получить полный доступ ко всему моему контенту и ссылкам?
Следующий шаг — убедиться, что Google правильно видит ваш контент и ссылки.
Тот факт, что робот Googlebot может видеть ваши страницы, не означает, что Google точно представляет, что это за страницы.
Бот Google не видит веб-сайт так, как люди. На изображении выше есть веб-страница с одним изображением. Люди могут видеть изображение, но робот Googlebot видит только код, вызывающий это изображение.
Робот Google может иметь доступ к этой веб-странице (html-файлу), но не иметь доступа к изображению, найденному на этой веб-странице, по разным причинам.
В этом случае индекс Google не будет включать это изображение, а это означает, что у Google есть неполное представление о вашей веб-странице.
Как Googlebot «видит» веб-страницу
Робот Googlebot не видит полные веб-страницы, он видит только отдельные компоненты этой страницы.
Если какие-либо из этих компонентов недоступны для робота Googlebot, он не отправит их в индекс Google.
Чтобы использовать наш предыдущий пример, вот робот Google, который видит веб-страницу (html и css), но не видит изображение.
Это не просто изображения. Есть много частей на веб-странице. Чтобы Google мог оптимально ранжировать ваши веб-страницы, Google нужна полная картина.
Существует множество сценариев, в которых робот Googlebot не может получить доступ к веб-контенту, вот несколько наиболее распространенных.
- Ресурс заблокирован robots.txt
- Ссылки на страницы не читаются или неверны
- Чрезмерная зависимость от Flash или другой технологии, с которой у поисковых роботов могут возникнуть проблемы.
- Плохой HTML или ошибки кодирования
- Слишком сложные динамические ссылки
Большинство из этих вещей можно быстро проверить .
Если у вас есть учетная запись Google, используйте инструмент «выбрать и отобразить» в поисковой консоли Google. Этот инструмент предоставит вам живой пример того, что именно Google видит для отдельной страницы.
3. Может ли Googlebot получить доступ ко всем ресурсам моей страницы?
Если файлы CSS и javascript заблокированы вашим файлом robots.txt, это может привести к серьезным недоразумениям в отношении содержания вашей веб-страницы (намного хуже, чем просто отсутствующее изображение).
Становится все более верным тот факт, что веб-страница на самом деле может быть другой или иметь другой контент, если ресурсы страницы не загружены.
Примером, иллюстрирующим это, может быть мобильная страница, которая использует CSS или javascript, чтобы определить, что показывать, в зависимости от того, какое устройство просматривает страницу. Если Googlebot не может получить доступ к CSS или Javascript этой страницы, он может не понять, что страница может быть мобильной.
В этом и других подобных сценариях Google «увидит» вашу страницу и, возможно, даже поймет ее, но может не знать ее достаточно, чтобы понять, что ее можно ранжировать во многих других сценариях, помимо того, что представляет только HTML.
Могу ли я управлять роботом Googlebot?
Да.
Googlebot следует инструкциям, которые он получает через стандарты robots.txt, и даже имеет расширенные способы управления, специфичные для Google.
Вот некоторые способы управления роботом Googlebot...
- Использование файла robots.txt
- Включение инструкций для роботов в метаданные ваших веб-страниц
- Включение инструкций для роботов в ваши заголовки
- Использование карт сайта
- Использование консоли поиска Google
На сегодняшний день наиболее распространенным способом является использование файла robots.txt.
Что такое файл robots.txt?
Файл robots.txt определяет, как роботы поисковых систем, такие как Googlebot, видят и взаимодействуют с вашими веб-страницами.
Короче говоря, файл robots.txt сообщает роботу Google, что делать, когда он посещает ваши страницы, перечисляя файлы и папки, к которым вы не хотите, чтобы робот Google имел доступ.
Подробнее об этом читайте в моем руководстве к файлу robots.txt .
Вот несколько ресурсов от Google, в которых говорится об инструкциях для роботов:
- файл robots.txt
- Технический обзор того, как Google обрабатывает файл robots.txt
- Метатеги и заголовки роботов
Файлы Sitemap и Googlebot
Файлы Sitemap — это способ помочь роботу Googlebot понять ваш веб-сайт, или, как говорит Google...
«Sitemap — это файл, в котором вы можете перечислить веб-страницы вашего сайта, чтобы сообщить Google и другим поисковым системам об организации контента вашего сайта. Поисковые роботы, такие как Googlebot, читают этот файл, чтобы более разумно сканировать ваш сайт».
Google утверждает , что карты сайта лучше всего использовать в определенных сценариях, в частности...
- Ваш сайт действительно большой.
- На вашем сайте есть большой архив содержательных страниц, которые изолированы или плохо связаны друг с другом.
- Ваш сайт новый и на него мало внешних ссылок.
- На вашем сайте используется мультимедийный контент, он отображается в Новостях Google или использует другие аннотации, совместимые с файлами Sitemap.
Sitemap сейчас используются для многих вещей, но что касается Googlebot, карты сайта в основном создают список URL-адресов и других данных, которые Googlebot может использовать в качестве руководства при посещении ваших веб-страниц.
Google объясняет, как создавать карты сайта здесь.
Googlebot и поисковая консоль Google
Еще одним местом, где вы можете управлять роботом Googlebot, является консоль поиска Google.
Если робот Googlebot обращается к вашему веб-серверу слишком быстро, вы можете изменить скорость сканирования .
Вы также можете просмотреть обзор того, как робот Googlebot получает доступ к вашему веб-сайту, протестировать файл robots.txt, увидеть ошибки сканирования роботом Googlebot и выполнить запросы «извлечь и отобразить», которые помогут вам понять, как Google видит ваши веб-страницы.
Сколько существует роботов Googlebots/Google-сканеров?
Существует девять различных типов поисковых роботов Google.
- Googlebot (Google Web search)
- Google Smartphone
- Google Mobile (Feature phone)
- Googlebot Images
- Googlebot Video
- Googlebot News
- Google Adsense
- Google Mobile Adsense
- Google Adsbot (проверка качества целевой страницы)
Если вам нужны подробности о каждом из них, обязательно посетите страницу справки поисковых роботов Google, предоставленную Google (на ней перечислены сведения о каждом используемом веб-сканере).
Что такое Googlebot User-agent?
Так как есть несколько роботов Googlebot, на самом деле существует несколько User-agent Googlebot, давайте рассмотрим основные из них:
Googlebot (Google web search)
User-agent names: Googlebot
Mozilla/5.0 (compatible; Googlebot/2.1;
+http://www.google.com/bot.html)
Googlebot Smartphone
User-agent names: Googlebot
Mozilla/5.0 (iPhone; CPU iPhone OS 8_3 like Mac OS X)
AppleWebKit/600.1.4 (KHTML, like Gecko) Version/8.0 Mobile/12F70
Safari/600.1.4 (compatible; Googlebot/2.1;
+http://www.google.com/bot.html)
Googlebot Image
User-agent names: Googlebot-Image (Googlebot)
Googlebot-Image/1.0
Googlebot Video
User-agent names: Googlebot-Video (Googlebot)
Googlebot-Video/1.0
Страница справки поисковых роботов Google предоставляет агенту пользователя информацию обо всех поисковых роботах Google, и это место, где вы должны искать самую последнюю и надежную информацию.
Googlebot и языки/местоположения
Если ваши страницы использует разные языки или контент в зависимости от местоположения или языка запроса, Googlebot может не всегда видеть весь ваш контент (они рекомендуют использовать hreflang).
Но эта статья о роботе Googlebot, и то, что Googlebot начал делать для контента, основанного на языке и местоположении, интересно.
Давайте взглянем...
Когда пользователи посещают вашу страницу и у вас есть решение на основе местоположения или языка для другого контента, пользователь в Италии увидит контент на итальянском языке, а пользователь в Америке увидит контент на английском языке.
Робот Googlebot базируется в Америке, так как же это работает? Как робот Googlebot увидит этот итальянский контент?
Сканирование с учетом региональных настроек роботом Googlebot
Googlebot использует два основных метода (о которых говорит нам Google) для создания сканирования с учетом локали...
- Геораспределенное сканирование: похоже, что Googlebot использует IP-адреса, находящиеся за пределами США, в дополнение к давним IP-адресам, которые использует Googlebot, которые, по-видимому, находятся в США.
- Сканирование в зависимости от языка: робот Googlebot выполняет сканирование с полем Accept-Language, установленным в заголовке HTTP.
Другими словами, Googlebot использует методы для обхода Интернета в качестве пользователя из любого места, но (и это большое «но») Google по-прежнему рекомендует использовать hreflang .
Всегда проверяйте страницу сканирования Googlebot с учетом локали на официальных страницах справки Google, чтобы принимать решения!
Поиск официальных справочных страниц Google
Большинство ссылок в этой статье ведут на официальные страницы справки Google.
Хороший способ увидеть все, что Google сказал о Googlebot (или любом другом предмете), — использовать «Поиск Google». Он ищет только официальную документацию Google.