Übersicht über Google-Crawler und -Fetcher (User-Agents)

Google verwendet Crawler und Fetcher, um Aktionen für seine Produkte auszuführen, entweder automatisch oder durch Nutzeranfrage ausgelöst. Crawler (manchmal auch als „Robots“ oder „Spider“ bezeichnet) ist ein Überbegriff für Programme, die Websites automatisch finden und scannen. Dazu folgen sie Links von einer Webseite zur nächsten. Fetcher wie wget fungieren als Programme, die in der Regel im Namen eines Nutzers eine einzelne Anfrage stellen. Die Google-Clients lassen sich in drei Kategorien unterteilen:

Gängige Crawler Die gängigen Crawler, die für die Produkte von Google verwendet werden (z. B. der Googlebot). Sie berücksichtigen immer die robots.txt-Regeln für automatisches Crawling.
Sonderfall-Crawler Sonderfall-Crawler ähneln gängigen Crawlern, werden jedoch von bestimmten Produkten verwendet, wenn es eine Vereinbarung zwischen der gecrawlten Website und dem Google-Produkt über den Crawling-Prozess gibt. Beispielsweise ignoriert AdsBot den globalen robots.txt-User-Agent (*) mit der Berechtigung des Anzeigen-Publishers.
Vom Nutzer ausgelöste Fetcher Vom Nutzer ausgelöste Fetcher sind Teil von Tools und Produktfunktionen, bei denen der Endnutzer einen Abruf auslöst. Google Site Verifier wirkt sich beispielsweise auf die Anfrage eines Nutzers aus.

Technische Eigenschaften der Crawler und Fetcher von Google

Die Crawler und Fetcher von Google sind so konzipiert, dass sie gleichzeitig auf Tausenden von Maschinen ausgeführt werden können, um die Leistung zu verbessern und den Umfang zu steigern, während das Web wächst. Um die Bandbreitennutzung zu optimieren, sind diese Clients auf viele Rechenzentren auf der ganzen Welt verteilt, sodass sie sich in der Nähe der Websites befinden, auf die sie zugreifen könnten. Aus diesem Grund weisen deine Protokolle eventuell Aufrufe von verschiedenen IP-Adressen auf. Google sendet Daten hauptsächlich von IP-Adressen in den USA. Wenn Google erkennt, dass eine Website Anfragen aus den USA blockiert, wird möglicherweise versucht, über IP-Adressen in anderen Ländern zu crawlen.

Die Crawler und Fetcher von Google verwenden HTTP/1.1 und, sofern von der Website unterstützt, HTTP/2. Durch das Crawling über HTTP/2 können Rechenressourcen (z. B. CPU und RAM) für deine Website und den Googlebot eingespart werden. Es gibt jedoch keinen produktspezifischen Vorteil für die Website, z. B. keinen Ranking-Boost in der Google Suche. Wenn du das Crawling über HTTP/2 deaktivieren möchtest, weise den Server, der deine Website hostet, an, mit einem HTTP-Statuscode 421 zu antworten, wenn Google versucht, auf deine Website über HTTP/2 zuzugreifen. Falls dies nicht möglich ist, kannst du eine Nachricht an das Crawling-Team senden. Das ist allerdings nur eine temporäre Lösung.

Die Crawler und Fetcher von Google unterstützen die folgenden Inhaltscodierungen (Komprimierungen): gzip, deflate und Brotli (br). Die von jedem Google-User-Agent unterstützten Inhaltscodierungen werden im Accept-Encoding-Header jeder Anfrage angegeben. Beispiel: Accept-Encoding: gzip, deflate, br.

Wir bemühen uns, bei jedem Besuch möglichst viele Seiten deiner Website zu crawlen, ohne dass dein Server zu sehr beansprucht wird. Wenn deine Website nicht mit den Crawling-Anfragen von Google mithalten kann, kannst du die Crawling-Frequenz verringern. Hinweis: Wenn du nicht den richtigen HTTP-Antwortcode an die Crawler von Google sendest, kann sich das auf die Darstellung deiner Website in Google-Produkten auswirken.

Identität der Crawler und Fetcher von Google überprüfen

Die Crawler von Google identifizieren sich auf drei Arten:

  1. Über den HTTP-user-agent-Anfrageheader.
  2. Über die Quell-IP-Adresse der Anfrage.
  3. Über den Reverse-DNS-Hostnamen der Quell-IP-Adresse.

Informationen zum Überprüfen der Identität der Crawler und Fetcher von Google mithilfe dieser Informationen