Google

Google-Agent und Googlebot: So steuern Websites den Zugriff

Der Unterschied zwischen Google-Agent vs Googlebot ist für Website-Betreiber vor allem eine Steuerungsfrage: Welche Zugriffe sollen Reichweite in der Suche sichern, welche sollen KI-Antworten oder…

Von Wolfgang

29. März 20267 Min. Lesezeit

Google-Agent und Googlebot: So steuern Websites den Zugriff

Der Unterschied zwischen Google-Agent vs Googlebot ist für Website-Betreiber vor allem eine Steuerungsfrage: Welche Zugriffe sollen Reichweite in der Suche sichern, welche sollen KI-Antworten oder nutzergetriggerte Abrufe bedienen, und wo beginnt unnötige Last oder unerwünschte Verwertung? Google trennt in seiner Crawler-Dokumentation klassische Search-Crawler wie Googlebot von anderen Google-Zugriffen, darunter produktgebundene Bots und nutzergetriggerte Fetcher. Für Publisher, Shops und Plattformen ist das praktisch relevant, weil robots.txt, Logging und Freigaben dadurch feiner organisiert werden können, ohne Suchsichtbarkeit und KI-Nutzung automatisch gleichzusetzen.

Das Wichtigste in Kürze

Googlebot steht für klassisches Search-Crawling; andere Google-Zugriffe lassen sich davon technisch und organisatorisch trennen, was eigene Regeln für Suche, KI-Nutzung und Spezialdienste ermöglicht.
robots.txt steuert kooperative Crawler, ist aber keine Zugriffskontrolle. Wer sensible Inhalte schützen will, braucht echte Authentifizierung oder andere harte Sperren.
Für Publisher und Shops liegt der Zielkonflikt nicht nur in Reichweite, sondern auch in Verwertung, Serverlast und Messbarkeit: Mehr Granularität hilft nur, wenn Logs, User-Agents und Freigaben sauber ausgewertet werden.

Warum die Trennung zwischen Suche und KI-Zugriffen relevant ist

Viele Websites behandeln Google noch immer als einen einzigen technischen Absender. Für den Betrieb ist das zu grob. Denn ein Search-Crawler, der Seiten für die Websuche erfasst, hat eine andere Funktion als ein Zugriff, der auf eine Nutzeranfrage reagiert oder Inhalte für KI-nahe Dienste verfügbar macht. Wer beides nicht trennt, steuert Reichweite, Last und Verwertung mit einer einzigen Schablone und verliert dabei Kontrolle.

Genau an dieser Stelle setzt Googles aktuelle Dokumentation an. Sie beschreibt klassische Crawler, produktbezogene Spezialbots und nutzergetriggerte Fetcher als verschiedene Klassen. Für Betreiber bedeutet das keine einfache Ja-nein-Entscheidung, sondern eine Betriebsfrage: Welche Inhalte sollen in Search bleiben, welche dürfen zusätzlich für andere Google-Dienste genutzt werden, und welche Bereiche gehören grundsätzlich nicht in automatisierte Abrufe? Darum geht es im Folgenden technisch und praktisch.

Der Kernunterschied: Indexierung ist nicht dasselbe wie nutzergetriggerter Abruf

Google beschreibt seine Infrastruktur nicht als einen monolithischen Bot, sondern als mehrere Klassen. Common crawlers wie Googlebot crawlen automatisiert und sind für Google Search und angrenzende Oberflächen wie Discover, Images, Video und News relevant. Daneben nennt Google special-case crawlers für bestimmte Produkte sowie user-triggered fetchers, die laut Dokumentation auf eine konkrete Nutzeranfrage reagieren. Schon diese Dreiteilung macht klar: Der technische Zweck eines Zugriffs entscheidet darüber, wie er eingeordnet und gesteuert werden sollte.

In der öffentlichen Debatte taucht dafür teils der Begriff Google-Agent auf. Belastbar dokumentiert ist in den zugänglichen Google-Seiten vor allem die Trennung zwischen Googlebot, weiteren benannten Google-User-Agents und den user-triggered fetchers. Für Betreiber ist der Name am Ende zweitrangig. Entscheidend ist die operative Grenze: Such-Crawling dient der Indexierung, während andere Abrufe einem separaten Produktzweck folgen können. Das erlaubt differenzierte Regeln, zwingt aber auch zu differenzierter Administration.

Was Websites tatsächlich steuern können

Das wichtigste Instrument bleibt robots.txt. Nach RFC 9309 arbeitet sie über User-Agent-Gruppen und Pfadregeln. Crawler wählen die passende Gruppe anhand ihres Produkt-Tokens im User-Agent, mehrere passende Gruppen werden zusammengeführt, und bei widersprüchlichen Regeln gilt die spezifischste Vorgabe. Für regelkonforme Bots ist das ein klarer und standardisierter Weg, um Crawling zu erlauben oder einzuschränken.

Für die Praxis heißt das: Googlebot kann offen bleiben, während andere Google-User-Agents restriktiver behandelt werden, sofern diese User-Agents dokumentiert sind und die Regeln respektieren. Google nennt dafür ausdrücklich mehrere Tokens, darunter Googlebot und Google-Extended. Google-Extended ist laut Google dafür gedacht, die Nutzung von Inhalten für künftige Gemini-Modelle und Grounding zu steuern, ohne die Aufnahme oder das Ranking in Google Search zu beeinflussen. Damit wird erstmals im Alltag vieler Betreiber greifbar, was zuvor oft vermischt wurde: Sichtbarkeit in der Suche und Nutzung von Inhalten für KI-Systeme müssen nicht dieselbe Freigabe haben.

Die Grenze dieser Steuerung ist ebenso wichtig. robots.txt ist keine Zugriffskontrolle. Sie sagt kooperativen Crawlern, was sie nicht abrufen sollen. Sie verhindert aber nicht zuverlässig, dass ein nicht kooperativer Bot oder ein verdeckt auftretender Abruf die Ressource dennoch anfragt. Sensible Bereiche wie Konten, Bestellstrecken, interne Suchen, API-Endpunkte oder Vorab-Inhalte gehören deshalb nicht nur per robots.txt abgeschirmt, sondern technisch geschützt.

Welche Freigaben sich für Publisher, Shops und Plattformen anbieten

Für Publisher liegt der offensichtliche Hebel in der Trennung von Suchtraffic und Inhaltsverwertung. Wer Reichweite aus Google Search behalten will, hat einen anderen Maßstab als bei der Frage, ob vollständige Artikel zusätzlich für KI-Training oder KI-gestützte Antwortsysteme herangezogen werden sollen. Die operative Konsequenz lautet: Search-Crawling separat bewerten, KI-bezogene Freigaben separat entscheiden und beides nicht aus Gewohnheit aneinanderbinden.

Für Shops ist die Lage etwas anders. Kategorieseiten, Produktseiten und strukturierte Sortimente profitieren oft von Search-Crawling, während Warenkorb, Checkout, Kontobereiche oder interne Suche klar ausgeschlossen werden sollten. Bei KI- und agentischen Zugriffen kommt ein weiterer Punkt hinzu: Preis- und Verfügbarkeitsdaten altern schnell. Wer solche Daten für zusätzliche Abrufe freigibt, muss Lastspitzen, Caching und potenzielle Fehlinterpretationen mitdenken. Nicht jede Seite, die indexierbar sein soll, ist automatisch auch für jede Form von KI-Abruf sinnvoll.

Für Plattformen und Admin-Teams wird die Trennung vor allem zu einer Beobachtungsaufgabe. Google weist selbst darauf hin, dass Crawler und Fetcher über User-Agent, Quell-IP und Reverse DNS verifiziert werden können. Das ist für Logs wichtiger, als es lange schien. Erst wenn Requests nach Bot-Typ, Pfadgruppe, Statuscode und Lastbild ausgewertet werden, lässt sich sauber entscheiden, welche Regeln den gewünschten Effekt haben und welche nur Reichweite kosten, ohne nennenswerte Entlastung zu bringen.

Wo die Trennung an ihre Grenzen stößt

Die sauberste robots-Regel hilft nur, wenn der Gegenüber sich daran hält. Genau hier beginnt der operative Graubereich. Branchenbeobachter wie Cloudflare haben dokumentiert, dass KI-bezogene Crawls nicht immer transparent auftreten, sondern teils mit wechselnden User-Agents, IP-Rotation oder verdecktem Verhalten arbeiten. Das ist kein spezielles Google-Problem, zeigt aber die Systemgrenze deutlich: Eine deklarierte Identität ist nur so belastbar wie die technische und organisatorische Disziplin des jeweiligen Anbieters.

Hinzu kommt ein zweiter Zielkonflikt. Mehr granulare Steuerung bedeutet nicht automatisch weniger Aufwand. Im Gegenteil: Wer Search, KI-Nutzung, Spezialdienste und sensible Pfade sauber trennt, braucht klare Zuständigkeiten zwischen Redaktion, SEO, Rechtsabteilung, Infrastruktur und Produkt. Sonst entstehen widersprüchliche Regeln, unnötige Blockaden oder Fehlannahmen über Reichweite und Monetarisierung. Die eigentliche Herausforderung ist daher weniger die einzelne robots-Zeile als ein belastbares Betriebsmodell dahinter.

Die praktische Schlussfolgerung: Kontrolle wird granularer, aber nicht einfacher

Die Trennung zwischen Googlebot und anderen Google-Zugriffen ist vor allem ein Fortschritt in der Betriebspraxis. Sie erlaubt es, Suchsichtbarkeit, KI-Nutzung und Spezialzugriffe getrennt zu beurteilen, statt alles unter dem Etikett Google zusammenzufassen. Für Websites lohnt sich deshalb ein nüchterner Ansatz: Search-Crawling dort offen halten, wo Reichweite und Auffindbarkeit gewollt sind; KI- und produktbezogene Freigaben bewusst entscheiden; sensible Bereiche technisch schützen; Logs so auswerten, dass Regeln nicht nur gesetzt, sondern auch überprüft werden. Wer das sauber trennt, gewinnt weniger Schlagzeilen als vielmehr bessere Steuerbarkeit.

Am nützlichsten ist nicht die schärfste Sperre, sondern die Regel, die zum Zweck einer Seite wirklich passt.