Wie kann ich den Common-Crawl-Rang meiner Domain verbessern?

Verdienen Sie Links und Markennennungen von Seiten, die selbst tief im Kern des Webs vernetzt sind, etwa großen Publishern und Institutionen. Link-Topologie schlägt Link-Menge. Pflegen Sie einen präzisen Wikidata-Eintrag und Wikipedia-Präsenz und betreiben Sie Earned Media mit autoritativer Berichterstattung. Diese Signale summieren sich über Monate, nicht über Tage.

Garantiert ein hoher Common-Crawl-Rang, dass AI mich zitiert?

Nein. Ein starker Rang verbessert die Chancen, dass AI-Modelle Ihre Domain als autoritativ behandeln, aber Zitate in Echtzeit hängen auch davon ab, ob Ihre Seiten für AI-Crawler zugänglich sind und ob Ihr Inhalt die Frage beantwortet. Der Rang ist eine wichtige Größe, nicht das gesamte Bild.

Das Autoritätssignal, das AI kannte, bevor sie je von Ihrer Marke hörte

Q: Was ist Harmonic Centrality?

Harmonic Centrality misst, wie zentral eine Website im Link-Graphen des Webs ist, basierend darauf, wie leicht sie von jeder anderen Seite über kurze Linkpfade erreichbar ist. Seiten, die viele gut vernetzte Seiten in wenigen Schritten erreichen, erzielen hohe Werte. Sie ist schwerer zu manipulieren als reine Linkzahlen und damit ein starker Indikator echter Autorität.

Bevor ein AI-Modell eine einzige Frage zu Ihrer Marke beantwortet, hat es sich längst eine Meinung darüber gebildet, welchen Websites es vertraut. Das entschied sich schon im Training, lange bevor jemand eine Anfrage eintippte. Und geprägt hat es zu großen Teilen ein kostenloser öffentlicher Datensatz, von dem die meisten Marketer noch nie gehört haben: Common Crawl.

Für alle, die Earned Media verantworten, ist das wichtig. Eine Platzierung auf einer Seite, der die AI vertraut, kann durch Tausende AI-Antworten hallen. Eine Platzierung auf einer Seite, die die AI kaum wahrnimmt, kann im selben Kanal unsichtbar bleiben. Der Unterschied liegt nicht an Traffic oder klassischem Prestige. Er liegt daran, wo eine Seite in der Struktur des Webs selbst steht.

Die gute Nachricht? Diese Struktur ist messbar. Es gibt eine Zahl, die sie gut vorhersagt, und Sie schlagen Ihre in Sekunden mit unserem kostenlosen Common-Crawl-Rang-Checker nach.

Die wichtigsten Erkenntnisse

Common Crawl ist eine der größten Quellen für AI-Trainingsdaten. Manche Studien schätzen, dass GPT-3 über 80% seiner Trainings-Tokens aus gefilterten Common-Crawl-Inhalten bezog.
Common Crawl nutzt eine Kennzahl namens Harmonic Centrality, um zu entscheiden, welche Seiten am häufigsten gecrawlt werden. Seiten mit hoher Zentralität tauchen stärker in den Daten auf, aus denen Modelle lernen.
Harmonic Centrality ist ein starker Indikator dafür, wie autoritativ ein AI-Modell eine Seite behandelt, weil sie belohnt, tief im Web vernetzt zu sein, nicht nur stark verlinkt.
Für PR- und Marketing-Verantwortliche kommt damit eine neue Dimension zum Wert von Earned Media hinzu. Die Autorität der Host-Seite im Webgraphen prägt, wie viel eine Platzierung im AI-Zeitalter wert ist.
Sie können Ihre Position mit der Zeit verbessern. Wikidata, Wikipedia und verdiente Links mit Markennennungen von hoch autoritativen Seiten bewegen alle etwas.

Was Common Crawl wirklich ist

Common Crawl ist eine gemeinnützige Organisation, die seit 2008 das öffentliche Web crawlt. Jeden Monat besucht sie Milliarden von Seiten, speichert, was sie findet, und veröffentlicht das Ganze als kostenlosen, offenen Datensatz. Jeder kann ihn herunterladen. Forscher nutzen ihn. Start-ups nutzen ihn. Und entscheidend: Die Unternehmen, die große Sprachmodelle bauen, nutzen ihn.

Wie stark? Sehr stark. Als OpenAI GPT-3 trainierte, machten gefilterte Common-Crawl-Daten den Großteil der Trainings-Tokens aus. Auch andere große Modelle stützen sich stark darauf. Wenn man sagt, ein AI-Modell sei "auf dem Internet trainiert" worden, ist Common Crawl ein großer Teil dessen, was mit "dem Internet" gemeint ist.

Der Crawler, der diese Arbeit erledigt, heißt CCBot. Falls Sie sich je gefragt haben, ob er Ihre Seite besucht, finden Sie sein vollständiges Profil in unserem Bot-Verzeichnis-Eintrag zu CCBot. Er ist einer der wichtigsten Bots im Web, über den außerhalb der Fachwelt fast niemand spricht.

Und jetzt der Teil, der für Sie zählt. Common Crawl kann nicht jeden Monat jede Seite crawlen. Das Web ist zu groß. Also muss es auswählen. Und die Art dieser Auswahl ist der Punkt, an dem Autorität ins Spiel kommt.

Die Zahl, die entscheidet, wer gecrawlt wird

Um zu entscheiden, was gecrawlt wird, baut Common Crawl eine Karte des Webs, den sogenannten Webgraphen. Jede Website ist ein Punkt. Jeder Link zwischen Seiten ist eine Linie zwischen zwei Punkten. Macht man das für das ganze Web, entsteht ein riesiges Netzwerk mit Hunderten Millionen Punkten.

Aus dieser Karte berechnet Common Crawl für jede Seite einen Wert namens Harmonic Centrality. Die Mathematik ist aufwendig, die Idee aber einfach. Harmonic Centrality misst, wie zentral eine Seite in der Nachbarschaft des Webs liegt. Sie fragt: Wie viele kurze Pfade führen von überall sonst im Web zu Ihrer Tür?

Stellen Sie sich eine Stadt vor. Ein Geschäft am Hauptplatz, das man aus jeder Richtung schnell erreicht, ist zentral. Ein Geschäft in einer Sackgasse am Stadtrand ist es nicht, selbst wenn zufällig viele Menschen in genau dieser einen Straße wohnen. Harmonic Centrality belohnt das Geschäft am Platz.

Es gibt eine zweite, verwandte Zahl, die Sie ebenfalls sehen werden: PageRank. Das ist dieselbe Idee, die Google berühmt gemacht hat. PageRank misst Autorität über Qualität und Menge der Links, die auf Sie zeigen. Nützlich, aber mit einer Schwäche. Weil er Links zählt, lässt er sich durch Linkfarmen und andere Tricks aufblähen. Harmonic Centrality ist schwerer zu fälschen, weil sie von Ihrer Position im gesamten Netzwerk abhängt, nicht nur davon, wie viele Pfeile auf Sie zeigen. Deshalb ist sie ein so vertrauenswürdiges Signal echter Autorität.

Ein konzeptioneller U-Bahn-Plan des Webs. Farbige Linien laufen in einem leuchtenden Zentrum, dem 'Core' (Downtown), zusammen, wo gut vernetzte Seiten dicht beieinanderliegen, während dünne Linien zu blassen 'Peripheral sites' am Rand auslaufen. Eine hervorgehobene Station ('Highlighted site') liegt nahe der Mitte, nah an Downtown. Eine Legende erklärt, dass Harmonic Centrality der Position einer Station auf dem Plan und ihrer Entfernung zu Downtown entspricht, während PageRank die Zahl der auf eine Station zeigenden Pfeile ist. — Stellen Sie sich das Web als U-Bahn-Plan vor. Harmonic Centrality ist, wie nah Ihre Station an Downtown liegt; PageRank ist, wie viele Linien in sie hineinführen. Zentrale Stationen werden von überall erreicht.

Nun verbinden Sie beide Ideen. Common Crawl crawlt Seiten mit hoher Zentralität häufiger. Diese Seiten erscheinen daher öfter in den Daten, mit denen AI-Modelle trainiert werden. Je öfter ein Modell eine Seite während des Trainings sieht, desto vertrauter und autoritativer wirkt diese Seite, wenn das Modell später eine Antwort erzeugt. Zentrale Seiten bekommen einen Vorsprung, der sich summiert.

Es ist kein Zufall, dass die Seiten ganz oben im Webgraphen, etwa Wikipedia, YouTube und große Nachrichtenportale, auch die Seiten sind, die AI-Modelle am häufigsten zitieren. Sie waren zentral, also wurden sie gecrawlt, also wurden sie gelernt, also wird ihnen vertraut.

Warum das auf den Radar von PR-Verantwortlichen gehört

Jahrelang bemaß sich der Wert einer Earned-Media-Platzierung an ein paar vertrauten Dingen. Reichweite. Domain-Autorität. Das Prestige des Mediums. Ob die Berichterstattung positiv war. Das zählt weiterhin, und wird es immer.

Aber AI hat eine neue Größe hinzugefügt, und sie fehlt in klassischen Coverage-Reports völlig. Wenn ein Kunde einen AI-Assistenten um Empfehlungen bittet, stützt sich der Assistent auf das, was er im Training gelernt hat, und auf das, was er in Echtzeit findet. Beide Kanäle bevorzugen Seiten, die im Webgraphen zentral sind. Eine Story über Ihre Marke auf einer hoch zentralen Seite erreicht nicht nur deren Leser. Sie wird Teil des Rohmaterials, mit dem AI Ihre Kategorie beschreibt.

Das formt eine Frage neu, die jede PR-Leitung stellen sollte. Nicht nur "haben wir die Platzierung bekommen?", sondern "ist die Seite, auf der wir sie bekommen haben, eine, die AI als autoritativ behandelt?". Zwei Platzierungen, die auf einem Coverage-Report identisch aussehen, können im AI-Kanal sehr unterschiedlichen Wert haben, allein wegen der Position der jeweiligen Host-Seite im Webgraphen.

Genau diese Lücke schließt unser AI Placement Value Score. Er kombiniert die organische Autorität einer Seite, die dasselbe Common-Crawl-PageRank-Signal enthält, das wir hier besprechen, mit der Zugänglichkeit der Seite für AI-Crawler und ihrem Gewicht in AI-Trainingsdaten. Ihr Common-Crawl-Rang ist eine der Kerngrößen. Ein starker Rang hebt tendenziell den Platzierungswert jeder Berichterstattung, die Sie auf dieser Domain verdienen.

So verbessern Sie Ihre Position

Und jetzt das Ermutigende. Ihre Position im Webgraphen ist nicht fest. Sie spiegelt die Entscheidungen wider, die Sie und Ihr Team über die Zeit treffen. Sie können sich das Zentrum des Webs nicht kaufen, aber Sie können es sich verdienen. Ein paar Schritte zählen am meisten.

Beanspruchen und pflegen Sie Ihren Wikidata-Eintrag. Wikidata ist die strukturierte Datenbank hinter Wikipedia, die Wissen über das ganze Web verteilt, auch in AI-Systeme. Ein präziser, vollständiger Wikidata-Eintrag für Ihre Marke verbindet Sie mit dem hoch zentralen Wissenskern des Webs. Es ist einer der direktesten Wege, Teil der Nachbarschaft zu werden, der AI bereits vertraut. Wenn Sie für einen Wikipedia-Artikel infrage kommen, hilft das noch mehr.

Jagen Sie Autorität, nicht Menge. Das ist die wichtigste Denkänderung. Link-Topologie schlägt Link-Menge. Ein einziger Link von einer Seite tief im Kern des Webs kann für Ihre Harmonic Centrality mehr bewirken als Dutzende Links von isolierten Seiten mit geringer Zentralität. Eine Story in einer großen, tief vernetzten Publikation übertrifft hundert Erwähnungen auf Seiten, die niemand verlinkt. Qualität der Nachbarschaft, nicht Menge der Links.

Betreiben Sie Earned Media, die echte Berichterstattung auf zentralen Seiten erzeugt. Hier treffen sich PR und diese Kennzahl direkt. Wenn Ihre Earned Media Markennennungen und Links auf autoritativen, gut vernetzten Medien platziert, erreichen Sie nicht nur deren Publikum. Sie stärken Ihre eigene Position im Webgraphen, was wiederum prägt, wie AI Sie wahrnimmt. Jede Platzierung auf einer zentralen Seite ist eine kleine Einzahlung auf Ihre langfristige AI-Autorität.

Bleiben Sie bei Ihrer Markenidentität konsistent. Nutzen Sie denselben Markennamen, dieselben Kernfakten und konsistente strukturierte Daten über die von Ihnen kontrollierten Seiten und die verdiente Berichterstattung hinweg. Konsistenz hilft sowohl dem Webgraphen als auch AI-Modellen, all Ihre Erwähnungen mit einer einzigen, wiedererkennbaren Entität zu verbinden.

Nichts davon geschieht über Nacht. Zentralität baut sich über Monate und Quartale auf, so wie Reputation. Aber genau deshalb ist sie verteidigbar. Ein Wettbewerber kann sich in einer Woche nicht daran vorbeikaufen.

Sehen Sie, wo Sie stehen

Sie müssen nicht raten, wo Ihre Marke in all dem steht. Unser kostenloser Common-Crawl-Rang-Checker schlägt jede Domain im Common-Crawl-Webgraphen nach und zeigt Ihnen in Sekunden drei Dinge: wo Sie als Perzentil des gesamten Webs landen, Ihre Harmonic Centrality und Ihren PageRank sowie eine verständliche Autoritätsstufe von Elite bis Aufstrebend. Er berechnet außerdem einen vollständigen AI Placement Value Score, damit Sie nicht nur sehen, wo Sie stehen, sondern was Ihre Position im AI-Kanal wert ist.

Prüfen Sie Ihre eigene Domain. Prüfen Sie dann die Seiten, auf denen Ihre beste Berichterstattung gelandet ist. Die Ergebnisse zeigen Ihnen, welche Ihrer Platzierungen im Kanal am härtesten arbeiten, der zunehmend prägt, wie Käufer Marken entdecken. Und wenn Sie bereit sind, diese Erkenntnis in einen Plan zu verwandeln, können Sie mit einem kostenlosen Spyglasses-Konto jede Domain prüfen und eine Earned-Media-Strategie rund um die Seiten aufbauen, die AI tatsächlich bewegen.

Glossar

Was ist Common Crawl?

Common Crawl ist eine gemeinnützige Organisation, die das öffentliche Web crawlt und die Ergebnisse als kostenlose, offene Datensätze veröffentlicht. Weil die Daten kostenlos und riesig sind, wurden sie zu einer der wichtigsten Trainingsdatenquellen für große Sprachmodelle. Wenn ein AI-Modell "auf dem Web trainiert" wurde, ist Common Crawl ein großer Teil davon.

Was ist Harmonic Centrality?

Harmonic Centrality ist eine Kennzahl aus der Netzwerkforschung, die misst, wie zentral ein Knoten in einem Graphen ist. Im Kontext des Webs misst sie, wie leicht eine Website von allen anderen Websites über kurze Linkpfade erreichbar ist. Ein hoher Wert bedeutet, dass die Seite tief mit dem restlichen Web verbunden ist. Sie ist schwerer zu manipulieren als Kennzahlen, die nur Links zählen, und damit ein starkes Signal echter Autorität.

Was ist PageRank?

PageRank ist eine Kennzahl, die die Autorität einer Seite anhand der Anzahl und Qualität der auf sie verweisenden Links bewertet. Es ist der Algorithmus, der ursprünglich die Google-Suche antrieb. Common Crawl veröffentlicht einen PageRank-Wert für Domains in seinem Webgraphen. Er ist nützlich, kann aber, weil er auf Linkzahlen basiert, durch künstliche Verlinkung aufgebläht werden.

Was ist CCBot?

CCBot ist der Web-Crawler, den Common Crawl nutzt, um Inhalte aus dem Web zu sammeln. Wenn er Ihre Seite besucht, können die gesammelten Seiten in den Datensätzen landen, die AI-Modelle trainieren. Sein vollständiges Profil, samt Kennung, finden Sie in unserem CCBot-Verzeichnis-Eintrag.