Seriöse Messung der KI-Sichtbarkeit folgt vier Prinzipien: Sie ist reproduzierbar, sie kontrolliert die Tagesvariation von KI-Antworten, sie verlangt Inter-Rater-Reliabilität bei der Bewertung, und sie trennt methodisch zwischen der Empfangsbereitschaft einer Website und ihrer tatsächlichen Citation-Performance. Diese Pillar erklärt die Methodik des GEO-Score Framework v3.3.5, das wir bei kmugeo einsetzen und unter Creative Commons BY-SA 4.0 öffentlich zugänglich gemacht haben.
Wer KI-Sichtbarkeit messen will, stößt sofort auf vier methodische Probleme. Die ersten beiden werden von einfachen Tools systematisch unterschätzt:
Eine ernsthafte Mess-Methodik adressiert alle vier Probleme. Durch Reproduzierbarkeit, Vier-Systeme-Erfassung, dokumentierte Schwellenwerte und die strikte Trennung der beiden Konstrukte.
Eine seriöse KI-Sichtbarkeits-Messung beantwortet nicht nur „Wie sichtbar bin ich?", sondern liefert die diagnostische Aufschlüsselung: Wenn die Sichtbarkeit niedrig ist, liegt das an der Empfangsbereitschaft (technisch lösbar) oder am Citation-Verhalten (inhaltlich-strategisch lösbar)? Genau das verschleiert ein einzelner Composite-Score.
Das GEO-Score Framework v3.3.5 misst zwei Dinge, bewusst getrennt, bewusst ohne Composite-Score:
Beide Werte werden monatlich nebeneinander ausgewiesen und können entkoppelt verlaufen: Eine Website mit hoher Empfangsbereitschaft kann trotzdem geringe Citation-Performance haben (Inhalt ist technisch perfekt aufbereitet, aber nicht das, was Nutzer in der KI suchen). Umgekehrt kann eine Website mit mittlerer Empfangsbereitschaft trotzdem gut zitiert werden, etwa weil sie als Marke bekannt ist und über externe Verankerung gewinnt.
Diese Entkopplung ist die diagnostische Stärke des Frameworks. Wenn der Citation-Wert fällt, lässt sich anhand des Readiness-Werts unterscheiden: Liegt es an der Website oder am Marktverhalten?
Der Readiness-Score setzt sich aus vier Pflicht-Voraussetzungen (Gates), zwölf gewichteten Faktoren in drei Gruppen und fünf zusätzlichen Signalen zusammen. Wer eine der vier Gates nicht erfüllt, kann maximal 50 Punkte erreichen, egal wie gut die anderen Faktoren sind.
Bevor die zwölf Faktoren überhaupt gewichtet werden, müssen vier technische Pflicht-Voraussetzungen erfüllt sein: Crawler-Erreichbarkeit für die zentralen KI-Bots, eine kooperative robots.txt-Direktive, HTTPS-Auslieferung und eindeutige Differenzierbarkeit jeder Unterseite über Title und H1. Klingt simpel, ist aber in der Praxis komplexer als auf den ersten Blick: Wer einen der Gates nicht sauber erfüllt, capt seinen Score auf maximal 50 Punkte. Welche Schwellen genau gelten und wie wir sie messen, ist Teil des publizierten Frameworks.
Wenn die Gates erfüllt sind, wird die Bewertung in drei thematischen Gruppen vergeben. Die Gewichtungen sind nicht gleich verteilt, sie spiegeln, was kausal am stärksten zur Citation-Wahrscheinlichkeit beiträgt.
Welche Faktoren genau in jeder Gruppe wie gewichtet werden, plus die fünf Signal-Boni und die Anti-Gaming-NLP-Checks, sind im veröffentlichten Framework dokumentiert.
Der Readiness-Score ist kein Ranking-Score wie bei klassischer SEO. Er beantwortet die Frage „Wäre diese Website für ein KI-System problemlos verarbeitbar und zitierfähig?", nicht „Wo steht sie im Vergleich?". Diese Trennung schützt vor Pseudo-Vergleichbarkeit zwischen Branchen mit völlig unterschiedlichen Substanz-Ansprüchen.
Während der Readiness-Score die Empfangsbereitschaft der Website misst, erfasst das Performance-Profil das tatsächliche Citation-Verhalten der KI-Systeme. Es wird nicht als ein einzelner Wert ausgewiesen, sondern als Profil aus fünf Sub-Metriken über die vier zentralen LLM-Systeme: ChatGPT, Claude, Perplexity und Microsoft Copilot.
Die fünf Sub-Metriken werden bewusst nicht zu einem Composite-Wert verrechnet. Eine Marke kann hohe Erwähnungsrate haben, aber niedrige Zitier-Position, was strategisch ein anderes Bild ergibt als hohe Position bei niedriger Reichweite. Das Profil bleibt offen, der Beratungsdialog interpretiert es.
Über die fünf Sub-Metriken und sieben anonymisierte Pilot-Cases hinweg liegt der mediane Variations-Koeffizient zwischen 3,5 Prozent und 38,2 Prozent, abhängig von der Metrik. Jede Monats-Aussage wird deshalb als Korridor ausgewiesen, nicht als Punkt-Wert. Eine Erwähnungsrate von „22 Prozent" steht als „22 Prozent ± 4 Prozentpunkte über die Beobachtungsperiode", damit ist klar, was eine zweite Messung im Folgemonat als methodisch konsistent oder als echte Veränderung einordnet.
Viele Mess-Frameworks führen am Ende einen einzigen „Gesamt-KI-Sichtbarkeits-Score" als Marketing-Vereinfachung ein. Wir haben uns dagegen entschieden, aus drei methodischen Gründen.
Reproduzierbarkeit ist kein Selbstzweck, sondern die Bedingung dafür, dass Dritte unsere Methodik prüfen können. Drei konkrete Maßnahmen sichern sie ab:
Diese drei Maßnahmen sind operativer Aufwand, kein Marketing-Gimmick. Eine Mess-Methodik, die diesen Aufwand nicht trägt, sollte unserer Auffassung nach nicht als seriöse Methodik verkauft werden.
Das kostenlose KI-Kurzaudit liefert in unter 24 Stunden eine erste Diagnose mit drei priorisierten Hebeln. Ohne Vertragsbindung, ohne Sales-Pitch. Wenn Sie die Methodik im Detail prüfen möchten, lesen Sie das vollständige Framework-Whitepaper.