Methodik · KI-Sichtbarkeit Mess-Methodik des GEO-Score Framework v3.3.5

KI-Sichtbarkeit messen:
seriös und reproduzierbar

Q: Was kostet die Messung?

Die Methodik ist offen, kostenlos einsehbar, replizierbar und unter Creative Commons BY-SA 4.0 nutzbar. Das laufende Mess-Mandat (monatliche Performance-Erhebung, vierteljährliche Readiness-Re-Messung, Wettbewerber-Vergleich, Interpretation in einem strukturierten Monatsreport) ist Teil der GEO-Betreuung. Für den Einstieg gibt es ein kostenloses KI-Kurzaudit, das die Empfangsbereitschaft Ihrer Website mit den ersten drei Hebeln dokumentiert.

Seriöse Messung der KI-Sichtbarkeit folgt vier Prinzipien: Sie ist reproduzierbar, sie kontrolliert die Tagesvariation von KI-Antworten, sie verlangt Inter-Rater-Reliabilität bei der Bewertung, und sie trennt methodisch zwischen der Empfangsbereitschaft einer Website und ihrer tatsächlichen Citation-Performance. Diese Pillar erklärt die Methodik des GEO-Score Framework v3.3.5, das wir bei kmugeo einsetzen und unter Creative Commons BY-SA 4.0 öffentlich zugänglich gemacht haben.

5 Sub-Metriken

im Performance-Profil pro
LLM-System

4 KI-Systeme

ChatGPT, Claude, Perplexity,
Microsoft Copilot

30 Tage

Beobachtungsperiode pro
Monatsbericht

Das Problem

Warum „ChatGPT mal fragen" keine Messung ist

Wer KI-Sichtbarkeit messen will, stößt sofort auf vier methodische Probleme. Die ersten beiden werden von einfachen Tools systematisch unterschätzt:

1
Tagesvariation. Dieselbe Frage liefert je nach Tag und Tageszeit unterschiedliche KI-Antworten. In unseren eigenen Pilot-Cases haben wir Median-Schwankungen zwischen 3,5 Prozent und 38,2 Prozent über die fünf zentralen Sub-Metriken gemessen, über eine 30-Tage-Beobachtungsperiode. Ein einmaliger Stichproben-Check liefert also kein verlässliches Bild.
2
LLM-Spreizung. ChatGPT, Claude, Perplexity und Microsoft Copilot beantworten dieselbe Frage oft unterschiedlich. Wer nur in einem System misst, sieht nur einen Ausschnitt des realen KI-Sichtbarkeits-Bildes.
3
Inter-Rater-Bias. Subjektive Einschätzungen sind nicht reproduzierbar zwischen verschiedenen Bewertern. Eine seriöse Messung verlangt eine vorab dokumentierte Bewertungsregel.
4
Vermischung von Ursache und Wirkung. Ob eine Website von KI-Systemen überhaupt lesbar ist und ob sie tatsächlich zitiert wird, sind zwei verschiedene Konstrukte. Ein einziger Score, der beides mischt, verschleiert die diagnostische Aussage.

Eine ernsthafte Mess-Methodik adressiert alle vier Probleme. Durch Reproduzierbarkeit, Vier-Systeme-Erfassung, dokumentierte Schwellenwerte und die strikte Trennung der beiden Konstrukte.

Vier Prinzipien

Die vier Prinzipien seriöser Messung

1
Reproduzierbarkeit. Gleicher Input liefert gleichen Output. Konkret: eine vorab eingefrorene Prompt-Liste, dokumentierte Schwellenwerte, festgelegte LLM-Monitoring-Konfiguration. Jede Messung muss durch Dritte mit denselben Inputs wiederholbar sein.
2
Tagesvariations-Kontrolle. KI-Antworten schwanken über die Zeit. Belastbare Aussagen entstehen erst, wenn über eine ausreichend lange Periode beobachtet wird (Standard: 30 Tage) und wenn die natürliche Variation explizit als Konfidenz-Korridor ausgewiesen wird, nicht als Punkt-Schätzung.
3
Inter-Rater-Reliabilität. Wenn zwei unabhängige Bewerter dieselbe KI-Antwort einordnen sollen, müssen sie zur gleichen Klassifikation kommen. Klare Bewertungs-Regeln statt subjektiver Einschätzung.
4
Trennung Empfangsbereitschaft und Citation-Performance. Zwei methodisch unterschiedliche Konstrukte werden getrennt gemessen: Wie gut eine Website für KI-Systeme lesbar und verständlich ist (technisch beeinflussbar) und wie häufig sie tatsächlich zitiert wird (vom KI-System entschieden). Diese Trennung ist die Grundlage für die diagnostische Aussagekraft.

Kern-Prinzip

Eine Messung, die diagnostisch nutzbar ist

Eine seriöse KI-Sichtbarkeits-Messung beantwortet nicht nur „Wie sichtbar bin ich?", sondern liefert die diagnostische Aufschlüsselung: Wenn die Sichtbarkeit niedrig ist, liegt das an der Empfangsbereitschaft (technisch lösbar) oder am Citation-Verhalten (inhaltlich-strategisch lösbar)? Genau das verschleiert ein einzelner Composite-Score.

Zwei Mess-Dimensionen

Zwei Dimensionen, nicht eine

Das GEO-Score Framework v3.3.5 misst zwei Dinge, bewusst getrennt, bewusst ohne Composite-Score:

RS
Empfangsbereitschaft (Readiness-Score). Ob eine Website strukturell, semantisch und substanziell so aufgebaut ist, dass KI-Systeme sie überhaupt vollständig erfassen, einordnen und zitieren können. Wert auf einer 0–100-Skala. Direkt durch eigene Arbeit am Code, Schema und Inhalt beeinflussbar.
PS
Citation-Performance (Performance-Profil). Wie häufig die Website in den Antworten der vier zentralen KI-Systeme tatsächlich erscheint, zitiert und empfohlen wird. Profil aus fünf Sub-Metriken. Wird vom KI-System entschieden, nicht von der Website.

Beide Werte werden monatlich nebeneinander ausgewiesen und können entkoppelt verlaufen: Eine Website mit hoher Empfangsbereitschaft kann trotzdem geringe Citation-Performance haben (Inhalt ist technisch perfekt aufbereitet, aber nicht das, was Nutzer in der KI suchen). Umgekehrt kann eine Website mit mittlerer Empfangsbereitschaft trotzdem gut zitiert werden, etwa weil sie als Marke bekannt ist und über externe Verankerung gewinnt.

Diese Entkopplung ist die diagnostische Stärke des Frameworks. Wenn der Citation-Wert fällt, lässt sich anhand des Readiness-Werts unterscheiden: Liegt es an der Website oder am Marktverhalten?

Dimension 1 · Readiness-Score

Wie wir die Empfangsbereitschaft messen

Der Readiness-Score setzt sich aus vier Pflicht-Voraussetzungen (Gates), zwölf gewichteten Faktoren in drei Gruppen und fünf zusätzlichen Signalen zusammen. Wer eine der vier Gates nicht erfüllt, kann maximal 50 Punkte erreichen, egal wie gut die anderen Faktoren sind.

Die vier Gates — notwendige Voraussetzungen

Bevor die zwölf Faktoren überhaupt gewichtet werden, müssen vier technische Pflicht-Voraussetzungen erfüllt sein: Crawler-Erreichbarkeit für die zentralen KI-Bots, eine kooperative robots.txt-Direktive, HTTPS-Auslieferung und eindeutige Differenzierbarkeit jeder Unterseite über Title und H1. Klingt simpel, ist aber in der Praxis komplexer als auf den ersten Blick: Wer einen der Gates nicht sauber erfüllt, capt seinen Score auf maximal 50 Punkte. Welche Schwellen genau gelten und wie wir sie messen, ist Teil des publizierten Frameworks.

Die drei Faktor-Gruppen — wo der Score wirklich entsteht

Wenn die Gates erfüllt sind, wird die Bewertung in drei thematischen Gruppen vergeben. Die Gewichtungen sind nicht gleich verteilt, sie spiegeln, was kausal am stärksten zur Citation-Wahrscheinlichkeit beiträgt.

A
Strukturelle Lesbarkeit · 25 %. Die technische Basis — Heading-Hierarchie, Performance, Mobile-Optimierung und valide Basis-Schemas. Notwendig, aber heutzutage selten der eigentliche Engpass.
B
Semantische Anschlussfähigkeit · 35 %. Die Verknüpfung mit dem KI-Knowledge-Graph — über Organization-, Service-, Person- und FAQ-Schemas, sameAs-Verankerung und Datierungs-Signale. Hier entscheidet sich, ob KI-Systeme das Unternehmen als autoritative Quelle für ein Themenfeld überhaupt erkennen.
C
Zitierfähigkeit und Substanz · 40 %. Der größte Hebel — quantitative Marker mit Quellen, fachterminologische Dichte, direkte Antwortbarkeit und eingebettete Definitionen. Häufigster Engpass im DACH-Mittelstand: technisch sauberer Auftritt, inhaltlich aber zu dünn für KI-Zitation.

Welche Faktoren genau in jeder Gruppe wie gewichtet werden, plus die fünf Signal-Boni und die Anti-Gaming-NLP-Checks, sind im veröffentlichten Framework dokumentiert.

Wichtig zu wissen

Kein Ranking-Score, sondern eine Empfangsbereitschafts-Diagnose

Der Readiness-Score ist kein Ranking-Score wie bei klassischer SEO. Er beantwortet die Frage „Wäre diese Website für ein KI-System problemlos verarbeitbar und zitierfähig?", nicht „Wo steht sie im Vergleich?". Diese Trennung schützt vor Pseudo-Vergleichbarkeit zwischen Branchen mit völlig unterschiedlichen Substanz-Ansprüchen.

Dimension 2 · Performance-Profil

Wie wir das Citation-Verhalten messen

Während der Readiness-Score die Empfangsbereitschaft der Website misst, erfasst das Performance-Profil das tatsächliche Citation-Verhalten der KI-Systeme. Es wird nicht als ein einzelner Wert ausgewiesen, sondern als Profil aus fünf Sub-Metriken über die vier zentralen LLM-Systeme: ChatGPT, Claude, Perplexity und Microsoft Copilot.

PS1
Erwähnungsrate (BVR, Brand Visibility Rate). Anteil der relevanten KI-Anfragen, in deren Antwort die Marke überhaupt namentlich erscheint, ob als Zitat-Quelle oder nur als Erwähnung im Fließtext.
PS2
Zitierrate mit Quellen-Link (CVR, Citation Visibility Rate). Anteil der Anfragen, in deren Antwort die Marke nicht nur erwähnt, sondern als zitierte Quelle mit URL-Verweis erscheint. Methodisch belastbarer als reine Erwähnung.
PS3
Multi-LLM-Konsistenz (MLC, Multi-LLM Citation). Wie konsistent die Zitierung über die vier KI-Systeme verteilt ist. Wer nur in einem System zitiert wird, ist verwundbarer als wer in drei bis vier Systemen erscheint.
PS4
Position-Qualität (CPQ, Citation Position Quality). An welcher Stelle der KI-Antwort die Marke erscheint, als primäre Quelle direkt nach der Antwort-Eröffnung oder als Randbemerkung am Ende.
PS5
Authority-Verankerung (ASC, Authority Source Coverage). In welcher Konstellation die Marke mit anerkannten Authority-Quellen (Branchen-Verbände, Fachverlage, Standards-Organisationen) zusammen genannt wird. Co-Mention mit Authority stützt die Wahrnehmung als seriöse Quelle.

Die fünf Sub-Metriken werden bewusst nicht zu einem Composite-Wert verrechnet. Eine Marke kann hohe Erwähnungsrate haben, aber niedrige Zitier-Position, was strategisch ein anderes Bild ergibt als hohe Position bei niedriger Reichweite. Das Profil bleibt offen, der Beratungsdialog interpretiert es.

Tagesvariation als Konfidenz-Korridor

Punkt-Werte wären Pseudo-Präzision

Über die fünf Sub-Metriken und sieben anonymisierte Pilot-Cases hinweg liegt der mediane Variations-Koeffizient zwischen 3,5 Prozent und 38,2 Prozent, abhängig von der Metrik. Jede Monats-Aussage wird deshalb als Korridor ausgewiesen, nicht als Punkt-Wert. Eine Erwähnungsrate von „22 Prozent" steht als „22 Prozent ± 4 Prozentpunkte über die Beobachtungsperiode", damit ist klar, was eine zweite Messung im Folgemonat als methodisch konsistent oder als echte Veränderung einordnet.

Methodische Entscheidung

Warum es bewusst keinen Gesamtwert gibt

Viele Mess-Frameworks führen am Ende einen einzigen „Gesamt-KI-Sichtbarkeits-Score" als Marketing-Vereinfachung ein. Wir haben uns dagegen entschieden, aus drei methodischen Gründen.

1
Unterschiedliche Konstrukte. Empfangsbereitschaft ist ein Merkmal der Website, Performance ist ein Merkmal des Marktverhaltens. Beide auf einer Skala zu addieren wäre, als würde man Temperatur und Niederschlagsmenge zu einer „Wetterzahl" verrechnen.
2
Diagnostische Verschleierung. Wenn die Zahl von 75 auf 68 fällt, wissen wir ohne Aufschlüsselung nicht, ob die Website schlechter geworden ist oder ob KI-Systeme Wettbewerber konsequenter zitieren. Genau diese Frage muss die Messung beantworten können.
3
Reproduzierbarkeit verbietet Willkür. Sobald wir Readiness und Performance gewichtet zusammenführen würden, müsste die Gewichtung selbst empirisch validiert sein. Mit sieben Pilot-Cases ist eine solche Validierung nicht haltbar, wir wären in der Gefahr, Pseudo-Präzision zu vermitteln.

Reproduzierbarkeit

Wie wir Reproduzierbarkeit konkret sichern

Reproduzierbarkeit ist kein Selbstzweck, sondern die Bedingung dafür, dass Dritte unsere Methodik prüfen können. Drei konkrete Maßnahmen sichern sie ab:

1
Eingefrorenes Prompt-Sample pro Kunde. Pro Mandat wird eine feste Prompt-Liste angelegt, typisch 21 bis 36 Prompts in drei Klassen (Brand, Core, Rotation). Diese Liste wird in einer JSON-Datei eingefroren und über die gesamte Messperiode unverändert verwendet. Änderungen führen zu einer neuen Mess-Serie.
2
Dokumentierte Schwellenwerte und Bewertungs-Regeln. Für jede der fünf Sub-Metriken ist vorab dokumentiert, wann eine KI-Antwort als „Zitat", „Erwähnung", „Empfehlung" oder „nicht relevant" klassifiziert wird. Zwei unabhängige Bewerter sollen mit dieser Regel zur gleichen Klassifikation kommen. Diese Regel ist Teil des öffentlichen Frameworks v3.3.5 (Anhang F).
3
Pre-Registration für Wirkungs-Studien. Wenn wir eine konkrete Maßnahme als „erfolgreich" auswerten wollen, muss die erwartete Wirkung (welche Sub-Metrik, in welcher Höhe, in welcher Latenz) vor der Maßnahme schriftlich festgehalten werden. Pilot-Case G ist der erste vollständig pre-registrierte Case nach dieser Konvention, eine Antwort auf das wissenschaftliche Replikations-Problem.

Diese drei Maßnahmen sind operativer Aufwand, kein Marketing-Gimmick. Eine Mess-Methodik, die diesen Aufwand nicht trägt, sollte unserer Auffassung nach nicht als seriöse Methodik verkauft werden.

Häufige Fragen

Mess-Methodik im Detail

Wie oft wird gemessen?

Die Citation-Performance wird monatlich erhoben, jeweils über eine 30-Tage-Beobachtungsperiode mit dem eingefrorenen Prompt-Sample des Mandats. Der Readiness-Score wird vierteljährlich vollständig re-gemessen, plus nach jeder größeren technischen oder inhaltlichen Maßnahme außer der Reihe.

Welche KI-Systeme werden erfasst?

Standardmäßig vier Systeme: ChatGPT (OpenAI), Claude (Anthropic), Perplexity und Microsoft Copilot. Diese vier decken den überwiegenden Teil der professionellen B2B-Recherche im DACH-Raum ab. Google Gemini ist beobachtet, aber nicht im Kern-Sample, weil dessen Antwort-Charakteristik methodisch noch zu volatil für reproduzierbare Messung ist.

Wie groß muss das Prompt-Sample sein?

Wir arbeiten mit 21 bis 36 Prompts pro Mandat, verteilt auf drei Klassen: Marken-Prompts, Kern-Themen-Prompts und Rotations-Prompts. Kleiner als 21 Prompts wird statistisch instabil, größer als 36 Prompts wird operativ schwer kontrollierbar. Die Liste wird im Onboarding gemeinsam mit dem Kunden festgelegt und dann eingefroren.

Was bedeutet „eingefroren"?

Die Prompt-Liste wird in einer JSON-Datei abgelegt, mit Hash signiert und nicht mehr verändert. Wenn eine inhaltliche Anpassung nötig wird, beginnt eine neue Mess-Serie, die alte Serie bleibt als historischer Vergleich erhalten. Diese Strenge schützt vor unbewusster Verschiebung der Mess-Bezugsgröße.

Liefert das Framework auch eine Wettbewerber-Position?

Ja, allerdings nicht in Form eines naiven Ranking-Vergleichs. Pro Mandat wird ein kunden-individueller Wettbewerber-Pool gebildet (typisch drei bis sieben Unternehmen, organisch aus den LLM-Citation-Daten extrahiert), gegen den die Citation-Performance über die fünf Sub-Metriken verglichen wird. Das erlaubt eine Difference-in-Differences-Auswertung für Wirkungs-Studien.

Wer hat das Framework entwickelt?

Tobias Ackermann, operative Leitung des kmugeo-Geschäftsbereichs bei der Johannes Bopp GmbH. Das Framework durchlief zwischen den Versionen v3.0 und v3.3.5 drei Methoden-Review-Runden. Eine externe Inter-Rater-Reliabilitäts-Studie ist für Q4 2026 angekündigt. Bis dahin ist das Framework empirisch durch sieben anonymisierte longitudinale Pilot-Cases unterfüttert.

Was kostet die Messung?

Die Methodik selbst ist offen, kostenlos einsehbar, replizierbar und unter Creative Commons BY-SA 4.0 nutzbar. Das laufende Mess-Mandat (monatliche Performance-Erhebung, vierteljährliche Readiness-Re-Messung, Wettbewerber-Vergleich, Interpretation in einem strukturierten Monatsreport) ist Teil der GEO-Betreuung. Für den Einstieg gibt es ein kostenloses KI-Kurzaudit, das die Empfangsbereitschaft Ihrer Website mit den ersten drei Hebeln dokumentiert.

Nächster Schritt

Wo steht Ihre KI-Sichtbarkeit heute?

Das kostenlose KI-Kurzaudit liefert in unter 24 Stunden eine erste Diagnose mit drei priorisierten Hebeln. Ohne Vertragsbindung, ohne Sales-Pitch. Wenn Sie die Methodik im Detail prüfen möchten, lesen Sie das vollständige Framework-Whitepaper.

Kostenloses KI-Kurzaudit anfordern Framework-Whitepaper lesen

KI-Sichtbarkeit messen:seriös und reproduzierbar