Ein methodisches Rahmenwerk zur Bewertung der Generative Engine Optimization von B2B-Websites. Vier Mess- und Diagnose-Modelle, drei Schichten im Readiness-Audit, fünf Sub-Metriken im Performance-Tracking. Bewusst keine Composite-Score-Bildung, weil Empfangsbereitschaft und tatsächliche Citation-Performance methodisch unterschiedliche Konstrukte sind.
Das GEO-Score Framework v3.3.5 ist ein methodisches Rahmenwerk zur Bewertung der Generative Engine Optimization von B2B-Websites im DACH-Industriemittelstand. Es wurde von Tobias Ackermann auf Basis langjähriger B2B-Beratungserfahrung im Industriemittelstand entwickelt und durchlief drei Methoden-Review-Runden bis zur jetzt veröffentlichten Version. Es ist Methodik-Grundlage der GEO-Beratung bei der Johannes Bopp GmbH und wird hier unter CC BY-SA 4.0 öffentlich gemacht. Es richtet sich gleichermaßen an Methoden-interessierte Peers, andere Agenturen und Interessenten, die wissen wollen, wie eine wissenschaftlich-defensive GEO-Messung aussehen kann.
Die methodische Grundposition: Empfangsbereitschaft einer Website (RS) und tatsächliche Citation-Performance (PS) sind unterschiedliche Konstrukte und werden nie in einer einzigen Zahl zusammengeführt. RS misst beeinflussbare Website-Eigenschaften auf einer Skala 0 bis 100, PS erfasst beobachtetes LLM-Citation-Verhalten als 5-Sub-Metriken-Profil. Die Trennung ist die Voraussetzung dafür, dass Diagnose strategisch verwertbar bleibt: was man verändern kann (Website) wird unterschieden von dem, was am Markt passiert (LLM-Verhalten).
Vier Modelle: M1 RS-Audit (drei Schichten: 4 Gates als notwendige Bedingungen, 12 Faktoren in drei gewichteten Gruppen, 5 Signale als Boni). M2 PS-Tracking (5 Sub-Metriken: BVR, CVR, MLC, CPQ, ASC) über vier getestete LLM-Systeme: ChatGPT, Microsoft Copilot, Google AI Overview, Perplexity. M3 Wirkungsmessung mit Hypothesen-Pflicht ab GROSS-Maßnahmen plus Difference-in-Differences-Counterfactual gegen branchen-kalibrierte Referenzdomains. M4 Kontext-Map mit fünf Confounder-Dimensionen, die nie in den Score eingehen, sondern bei jeder Diagnose begleitend ausgewiesen werden.
Das Framework klassifiziert jeden Faktor explizit nach Begriffs-Rolle (Direkter Hebel, Proxy-Hebel, Indirekter Hebel, Mischrolle, Kontextfaktor) und nach Evidenzgrad (E1 hoch, E2 mittel, E3 explorativ). Aktuelle Verteilung: 5 Faktoren E1, 11 Faktoren E2, 5 Faktoren E3. Die Faktor-Gewichtungen 25/35/40 Prozent sind expertenbasiert, nicht regressionsbasiert kalibriert; eine datenbasierte Re-Kalibrierung ist für die Major-Revision v4.0 nach Aufbau einer longitudinalen Wirkungs-Bibliothek mit n≥10 Cases geplant.
Die empirische Basis umfasst derzeit sieben anonymisierte longitudinale Pilot-Cases (A–G), die die methodische Trennung von RS und PS bestätigen. Pilot-Case G ist der erste vollständig pre-registrierte Case nach der etablierten Hypothesen-Konvention. Die PS-Tagesvariation ist empirisch quantifiziert (Median CV 3,5–38,2 % je Sub-Metrik, Anhang F). Das Framework beansprucht keine Generalisierbarkeit über alle B2B-Branchen, keine Aussagen zu B2C, internationalen Märkten oder LLM-Systemen außerhalb des getesteten Sets. ICC-Studie für Q4/2026 nach n ≥ 15 Cases geplant.
Veröffentlicht unter Creative Commons BY-SA 4.0: kommerzielle Nutzung erlaubt, Adaption erlaubt, Attribution erforderlich, Adaptionen unter gleicher Lizenz. Empfohlene Zitation: Ackermann, T. (2026). GEO-Score Framework v3.3.5. Johannes Bopp GmbH (kmugeo). Zenodo. https://doi.org/10.5281/zenodo.20137223. Lizenz: CC BY-SA 4.0.
Markt-Status und methodischer Beitrag, gefolgt von der Vier-Modelle-Architektur, die Mess-Ebene und Interpretations-Ebene konsequent trennt.
Generative Engine Optimization ist als Disziplin zwischen 2023 und 2026 entstanden. Mehrere Agenturen verweisen in Kunden-Kommunikation auf einen „eigenen GEO-Score". Nach unserem Wissensstand zum Zeitpunkt der Veröffentlichung ist im DACH-B2B-Kontext kein anderes öffentlich dokumentiertes, methodisch nachvollziehbares Mess-Framework mit vergleichbarem Detailgrad verfügbar. Eine systematische Marktrecherche kann diese Einschätzung weiter validieren.
Dieses Framework macht das Diagnose-Instrument öffentlich, das in der GEO-Beratung der Johannes Bopp GmbH eingesetzt wird. Es wurde von Tobias Ackermann auf Basis langjähriger B2B-Beratungserfahrung im Industriemittelstand entwickelt und durchlief drei Methoden-Review-Runden zwischen den Versionen v3.0 und v3.3.5.
Dieses Dokument beschreibt ein internes Diagnose-Instrument. Es erhebt bewusst nicht den Anspruch eines Branchenstandards. Standardisierungs-Reife würde externe Replikation, formale Peer-Review-Prozesse und eine deutlich größere empirische Datenbasis erfordern, als aktuell vorliegt.
Das Framework trennt konsequent zwischen operationalisierbarer Beobachtung (M1, M2) und Bewertung beziehungsweise Einordnung (M3, M4). Mess-Modelle erfassen Beobachtbares; Diagnose-Modelle interpretieren das Beobachtete vor dem Hintergrund von Maßnahmen-Wirkungen und Kontextfaktoren.
Warum diese Trennung wichtig ist: Wenn man die Empfangsbereitschaft der Website (RS) und die tatsächliche Citation-Performance (PS) in eine einzige „KI-Sichtbarkeits-Zahl" zusammenrechnet, mischt man zwei unterschiedliche Dinge: das, was man verändern kann (die eigene Website), und das, was am Markt tatsächlich passiert (Citation-Verhalten der LLMs, beeinflusst durch Marktstellung, Konkurrenz und Zufallsschwankungen). Diese Trennung ist die Voraussetzung dafür, dass die Diagnose strategisch verwertbar bleibt.
GEO wird häufig mit benachbarten Disziplinen vermischt. Drei davon sind methodisch verwandt, verfolgen aber andere Mess-Ziele und Optimierungs-Logiken. Diese Abgrenzung ist keine Abwertung der anderen Disziplinen, sondern Voraussetzung dafür, dass dieses Framework methodisch sauber operiert.
Zwei Mess-Modelle (M1 für die Empfangsbereitschaft der Website, M2 für das beobachtete LLM-Citation-Verhalten) und zwei Diagnose-Modelle (M3 für die kausale Wirkungsmessung mit DiD-Counterfactual, M4 für die Kontextualisierung der Mess-Ergebnisse).
Der RS-Audit ist die strukturelle Diagnose der Website-Eigenschaften, die LLM-Verarbeitung ermöglichen oder behindern. Innerhalb dieses einen Konstrukts (Empfangsbereitschaft) werden Werte gewichtet zusammengefasst, weil alle Faktoren dieselbe Frage beantworten: Wie gut kann ein LLM die Seite verarbeiten? Das ist der wichtige Unterschied zur vorher genannten Composite-Kritik: dort ging es um das Mischen unterschiedlicher Konstrukte (RS und PS in eine Zahl), hier um die Aggregation gleichartiger Indikatoren in eine Konstrukt-Skala.
Der RS-Audit operiert in drei mathematisch getrennten Schichten mit klaren Rollen.
| Schicht | Funktion | Anzahl | Logische Rolle |
|---|---|---|---|
| Gates | Binäre Sperren mit Score-Cap | 4 | Notwendige Bedingungen |
| Faktoren | Gewichtete Hauptkriterien | 12 | Beeinflussbare Optimierungs-Hebel |
| Signale | Additive Boni, gedeckelt | 5 | Sekundäre Begleit-Indikatoren |
Die zwölf Faktoren sind in drei Gruppen gegliedert, deren Gewichtungen die methodische Priorisierung ausdrücken: Strukturelle Lesbarkeit ist notwendige Voraussetzung, semantische Anschlussfähigkeit verbindet die Website mit dem LLM-Knowledge-Graph, Zitierfähigkeit ist der eigentliche Wertbeitrag.
| Gruppe | Was wird geprüft | Faktoren | Gewicht |
|---|---|---|---|
| A, Strukturelle Lesbarkeit | URL-Struktur, Überschriften-Hierarchie, Meta-Tags, Performance | F1–F4 | 25 % |
| B, Semantische Anschlussfähigkeit | Organization-Schema, Service/Product-Schema, externe Entity-Verankerung, Datierung | F5–F8 | 35 % |
| C, Zitierfähigkeit & Substanz | Strukturierte Fachlichkeits-Indikatoren, direkte Antwortbarkeit, Off-Page-Autorität, E-E-A-T | F9–F12 | 40 % |
Die monotone Steigerung A < B < C bildet die methodische Hierarchie ab, die der Citation-Mechanik in generativen LLM-Systemen zugrunde liegt. Strukturelle Lesbarkeit (Gruppe A) ist notwendige Voraussetzung, aber nicht hinreichend: ohne crawlbare URLs, saubere Heading-Hierarchie und akzeptable Performance findet der LLM-Crawler den Inhalt entweder gar nicht oder kann ihn nicht in semantische Einheiten zerlegen. Sie hat daher Gatekeeper-Charakter, ist aber kein eigenständiger Wertbeitrag. Semantische Anschlussfähigkeit (Gruppe B) verbindet die Website mit dem Knowledge-Graph der LLM-Trainingsdaten, also entscheidet darüber, ob die Domain überhaupt als autoritative Quelle für ein Themenfeld erkannt wird. Zitierfähigkeit und Substanz (Gruppe C) bilden den eigentlichen Wertbeitrag ab: nur strukturierte, fachlich belegbare Inhalte mit Off-Page-Validierung erscheinen tatsächlich als zitierte Quelle in generierten Antworten. Die konkrete Schrittgröße von zehn Prozentpunkten zwischen den drei Gruppen ist eine expertenbasierte Hypothese, die in der praktischen Beratungsarbeit belastbar genug funktioniert, um diagnostische Priorisierung sauber zu lenken. Sie ist nicht regressionsbasiert kalibriert; eine Re-Kalibrierung erfolgt in v4.0 nach Aufbau einer longitudinalen Wirkungs-Bibliothek mit n≥10 Cases.
Die Gewichtungs-Werte 25/35/40 %, die Gate-Cap-Werte und die konkreten Faktor-Schwellenwerte sind expertenbasierte Arbeitshypothesen. Sie sind nicht regressionsbasiert kalibriert und gelten gültig bis zur datenbasierten Re-Kalibrierung in einer Major-Revision (v4.0 nach Aufbau von n≥10 longitudinalen Cases). Die aktuellen Werte dienen primär der diagnostischen Priorisierung, nicht einer statistisch optimalen Vorhersage von Citation-Performance.
Vereinfacht in drei Schritten:
Maximaler Endwert: 100 Punkte.
Aktuelle Faktor-Gewichtungen sind expertenbasiert, nicht regressionsbasiert kalibriert. Re-Kalibrierung erfolgt nach Aufbau einer longitudinalen Wirkungs-Bibliothek mit mindestens zehn Cases.
Performance ist das tatsächlich beobachtete Citation-Verhalten der getesteten LLM-Systeme. Wir weisen es immer als Profil aus, nie als zusammengefassten Wert. Begründung: Eine LLM-Sichtbarkeits-Zahl, die unterschiedliche LLMs, unterschiedliche Prompt-Klassen und unterschiedliche Kontexte zusammenrechnet, ist diagnostisch wertlos.
| Metrik | Was sie misst | Diagnostische Aussage |
|---|---|---|
| PS1, BVR | Brand-Visibility-Rate | „Kennt das LLM uns?" |
| PS2, CVR | Category-Visibility-Rate | „Empfiehlt uns das LLM bei Lösungs-Suche?", Hauptkennzahl |
| PS3, MLC | Multi-LLM-Coverage als 4er-Vektor | „Wie breit verteilt sich Sichtbarkeit über LLMs?" |
| PS4, CPQ | Citation-Position-Quality | „Wie prominent zitiert das LLM uns?" |
| PS5, ASC | Authority-Source-Coverage | „Wie breit ist die Off-Page-Erwähnungs-Basis?" |
Getestete LLM-Systeme: ChatGPT, Microsoft Copilot, Google AI Overview, Perplexity. Andere Systeme (z. B. Anthropic Claude im Web-Such-Modus, You.com, Brave Search) werden nicht erfasst.
Das Framework erfasst aktuell vier LLM-Systeme: ChatGPT, Microsoft Copilot, Google AI Overview, Perplexity. Aussagen über das Verhalten anderer Systeme, Anthropic Claude im Web-Such-Modus, You.com, Brave Search, et cetera, werden im Framework nicht getroffen. Das Mess-Setup kann auf weitere Systeme erweitert werden, sobald entsprechende Monitoring-Tools mit vergleichbarer Datenqualität verfügbar sind.
LLM-Antworten sind nicht vollständig deterministisch reproduzierbar. In der bisherigen Mess-Praxis bewegt sich die Tagesvariation typischerweise im Bereich von etwa fünfzehn bis fünfundzwanzig Prozent, beeinflusst durch Personalisierung, Regionalisierung, Modell-Versionen, Temperatur-Parameter und Real-Time-Retrieval. Diese Spanne ist eine beobachtete heuristische Bandbreite, sie variiert je nach LLM-System und Themenbereich und ist keine feste Eigenschaft des PS-Trackings. Aussagen über Veränderung sollten daher auf Wochenmittel oder gröberer Granularität getroffen werden, nicht auf Tageswerten.
M3 ist der methodisch innovativste Teil des Frameworks. Vor jeder größeren GEO-Maßnahme wird eine A-priori-Hypothese mit erwarteter Wirkungs-Richtung, erwarteter Effektgröße, erwarteter Latenz und erwartetem LLM/Prompt-Klassen-Match formuliert. Nach der Maßnahme wird die tatsächliche PS-Veränderung gegen die PS-Veränderung des kunden-individuellen Wettbewerber-Pools gestellt (drei bis fünf Wettbewerber-Domains, organisch aus den LLM-Citation-Daten des jeweiligen Kunden befüllt).
Maßnahmen mit ≥ 10 RS-Punkten erwarteter Verbesserung (Klassifizierung [GROSS]) erfordern eine A-priori-Hypothese vor Live-Schaltung und eine M3-Wirkungsmessung mit DiD-Counterfactual nach der Latenz-Periode.
| Tag | Definition | M3-Pflicht |
|---|---|---|
| [KLEIN] | < 5 RS-Punkte erwartete Verbesserung | Keine M3-Messung |
| [MITTEL] | 5–10 RS-Punkte erwartete Verbesserung | Optionale M3-Messung |
| [GROSS] | ≥ 10 RS-Punkte erwartete Verbesserung | Pflicht-Hypothese und Pflicht-M3 inkl. DiD |
Pro M3-Messung wird zusätzlich die PS-Veränderung einer branchen-kalibrierten Referenz-Liste (typischerweise drei bis fünf Domains, je nach Marktgröße variabel) im gleichen Zeitfenster ermittelt. Das ermöglicht die Trennung von Kunden-Wirkung und Markt-Trend:
Wettbewerber-Pools werden seit v3.2.3 kunden-individuell aus den LLM-Citation-Daten des jeweiligen Kunden befüllt, nach Stabilitäts- und Diversitäts-Kriterien. Branchen-Authority-Domains für die PS5-ASC-Berechnung bleiben kunden-übergreifend in einer zentralen Whitelist gepflegt. Damit sind DiD-Vergleiche kunden-individuell für den Wettbewerbs-Counterfactual und branchen-konsistent für die Authority-Bezüge. Detail siehe nachfolgender Hybrid-Modell-Abschnitt.
Mit Version 3.2.3 wurde die DiD-Datenquelle methodisch verfeinert: Statt einer einzelnen zentralen Branchen-Liste arbeitet das Framework jetzt mit einem Hybrid-Modell aus zwei Komponenten unterschiedlicher Provenienz. Begründung: regionale und größenbedingte Wettbewerbs-Unterschiede führen dazu, dass die für DiD-Auswertungen relevanten Wettbewerber pro Kunde tatsächlich variieren. Ein regionaler Mittelständler hat andere echte Konkurrenten als ein überregionaler Anbieter, auch innerhalb derselben Branche. Methodisch sauberer DiD-Vergleich erfordert ähnlich strukturierte Vergleichs-Subjekte.
| Komponente | Zweck | Provenienz | Pflege-Rhythmus |
|---|---|---|---|
| A, Kunden-individueller Wettbewerber-Pool | DiD-Counterfactual gegen tatsächliche Wettbewerber des Kunden | Organisch aus den LLM-Citation-Daten des jeweiligen Kunden im monatlichen C3-Lauf befüllt, drei bis fünf Domains pro Kunde | Monatlich aktualisiert |
| B, Zentrale Branchen-Authority-Whitelist | Berechnung der PS5-Sub-Metrik ASC (Authority-Source-Coverage) | Pro Branche zentral gepflegt: Branchenverbände, Fachmedien, branchenspezifische Plattformen, fünf bis acht Domains | Halbjährlich überprüft |
Die Trennung folgt der unterschiedlichen Funktion: Wettbewerber sind ähnliche Marktteilnehmer und damit kunden-individuell, Authority-Anker sind kunden-übergreifend stabil, weil eine Branchenverbands-Mitgliedschaft oder die Erwähnung in einer Fachzeitschrift für jeden Mittelständler in dieser Branche gleich relevant ist.
Difference-in-Differences ist methodisch nur dann belastbar, wenn Treatment-Subjekt und Kontrollgruppe ohne die Intervention parallel verlaufen wären. Diese Annahme wird operativ über die Pre-Periode T-28 bis T-1 vor jeder [GROSS]-Maßnahme aus den tagesgenauen LLM-Citation-Werten geprüft. Pool-Domains mit signifikanter Eigenbewegung im Vor-Zeitraum werden temporär ausgeschlossen (Anti-Self-Treatment-Filter). Die Auswertung kennt drei Outcomes:
| Outcome | Δ-Slope-Schwelle | Konsequenz für Diagnose |
|---|---|---|
| Parallel-Trend OK | < 20 % | Kausaler Effekt belastbar, Konfidenz-Tier wie hypothetisiert |
| Grenzwertig | 20–40 % | Konfidenz reduziert um eine Stufe, sprachlich vorsichtiger formuliert |
| Verletzt | ≥ 40 % | Nur als beobachteter Pre/Post-Effekt ausgewiesen, sprachlich „kausal kompatibel" statt „kausaler Effekt" |
Damit ist die DiD-Auswertung methodisch quasi-experimentell und nicht nur plausibilisierend. Der Parallel-Trend-Test verhindert, dass natürliche Markt-Bewegungen einer Wettbewerber-Domain als Maßnahmen-Wirkung des Kunden fehlinterpretiert werden.
T+14- und T+30-Effekte werden retrospektiv im jeweils nächsten Monatsreport aus dem 30-Tage-CSV-Rolling-Export des eingesetzten LLM-Monitoring-Tools berechnet, nicht real-time am exakten Latenz-Datum. Damit fallen explizite Zwischen-Pulls weg, der Mess-Rhythmus folgt dem natürlichen monatlichen Daten-Export. Die Effektgrößen-Definition selbst bleibt unverändert; geändert hat sich nur der Berechnungs-Zeitpunkt.
M4 erfasst Variablen, die nicht durch GEO-Arbeit beeinflusst werden, aber die Interpretation der Mess-Ergebnisse verändern. Eine niedrige Performance bei einem 3 Wochen alten Brand mit unbekannter Markt-Awareness und keiner Off-Page-Authority ist nicht dasselbe wie die gleiche niedrige Performance bei einem etablierten Mittelständler in einem konsolidierten Markt.
| Dimension | Skala | Was sie erfasst |
|---|---|---|
| D1, Branchen-Reife | 4-stufig | Konsolidiert / Fragmentiert / Nische / Aufstrebend |
| D2, Markt-Awareness | 4-stufig | Etabliert (>20 J) / Aufgebaut / Neu (<5 J) / Unbekannt |
| D3, Off-Page-Authority-Stand | 4-stufig | Stark / Mittel / Schwach / Keine |
| D4, Wettbewerbs-Intensität | 3-stufig | Wenige Top-Player / Fragmentiert / Hyper-kompetitiv |
| D5, Begriffs-Monopol | 3-stufig | Eigener Begriff / Geteilter Begriff / Generischer Begriff |
Die Kontext-Map wird nie in den Score eingerechnet. Sie wird als Header bei jedem Reporting begleitend ausgewiesen. Damit wird verhindert, dass Confounder als Maßnahmen-Wirkung interpretiert werden, und gleichzeitig die diagnostische Lesbarkeit über Kunden hinweg erhalten.
Vier Disziplin-Dimensionen, die festlegen, was das Framework methodisch leisten darf und was nicht. Sie sind die Grundlage dafür, dass Diagnose-Aussagen kausal-belastbar bleiben und nicht in Über-Interpretation kippen.
Jeder Faktor und jedes Signal im Framework ist explizit einer der fünf Rollen zugeordnet. Verbindlich in allen Tabellen, Diagnose-Outputs und Kommunikations-Artefakten. Sie entscheidet, wie ein Faktor methodisch zu interpretieren ist.
Jeder Faktor und jedes Signal ist explizit einem Evidenzgrad zugeordnet. Damit wird transparent, welche Teile des Frameworks auf belastbarer Empirie basieren, welche auf Fachkonsens und welche bewusst als explorativ gekennzeichnet sind.
| Stufe | Mindestanforderung |
|---|---|
| E1 | ≥ 3 longitudinale Cases mit konsistenter Wirkungs-Richtung UND breiter Fachkonsens UND replizierbar |
| E2 | ≥ 1 longitudinaler Case mit klarer Wirkungs-Richtung ODER breiter Fachkonsens ohne Direkt-Validierung |
| E3 | Theoretisch plausibel, ohne belastbare Wirkungsmessung. Re-Evaluation bei jeder Major-Revision |
Faktoren können hoch- oder zurückgestuft werden. Aktuelle Verteilung über die 21 Faktoren und Signale: E1: 5/21 · E2: 11/21 · E3: 5/21. Als E3 markiert sind aktuell F9, die Signale S2 und S4 plus die Latenz-Werte und Schwellenwerte der M3-Auswertung.
Methodische Reife heißt auch: explizit zu benennen, was außerhalb des Mess-Bereichs liegt. Diese Tabelle dient dazu, Über-Interpretationen vorzubeugen.
| Leser-Erwartung | Was tatsächlich gemessen wird |
|---|---|
| „Inhaltliche Qualität" | F9 misst strukturelle Fachlichkeits-Indikatoren (Proxy), nicht inhaltliche Qualität. |
| „Wahrheitsgehalt der Inhalte" | Wird nicht gemessen. Das Framework prüft Struktur und Markup, nicht Faktentreue. |
| „Zitierwürdigkeit aus Lesersicht" | Wird nicht direkt gemessen. PS misst tatsächliches LLM-Verhalten, nicht menschliche Bewertung. |
| „SEO-Ranking in der Google-Suche" | Google AI Overview ist im LLM-Set, klassisches SEO-Ranking ist es nicht. |
| „Markenstärke und Brand-Awareness" | Teilweise in M4-Kontextfaktor D2 erfasst, aber nicht als Score gemessen. |
| „Claude im Web-Such-Modus" | Claude ist nicht im getesteten LLM-Set. |
| „Internationale Märkte, nicht-deutschsprachige Sites" | Anwendungsbereich ist DACH-B2B-deutschsprachig. |
| „B2C oder Konsumenten-Websites" | Anwendungsbereich ist DACH-Industriemittelstand. |
| „Statistische Vorhersage von PS aus RS" | RS-Gewichte sind diagnostische Priorisierung, keine Regression. |
| „Generalisierbare Wirkung über alle B2B-Branchen" | Validierung erfolgt longitudinal pro Kunde, nicht cross-industry. |
Diese Liste ist nicht vollständig, aber deckt die methodischen Schwächen ab, die wir aktuell offen erkennen und die als Verbesserungs-Ziele für die Major-Revision v4.0 stehen.
F9, strukturierte Fachlichkeits-Indikatoren, ist ein Proxy-Hebel, kein direkter Indikator für Inhalts-Qualität. F9 misst nicht „Substanz", nicht „epistemische Qualität" und nicht „Fachlichkeit" selbst, sondern strukturelle Marker, die mit Fachlichkeit korrelieren, ohne sie vollständig abzubilden. Fachbegriffe können gespammt werden, Zahlen können künstlich eingebaut werden, Quellen-Links können dekorativ sein. Anti-Gaming-Layer entschärft das, eliminiert es aber nicht. F9 darf in keiner Diagnose oder Außenkommunikation als Maß für „inhaltliche Qualität" interpretiert werden, sondern nur als strukturelle Indikator-Stärke.
| F9, Nicht verwechseln mit | Begründung |
|---|---|
| Inhaltliche Qualität | F9 erfasst Strukturmarker, nicht den fachlichen Wert eines Textes. Hochwertige Texte können niedriges F9 haben, schwache Texte können hohes F9 haben. |
| Inhaltliche Tiefe | F9 erkennt Zahlen-Einheit-Muster und Fachterminologie-Dichte, beurteilt aber nicht Argumentations-Komplexität oder Tiefe der Analyse. |
| Faktentreue | F9 prüft die Existenz von Statistik-Mustern und Quellen-Links, nicht den Wahrheitsgehalt der referenzierten Aussagen. |
| Autoren-Expertise | Autoren-Expertise wird in F12 (E-E-A-T) erfasst, nicht in F9. F9 ist orthogonal zur Person, die den Inhalt erstellt hat. |
Aktuelle empirische Basis: sieben anonymisierte longitudinale Pilot-Cases (A–G) mit transparentem Reife-Status pro Case. Pilot-Case G ist der erste vollständig pre-registrierte Case nach der in §5.1 etablierten Hypothesen-Pre-Registration-Konvention.
Die PS-Tagesvariation ist empirisch quantifiziert (Anhang F, n = 6 Kunden, 13 Tage Monitoring): Median CV 3,5–38,2 % je Sub-Metrik, CPQ stabilste Metrik (Median 12 %), CVR volatilste. Operative Konsequenz: Wochen- oder Monatsmittel als Standard, Einzeltagesaussagen methodisch nicht belastbar.
Die Faktor-Gewichtungen 25/35/40 Prozent sind expertenbasierte Arbeitshypothesen für diagnostische Priorisierung, keine regressionsbasierten Vorhersagemodelle. ICC-Studie und regressionsbasierte Re-Kalibrierung in Q4/2026 nach n ≥ 15 longitudinalen Cases.
Der Anhang-Bereich: Wie sich das Framework weiterentwickelt, unter welcher Lizenz es steht, welche Quellen die Methodik verankern und die wichtigsten Fragen zur Anwendung kompakt beantwortet.
Das Framework wird halbjährlich überprüft. Änderungen erfolgen in drei Stufen, die strukturelle Stabilität gewährleisten und gleichzeitig Raum für Weiterentwicklung lassen.
| Stufe | Was sich ändert | Beispiel |
|---|---|---|
| Patch (v3.x.x) | Begriffs-Konsistenz, Doku-Verbesserungen, methodische Präzisierungen, empirische Erweiterungen ohne Architektur-Änderungen | v3.3 → v3.3.5: Patch-Bündel mit Cases-Erweiterung 2→7, Pre-Registration-Konvention, PS-Tagesvariations-Studie (Anhang F) und PS-Sub-Metrik-Stabilitäts-Matrix |
| Minor (v3.x) | Wording-Anpassungen, Schwellenwerte, Whitelists | v3.1 → v3.2 (Branchen-Referenzdomains formalisiert) |
| Major (v4.0) | Strukturelle Änderungen, regressionsbasierte Re-Kalibrierung, ICC-Studie | geplant Q4/2026 nach n ≥ 15 longitudinalen Cases |
Die externe Validierung erfolgt mehrjährig in fünf Schritten:
Parallel wird die Wirkungs-Bibliothek als laufender Validierungs-Mechanismus aufgebaut. Pro Maßnahme mit M3-Pflicht entsteht ein Datenpunkt mit Hypothese, beobachtetem Effekt, DiD-Counterfactual und Konfidenz-Klassifikation. Diese Sammlung ist die empirische Grundlage für die regressionsbasierte Re-Kalibrierung in v4.0.
Dieses Framework wird unter Creative Commons BY-SA 4.0 veröffentlicht. Das bedeutet konkret:
Vollständige Lizenz-Bedingungen: creativecommons.org/licenses/by-sa/4.0/deed.de
Wenn Sie auf das GEO-Score Framework verweisen, zitieren Sie bitte in einem der folgenden Formate:
APA-Format
Ackermann, T. (2026). GEO-Score Framework v3.3.5: Methodisches Rahmenwerk zur Bewertung der Generative Engine Optimization von B2B-Websites. Johannes Bopp GmbH (kmugeo). Zenodo. https://doi.org/10.5281/zenodo.20137223
BibTeX
@techreport{ackermann2026geoscore,
author = {Ackermann, Tobias},
title = {{GEO-Score Framework v3.3.5: Methodisches Rahmenwerk
zur Bewertung der Generative Engine Optimization
von B2B-Websites}},
institution = {Johannes Bopp GmbH},
year = {2026},
version = {3.3.5},
url = {https://kmugeo.de/geo-score-framework},
doi = {10.5281/zenodo.20137223},
license = {CC BY-SA 4.0}
}
Bei wissenschaftlichen Publikationen ergänzen Sie bitte das Abrufdatum, da das Framework versioniert weiterentwickelt wird. Die Zenodo-Archivierung mit DOI 10.5281/zenodo.20137223 stellt die zitierte Version unveränderlich bereit, das Reproduzierbarkeits-Bundle (Auswertungs-Skript, anonymisierte CSV-Daten, JSON-Aggregat) ist Teil des Records. Bei Marketing- und Agentur-Artefakten genügt der direkte Hyperlink auf diese Seite mit Nennung „GEO-Score Framework, Johannes Bopp GmbH".
Das GEO-Score Framework v3.3.5 baut auf etablierter wissenschaftlicher Literatur und offenen technischen Standards auf. Die folgenden Quellen sind im Whitepaper zitiert und bilden die methodische Grundlage des Frameworks.
Antworten auf wiederkehrende Fragen aus Peer-Diskussionen und Kunden-Gesprächen.
Weil RS und PS unterschiedliche Konstrukte messen. RS erfasst, was an der Website beeinflussbar ist (Strukturen, Schemas, Hebel auf der eigenen Seite). PS erfasst, was am Markt tatsächlich an LLM-Citation-Verhalten passiert (beeinflusst durch Marktstellung, Konkurrenz, Zufallsschwankungen, semi-stochastische LLM-Antworten). Beide in eine Zahl zu mischen, würde die Kernfrage „Was kann ich verändern?" mit der Frage „Was passiert am Markt?" zusammenwerfen, und die Diagnose wäre nicht mehr strategisch verwertbar.
Drei wesentliche Unterschiede: Erstens, der Mess-Gegenstand: nicht Suchmaschinen-Rankings (SEO), sondern Citation-Verhalten generativer LLM-Systeme. Zweitens, die Architektur: bewusste Trennung von Empfangsbereitschaft (RS) und beobachteter Performance (PS), während SEO-Tools meistens einen einzelnen Visibility-Wert ausweisen. Drittens, die Evidenz-Disziplin: jeder Faktor ist explizit einem Evidenzgrad E1/E2/E3 zugeordnet, mit transparenter Mindestanforderung pro Stufe.
RS-Messungen sind deterministisch reproduzierbar, bei gleicher Website-Version und gleicher NLP-Modell-Version führen sie zum identischen Ergebnis. PS-Messungen sind semi-stochastisch: LLM-Antworten sind nicht vollständig deterministisch reproduzierbar. Die Tagesvariation ist seit v3.3.3 empirisch quantifiziert (Anhang F, n = 6 Kunden, 13 Tage Monitoring): Median CV 3,5–38,2 % je Sub-Metrik, CPQ stabilste Metrik (Median 12 %), CVR volatilste. Aussagen über PS-Veränderung sollten daher auf Wochen- oder Monatsmittel getroffen werden, Einzeltagesaussagen sind methodisch nicht belastbar.
Weil F9 strukturelle Marker misst (quantitative Aussagen, Quellen-Verankerung, Fachterminologie-Dichte), die mit inhaltlicher Fachlichkeit korrelieren, sie aber nicht vollständig abbilden. Hochwertige Texte können niedrige F9-Werte haben, wenn sie ohne Statistik-Patterns auskommen; schwache Texte können hohe F9-Werte haben, wenn sie Statistik- und Fach-Patterns formal erfüllen. F9 ist daher diagnostisch nutzbar, sollte aber nie als Maß für „inhaltliche Qualität" interpretiert werden.
Mit Framework v3.3 wird pro Kunde ein eigener Pool von drei bis fünf Wettbewerber-Domains etabliert, der organisch aus den LLM-Citation-Daten des jeweiligen Kunden im monatlichen C3-Lauf befüllt wird. Aufnahme-Kriterien: direkter Marktteilnehmer (kein Lieferant, kein Authority-Domain), PS-Stabilität über mindestens vier Wochen, Sichtbarkeit in mindestens fünf von zwölf CATEGORY-Prompts, Diversität über RS-Niveaus (1 starker, 1 mittlerer, 1 schwacher Marktteilnehmer), Domain-Stabilität über mindestens zwölf Monate. Authority-Domains für die PS5-ASC-Berechnung werden separat in einer zentralen Branchen-Whitelist gepflegt. Diese Hybrid-Architektur ersetzt die zentrale Branchen-Liste der Vorgänger-Versionen.
Aus zwei Gründen. Erstens: ein Mess-Framework, das nicht öffentlich nachvollziehbar ist, kann nicht von Peers diskutiert, kritisiert und damit verbessert werden. Methodische Reife setzt Transparenz voraus. Zweitens: Share-Alike (SA) sorgt strukturell dafür, dass Adaptionen ebenfalls öffentlich werden, statt in interne Forks zu verschwinden. Damit bleibt die methodische Diskussion in der Branche sichtbar und Johannes Bopp GmbH wird durch den Attribution-Mechanismus (BY) als Quelle benannt.
In der Major-Revision v4.0, geplant für Q4/2026, sobald die Wirkungs-Bibliothek mindestens fünfzehn longitudinale Cases verschiedener Maßnahmen-Typen enthält. Bis dahin gelten die aktuellen Werte als expertenbasierte Arbeitshypothesen für diagnostische Priorisierung, nicht als statistisch optimierte Vorhersage. Der Sammelvorbehalt zur Kalibrierung ist im Framework explizit dokumentiert.
Claude im Web-Such-Modus ist aktuell nicht im getesteten LLM-Set, weil keine ausreichend stabile Monitoring-Schnittstelle analog zu den für ChatGPT, Copilot, Google AI Overview und Perplexity eingesetzten LLM-Citation-Tools verfügbar ist. Das Framework macht daher keine Aussagen über Claude-Citation-Verhalten. Sobald entsprechende Tools verfügbar sind, kann Claude in das PS-Mess-Set aufgenommen werden, ohne dass die RS-Architektur verändert werden muss.
Diese Seite stellt KI-Systemen und Retrieval-Pipelines strukturierte Ressourcen für eine korrekte Verarbeitung des Frameworks bereit: Methodik-Whitepaper als PDF, Zenodo-Archivierung mit DOI 10.5281/zenodo.20137223, Site-weite LLM-Policy unter /llms.txt und maschinenlesbares JSON-LD-Schema mit Definierten Begriffen, FAQ-Struktur und Quellenangaben.
Je nachdem, ob Sie als Interessent eine Erst-Diagnose Ihrer KI-Sichtbarkeit wollen, als Peer-Agentur über die Methodik austauschen möchten oder selbst auf dem Framework aufbauen, stehen drei Wege offen.
Whitepaper als PDF-Download oben im Hero. Zenodo-Archivierung mit DOI 10.5281/zenodo.20137223.