GEO-Score Framework v3.3.5 (Layout-Entwurf v2)

Q: Warum kein Composite-Score aus RS und PS?

Weil RS und PS unterschiedliche Konstrukte messen. RS erfasst, was an der Website beeinflussbar ist. PS erfasst, was am Markt tatsächlich an LLM-Citation-Verhalten passiert. Beide in eine Zahl zu mischen, würde die Kernfrage "Was kann ich verändern?" mit der Frage "Was passiert am Markt?" zusammenwerfen und die Diagnose wäre nicht mehr strategisch verwertbar.

Q: Wie unterscheidet sich das Framework von klassischen SEO-Audits?

Drei wesentliche Unterschiede: der Mess-Gegenstand ist Citation-Verhalten generativer LLM-Systeme statt Suchmaschinen-Rankings; die Architektur trennt bewusst Empfangsbereitschaft (RS) und beobachtete Performance (PS); jeder Faktor ist einem expliziten Evidenzgrad E1/E2/E3 zugeordnet.

Q: Wo liegen die Grenzen der Reproduzierbarkeit?

RS-Messungen sind deterministisch reproduzierbar bei gleicher Website-Version und gleicher NLP-Modell-Version. PS-Messungen sind semi-stochastisch. In der bisherigen Mess-Praxis bewegt sich die Tagesvariation typischerweise im Bereich von etwa fünfzehn bis fünfundzwanzig Prozent, je nach LLM-System, Themenbereich und Personalisierungs-Stärke. Diese Spanne ist eine beobachtete heuristische Bandbreite, keine feste Eigenschaft. Aussagen über PS-Veränderung sollten daher auf Wochenmittel oder gröberer Granularität getroffen werden.

Q: Warum ist F9 nur ein Proxy-Hebel?

F9 misst strukturelle Marker (quantitative Aussagen, Quellen-Verankerung, Fachterminologie-Dichte), die mit inhaltlicher Fachlichkeit korrelieren, sie aber nicht vollständig abbilden. Hochwertige Texte können niedrige F9-Werte haben, schwache Texte können hohe F9-Werte haben. F9 ist diagnostisch nutzbar, sollte aber nie als Maß für inhaltliche Qualität interpretiert werden.

Q: Wie wird der Wettbewerber-Pool für die DiD-Counterfactual-Logik aufgebaut?

Mit Framework v3.3.5 wird pro Kunde ein eigener Pool von drei bis fünf Wettbewerber-Domains etabliert, der organisch aus den LLM-Citation-Daten des jeweiligen Kunden im monatlichen C3-Lauf befüllt wird. Aufnahme-Kriterien: direkter Marktteilnehmer (kein Lieferant, kein Authority-Domain), PS-Stabilität über mindestens vier Wochen, Sichtbarkeit in mindestens fünf von zwölf CATEGORY-Prompts, Diversität über RS-Niveaus, Domain-Stabilität über mindestens zwölf Monate. Authority-Domains für die PS5-ASC-Berechnung werden separat in einer zentralen Branchen-Whitelist gepflegt. Diese Hybrid-Architektur ersetzt die zentrale Branchen-Liste der Vorgänger-Versionen.

Q: Warum CC BY-SA 4.0 und nicht proprietär?

Erstens: methodische Reife setzt Transparenz voraus, ein nicht-öffentliches Framework kann nicht peer-diskutiert werden. Zweitens: Share-Alike sorgt strukturell dafür, dass Adaptionen öffentlich bleiben statt in interne Forks zu verschwinden. Damit bleibt die methodische Diskussion in der Branche sichtbar.

Q: Wann erfolgt eine regressionsbasierte Re-Kalibrierung der Gewichte?

In der Major-Revision v4.0, sobald die Wirkungs-Bibliothek mindestens zehn longitudinale Cases enthält. Bis dahin gelten die aktuellen Werte als expertenbasierte Arbeitshypothesen für diagnostische Priorisierung, nicht als statistisch optimierte Vorhersage.

Q: Wie verhält sich das Framework zu Anthropic Claude?

Claude im Web-Such-Modus ist aktuell nicht im getesteten LLM-Set, weil keine ausreichend stabile Monitoring-Schnittstelle verfügbar ist. Das Framework macht daher keine Aussagen über Claude-Citation-Verhalten. Sobald entsprechende Tools verfügbar sind, kann Claude in das PS-Mess-Set aufgenommen werden.

Executive Summary

Das Framework in 90 Sekunden.

Das GEO-Score Framework v3.3.5 ist ein methodisches Rahmenwerk zur Bewertung der Generative Engine Optimization von B2B-Websites im DACH-Industriemittelstand. Es wurde von Tobias Ackermann auf Basis langjähriger B2B-Beratungserfahrung im Industriemittelstand entwickelt und durchlief drei Methoden-Review-Runden bis zur jetzt veröffentlichten Version. Es ist Methodik-Grundlage der GEO-Beratung bei der Johannes Bopp GmbH und wird hier unter CC BY-SA 4.0 öffentlich gemacht. Es richtet sich gleichermaßen an Methoden-interessierte Peers, andere Agenturen und Interessenten, die wissen wollen, wie eine wissenschaftlich-defensive GEO-Messung aussehen kann.

Die methodische Grundposition: Empfangsbereitschaft einer Website (RS) und tatsächliche Citation-Performance (PS) sind unterschiedliche Konstrukte und werden nie in einer einzigen Zahl zusammengeführt. RS misst beeinflussbare Website-Eigenschaften auf einer Skala 0 bis 100, PS erfasst beobachtetes LLM-Citation-Verhalten als 5-Sub-Metriken-Profil. Die Trennung ist die Voraussetzung dafür, dass Diagnose strategisch verwertbar bleibt: was man verändern kann (Website) wird unterschieden von dem, was am Markt passiert (LLM-Verhalten).

Vier Modelle: M1 RS-Audit (drei Schichten: 4 Gates als notwendige Bedingungen, 12 Faktoren in drei gewichteten Gruppen, 5 Signale als Boni). M2 PS-Tracking (5 Sub-Metriken: BVR, CVR, MLC, CPQ, ASC) über vier getestete LLM-Systeme: ChatGPT, Microsoft Copilot, Google AI Overview, Perplexity. M3 Wirkungsmessung mit Hypothesen-Pflicht ab GROSS-Maßnahmen plus Difference-in-Differences-Counterfactual gegen branchen-kalibrierte Referenzdomains. M4 Kontext-Map mit fünf Confounder-Dimensionen, die nie in den Score eingehen, sondern bei jeder Diagnose begleitend ausgewiesen werden.

Das Framework klassifiziert jeden Faktor explizit nach Begriffs-Rolle (Direkter Hebel, Proxy-Hebel, Indirekter Hebel, Mischrolle, Kontextfaktor) und nach Evidenzgrad (E1 hoch, E2 mittel, E3 explorativ). Aktuelle Verteilung: 5 Faktoren E1, 11 Faktoren E2, 5 Faktoren E3. Die Faktor-Gewichtungen 25/35/40 Prozent sind expertenbasiert, nicht regressionsbasiert kalibriert; eine datenbasierte Re-Kalibrierung ist für die Major-Revision v4.0 nach Aufbau einer longitudinalen Wirkungs-Bibliothek mit n≥10 Cases geplant.

Die empirische Basis umfasst derzeit sieben anonymisierte longitudinale Pilot-Cases (A–G), die die methodische Trennung von RS und PS bestätigen. Pilot-Case G ist der erste vollständig pre-registrierte Case nach der etablierten Hypothesen-Konvention. Die PS-Tagesvariation ist empirisch quantifiziert (Median CV 3,5–38,2 % je Sub-Metrik, Anhang F). Das Framework beansprucht keine Generalisierbarkeit über alle B2B-Branchen, keine Aussagen zu B2C, internationalen Märkten oder LLM-Systemen außerhalb des getesteten Sets. ICC-Studie für Q4/2026 nach n ≥ 15 Cases geplant.

Veröffentlicht unter Creative Commons BY-SA 4.0: kommerzielle Nutzung erlaubt, Adaption erlaubt, Attribution erforderlich, Adaptionen unter gleicher Lizenz. Empfohlene Zitation: Ackermann, T. (2026). GEO-Score Framework v3.3.5. Johannes Bopp GmbH (kmugeo). Zenodo. https://doi.org/10.5281/zenodo.20137223. Lizenz: CC BY-SA 4.0.

M1, Readiness-Score

Drei Schichten, eine Score-Skala für die Empfangsbereitschaft.

Zweck: Strukturelle Diagnose der Website-Eigenschaften, die LLM-Verarbeitung ermöglichen oder behindern.
Input: Website-Crawl plus Tool-Checks über vier Gates, zwölf Faktoren und fünf Signale.
Output: Score 0–100 mit Faktor-Gruppen-Diagnose und Klassifikations-Tags.
Grenze: Misst die Empfangsbereitschaft, nicht die tatsächliche Citation-Performance.

Der RS-Audit ist die strukturelle Diagnose der Website-Eigenschaften, die LLM-Verarbeitung ermöglichen oder behindern. Innerhalb dieses einen Konstrukts (Empfangsbereitschaft) werden Werte gewichtet zusammengefasst, weil alle Faktoren dieselbe Frage beantworten: Wie gut kann ein LLM die Seite verarbeiten? Das ist der wichtige Unterschied zur vorher genannten Composite-Kritik: dort ging es um das Mischen unterschiedlicher Konstrukte (RS und PS in eine Zahl), hier um die Aggregation gleichartiger Indikatoren in eine Konstrukt-Skala.

Der RS-Audit operiert in drei mathematisch getrennten Schichten mit klaren Rollen.

Schicht	Funktion	Anzahl	Logische Rolle
Gates	Binäre Sperren mit Score-Cap	4	Notwendige Bedingungen
Faktoren	Gewichtete Hauptkriterien	12	Beeinflussbare Optimierungs-Hebel
Signale	Additive Boni, gedeckelt	5	Sekundäre Begleit-Indikatoren

Faktoren in drei gewichteten Gruppen

Die zwölf Faktoren sind in drei Gruppen gegliedert, deren Gewichtungen die methodische Priorisierung ausdrücken: Strukturelle Lesbarkeit ist notwendige Voraussetzung, semantische Anschlussfähigkeit verbindet die Website mit dem LLM-Knowledge-Graph, Zitierfähigkeit ist der eigentliche Wertbeitrag.

Gruppe	Was wird geprüft	Faktoren	Gewicht
A, Strukturelle Lesbarkeit	URL-Struktur, Überschriften-Hierarchie, Meta-Tags, Performance	F1–F4	25 %
B, Semantische Anschlussfähigkeit	Organization-Schema, Service/Product-Schema, externe Entity-Verankerung, Datierung	F5–F8	35 %
C, Zitierfähigkeit & Substanz	Strukturierte Fachlichkeits-Indikatoren, direkte Antwortbarkeit, Off-Page-Autorität, E-E-A-T	F9–F12	40 %

Herleitung der Gewichtung 25/35/40

Die monotone Steigerung A < B < C bildet die methodische Hierarchie ab, die der Citation-Mechanik in generativen LLM-Systemen zugrunde liegt. Strukturelle Lesbarkeit (Gruppe A) ist notwendige Voraussetzung, aber nicht hinreichend: ohne crawlbare URLs, saubere Heading-Hierarchie und akzeptable Performance findet der LLM-Crawler den Inhalt entweder gar nicht oder kann ihn nicht in semantische Einheiten zerlegen. Sie hat daher Gatekeeper-Charakter, ist aber kein eigenständiger Wertbeitrag. Semantische Anschlussfähigkeit (Gruppe B) verbindet die Website mit dem Knowledge-Graph der LLM-Trainingsdaten, also entscheidet darüber, ob die Domain überhaupt als autoritative Quelle für ein Themenfeld erkannt wird. Zitierfähigkeit und Substanz (Gruppe C) bilden den eigentlichen Wertbeitrag ab: nur strukturierte, fachlich belegbare Inhalte mit Off-Page-Validierung erscheinen tatsächlich als zitierte Quelle in generierten Antworten. Die konkrete Schrittgröße von zehn Prozentpunkten zwischen den drei Gruppen ist eine expertenbasierte Hypothese, die in der praktischen Beratungsarbeit belastbar genug funktioniert, um diagnostische Priorisierung sauber zu lenken. Sie ist nicht regressionsbasiert kalibriert; eine Re-Kalibrierung erfolgt in v4.0 nach Aufbau einer longitudinalen Wirkungs-Bibliothek mit n≥10 Cases.

Sammelvorbehalt zu numerischen Konstanten

Die Gewichtungs-Werte 25/35/40 %, die Gate-Cap-Werte und die konkreten Faktor-Schwellenwerte sind expertenbasierte Arbeitshypothesen. Sie sind nicht regressionsbasiert kalibriert und gelten gültig bis zur datenbasierten Re-Kalibrierung in einer Major-Revision (v4.0 nach Aufbau von n≥10 longitudinalen Cases). Die aktuellen Werte dienen primär der diagnostischen Priorisierung, nicht einer statistisch optimalen Vorhersage von Citation-Performance.

So entsteht der Score

Vereinfacht in drei Schritten:

Schritt 1: Jeder der zwölf Faktoren wird einzeln bewertet. Je nach Gruppe (A, B oder C) zählen die Punkte unterschiedlich stark, weil semantische Anschlussfähigkeit und Zitierfähigkeit für LLMs wichtiger sind als reine Lesbarkeit.
Schritt 2: Die fünf Signale können bis zu zehn Bonus-Punkte ergeben. Sie sind sekundär, aber sie können kleine Schwächen in den Hauptfaktoren teilweise ausgleichen.
Schritt 3: Wenn ein Gate fehlschlägt (z. B. die Website blockiert KI-Crawler), greift ein Score-Cap. Der Cap deckelt nur den Endwert, die Diagnose pro Faktor bleibt vollständig erhalten. Damit weiß man weiterhin genau, wo die Lücken liegen.

Maximaler Endwert: 100 Punkte.

Methodischer Kern-Satz

Aktuelle Faktor-Gewichtungen sind expertenbasiert, nicht regressionsbasiert kalibriert. Re-Kalibrierung erfolgt nach Aufbau einer longitudinalen Wirkungs-Bibliothek mit mindestens zehn Cases.

M2, Performance-Tracking

Fünf Sub-Metriken, kein Composite.

Zweck: Beobachtung des tatsächlichen Citation-Verhaltens der getesteten LLM-Systeme.
Input: LLM-Citation-Monitoring über ChatGPT, Microsoft Copilot, Google AI Overview und Perplexity.
Output: 5-Sub-Metriken-Profil (BVR, CVR, MLC, CPQ, ASC), bewusst ohne Composite-Score.
Grenze: Semi-stochastisch, Tagesvariation empirisch 3,5–38,2 % je Sub-Metrik (Anhang F) — Trends sollten auf Wochen- oder Monatsbasis interpretiert werden.

Performance ist das tatsächlich beobachtete Citation-Verhalten der getesteten LLM-Systeme. Wir weisen es immer als Profil aus, nie als zusammengefassten Wert. Begründung: Eine LLM-Sichtbarkeits-Zahl, die unterschiedliche LLMs, unterschiedliche Prompt-Klassen und unterschiedliche Kontexte zusammenrechnet, ist diagnostisch wertlos.

Metrik	Was sie misst	Diagnostische Aussage
PS1, BVR	Brand-Visibility-Rate	„Kennt das LLM uns?"
PS2, CVR	Category-Visibility-Rate	„Empfiehlt uns das LLM bei Lösungs-Suche?", Hauptkennzahl
PS3, MLC	Multi-LLM-Coverage als 4er-Vektor	„Wie breit verteilt sich Sichtbarkeit über LLMs?"
PS4, CPQ	Citation-Position-Quality	„Wie prominent zitiert das LLM uns?"
PS5, ASC	Authority-Source-Coverage	„Wie breit ist die Off-Page-Erwähnungs-Basis?"

Mess-Bereich

Getestete LLM-Systeme: ChatGPT, Microsoft Copilot, Google AI Overview, Perplexity. Andere Systeme (z. B. Anthropic Claude im Web-Such-Modus, You.com, Brave Search) werden nicht erfasst.

Getestete LLM-Systeme

Das Framework erfasst aktuell vier LLM-Systeme: ChatGPT, Microsoft Copilot, Google AI Overview, Perplexity. Aussagen über das Verhalten anderer Systeme, Anthropic Claude im Web-Such-Modus, You.com, Brave Search, et cetera, werden im Framework nicht getroffen. Das Mess-Setup kann auf weitere Systeme erweitert werden, sobald entsprechende Monitoring-Tools mit vergleichbarer Datenqualität verfügbar sind.

PS ist semi-stochastisch

LLM-Antworten sind nicht vollständig deterministisch reproduzierbar. In der bisherigen Mess-Praxis bewegt sich die Tagesvariation typischerweise im Bereich von etwa fünfzehn bis fünfundzwanzig Prozent, beeinflusst durch Personalisierung, Regionalisierung, Modell-Versionen, Temperatur-Parameter und Real-Time-Retrieval. Diese Spanne ist eine beobachtete heuristische Bandbreite, sie variiert je nach LLM-System und Themenbereich und ist keine feste Eigenschaft des PS-Trackings. Aussagen über Veränderung sollten daher auf Wochenmittel oder gröberer Granularität getroffen werden, nicht auf Tageswerten.

M3, Wirkungsmessung

Hypothesen-Pflicht und Difference-in-Differences-Counterfactual.

Zweck: Kausale Wirkungsmessung einer einzelnen GEO-Maßnahme gegen den Markt-Trend.
Input: A-priori-Hypothese vor Maßnahme plus Pre/Post-Vergleich mit DiD-Counterfactual gegen den Wettbewerber-Pool.
Output: Effektgröße, Hypothesen-Match-Bewertung und Konfidenz-Klasse, je nach Parallel-Trend-Test.
Grenze: Pflicht nur ab [GROSS]-Maßnahmen (≥ 10 RS-Punkte erwartet); DiD aktuell näherungsweise umgesetzt.

M3 ist der methodisch innovativste Teil des Frameworks. Vor jeder größeren GEO-Maßnahme wird eine A-priori-Hypothese mit erwarteter Wirkungs-Richtung, erwarteter Effektgröße, erwarteter Latenz und erwartetem LLM/Prompt-Klassen-Match formuliert. Nach der Maßnahme wird die tatsächliche PS-Veränderung gegen die PS-Veränderung des kunden-individuellen Wettbewerber-Pools gestellt (drei bis fünf Wettbewerber-Domains, organisch aus den LLM-Citation-Daten des jeweiligen Kunden befüllt).

Hypothesen-Pflicht

Maßnahmen mit ≥ 10 RS-Punkten erwarteter Verbesserung (Klassifizierung [GROSS]) erfordern eine A-priori-Hypothese vor Live-Schaltung und eine M3-Wirkungsmessung mit DiD-Counterfactual nach der Latenz-Periode.

Klassifizierung der Maßnahmen

Tag	Definition	M3-Pflicht
[KLEIN]	< 5 RS-Punkte erwartete Verbesserung	Keine M3-Messung
[MITTEL]	5–10 RS-Punkte erwartete Verbesserung	Optionale M3-Messung
[GROSS]	≥ 10 RS-Punkte erwartete Verbesserung	Pflicht-Hypothese und Pflicht-M3 inkl. DiD

Difference-in-Differences-Counterfactual

Pro M3-Messung wird zusätzlich die PS-Veränderung einer branchen-kalibrierten Referenz-Liste (typischerweise drei bis fünf Domains, je nach Marktgröße variabel) im gleichen Zeitfenster ermittelt. Das ermöglicht die Trennung von Kunden-Wirkung und Markt-Trend:

Kunde steigt und Referenzen flach → starker plausibel-kausaler Hinweis auf Maßnahmen-Wirkung
Kunde und Referenzen gleichermaßen → schwacher Hinweis, möglicher gemeinsamer Markt-Effekt
Kunde steigt, Referenzen mehr → schwacher Effekt, vom Markt-Trend überlagert

Wettbewerber-Pools werden seit v3.2.3 kunden-individuell aus den LLM-Citation-Daten des jeweiligen Kunden befüllt, nach Stabilitäts- und Diversitäts-Kriterien. Branchen-Authority-Domains für die PS5-ASC-Berechnung bleiben kunden-übergreifend in einer zentralen Whitelist gepflegt. Damit sind DiD-Vergleiche kunden-individuell für den Wettbewerbs-Counterfactual und branchen-konsistent für die Authority-Bezüge. Detail siehe nachfolgender Hybrid-Modell-Abschnitt.

DiD-Datenquelle: Hybrid-Modell

Mit Version 3.2.3 wurde die DiD-Datenquelle methodisch verfeinert: Statt einer einzelnen zentralen Branchen-Liste arbeitet das Framework jetzt mit einem Hybrid-Modell aus zwei Komponenten unterschiedlicher Provenienz. Begründung: regionale und größenbedingte Wettbewerbs-Unterschiede führen dazu, dass die für DiD-Auswertungen relevanten Wettbewerber pro Kunde tatsächlich variieren. Ein regionaler Mittelständler hat andere echte Konkurrenten als ein überregionaler Anbieter, auch innerhalb derselben Branche. Methodisch sauberer DiD-Vergleich erfordert ähnlich strukturierte Vergleichs-Subjekte.

Komponente	Zweck	Provenienz	Pflege-Rhythmus
A, Kunden-individueller Wettbewerber-Pool	DiD-Counterfactual gegen tatsächliche Wettbewerber des Kunden	Organisch aus den LLM-Citation-Daten des jeweiligen Kunden im monatlichen C3-Lauf befüllt, drei bis fünf Domains pro Kunde	Monatlich aktualisiert
B, Zentrale Branchen-Authority-Whitelist	Berechnung der PS5-Sub-Metrik ASC (Authority-Source-Coverage)	Pro Branche zentral gepflegt: Branchenverbände, Fachmedien, branchenspezifische Plattformen, fünf bis acht Domains	Halbjährlich überprüft

Die Trennung folgt der unterschiedlichen Funktion: Wettbewerber sind ähnliche Marktteilnehmer und damit kunden-individuell, Authority-Anker sind kunden-übergreifend stabil, weil eine Branchenverbands-Mitgliedschaft oder die Erwähnung in einer Fachzeitschrift für jeden Mittelständler in dieser Branche gleich relevant ist.

Parallel-Trend-Test als Voraussetzung für DiD-Validität

Difference-in-Differences ist methodisch nur dann belastbar, wenn Treatment-Subjekt und Kontrollgruppe ohne die Intervention parallel verlaufen wären. Diese Annahme wird operativ über die Pre-Periode T-28 bis T-1 vor jeder [GROSS]-Maßnahme aus den tagesgenauen LLM-Citation-Werten geprüft. Pool-Domains mit signifikanter Eigenbewegung im Vor-Zeitraum werden temporär ausgeschlossen (Anti-Self-Treatment-Filter). Die Auswertung kennt drei Outcomes:

Outcome	Δ-Slope-Schwelle	Konsequenz für Diagnose
Parallel-Trend OK	< 20 %	Kausaler Effekt belastbar, Konfidenz-Tier wie hypothetisiert
Grenzwertig	20–40 %	Konfidenz reduziert um eine Stufe, sprachlich vorsichtiger formuliert
Verletzt	≥ 40 %	Nur als beobachteter Pre/Post-Effekt ausgewiesen, sprachlich „kausal kompatibel" statt „kausaler Effekt"

Damit ist die DiD-Auswertung methodisch quasi-experimentell und nicht nur plausibilisierend. Der Parallel-Trend-Test verhindert, dass natürliche Markt-Bewegungen einer Wettbewerber-Domain als Maßnahmen-Wirkung des Kunden fehlinterpretiert werden.

Operative Mess-Mechanik (v3.2.2)

T+14- und T+30-Effekte werden retrospektiv im jeweils nächsten Monatsreport aus dem 30-Tage-CSV-Rolling-Export des eingesetzten LLM-Monitoring-Tools berechnet, nicht real-time am exakten Latenz-Datum. Damit fallen explizite Zwischen-Pulls weg, der Mess-Rhythmus folgt dem natürlichen monatlichen Daten-Export. Die Effektgrößen-Definition selbst bleibt unverändert; geändert hat sich nur der Berechnungs-Zeitpunkt.

Dimension	Skala	Was sie erfasst
D1, Branchen-Reife	4-stufig	Konsolidiert / Fragmentiert / Nische / Aufstrebend
D2, Markt-Awareness	4-stufig	Etabliert (>20 J) / Aufgebaut / Neu (<5 J) / Unbekannt
D3, Off-Page-Authority-Stand	4-stufig	Stark / Mittel / Schwach / Keine
D4, Wettbewerbs-Intensität	3-stufig	Wenige Top-Player / Fragmentiert / Hyper-kompetitiv
D5, Begriffs-Monopol	3-stufig	Eigener Begriff / Geteilter Begriff / Generischer Begriff

Begriffs-Disziplin

Fünf Rollen, eine konsistente Klassifikation.

Jeder Faktor und jedes Signal im Framework ist explizit einer der fünf Rollen zugeordnet. Verbindlich in allen Tabellen, Diagnose-Outputs und Kommunikations-Artefakten. Sie entscheidet, wie ein Faktor methodisch zu interpretieren ist.

Primäre Rolle

Direkter Hebel

Wirkt unmittelbar und plausibel-kausal auf die LLM-Verarbeitung. Beispiel: F1 Canonicals verhindert Crawler-Verwirrung.

Primäre Rolle

Proxy-Hebel

Misst einen messbaren Stellvertreter, der mit dem Konstrukt korreliert. Beispiel: F9 strukturelle Fachlichkeits-Indikatoren.

Drei ergänzende Rollen

Indirekter Hebel — wirkt über mehrere Zwischenstufen, z. B. F4 Performance → Crawl-Budget → Indexierbarkeit.
Mischrolle — sowohl steuerbar als auch kontextuell, z. B. F11 mit F11a/c steuerbar und F11b passiv.
Kontextfaktor — nicht durch GEO-Arbeit beeinflussbar, verändert aber die Interpretation der Mess-Werte (M4-Dimensionen).

Evidenz-Disziplin

Drei Stufen empirischer Belegbarkeit.

Jeder Faktor und jedes Signal ist explizit einem Evidenzgrad zugeordnet. Damit wird transparent, welche Teile des Frameworks auf belastbarer Empirie basieren, welche auf Fachkonsens und welche bewusst als explorativ gekennzeichnet sind.

Stufe	Mindestanforderung
E1	≥ 3 longitudinale Cases mit konsistenter Wirkungs-Richtung UND breiter Fachkonsens UND replizierbar
E2	≥ 1 longitudinaler Case mit klarer Wirkungs-Richtung ODER breiter Fachkonsens ohne Direkt-Validierung
E3	Theoretisch plausibel, ohne belastbare Wirkungsmessung. Re-Evaluation bei jeder Major-Revision

Faktoren können hoch- oder zurückgestuft werden. Aktuelle Verteilung über die 21 Faktoren und Signale: E1: 5/21 · E2: 11/21 · E3: 5/21. Als E3 markiert sind aktuell F9, die Signale S2 und S4 plus die Latenz-Werte und Schwellenwerte der M3-Auswertung.

Grenzen des Konstrukts

Was dieses Framework nicht misst.

Methodische Reife heißt auch: explizit zu benennen, was außerhalb des Mess-Bereichs liegt. Diese Tabelle dient dazu, Über-Interpretationen vorzubeugen.

Leser-Erwartung	Was tatsächlich gemessen wird
„Inhaltliche Qualität"	F9 misst strukturelle Fachlichkeits-Indikatoren (Proxy), nicht inhaltliche Qualität.
„Wahrheitsgehalt der Inhalte"	Wird nicht gemessen. Das Framework prüft Struktur und Markup, nicht Faktentreue.
„Zitierwürdigkeit aus Lesersicht"	Wird nicht direkt gemessen. PS misst tatsächliches LLM-Verhalten, nicht menschliche Bewertung.
„SEO-Ranking in der Google-Suche"	Google AI Overview ist im LLM-Set, klassisches SEO-Ranking ist es nicht.
„Markenstärke und Brand-Awareness"	Teilweise in M4-Kontextfaktor D2 erfasst, aber nicht als Score gemessen.
„Claude im Web-Such-Modus"	Claude ist nicht im getesteten LLM-Set.
„Internationale Märkte, nicht-deutschsprachige Sites"	Anwendungsbereich ist DACH-B2B-deutschsprachig.
„B2C oder Konsumenten-Websites"	Anwendungsbereich ist DACH-Industriemittelstand.
„Statistische Vorhersage von PS aus RS"	RS-Gewichte sind diagnostische Priorisierung, keine Regression.
„Generalisierbare Wirkung über alle B2B-Branchen"	Validierung erfolgt longitudinal pro Kunde, nicht cross-industry.

Methodische Transparenz

Bekannte Limitationen, offen kommuniziert.

Diese Liste ist nicht vollständig, aber deckt die methodischen Schwächen ab, die wir aktuell offen erkennen und die als Verbesserungs-Ziele für die Major-Revision v4.0 stehen.

Faktor-Gewichtung 25/35/40 % ist expertenbasiert, nicht regressionsbasiert kalibriert. Re-Kalibrierung in v4.0 nach Aufbau ausreichender longitudinaler Datenbasis geplant.
Schwellenwerte aller Faktoren sind heuristisch (Sammelvorbehalt §3.7.1).
Cap-Werte sind logisch hergeleitet, nicht empirisch validiert.
Anti-Gaming-NLP-Checks nur teilweise implementiert.
Inter-Rater-Reliabilitäts-Studie für Q4/2026 geplant nach n ≥ 15 Cases (Soll: ICC ≥ 0,85 durch parallele Doppelmessungen).
F9 als E3 markiert, Korrelation der Sub-Komponenten mit LLM-Wirkung nicht longitudinal bestätigt.
Difference-in-Differences nur näherungsweise umgesetzt in den dokumentierten Cases.
Multikollinearität zwischen F9, F10 und F12 nicht statistisch geprüft.
Empirische Basis: n = 7 anonymisierte Pilot-Cases (A–G) mit transparentem Reife-Status pro Case; Pilot-Case G ist der erste vollständig pre-registrierte Case. Zielgröße für ICC-Studie und regressionsbasierte Re-Kalibrierung: n ≥ 15 Cases bis Q4/2026.
PS-Daten sind abhängig von externen LLM-Monitoring-Tools und damit von deren Verfügbarkeit, Pricing und API-Stabilität. Mindest-Anforderungen an kompatible Tools sind im Whitepaper-Anhang E dokumentiert.
PS strukturell semi-stochastisch, präzise Vorhersagen einzelner Mess-Werte sind nicht möglich, nur Trends auf Wochen- oder Monatsbasis. Tagesvariation empirisch quantifiziert: Median CV 3,5–38,2 % je Sub-Metrik (Anhang F).

Spotlight: Wichtige sprachliche Klarstellung zu F9

F9, strukturierte Fachlichkeits-Indikatoren, ist ein Proxy-Hebel, kein direkter Indikator für Inhalts-Qualität. F9 misst nicht „Substanz", nicht „epistemische Qualität" und nicht „Fachlichkeit" selbst, sondern strukturelle Marker, die mit Fachlichkeit korrelieren, ohne sie vollständig abzubilden. Fachbegriffe können gespammt werden, Zahlen können künstlich eingebaut werden, Quellen-Links können dekorativ sein. Anti-Gaming-Layer entschärft das, eliminiert es aber nicht. F9 darf in keiner Diagnose oder Außenkommunikation als Maß für „inhaltliche Qualität" interpretiert werden, sondern nur als strukturelle Indikator-Stärke.

F9, Nicht verwechseln mit	Begründung
Inhaltliche Qualität	F9 erfasst Strukturmarker, nicht den fachlichen Wert eines Textes. Hochwertige Texte können niedriges F9 haben, schwache Texte können hohes F9 haben.
Inhaltliche Tiefe	F9 erkennt Zahlen-Einheit-Muster und Fachterminologie-Dichte, beurteilt aber nicht Argumentations-Komplexität oder Tiefe der Analyse.
Faktentreue	F9 prüft die Existenz von Statistik-Mustern und Quellen-Links, nicht den Wahrheitsgehalt der referenzierten Aussagen.
Autoren-Expertise	Autoren-Expertise wird in F12 (E-E-A-T) erfasst, nicht in F9. F9 ist orthogonal zur Person, die den Inhalt erstellt hat.

Versionierung & Roadmap

Patch, Minor, Major, und wie die externe Validierung aussieht.

Das Framework wird halbjährlich überprüft. Änderungen erfolgen in drei Stufen, die strukturelle Stabilität gewährleisten und gleichzeitig Raum für Weiterentwicklung lassen.

Stufe	Was sich ändert	Beispiel
Patch (v3.x.x)	Begriffs-Konsistenz, Doku-Verbesserungen, methodische Präzisierungen, empirische Erweiterungen ohne Architektur-Änderungen	v3.3 → v3.3.5: Patch-Bündel mit Cases-Erweiterung 2→7, Pre-Registration-Konvention, PS-Tagesvariations-Studie (Anhang F) und PS-Sub-Metrik-Stabilitäts-Matrix
Minor (v3.x)	Wording-Anpassungen, Schwellenwerte, Whitelists	v3.1 → v3.2 (Branchen-Referenzdomains formalisiert)
Major (v4.0)	Strukturelle Änderungen, regressionsbasierte Re-Kalibrierung, ICC-Studie	geplant Q4/2026 nach n ≥ 15 longitudinalen Cases

Externe Validierungs-Roadmap

Die externe Validierung erfolgt mehrjährig in fünf Schritten:

Methoden-Whitepaper als PDF-Download (verfügbar) und Zenodo-Archivierung mit DOI (DOI: 10.5281/zenodo.20137223)
Konferenz-Vorstellung in einer Marketing- oder SEO-Fachveranstaltung
Open-Source der Mess-Skripte für nachvollziehbare Replikation
Peer-Review durch externe Information-Retrieval-, SEO- und NLP-Reviewer
Replikation durch unabhängige Anwender mit Veröffentlichung ihrer Ergebnisse

Parallel wird die Wirkungs-Bibliothek als laufender Validierungs-Mechanismus aufgebaut. Pro Maßnahme mit M3-Pflicht entsteht ein Datenpunkt mit Hypothese, beobachtetem Effekt, DiD-Counterfactual und Konfidenz-Klassifikation. Diese Sammlung ist die empirische Grundlage für die regressionsbasierte Re-Kalibrierung in v4.0.

Lizenz & Zitation

Creative Commons BY-SA 4.0.

Dieses Framework wird unter Creative Commons BY-SA 4.0 veröffentlicht. Das bedeutet konkret:

Sie dürfen das Framework teilen, kopieren und in jedem Format weiterverbreiten.
Sie dürfen das Framework bearbeiten, remixen, transformieren und für eigene Zwecke darauf aufbauen, auch kommerziell.
Sie müssen angemessene Urheber- und Quellenangaben machen, einen Link zur Lizenz beifügen, und Veränderungen kennzeichnen.
Sie müssen Adaptionen unter derselben Lizenz CC BY-SA 4.0 weitergeben (Share-Alike-Prinzip).

Vollständige Lizenz-Bedingungen: creativecommons.org/licenses/by-sa/4.0/deed.de

Empfohlene Zitation

Wenn Sie auf das GEO-Score Framework verweisen, zitieren Sie bitte in einem der folgenden Formate:

APA-Format

Ackermann, T. (2026). GEO-Score Framework v3.3.5: Methodisches Rahmenwerk zur Bewertung der Generative Engine Optimization von B2B-Websites. Johannes Bopp GmbH (kmugeo). Zenodo. https://doi.org/10.5281/zenodo.20137223

BibTeX

@techreport{ackermann2026geoscore,
  author      = {Ackermann, Tobias},
  title       = {{GEO-Score Framework v3.3.5: Methodisches Rahmenwerk
                  zur Bewertung der Generative Engine Optimization
                  von B2B-Websites}},
  institution = {Johannes Bopp GmbH},
  year        = {2026},
  version     = {3.3.5},
  url         = {https://kmugeo.de/geo-score-framework},
  doi         = {10.5281/zenodo.20137223},
  license     = {CC BY-SA 4.0}
}

Bei wissenschaftlichen Publikationen ergänzen Sie bitte das Abrufdatum, da das Framework versioniert weiterentwickelt wird. Die Zenodo-Archivierung mit DOI 10.5281/zenodo.20137223 stellt die zitierte Version unveränderlich bereit, das Reproduzierbarkeits-Bundle (Auswertungs-Skript, anonymisierte CSV-Daten, JSON-Aggregat) ist Teil des Records. Bei Marketing- und Agentur-Artefakten genügt der direkte Hyperlink auf diese Seite mit Nennung „GEO-Score Framework, Johannes Bopp GmbH".

Methodische Verankerung

Methodische Quellen

Das GEO-Score Framework v3.3.5 baut auf etablierter wissenschaftlicher Literatur und offenen technischen Standards auf. Die folgenden Quellen sind im Whitepaper zitiert und bilden die methodische Grundlage des Frameworks.

Methodische Grundlagen

Card, D. & Krueger, A. B. (1994). „Minimum Wages and Employment: A Case Study of the Fast-Food Industry in New Jersey and Pennsylvania." American Economic Review, 84(4), 772–793.

Originalstudie der Difference-in-Differences-Methodik

NBER Working Paper →

Angrist, J. D. & Pischke, J.-S. (2009). Mostly Harmless Econometrics: An Empiricist's Companion. Princeton University Press.

Standard-Lehrbuch zur Counterfactual-Logik (Kapitel 5 zu DiD)

Princeton University Press →

Manning, C. D., Raghavan, P. & Schütze, H. (2008). Introduction to Information Retrieval. Cambridge University Press.

Foundations of indexing and retrieval evaluation

Stanford NLP Group (Online-Version) →

Pearl, J. (2009). Causality: Models, Reasoning, and Inference. 2. Auflage, Cambridge University Press.

Theoretische Grundlage der Kausalitäts-Inferenz für M3

UCLA Book-Page →

Standards und Spezifikationen

Schema.org (2024). Schema.org Vocabulary, Full Hierarchy.

Basis für Faktor F4 und JSON-LD-Implementierung

schema.org →

Google (2024). Core Web Vitals, Web Performance Metrics.

Basis für Faktor F1 (Page-Speed-Messung)

web.dev/vitals →

llmstxt.org (2024). llms.txt: Standard for LLM-Aware Robots Files. (Vorschlag: Jeremy Howard, Answer.AI, September 2024)

Basis für Signal S4

llmstxt.org →

Inter-Rater-Reliability und Reproduzierbarkeit

Cohen, J. (1960). „A Coefficient of Agreement for Nominal Scales." Educational and Psychological Measurement, 20(1), 37–46.

Cohen's Kappa als Standard-Maß für Inter-Rater-Reliability

SAGE Journals →

Krippendorff, K. (2018). Content Analysis: An Introduction to Its Methodology. 4. Auflage, SAGE Publications.

Methodische Grundlagen für reproduzierbare Mess-Verfahren

SAGE Methods →

NLP und Sprach-Modellierung

spaCy (2024). spaCy Models, de_core_news_lg (aktuelle Version der 3.x-Reihe).

Basis für den Anti-Gaming-NLP-Layer

spacy.io/models/de →

Bender, E. M. & Koller, A. (2020). „Climbing towards NLU: On Meaning, Form, and Understanding in the Age of Data." Proceedings of ACL 2020, 5185–5198.

Konzeptuelle Grenzen von LLM-Output-Bewertung

ACL Anthology →

GEO- und AI-Search-spezifischer Diskurs

SearchScore (2026). „How to Measure and Track Your GEO Performance."

Vergleichendes GEO-Scoring-Framework

searchscore.io →

GenOptima (2026). „Top 10 Generative AI Search Engine Optimization Agency Criteria for AEOaaS Readiness Score in 2026."

Markt-Vergleich von GEO-Agentur-Bewertung

gen-optima.com →

Häufige Fragen zur Methodik

FAQ

Antworten auf wiederkehrende Fragen aus Peer-Diskussionen und Kunden-Gesprächen.

Warum kein Composite-Score aus RS und PS?

Weil RS und PS unterschiedliche Konstrukte messen. RS erfasst, was an der Website beeinflussbar ist (Strukturen, Schemas, Hebel auf der eigenen Seite). PS erfasst, was am Markt tatsächlich an LLM-Citation-Verhalten passiert (beeinflusst durch Marktstellung, Konkurrenz, Zufallsschwankungen, semi-stochastische LLM-Antworten). Beide in eine Zahl zu mischen, würde die Kernfrage „Was kann ich verändern?" mit der Frage „Was passiert am Markt?" zusammenwerfen, und die Diagnose wäre nicht mehr strategisch verwertbar.

Wie unterscheidet sich das Framework von klassischen SEO-Audits?

Drei wesentliche Unterschiede: Erstens, der Mess-Gegenstand: nicht Suchmaschinen-Rankings (SEO), sondern Citation-Verhalten generativer LLM-Systeme. Zweitens, die Architektur: bewusste Trennung von Empfangsbereitschaft (RS) und beobachteter Performance (PS), während SEO-Tools meistens einen einzelnen Visibility-Wert ausweisen. Drittens, die Evidenz-Disziplin: jeder Faktor ist explizit einem Evidenzgrad E1/E2/E3 zugeordnet, mit transparenter Mindestanforderung pro Stufe.

Wo liegen die Grenzen der Reproduzierbarkeit?

RS-Messungen sind deterministisch reproduzierbar, bei gleicher Website-Version und gleicher NLP-Modell-Version führen sie zum identischen Ergebnis. PS-Messungen sind semi-stochastisch: LLM-Antworten sind nicht vollständig deterministisch reproduzierbar. Die Tagesvariation ist seit v3.3.3 empirisch quantifiziert (Anhang F, n = 6 Kunden, 13 Tage Monitoring): Median CV 3,5–38,2 % je Sub-Metrik, CPQ stabilste Metrik (Median 12 %), CVR volatilste. Aussagen über PS-Veränderung sollten daher auf Wochen- oder Monatsmittel getroffen werden, Einzeltagesaussagen sind methodisch nicht belastbar.

Warum ist F9 nur ein Proxy-Hebel?

Weil F9 strukturelle Marker misst (quantitative Aussagen, Quellen-Verankerung, Fachterminologie-Dichte), die mit inhaltlicher Fachlichkeit korrelieren, sie aber nicht vollständig abbilden. Hochwertige Texte können niedrige F9-Werte haben, wenn sie ohne Statistik-Patterns auskommen; schwache Texte können hohe F9-Werte haben, wenn sie Statistik- und Fach-Patterns formal erfüllen. F9 ist daher diagnostisch nutzbar, sollte aber nie als Maß für „inhaltliche Qualität" interpretiert werden.

Wie wird der Wettbewerber-Pool für die DiD-Counterfactual-Logik aufgebaut?

Mit Framework v3.3 wird pro Kunde ein eigener Pool von drei bis fünf Wettbewerber-Domains etabliert, der organisch aus den LLM-Citation-Daten des jeweiligen Kunden im monatlichen C3-Lauf befüllt wird. Aufnahme-Kriterien: direkter Marktteilnehmer (kein Lieferant, kein Authority-Domain), PS-Stabilität über mindestens vier Wochen, Sichtbarkeit in mindestens fünf von zwölf CATEGORY-Prompts, Diversität über RS-Niveaus (1 starker, 1 mittlerer, 1 schwacher Marktteilnehmer), Domain-Stabilität über mindestens zwölf Monate. Authority-Domains für die PS5-ASC-Berechnung werden separat in einer zentralen Branchen-Whitelist gepflegt. Diese Hybrid-Architektur ersetzt die zentrale Branchen-Liste der Vorgänger-Versionen.

Warum CC BY-SA 4.0 und nicht proprietär?

Aus zwei Gründen. Erstens: ein Mess-Framework, das nicht öffentlich nachvollziehbar ist, kann nicht von Peers diskutiert, kritisiert und damit verbessert werden. Methodische Reife setzt Transparenz voraus. Zweitens: Share-Alike (SA) sorgt strukturell dafür, dass Adaptionen ebenfalls öffentlich werden, statt in interne Forks zu verschwinden. Damit bleibt die methodische Diskussion in der Branche sichtbar und Johannes Bopp GmbH wird durch den Attribution-Mechanismus (BY) als Quelle benannt.

Wann erfolgt eine regressionsbasierte Re-Kalibrierung der Gewichte?

In der Major-Revision v4.0, geplant für Q4/2026, sobald die Wirkungs-Bibliothek mindestens fünfzehn longitudinale Cases verschiedener Maßnahmen-Typen enthält. Bis dahin gelten die aktuellen Werte als expertenbasierte Arbeitshypothesen für diagnostische Priorisierung, nicht als statistisch optimierte Vorhersage. Der Sammelvorbehalt zur Kalibrierung ist im Framework explizit dokumentiert.

Wie verhält sich das Framework zu Anthropic Claude?

Claude im Web-Such-Modus ist aktuell nicht im getesteten LLM-Set, weil keine ausreichend stabile Monitoring-Schnittstelle analog zu den für ChatGPT, Copilot, Google AI Overview und Perplexity eingesetzten LLM-Citation-Tools verfügbar ist. Das Framework macht daher keine Aussagen über Claude-Citation-Verhalten. Sobald entsprechende Tools verfügbar sind, kann Claude in das PS-Mess-Set aufgenommen werden, ohne dass die RS-Architektur verändert werden muss.

Wie dieses Whitepaper aufgebaut ist.

Die fünf Kernbegriffe in je einem Satz.

Drei Aussagen, die das Framework methodisch tragen.