Dieser Artikel wurde aus dem Englischen übersetzt. [Zur englischen Originalversion wechseln Sie einfach die Sprache oben auf der Seite.]

Warum einzelne KI-Sichtbarkeitsmessungen irreführend sind

Eine neue Studie – „Don't Measure Once: Measuring Visibility in AI Search (GEO)" – zeigt, dass die Messung der KI-Sichtbarkeit einer Marke einen grundlegend anderen Ansatz erfordert als das Tracking traditioneller Suchrankings.

Die Studie, mitverfasst von Julius Schulte, Malte Bleeker und Philipp Kaufmann, untersucht, wie KI-Sichtbarkeit über wiederholte Suchen, verschiedene Prompts, Branchen und KI-Suchplattformen wie Google AI Mode und Perplexity variiert.

Die vollständige Studie auf arXiv lesen →

Das Kernproblem: KI-Suche ist probabilistisch

Im Gegensatz zu traditionellen Suchmaschinen, die deterministische Ranglisten liefern, generieren KI-Suchmaschinen ihre Ausgaben probabilistisch. Stellen Sie dieselbe Frage zweimal, und Sie erhalten möglicherweise unterschiedliche Antworten, unterschiedliche Markenerwähnungen und unterschiedliche Zitate. Diese Variabilität hat wichtige Implikationen dafür, wie Sichtbarkeit gemessen werden sollte.

Eine einzelne Momentaufnahme der KI-Sichtbarkeit kann stark irreführend sein. Eine Marke erscheint möglicherweise im Durchschnitt in 60 % der KI-Suchergebnisse, aber jede einzelne Anfrage könnte 0 % oder 100 % zeigen – keines davon gibt das wahre Bild.

Wichtigste Erkenntnisse und Empfehlungen

1. Jeden Prompt ~7 Mal pro Tag ausführen

Die Studie empfiehlt, jeden Prompt mindestens 7 Mal pro Tag auszuführen, um eine statistisch robuste Schätzung der KI-Sichtbarkeit zu erhalten. Dies berücksichtigt die inhärente Zufälligkeit (Temperatur) in LLM-Ausgaben und stellt sicher, dass Sie eine stabile Wahrscheinlichkeit messen, nicht ein einzelnes Glücks- oder Pechresultat.

2. Kontinuierlich messen – mindestens 2–4 Wochen

Kurze Messfenster sind zu ungenau. Sie benötigen mindestens 2–4 Wochen kontinuierlicher Messung (idealerweise fortlaufend), um bedeutsame Trends zu erkennen. LLM-Algorithmen ändern sich häufig, und kurze Momentaufnahmen können algorithmische Verschiebungen mit organischen Sichtbarkeitsänderungen verwechseln.

3. Ein breites Prompt-Portfolio verwenden

Ein oder zwei Prompts reichen nicht aus, um die gesamte KI-Sichtbarkeit einer Marke widerzuspiegeln. Verschiedene Formulierungen derselben Frage können drastisch unterschiedliche Ergebnisse liefern. Ein breiter, repräsentativer Satz von Prompts ist erforderlich, um die Sichtbarkeit über das gesamte Spektrum der Anfragen Ihrer Zielgruppe genau zu bewerten.

4. Plattformspezifische Benchmarks setzen

KI-Sichtbarkeit unterscheidet sich erheblich zwischen Plattformen. Eine Marke, die prominent in Perplexity-Ergebnissen erscheint, kann in Google AI Mode nahezu unsichtbar sein – und umgekehrt. Plattformspezifische Benchmarks sind unerlässlich, da sich die zugrundeliegenden Modelle, Abrufmechanismen und Zitierverhalten erheblich zwischen Plattformen unterscheiden.

5. Auf hochzitierte Quellen fokussieren

KI-Zitate sind stark auf eine relativ kleine Anzahl von Domains konzentriert. Einige wenige Quellen dominieren KI-Zitate in den meisten Branchen. Die strategische Implikation ist klar: Identifizieren Sie, welche Quellen in Ihrer Nische am häufigsten zitiert werden, und fokussieren Sie Ihre PR- und Content-Bemühungen darauf, dort vertreten zu sein.

Ein neues mentales Modell für KI-Sichtbarkeit

Die praktische Schlussfolgerung ist ein Paradigmenwechsel: KI-Sichtbarkeit muss als Wahrscheinlichkeit über wiederholte Messungen verwaltet werden, nicht als einmalige Ranking-Momentaufnahme.

KI-Sichtbarkeit wie ein traditionelles Ranking zu behandeln (entweder #1 oder nicht) verkennt die probabilistische Natur von KI-Systemen. Das bessere mentale Modell ist Share-of-Voice – welcher Prozentsatz der KI-Antworten in Ihrer Kategorie erwähnt Ihre Marke?

Traditionelles SEO	KI-Sichtbarkeit (GEO)
Fixes Ranking	Wahrscheinlichkeit über Antworten
Einzelne Messung ausreichend	Wiederholte Messungen erforderlich
Eine Suchmaschine	Mehrere KI-Plattformen
Keyword-Rang	Anteil der Zitate

Wie Aurora Intelligence diese Erkenntnisse anwendet

Aurora Intelligence ist genau um diese Prinzipien herum aufgebaut. Die Plattform:

Führt jeden Prompt mehrfach aus pro Messzyklus, um statistisch zuverlässige Sichtbarkeitswerte zu erzeugen
Trackt kontinuierlich, sodass Sie Trends über Wochen und Monate sehen können, nicht nur Punkt-in-Zeit-Momentaufnahmen
Deckt mehrere Plattformen ab, einschließlich Perplexity, Google AI Overviews, ChatGPT und mehr
Überwacht Zitierquellen, um Ihnen zu zeigen, welche Domains KI-Engines in Ihrer Kategorie zitieren

Die Forschung bestätigt, was wir in der Praxis sehen: Zuverlässige KI-Sichtbarkeitsmessung erfordert grundlegend andere Infrastruktur als traditionelles Rank-Tracking.

Die vollständige Studie lesen

„Don't Measure Once: Measuring Visibility in AI Search (GEO)" von Julius Schulte, Malte Bleeker und Philipp Kaufmann ist Open-Access auf arXiv verfügbar.

Die Studie lesen →

Wichtige Abbildungen aus der Studie

Abbildung 1 – Tägliche Quellenstabilität Jaccard-Ähnlichkeit und Rank-Biased Overlap für zitierte Quellen über vier Kampagnen (Jan. 24 – März 20, 2026). Quellensets überlappen sich von einem Tag zum nächsten nur um 34–42 % im Durchschnitt – was bestätigt, dass eine einzelne Messung eine hochvariable Momentaufnahme erfasst, keine stabile Wahrheit.

Abbildung 2 – Markenstabilität vs. Quellenstabilität Markenerwähnungen sind stabiler als zitierte Quellen, zeigen aber immer noch breite Interquartilbereiche, was auf erhebliche Antwort-zu-Antwort-Variation innerhalb von Kampagnen hindeutet.

Abbildung 3 – Zitierkonzentration (Gini-Koeffizient) Über alle Kampagnen und KI-Engines hinweg ist die Zitierung stark konzentriert – ein mittlerer Gini von 0,715, was bedeutet, dass eine kleine Anzahl von Domains den überwiegenden Teil der KI-Zitate erfasst. Diese Konzentration hat wichtige Implikationen für die GEO-Strategie: Linkaufbau und Content-Platzierung auf autoritären Domains ist enorm wichtig.

Abbildung 6 – Wie viele Wiederholungen sind genug? Der Standardfehler der geschätzten Erkennungsrate pro Marke fällt bei n = 7 Ausführungen pro Prompt unter 0,10. Die Quellabdeckung stabilisiert sich bei n = 8 Ausführungen. Dies ist die wichtigste praktische Empfehlung der Studie: Führen Sie jeden Prompt mindestens 7–8 Mal aus, bevor Sie Schlussfolgerungen ziehen.

Abbildung 7 – Wie langes Rolling-Window benötigen Sie? Ein Rolling-Window von ≥ 24 Tagen bringt den Standardfehler unter 0,05. Um hochpräzises Monitoring zu erreichen (SE < 0,02), ist ein Fenster von ≥ 34 Tagen erforderlich. Einzel-Tag- oder Einzel-Wochen-Momentaufnahmen sind statistisch unzuverlässig.

Einmal messen reicht nicht: KI-Sichtbarkeit zuverlässig messen