Zum Hauptinhalt springen

Wie KI-Sichtbarkeit gemessen wird

Zwei Tools können dieselbe Marke prüfen und trotzdem unterschiedliche Zahlen melden. Das liegt selten an einem Fehler, sondern fast immer an der Messmethode.

Das Wichtigste in Kürze

  • Zwei Tools können dieselbe Marke messen und dabei zu Recht unterschiedliche Zahlen melden. Keine davon ist allein „die Wahrheit“.
  • Erhebung: Manche Tools scrapen eine personalisierte Endkunden-Sitzung, andere fragen die API mit Live-Websuche ab, die reproduzierbar und auditierbar ist.
  • Stichprobe: Eine Messung pro Tag trägt die volle Zufallsvarianz, deterministische Wiederholung mit festen Parametern senkt sie.
  • Gezählt wird Unterschiedliches, von der bloßen Erwähnung bis zur tatsächlich zitierten Quelle. Bewerte ein Tool danach, ob seine Methode offenliegt.

Die folgenden Abschnitte gehen jede dieser Stellschrauben durch, ohne ein Tool zum Sieger zu erklären. Wer versteht, wie gemessen wird, kann jede Zahl einordnen, auch die von Achtung.app.

1. Wie die Antworten erhoben werden

Bevor irgendetwas gezählt wird, muss ein Tool die KI-Plattform überhaupt erst abfragen. Dafür haben sich zwei Schulen herausgebildet.

Browser-Simulation (UI-Scraping)

Das Tool simuliert eine echte Browser-Sitzung und liest die Antwort aus der Endkunden-Oberfläche von ChatGPT, Gemini und Co. Vorteil: Es sieht genau das, was die Plattform einem Nutzer in diesem Moment ausspielt. Nachteil: Die Antwort kann durch Account, Memory, Tarif und A/B-Tests geprägt sein, ist schwerer reproduzierbar und setzt voraus, dass sich die Oberfläche nicht ändert. Peec.ai ist ein bekannter Vertreter dieser Schule.

API mit Live-Websuche

Das Tool ruft die offiziellen search-grounded APIs der Anbieter auf, die pro Anfrage live im Web suchen. Vorteil: reproduzierbar, mit festen Sampling-Parametern auditierbar und unabhängig von UI-Änderungen oder Anti-Scraping. Nachteil: Es misst den Weg, den Agenten und Anwendungen nehmen, nicht jede Personalisierung der Endkunden-Oberfläche.

Hinzu kommt: Wer eine Oberfläche scrapt, muss sich für genau eine Konfiguration entscheiden. Ein kostenloser Zugang bekommt oft ein anderes Modell als ein bezahlter, und ein schneller Antwortmodus zitiert andere Quellen als ein ausführlicher Reasoning-Modus. Das gescrapte Ergebnis gilt damit immer nur für diese eine Stufe, die vom jeweiligen Konto und Modus abhängt. Die Modelle selbst ändern sich auf beiden Wegen, weil die Anbieter sie laufend weiterentwickeln. Über die API ist aber festgehalten, welches Modell eine Anfrage beantwortet hat, sodass eine Änderung sichtbar wird statt unbemerkt zu bleiben.

Wie Achtung.app es macht

Achtung.app misst über die offiziellen APIs mit Live-Websuche pro Anfrage, deterministischen Sampling-Parametern und einem Zitat mit URL pro Antwort. Welches Modell eine Anfrage beantwortet hat, wird protokolliert, sodass jede Messung nachvollziehbar bleibt. Mehr dazu in der Methodik

2. Einzelmessung gegen deterministische Wiederholung

KI-Modelle sind von Natur aus nicht deterministisch: Dieselbe Frage liefert an zwei Tagen leicht andere Antworten. Wie ein Tool damit umgeht, entscheidet, wie verlässlich ein Trend ist.

Viele Tools führen jeden Prompt einmal pro Tag aus. Das ist günstig und liefert eine Verlaufskurve, aber jede einzelne Messung trägt die volle Zufallsvarianz des Modells. Ein Ausschlag nach oben oder unten kann echte Bewegung sein oder schlicht Rauschen.

Wie Achtung.app es macht

Achtung.app stellt jede Anfrage mit Temperature 0 und festen Seeds, wo der Anbieter das unterstützt, und wiederholt sie mehrfach pro Keyword. Das senkt die Varianz, sodass eine Veränderung in der Kurve eher echte Bewegung als Rauschen ist.

3. Was überhaupt gezählt wird

„Sichtbarkeit“ ist kein einheitlicher Wert. Tools zählen unterschiedliche Dinge, und der Name einer Kennzahl verrät nicht immer, was darunter steckt:

  • Erwähnung: Die Marke wird in der Antwort genannt oder nicht.
  • Zitierte Quelle: Das Modell zieht bestimmte URLs heran, um die Antwort zu belegen. Auf dieser Ebene kannst du tatsächlich etwas verändern.
  • Position und Anteil: Die Marke taucht an einer bestimmten Stelle und mit einem bestimmten Anteil gegenüber Wettbewerbern auf.
  • Tonalität: Die Erwähnung ist positiv, neutral oder negativ gerahmt.

Eine reine Erwähnungszählung und eine Quellen-Analyse können für dieselbe Marke stark auseinanderlaufen. Achtung.app trackt beides und legt offen, welche Quellen je Plattform dominieren. Wie das gemessen wird, steht bei den zitierten Quellen

4. Welche Plattformen, und warum die Zahl täuscht

Tools werben mit drei bis sieben „Modellen“. Diese Zahl ist mit Vorsicht zu lesen: Mehrere davon sind oft nur verschiedene Oberflächen desselben Anbieters, etwa Google AI Mode, AI Overviews und Gemini, nicht unabhängige Quellen.

Aussagekräftiger als die reine Anzahl ist die Überschneidung: Dieselbe Marke kann bei einer Plattform stark zitiert werden und bei einer anderen gar nicht. Diese Asymmetrie zwischen Anbietern sagt mehr über deine Lage aus als ein hoher Durchschnitt über viele Oberflächen hinweg.

5. Warum dieselbe Marke unterschiedlich abschneidet

Nimmt man alle vier Stellschrauben zusammen, wird klar: Zwei seriöse Tools können dieselbe Marke messen und dabei zu Recht unterschiedliche Zahlen melden. Das eine scrapt die Oberfläche und fängt eine personalisierte Sitzung ein, das andere fragt die API mit fester Stichprobe. Das eine zählt Erwähnungen, das andere zitierte Quellen.

Keiner dieser Werte ist „die Wahrheit“. Jeder misst einen bestimmten Ausschnitt unter eigenen Annahmen. Wichtig ist, dass die Annahmen offenliegen, damit du weißt, was die Zahl bedeutet und was nicht.

Eine Gegenüberstellung der gängigen Tools nach Anbietern, Erhebung und Preis findest du im Tool-Vergleich

So liest du die Zahl eines beliebigen Tools

Fünf Fragen, die jede KI-Sichtbarkeitszahl einordnen, egal von welchem Anbieter sie kommt:

  1. Wie wird erhoben? Über eine gescrapte Endkunden-Oberfläche oder über die API mit Live-Websuche?
  2. Wie oft und wie stabil? Einmalige Tagesmessung oder mehrere Runs mit festen Sampling-Parametern?
  3. Was wird gezählt? Bloße Erwähnungen oder die tatsächlich zitierten Quellen?
  4. Wie viele echte Anbieter? Unabhängige Plattformen oder mehrere Oberflächen desselben Hauses?
  5. Ist die Methode offengelegt? Kannst du nachlesen, wie gemessen wird, oder bleibt es eine Blackbox?

FAQ

Weil sie unterschiedlich messen. Erhebung (UI-Scraping gegen API mit Live-Websuche), Stichprobe (einmal täglich gegen mehrere deterministische Runs), gezählte Größe (Erwähnung gegen zitierte Quelle) und Anbieter-Auswahl unterscheiden sich von Tool zu Tool. Jede Zahl beschreibt einen bestimmten Ausschnitt unter eigenen Annahmen, keine davon ist allein „die Wahrheit“.

Beide haben Berechtigung. Scraping der Endkunden-Oberfläche zeigt, was ein Nutzer in diesem Moment sieht, ist aber schwerer reproduzierbar und von Personalisierung sowie UI-Änderungen abhängig. Die API mit Live-Websuche ist reproduzierbar und auditierbar und bildet den Weg ab, den Agenten und Anwendungen nehmen. Achtung.app misst über die API, weil Reproduzierbarkeit und Zitat-Belege für Verlaufsdaten entscheidend sind.

KI-Modelle antworten von Natur aus leicht unterschiedlich. Mit Temperature 0 und festen Seeds, wo der Anbieter das unterstützt, und mehreren Runs pro Keyword sinkt diese Varianz. Eine Veränderung in der Kurve ist dann eher echte Bewegung als Zufallsrauschen.

Nein. Eine Erwähnung heißt, dass die Marke im Text genannt wird. Eine zitierte Quelle ist die URL, die das Modell zur Begründung heranzieht. Auf der Quellen-Ebene kannst du tatsächlich etwas verändern, deshalb trackt Achtung.app beides getrennt.

Die Anzahl allein sagt wenig, weil mehrere beworbene „Modelle“ oft nur verschiedene Oberflächen desselben Anbieters sind. Wichtiger ist, dass die abgedeckten Plattformen pro Anfrage live im Web suchen und dass das Tool die Überschneidung zwischen ihnen offenlegt. Achtung.app trackt vier search-grounded Anbieter in jedem Tarif.