Methodenblatt — The Consensus

Worum es geht

Jede hier genannte Quelle hat diese Worte wirklich gebracht. Genau das Echo zu zählen ist der Punkt: scheinbarer Konsens ist keine unabhängige Bestätigung. „47 Medien berichten X" heißt oft: eine Quelle, 47-mal. Gegenmessung zählt, was als unabhängig gilt, aber kopiert ist.

1. Quellen & Lizenzen

Nachrichten über die GDELT DOC 2.0 API (GDELT — open / frei nutzbar). Acht breite Beats (politics, economy, technology, health, science, business, sports, weather), englischsprachig. Die zitierten „unabhängigen" Quellen sind die Domains, die den Satz wortgleich brachten — auf der Werkseite namentlich gelistet.

https://blog.gdeltproject.org/gdelt-doc-2-0-api-debuts/

2. Kadenz

Täglich. Die Maschine wählt selbst: die Phrase mit der höchsten Streuung über distinkte Quell-Domains ist die „Schlagzeile des Tages". Kanonisches Artefakt: versionierte JSON in src/data/consensus/ — Git ist das Archiv.

3. Verarbeitung

Artikel poolen (Dedupe nach URL) → wortgleiche 6-Gramm-Phrasen je Titel über distinkte Domains zählen → die meist-replizierte ist die Schlagzeile. Echo-Index = Anteil der Titel, die zu einem ≥3-Domain-Echo gehören. Symbolische Provenienz: der früheste Zeitstempel markiert die Quell-Kandidatin und die Kaskade.

→ pipelines/consensus

KI/ML — gestaffelt, nachprüfbar

Das Lab experimentiert mit Daten UND KI. Umgesetzt: v1 wortgleiche Baseline; v2 TF-IDF/Cosinus fängt paraphrasierte Koordination (umformulierte Wire-Copy, die Verbatim verfehlt); v3 ein symbolischer, regelbasierter Klassifikator trennt aus der Graph-Struktur (TLD-Homogenität, Zeitfenster) Ketten-Syndizierung von verstreuter Platzierung — auditierbar, kein Black-Box-Modell. Optional/künftig: tiefe Embeddings und ein gegen den Graphen verifizierter LLM-Klassifikator (Prompt offengelegt). Bedingung immer: jeder KI-Schritt transparent, Output verifiziert oder als Schätzung markiert.

4. Grenzen der Methode

GDELT-Abdeckung ist englisch-/westlich-lastig; gemessen wird ein Ausschnitt, nicht die Welt.
GDELT-Zeitstempel haben ~15-Minuten-/Stundenauflösung — „zuerst gesehen" ist das früheste GDELT-Fenster, keine präzise Erstveröffentlichungs-Zuschreibung.
v1 wertet Titel aus, nicht Volltext; paraphrasierte Koordination entgeht ihm (kommt in v2).
Legitime Wire-/Ketten-Syndizierung ≠ Manipulation — aber sie erzeugt die Illusion unabhängiger Bestätigung; das Instrument behauptet keine Absicht.
Beats können bei API-Rate-Limits ausfallen (im Stats-Block je Tag ausgewiesen).

5. Compute-Fußabdruck

Acht leichte HTTP-Abrufe pro Tag, kein API-Key, in v1 kein LLM. Die Site selbst ist statisch.

6. Änderungsprotokoll

v1 (2026-06) — Erstfassung: wortgleiche Synchronität + Echo-Index + symbolische Provenienz.

→ Zum Experiment