Jede hier genannte Quelle hat diese Worte wirklich gebracht. Genau das Echo zu zählen ist der Punkt: scheinbarer Konsens ist keine unabhängige Bestätigung. „47 Medien berichten X" heißt oft: eine Quelle, 47-mal. Gegenmessung zählt, was als unabhängig gilt, aber kopiert ist.
Nachrichten über die GDELT DOC 2.0 API (GDELT — open / frei nutzbar). Acht breite Beats (politics, economy, technology, health, science, business, sports, weather), englischsprachig. Die zitierten „unabhängigen" Quellen sind die Domains, die den Satz wortgleich brachten — auf der Werkseite namentlich gelistet.
Täglich. Die Maschine wählt selbst: die Phrase mit der höchsten Streuung über distinkte Quell-Domains ist die „Schlagzeile des Tages". Kanonisches Artefakt: versionierte JSON in src/data/consensus/ — Git ist das Archiv.
Artikel poolen (Dedupe nach URL) → wortgleiche 6-Gramm-Phrasen je Titel über distinkte Domains zählen → die meist-replizierte ist die Schlagzeile. Echo-Index = Anteil der Titel, die zu einem ≥3-Domain-Echo gehören. Symbolische Provenienz: der früheste Zeitstempel markiert die Quell-Kandidatin und die Kaskade.
Das Lab experimentiert mit Daten UND KI. Umgesetzt: v1 wortgleiche Baseline; v2 TF-IDF/Cosinus fängt paraphrasierte Koordination (umformulierte Wire-Copy, die Verbatim verfehlt); v3 ein symbolischer, regelbasierter Klassifikator trennt aus der Graph-Struktur (TLD-Homogenität, Zeitfenster) Ketten-Syndizierung von verstreuter Platzierung — auditierbar, kein Black-Box-Modell. Optional/künftig: tiefe Embeddings und ein gegen den Graphen verifizierter LLM-Klassifikator (Prompt offengelegt). Bedingung immer: jeder KI-Schritt transparent, Output verifiziert oder als Schätzung markiert.
Acht leichte HTTP-Abrufe pro Tag, kein API-Key, in v1 kein LLM. Die Site selbst ist statisch.