Methodenblatt — The Tell

Worum es geht

Ein KI-Werkzeug misst den Fußabdruck der KI in der Wissenschaft. Kein Detektor, keine Black Box — nur Zähldaten dokumentierter LLM-Tell-Wörter in PubMed. Der kollektive Sprung nach ChatGPT ist der Fingerabdruck; kein einzelnes Paper wird angeklagt. Selbstbezug ist Teil des Punkts: das Instrument legt offen, dass es selbst mit KI arbeitet.

1. Quellen & Lizenzen

PubMed via NCBI E-utilities (Public domain (NLM/NCBI); counts only). Nur Trefferzahlen je Suchbegriff/Jahr — keine Volltexte, keine Personen.

https://www.ncbi.nlm.nih.gov/books/NBK25501/

2. Kadenz

Bei jedem Build. PubMed indexiert mit Verzug — das laufende Jahr ist ausgeschlossen, die jüngsten Jahre sind unvollständig (darum liegt der Peak 2024, nicht später). Kanonisches Artefakt: versionierte JSON in src/data/tell/ — Git ist das Archiv.

3. Verarbeitung

Deterministisch: je Marker und Jahr die Treffer im Titel/Abstract (esearch), normiert je 100.000 Abstracts. Der Index ist die Summe der Marker-Anteile. Basislinie = Mittel vor ChatGPT; Peak = Jahr mit höchstem Index; Faktor = Peak / Basislinie.

→ pipelines/tell

KI/ML — nachprüfbar

v1 zählt nur (kein Modell). Geplant v2: ein transparenter LLM-Klassifikator, der je Abstract eine Synthese-Wahrscheinlichkeit schätzt und gegen die Marker-Zählung verifiziert wird — Prompt offengelegt, Unsicherheit als Teil der Messung. Bedingung: nie als unbelegtes Orakel.

4. Grenzen der Methode

Die Marker sind ein PROXY — diese Wörter haben legitime Verwendungen; nur der kollektive Sprung ist aussagekräftig, kein einzelner Treffer.
Peak 2024, weil PubMed 2025+ noch unter-indexiert — und weil der „delve"-Tell inzwischen bekannt ist und teils gemieden wird.
Nur Titel/Abstract, englischlastig; Zählung, keine semantische Volltext-Analyse.
Korrelation mit ChatGPT, kein kausaler Beweis je Paper; misst Sprachgebrauch, nicht „Betrug".

5. Compute-Fußabdruck

Rund 64 keyless HTTP-Zählabrufe pro Build, kein LLM. Die Site ist statisch.

6. Änderungsprotokoll

v1 (2026-06) — Erstfassung: acht Marker, Maschinen-Sprech-Index, Faktor seit ChatGPT.

→ Zum Experiment