KI erfindet Quellen: Tausende Fake-Referenzen in Medizin-Papern entdeckt
Eine Lancet-Studie findet tausende fabrizierte Literaturangaben in biomedizinischen Artikeln, vermutlich durch Sprachmodelle begünstigt, mit Risiken für Reviews und klinische Leitlinien…
- Data und KI
- QM
Die Studie im Fachjournal The Lancet zeigt, dass erfundene Literaturangaben in biomedizinischen Fachartikeln inzwischen systematisch auftreten und seit 2023 stark zugenommen haben. Die Autoren warnen vor Folgen für die wissenschaftliche Evidenzbasis, weil besonders Übersichtsarbeiten betroffen sind und diese klinische Leitlinien prägen können.
Für das Audit durchsuchte ein Team um Maxim Topaz von der Columbia University 2,47 Millionen Papers aus PubMed Central aus dem Zeitraum Januar 2023 bis Februar 2026. Insgesamt prüften die Forscher 97,1 Millionen Referenzen und stuften 4.046 davon als fabriziert ein, verteilt auf 2.810 Publikationen. Als Kriterium galt, dass der angegebene Titel in keiner von vier Datenbanken auffindbar war: PubMed, Crossref, OpenAlex und Google Scholar.
Zeitlich blieb die Rate 2023 stabil bei rund vier fabrizierten Referenzen pro 10.000 Papieren. Ab Mitte 2024 stieg sie deutlich, lag Ende 2025 bei 51,3 pro 10.000 und erreichte in den ersten sieben Wochen 2026 56,9 pro 10.000. Als wahrscheinliche Ursache nennen die Autoren den breiten Einsatz von Sprachmodellen wie ChatGPT, schließen aber andere Gründe wie Paper-Mills oder geänderte Indexierung nicht aus. Die Fake-Quellen wirkten oft plausibel, korrekt formatiert und thematisch passend, teils mit hoher Trefferzahl innerhalb einzelner Artikel. Hinweise auf koordinierte Muster fanden sich auch über mehrere Papers hinweg.
Zum Zeitpunkt des Audits hatten 98,4 Prozent der betroffenen Papiere laut Autoren keine Reaktion des Verlags. Reviews wiesen eine um 57 Prozent höhere Fabrikationsrate auf als andere Papiertypen. Das gilt als besonders riskant, weil Leitlinien auf Reviews aufbauen und eine Zitierung fabrizierter Quellen die Evidenzkette für Behandlungsentscheidungen kompromittieren kann. Als Gegenmaßnahmen empfehlen die Forscher automatische Referenzprüfungen bereits vor dem Peer Review, Integritäts-Metadaten in Artikeldatensätzen, nachträgliches Screening publizierter Arbeiten sowie eine eigene Kategorie „fabrizierte Referenzen“ in Integritätsdatenbanken. Arxiv habe bereits Sanktionen für ungeprüfte LLM-Ausgaben wie halluzinierte Quellen verschärft und drohe mit einem einjährigen Ausschluss. Zudem verweisen die Autoren auf CiteAudit als Open-Source-Ansatz und darauf, dass Sprachmodelle ihr Referenzproblem schwer zuverlässig erkennen. Für die Studie nutzte das Team Claude zur Code-Entwicklung und Grammatikkorrektur.
Gebündelt, stets aktuell und immer handverlesen werden alle Neuigkeiten gesammelt und anwenderbezogen aufbereitet.