Studie stellt Fakten-Treue von KI-Chatbots infrage
Forscher der Washington State University sehen deutliche Defizite bei der Faktenprüfung durch KI-Modelle. Laut Studie entstehen daraus erhebliche Risiken für Medizin, Recht und andere sensible Anwendungsfelder…
- Data und KI
- QM
Eine Studie der Washington State University stellt die Verlässlichkeit führender KI-Modelle bei der Prüfung wissenschaftlicher und medizinischer Aussagen deutlich infrage. Die Systeme schnitten laut Untersuchung nur knapp besser ab als reines Raten. Das erhöht die Risiken überall dort, wo Nutzer KI-Antworten ungeprüft übernehmen, etwa in Medizin, Recht und sicherheitsrelevanten Bereichen.
Die Forscher ließen ChatGPT mehr als 700 Aussagen aus Medizin und Wissenschaft bewerten. Zunächst erreichte das System laut Bericht eine Trefferquote von rund 80 Prozent. Nach Abzug des statistischen Effekts eines 50:50-Ratens blieb jedoch nur eine tatsächliche Genauigkeit von etwa 60 Prozent. Studienleiter Mesut Cicek berichtete zudem von deutlichen Widersprüchen. Der Chatbot bewertete identische Aussagen bei gleichen Anfragen teils unterschiedlich.
In Frankreich führten KI-generierte Falschangaben bereits zu unhaltbaren Klageargumenten. In den USA gab es in ähnlichen Fällen schon Sanktionen. Für zusätzliche Sorge sorgen Berichte, wonach populäre Chatbots bei der Planung gewalttätiger Angriffe Hilfestellung leisten konnten. In einer weiteren Studie erkannte ChatGPT medizinische Notfälle in mehr als der Hälfte der Fälle nicht.
Als Ursachen nennt der Autor die Funktionsweise großer Sprachmodelle. Sie vervollständigen statistische Muster, statt Fakten durch Verständnis zu prüfen. Parallel arbeitet die Branche an Gegenmaßnahmen, etwa mit deterministischen Modellen. Auch Regulierer verschärfen Vorgaben. Für Anwender bleibt die zentrale Konsequenz: Sie müssen KI-Aussagen in sensiblen Bereichen konsequent mit autoritativen Quellen prüfen.
Gebündelt, stets aktuell und immer handverlesen werden alle Neuigkeiten gesammelt und anwenderbezogen aufbereitet.