Studie zeigt Grenzen von KI bei Gesundheitsfragen
Eine im Fachjournal Nature Science veröffentlichte Studie zeigt, dass medizinische Chatbots an Genauigkeit verlieren, sobald Laien mit ihnen arbeiten. Nicht wegen fehlenden Wissens der Systeme, sondern wegen problematischer Mensch-KI-Interaktion…
- Data und KI
Eine in Nature veröffentlichte Studie hat untersucht, wie zuverlässig große Sprachmodelle bei medizinischen Fragen im Alltag wirklich sind. In einer kontrollierten Untersuchung mit 1.298 Erwachsenen aus Großbritannien testeten die Forschenden öffentlich zugängliche Chatbots darauf, ob sie Krankheiten korrekt erkennen und sinnvolle Handlungsempfehlungen geben.
Im direkten Vergleich schnitten die Modelle bei der reinen Krankheitsidentifikation zunächst sehr stark ab. Sobald allerdings Laien die Systeme selbst nutzten, brach die Genauigkeit deutlich ein – und lag am Ende sogar unter der einer Kontrollgruppe, die auf klassische Informationsquellen zurückgriff.
Die Analyse der Dialoge zeigt dabei typische Reibungsverluste: Nutzende liefern zu wenig oder widersprüchliche Angaben, stellen Fragen unscharf – und folgen den Empfehlungen oft nicht oder nur teilweise. Fachleute bewerten das als soziotechnisches Grundproblem: Nicht nur das Modell entscheidet über die Qualität, sondern die Interaktion zwischen Mensch und System.
Damit rüttelt die Studie auch an gängigen KI-Benchmarks. Prüfungsnahe Tests, so das Fazit, überschätzen die Praxistauglichkeit deutlich. Die Autorinnen und Autoren – teils aus dem NHS-Umfeld – plädieren deshalb für Nutzer-Schulungen und eine Gestaltung der Chatbots, die Menschen im Gespräch besser führt und typische Fehlerquellen abfängt.
Gebündelt, stets aktuell und immer handverlesen werden alle Neuigkeiten gesammelt und anwenderbezogen aufbereitet.