Studie aus Oxford: KI überzeugt im Test, scheitert im Patientengespräch
Eine Studie zeigt: KI-Modelle bestehen medizinische Prüfungen, helfen Menschen aber kaum bei realen Gesundheitsentscheidungen. Kommunikation bleibt das größte Risiko…
- Data und KI
Große Sprachmodelle erzielen in medizinischen Wissenstests sehr hohe Trefferquoten. Sie bestehen standardisierte Prüfungen und erkennen relevante Krankheitsbilder zuverlässig.
Eine randomisierte Studie unter der Leitung von Prof. Adam Mahdi von der Universität Oxford zeigt jedoch deutliche Grenzen im Alltag. Sobald Laien die Modelle aktiv befragen, sinkt der Nutzen erheblich. Teilnehmende erkannten mit KI-Unterstützung seltener relevante Erkrankungen als Personen mit klassischer Internetsuche. Auch Handlungsempfehlungen wie Arztbesuch oder Notaufnahme verbesserten sich nicht.
Die Analyse der Dialoge belegt ein doppeltes Kommunikationsproblem. Nutzende liefern unvollständige Angaben und missverstehen Antworten. Selbst korrekte Hinweise der KI flossen oft nicht in Entscheidungen ein. Die Studie wurde in Nature Medicine veröffentlicht. Fachleute aus Wissenschaft und Versorgung warnen vor einer Überbewertung von Benchmarks. Prüfungsleistungen spiegeln reale Nutzung nicht wider.
Expertinnen und Experten fordern spezialisierte medizinische Chatbots mit strukturierter Anamnese, klaren Warnhinweisen und transparenter Risikodarstellung. Ohne Tests mit echten Nutzenden und klare Regulierung bleibt der Einsatz als erste Anlaufstelle riskant.
Gebündelt, stets aktuell und immer handverlesen werden alle Neuigkeiten gesammelt und anwenderbezogen aufbereitet.