Medizin-Chatbots auf dem Prüfstand: Ein Experiment mit Tücken

Ein Forscherteam der TUM zeigt, dass Large Language Models zwar medizinische Tests bestehen, in der realen klinischen Diagnostik aber potenziell gefährliche Entscheidungen treffen können.

29. Juli 2024

IT
Medizin

Ein Forscherteam der TUM zeigt, dass Large Language Models zwar medizinische Tests bestehen, in der realen klinischen Diagnostik aber potenziell gefährliche Entscheidungen treffen können.

Large Language Models (LLMs) bestehen medizinische Examen nahezu fehlerfrei, doch ihr Einsatz im klinischen Alltag ist derzeit noch riskant. Eine Studie der Technischen Universität München (TUM) zeigt, dass Medizin-Chatbots oft vorschnelle Diagnosen stellen, Behandlungsrichtlinien missachten und potenziell das Leben von Patientinnen und Patienten gefährden können. In der Studie wurden anonymisierte Patientendaten aus den USA verwendet, um die Leistungsfähigkeit von Open-Source-Modellen wie Llama 2 zu testen. Die Ergebnisse zeigten, dass die Algorithmen oft nicht alle notwendigen Untersuchungen anordneten und ihre Diagnosen mit zunehmender Informationsmenge unpräziser wurden. Ein Vergleich mit menschlichen Ärztinnen und Ärzten zeigte, dass diese mit 89% deutlich präzisere Diagnosen stellten als die besten LLMs mit 73%. Zudem zeigten sich Schwächen in der Robustheit der Modelle: Die Diagnosen variierten je nach Reihenfolge und Sprache der eingegebenen Informationen. Kommerzielle Modelle wie ChatGPT wurden aus Datenschutz- und Kontrollgründen nicht getestet. Trotz der derzeitigen Einschränkungen sehen die Forscherinnen und Forscher Potenzial in der Technologie und haben eine Testumgebung für zukünftige Studien entwickelt…

Quelle:

krankenhaus-it.de