KI überholt Ärzte? – OpenAI stellt neuen medizinischen Bewertungsstandard vor
OpenAI hat mit HealthBench einen neuen Bewertungsstandard für medizinische KI-Systeme eingeführt. Erste Tests zeigen, dass moderne Modelle wie GPT-4.1 und o3 ärztliche Basisantworten übertreffen – jedoch nur in spezifischen Testszenarien und nicht als genereller Ersatz für menschliche Expertise
- Medizin
OpenAI hat mit HealthBench einen neuen Bewertungsstandard für KI-Systeme im Gesundheitswesen vorgestellt. Das System basiert auf 5.000 simulierten Arzt-Patienten-Gesprächen, die von 262 Ärzten aus 60 Ländern entwickelt wurden. Dabei werden Antworten nach fünf Hauptkriterien – Kommunikationsqualität, Befolgung der Instruktion, Genauigkeit, Kontextbewusstsein und Vollständigkeit – bewertet. In Tests schneiden die neuesten Modelle, GPT-4.1 und o3, besser ab als die Vergleichsantworten von Ärztinnen und Ärzten. Besonders bei Vollständigkeit und Genauigkeit übertreffen die KI-Modelle ihre menschlichen Kollegen. Dennoch betont OpenAI, dass diese Ergebnisse in einem sehr spezifischen Testkontext erzielt wurden und keine generellen Rückschlüsse auf die Gesamtqualität menschlicher medizinischer Versorgung zulassen…
the-decoder.de

Gebündelt, stets aktuell und immer handverlesen werden alle Neuigkeiten gesammelt und anwenderbezogen aufbereitet.