Messverfahren für Sicherheit klinischer KI-Anwendungen versagen

Freitag, 6. Februar 2026

Berlin – Folgt man den Empfehlungen Großer Sprachmodule (Large Language Models, LLM) im klinischen Setting, besteht in bis zu 22 Prozent der Behandlungsfälle das Potenzial für schwerwiegende Schäden.

Zu diesem Ergebnis kommt eine Studie von Forschenden der US-Universitäten Harvard und Stanford, die ein neues Bewertungssystem für die klinische Sicherheit von LLM vorschlagen. Denn die bisherigen Bewertungssysteme seien nicht ausreichend.

Für die bisher nur als Preprint erschienene Studie (Computers and Society 2025; DOI: 10.48550/arXiv.2512.01241) haben die Forschenden 31 große Sprachmodelle anhand von 100 realen Fällen in zehn medizinischen Fachgebieten untersucht. Jeder der Fälle enthielt eine detaillierte Auswahl potenzieller diagnostischer Tests, Folgeverfahren, Medikationen oder weiterer Beratungen.

Die untersuchten LLM umfassten sowohl Open-Source- als auch proprietäre Modelle, die im vergangenen Jahr von großen Anbietern von Künstlicher Intelligenz (KI) veröffentlicht wurden, sowie sogenannte Retrieval-Augmented-Generation-Systeme (RAG), bei denen vorhandene LLM auf klinischen Wissensdatenbanken trainiert wurden.

Dabei ließen die Forschenden 29 Ärztinnen und Ärzte verschiedener Fachrichtungen 12.747 Kommentare zu den Empfehlungen der LLM abgeben, in denen sie den Nutzen oder Schaden der empfohlenen Maßnahme für die jeweilige Patientin oder den jeweiligen Patienten beurteilten.

Dabei stellte sich heraus, dass die Spanne der durchschnittlichen schweren Fehler bei den untersuchten LLM von 11,8 bis 14,6 bei den am besten bewerteten Modellen und von 39,9 bis 40,1 bei den am schlechtesten bewerteten reichte.

Bei der Bewertung des Schadens auf Einzelfallbasis stellten die Autoren für jeden Fall fest, ob die Modelle mindestens einen schwerwiegenden Fehler verursachten. Die daraus berechnete Number Needed to Harm (NNH) lag zwischen 4,5 und 11,5. Selbst bei den besten Sprachmodellen käme es also im Schnitt bei jedem zwölften Fall zu einer schwerwiegend falschen Beurteilung, bei den schlechtesten in jedem fünften Fall.

Am besten schlossen Gemini 2.5 Flash von Google, LiSA 1.0 des Berliner Unternehmens Amboss und Claude Sonnet 4.5 des US-Unternehmens Anthropic ab, am schlechtesten Qwen3 235B des chinesischen Konzerns Alibaba sowie o4 mini und GPT-o4 mini von OpenAI.

„Weit verbreitete KI-Modelle können trotz guter Ergebnisse bei bestehenden Bewertungen in nicht unerheblichem Maße schwerwiegende medizinische Fehlempfehlungen liefern, was die klinische Sicherheit als eigenständige Leistungsdimension unterstreicht, die einer expliziten Messung bedarf“, schreiben die Autorinnen und Autoren der Studie.

Unterlassungen gefährlicher als falsche Empfehlungen

Der Großteil der schweren Fehler bestand dabei nicht aus grob falschen Empfehlungen, sondern aus Unterlassungen, also beispielsweise aus dem Versäumnis, wichtige diagnostische Tests oder eine Medikation zu empfehlen. 76,6 Prozent der entdeckten schweren Fehler entfielen auf diese Unterlassungen.

„Die Ergebnisse zeigen, dass das überwiegende Sicherheitsrisiko bei aktuellen LLM-Systemen eher darin besteht, dass wichtige Maßnahmen nicht empfohlen werden, als darin, dass unangemessene oder schädliche Maßnahmen empfohlen werden“, heißt es weiter.

„Die Studie schafft Aufmerksamkeit für ein bisher zu wenig berücksichtigtes Problem, nämlich Fehler durch Auslassungen“, sagte auch Daniel Truhn, Leiter des Labors für Künstliche Intelligenz in der Medizin an der Klinik für Diagnostische und Interventionelle Radiologie der Uniklinik RWTH Aachen. Truhn war an der Studie nicht beteiligt.

Vielen Behandelnden sei nicht bewusst, welche Rolle das in der klinischen Praxis spiele, da der Fokus bisher eher auf falschen Aussagen liege. „Die Ergebnisse entsprechen meinen eigenen Erfahrungen: LLM geben oft sehr gut klingende Empfehlungen, aber es kommt vor, dass sie dabei wichtige Gedankengänge auslassen“, sagt er.

Um den potenziellen Schaden, den schwerwiegende Fehler der getesteten LLM verursachen, zu quantifizieren, entwickelten die Studienautoren einen eigenen Bewertungsrahmen, den sie NOHARM (Numerous Options Harm Assessment for Risk in Medicine) tauften und der auf den Bewertungen der beteiligten Ärzte basiert.

Dabei stellten sie fest, dass die dadurch entstandenen Werte zur klinischen Sicherheit nur moderat mit den bisherigen Benchmarks – also Testverfahren zur Bestimmung von Leistungsfähigkeit und Sicherheit – von LLM in klinischen Settings korrelieren.

Weder diese Benchmarks noch andere gängige Aspekte wie die Modellgröße nach Anzahl der verwendeten Parameter, die Aktualität der Veröffentlichung oder die Schlussfolgerungsfähigkeit konnten in der Untersuchung die Performance im realen klinischen Setting verlässlich vorhersagen.

Zudem habe sich gezeigt, dass das ausgiebige Training der LLM an medizinischen Datenbanken die Ergebnisse nicht zwangsläufig verbessere. Auch das decke sich mit seinen Erfahrungen, sagt Truhn.

„Wir haben uns ebenfalls bei mehreren LLM am Feintuning mit medizinischen Datenbanken versucht. Diese blieben dann aber meist hinter den Erwartungen zurück, weshalb wir dieses Prinzip zunehmend verlassen und mittlerweile eher darauf setzen, den Modellen die richtigen Werkzeuge an die Hand zu geben“, erklärte er.

Vielversprechender als das Feintuning auf Kleinskalen wie medizinischen Datenbanken scheine derzeit der Ansatz zu sein, LLM zu befähigen, sich die notwendigen Informationen im laufenden Betrieb selbstständig zu suchen.

Entwicklung neuer Benchmarks nötig

Die Ergebnisse würden eine Einschränkung der derzeitigen Bewertungspraktiken verdeutlichen, heißt es weiter in der Studie: „Auf Genauigkeit ausgerichtete Benchmarks können eine explizite Messung der Sicherheit nicht ersetzen und unterschätzen wahrscheinlich die Risiken einer klinischen Echtzeitanwendung.“

Da Anbieter Künstlicher Intelligenz ihre Modelle iterativ optimieren würden, um bei den verfügbaren Benchmarks hervorragende Ergebnisse zu erzielen, brauche es konzertierte Anstrengungen zur Entwicklung ausgefeilterer Benchmarks für die klinische Anwendung, inklusive staatlicher Unterstützung.

Dem stimmt auch Truhn zu. „Die Studie geht ein Problem an, das sehr komplex ist, nämlich die Tatsache, dass viele Benchmarks, an denen die klinische Performance von LLM gemessen werden, zu einfach sind“, sagte er.

Es werde offensichtlich, dass künftig komplexere Benchmarks entwickelt werden müssen, die den tatsächlichen klinischen Effekt messen können. „Die Autoren machen dazu einen ersten Schritt. Es gibt diesbezüglich bereits mehrere Ansätze, die nun weiterverfolgt werden sollten.“

Die Ergebnisse der Studie seien bedingt auf Deutschland übertragbar. In Zukunft werde es deshalb nötig sein, auch Benchmarks zu entwickeln, die auf die hiesige klinische Realität zugeschnitten sind, die sich in Details von der in den USA unterscheide.

Multi-Agenten-Systeme liefern bessere Ergebnisse

Immerhin zeigt eine weitere Erkenntnis der Studie bereits einen Weg zur Risikoverringerung auf: So wurde demnach deutlich, dass sogenannte Multi-Agenten-Systeme – also solche, die aus mehreren autonomen LLM bestehen, die bei der Problemlösung kooperieren – den potenziellen Schaden substanziell verringern können.

Dies gelte insbesondere bei der Kombination aus heterogenen Modellen und Fähigkeiten, die durch Suchfunktionen erweitert wurden. Die leistungsstärkste Kombination bestehe dabei aus einem Open-Source-Modell, einem proprietären Modell und einem medizinisch fundierten RAG-System. Konkret lieferte die Zusammenarbeit von Llama 4, Gemini 2.5 Pro und LiSA 1.0 die besten Resultate.

„Die Einbindung unabhängiger KI-Agenten – sei es als Prüfer oder als Generatoren von Zweitmeinungen – kann daher als leistungsstarker, skalierbarer Ansatz zur Überwachung und Minderung von Schäden bei der Bereitstellung dienen“, heißt es in der Studie.

Kollektive Intelligenz verbessere die klinische Leistung des Menschen und Studien zu Teams aus Ärzten und KI, die den realen Einsatz widerspiegeln, würden künftig von entscheidender Bedeutung sein.

Auch wenn die Fehlerquote bei LLM im klinischen Setting nicht zu vernachlässigen sei, müsse bedacht werden, im Vergleich wozu diese Zahlen betrachtet werden. Schließlich könnten bestimmte Modelle bereits heute sicherere Behandlungspläne erstellen als Allgemeinmediziner, die herkömmliche Instrumente ohne KI verwenden.

So hatten die Studienautoren auch zehn Fachärzte für Innere Medizin anhand von LLM bewertet, wobei das stärkste LLM die Ärzte in Bezug auf die Sicherheit übertraf, während es bei den schwächsten Modellen andersherum war. Das durchschnittliche LLM habe den Menschen dabei vor allem in Bezug auf Vollständigkeit übertroffen.

„Menschliches Versagen ist ein gut dokumentierter und wesentlicher Faktor für die Morbidität und Mortalität von Patienten, wobei Diagnosefehler und Unterlassungsfehler eine überproportionale Rolle spielen“, schreiben die Autoren. Zwar seien die aktuellen KI-Modelle noch weit davon entfernt, in den Behandlungskategorien von NOHARM Facharztniveau zu erreichen.

Doch ermögliche KI-basiertes Clinical Decision Making beinahe sofortige Konsultationen und Zweitmeinungen. Dadurch habe es das Potenzial, die Leistung von Allgemeinmedizinern zu steigern.

So hatte das Basismodell, bei dem keine Intervention erfolgt, in der Studie mehr potenzielle Schäden verursacht alle untersuchten LLM. Vor diesem Hintergrund sei deshalb der oft eingeschränkte Zugang zu fachärztlicher Versorgung ebenfalls zu bedenken, schreiben die Studienautoren: „Um keinen Schaden anzurichten, muss man auch die Schäden berücksichtigen, die durch die Beibehaltung des Status quo entstehen.“

lau

Diskutieren Sie mit:

Diskutieren Sie mit

Werden Sie Teil der Community des Deutschen Ärzteblattes und tauschen Sie sich mit unseren Autoren und anderen Lesern aus. Unser Kommentarbereich ist ausschließlich Ärztinnen und Ärzten vorbehalten.

Anmelden und Kommentar schreiben
Bitte beachten Sie unsere Richtlinien. Der Kommentarbereich wird von uns moderiert.