Menschliche Interaktion verschlechtert Leistung von Chatbots bei Gesundheitsfragen

Berlin – Die Interaktion von Patientinnen und Patienten mit Großen Sprachmodellen (Large Language Models, LLM) scheint der zentrale Schwachpunkt bei der Zuverlässigkeit in der Beurteilung von Erkrankungen zu sein. Zu diesem Ergebnis gelangte eine Studie, die nun im Fachjournal Nature Science publiziert wurde (DOI: 10.1038/s41591-025-04074-y).
Die Autorinnen und Autoren hatten in einer kontrollierten Studie mit 1.298 volljährigen Probandinnen und Probanden aus Großbritannien getestet, ob öffentlich zugängliche LLMs Menschen dabei helfen können, Grunderkrankungen zu identifizieren und eine Vorgehensweise zu wählen.
Jeder Proband hatte die Aufgabe, potenzielle Gesundheitsprobleme zu identifizieren und eine empfohlene Vorgehensweise für eines von zehn verschiedenen medizinischen Szenarien zu empfehlen. Eine Gruppe von drei Ärzten hatte die Szenarien entwickelt und sich einstimmig auf die richtigen Maßnahmen für jedes Szenario geeinigt. Die Szenarien wurden dann einer separaten Gruppe von vier Ärzten vorgelegt, um Differenzialdiagnosen zu erstellen.
Daraufhin wurden die Probanden nach dem Zufallsprinzip ausgewählt, um entweder Unterstützung von einem LLM – genutzt wurden GPT-4o, Llama 3, Command R+ – oder in der Kontrollgruppe von einer Quelle ihrer Wahl zu erhalten. Die Kontrollgruppe wurde angewiesen, Methoden anzuwenden, die sie normalerweise zuhause verwenden würden, also beispielsweise eine klassische Internetrecherche.
Dabei wurde eine Stratifizierung nach sozialen Merkmalen vorgenommen, um in jeder Gruppe eine Zusammensetzung gemäß der nationalen Erwachsenen Bevölkerung sicherzustellen.
Arbeiteten die LLMs allein, schlossen sie die Szenarien korrekt ab und identifizierten in 94,9 Prozent der Fälle die Erkrankungen und in durchschnittlich 56,3 Prozent die Vorgehensweise richtig. Wurden die LLMs jedoch von den Probanden genutzt, identifizierten sie in weniger als 34,5 Prozent der Fälle relevante Erkrankungen und in weniger als 44,2 Prozent die richtige Vorgehensweise.
In beiden Fällen waren die Ergebnisse schlechter als die der Kontrollgruppe, die mit eineinhalbmal größerer Wahrscheinlichkeit die richtige Verdachtsdiagnose herausfand. „Wir identifizieren die Interaktionen der Nutzenden als eine Herausforderung für den Einsatz von LLMs für die medizinische Beratung“, schlussfolgern die Autoren, die unter anderem von den Universitäten Oxford und Bangor sowie dem englischen National Health Service (NHS) stammen.
Um die Ergebnisse zu erklären, untersuchten die Studienautoren die Transkripte der Interaktionen der Probanden mit den LLMs. Dabei beobachteten sie Fälle, in denen sowohl Probanden unvollständige Informationen lieferten als auch LLMs Benutzeranfragen falsch interpretierten. Auch seien die Probanden den Empfehlungen nicht immer konsequent gefolgt.
Das deute darauf hin, dass die auf Fehler in der Interaktion zwischen Mensch und LLM zurückzuführen sein könnten. „Die Ergebnisse lassen sich größtenteils durch Interaktionsfehler und nicht durch menschliche Inkompetenz erklären: Die Nutzenden haben Schwierigkeiten mit der Auswahl der anzugebenden Informationen, der Formulierung von Suchanfragen und der Bewertung und Umsetzung der LLM-Ergebnisse“, deutete Iryna Gurevych, Professorin für Ubiquitous Knowledge Processing an der Technischen Universität Darmstadt, die Ergebnisse gegenüber dem Science Media Center (SMC).
Ähnliche Muster seien, wie auch die Studienautoren betonen, bereits in früheren Arbeiten beobachtet wurden, in denen die Nutzenden medizinische Expertinnen und Experten waren. „Dies deutet darauf hin, dass das Problem über die Expertise der Nutzenden hinausgeht“, sagt Gurevych.
Wie bei der traditionellen internetbasierten Gesundheitssuche seien effektive Abfragen und Interpretationen eher erlernte als intuitive Fähigkeiten. Daher müssten sowohl die Kompetenz der Nutzenden durch Schulungen verbessert als auch die LLM-Interaktionen neugestaltet werden, um Nutzende aller Kompetenzstufen besser zu unterstützen.
Zudem zeigte sich in der Studie, dass Bewertungen anhand von Standard-Benchmarks wie MedQA, die häufig verwendet werden, um Sicherheit und Zuverlässigkeit zu messen, nicht in der Lage seien, Fehler in der Interaktion zwischen Mensch und LLM vorherzusagen. Dieser Befund deckt sich mit den Ergebnissen einer bisher nur als Preprint erschienen Studie von Forschenden der Universitäten Harvard und Stanford.
Diese Benchmarks würden medizinisches Wissen in der Regel anhand von Fragen aus medizinischen Zulassungsprüfungen bewerten, schreiben die jetzigen Studienautoren. Sie hatten Benchmark-Fragen zu Themen zusammengestellt, die den Szenarien in der Studie entsprechen, und die Leistung von LLM bei diesen Fragen mit der Leistung in den entsprechenden interaktiven Tests für jedes Modell und jedes Szenario verglichen.
Die Leistung bei strukturierten Frage-Antwort-Aufgaben sei in 26 von 30 Fällen höher gewesen als bei interaktiven Tests, habe aber weitgehend in keinem Zusammenhang mit diesen gestanden.
„Die Studie hat einen innovativen Twist“, betonte dazu Anne Reinhardt, wissenschaftliche Mitarbeiterin am Lehrstuhl für Gesundheitskommunikation der Ludwig-Maximilians-Universität München (LMU), gegenüber dem SMC. Bisherige Arbeiten hätten vor allem geprüft, wie gut Künstliche Intelligenz (KI) auf standardisierte medizinische Fallvignetten reagiert oder in Prüfungsformaten abschneidet.
Dort würden die Ergebnisse oft sehr positiv wirken. „Diese Benchmarks blenden aber einen entscheidenden Teil des Alltags aus: die Interaktion mit Laien, die Symptome beschreiben, nachfragen, Antworten einordnen und daraus konkrete Entscheidungen ableiten müssen“, sagt Reinhardt.
Kritik an der Vorgehensweise äußert hingegen Ute Schmid, Inhaberin des Lehrstuhls für Kognitive Systeme sowie geschäftsführende Direktorin des Bamberger Zentrums für Künstliche Intelligenz (BaCAI) an der Otto-Friedrich-Universität Bamberg. „Etwas irreführend finde ich die Aussage, dass die Performanz der Sprachmodelle alleine deutlich höher ist als bei den Nutzenden“, sagt sie.
Denn in diesem Fall seien die Anfragen vermutlich von fachlich und mit LLMs erfahrenen Personen formuliert worden. „Das heißt, hier wurde ebenfalls eine Anfrage an das LLM gestellt, aber eben eine Anfrage, die geeignet ist, dass eine qualitativ hochwertige Antwort generiert wird.“
Chatbots, die auf medizinische Fragen spezialisiert sind, könnten durchaus sinnvoll sein, damit Menschen besser einschätzen können, ob der Besuch einer Praxis oder Notaufnahme ratsam ist, betont Schmid. Solche Angebote müssten jedoch eine hohe Qualität der Antworten gewährleisten und sinnvoll soziotechnisch eingebettet sein.
So könnten qualitätsgeprüfte Chatbots beispielsweise über die gesetzlichen Krankenkassen angeboten und von Hausarztpraxen als Erstzugang empfohlen werden. „Allerdings sollten Menschen nicht gezwungen werden, diese Angebote zu nutzen“, mahnt sie. „Für Menschen, die Chatbots nicht nutzen wollen oder können, muss die Möglichkeit zum direkten Kontakt weiter bestehen.“
Diskutieren Sie mit
Werden Sie Teil der Community des Deutschen Ärzteblattes und tauschen Sie sich mit unseren Autoren und anderen Lesern aus. Unser Kommentarbereich ist ausschließlich Ärztinnen und Ärzten vorbehalten.
Anmelden und Kommentar schreiben
Bitte beachten Sie unsere Richtlinien. Der Kommentarbereich wird von uns moderiert.
Diskutieren Sie mit: