ArchivDeutsches Ärzteblatt21-22/2023ChatGPT besteht schriftliche medizinische Staatsexamina nach Ausschluss der Bildfragen
Als E-Mail versenden...
Auf facebook teilen...
Twittern...
Drucken...
LNSLNS

Die ärztliche Approbation setzt in Deutschland das Bestehen der drei medizinischen Staatsexamina voraus. Das erste Staatsexamen (M1) zu den vorklinischen Fachbereichen besteht aus einer schriftlichen und einer mündlichen Prüfung. Das zweite Staatsexamen (M2) ist eine schriftliche Prüfung und umfasst klinischen Fachbereiche. Das dritte Staatsexamen (M3) ist eine mündlich-praktische Prüfung. Die schriftlichen Prüfungen werden vom Institut für Medizinische und Pharmazeutische Prüfungsfragen (IMPP) herausgegeben. Beide schriftlichen Prüfungen bestehen aus 320 Single-Choice-Fragen mit jeweils fünf Antwortmöglichkeiten.

Kürzlich bestand die künstliche Intelligenz (KI) ChatGPT Prüfungen des „United States Medical License Exam“ (USMLE) (1). ChatGPT ist ein „large language model“ (LLM), das auf der Transformer Netzwerkarchitektur „general pre-trained transformer“ (GPT) mit über 170 Milliarden Parametern basiert (2, 3). Es erkennt Sprachmuster und antwortet kontextgerecht auf Benutzereingaben.

Wir untersuchten, ob ChatGPT das M1 und M2 bestehen und somit komplexe medizinische Fragestellungen in deutscher Sprache beantworten kann.

Methoden

Unsere Analysen basieren auf den Fragen der schriftlichen Prüfungen des M1 (23. bis 24.08.2022) und M2 (11. bis 13.10.2022), die über die Lernplattform AMBOSS abgerufen wurden (www.amboss.com, AMBOSS GmbH, 06.03.2023). Fragen, die vom Institut für medizinische und pharmazeutische Prüfungsfragen (IMPP) bei der Bewertung nicht berücksichtigt wurden, wurden auch hier ausgeschlossen (M1: n = 11; M2: n = 9). ChatGPT erlaubt keine Eingabe von Abbildungen, weshalb Fragen, bei denen ein Bild zur Beantwortung benötigt wurde, ebenfalls ausgeschlossen wurden (Bildfragen: M1: n = 46; M2: n = 59). Es blieben 263 Fragen des M1 sowie 252 Fragen des M2. Jede Frage wurde einem Prüfungsfach zugeordnet. Im M2 wurde zudem zwischen fallbasierten Fragen (n = 175) und nichtfallbasierten Fragen (n = 77) unterschieden. Wir verwendeten ChatGPT basierend auf GPT 3.5 (https://chat.openai.com/; Version: 13.02.2023; OpenAI). Examensfragen sind nur auf kostenpflichtigen Plattformen verfügbar. Zudem gab es keine wortgleichen Examensfragen in den fünf Jahren vor Abschluss des Trainings der verwendeten ChatGPT-Version Ende 2021. Somit waren dem Algorithmus die hier untersuchten Examensfragen mit sehr hoher Wahrscheinlichkeit unbekannt.

Die Fragen wurden in ChatGPT eingegeben und die Antwort des Algorithmus mit den Musterlösungen der Examina verglichen. Ab einem Gesamtergebnis ≥ 60 % richtiger Antworten gilt ein Examen als bestanden. Chi-Quadrat-Tests wurden verwendet, um Unterschiede in der Leistung von ChatGPT zwischen Fachbereichen zu ermitteln und die Ergebnisse in fallbasierten und nichtfallbasierten Fragen zu vergleichen. Spearman-Korrelationsanalysen wurden verwendet, um Korrelationen zwischen der Leistung von ChatGPT und dem Prozentsatz der Studierenden, die die Fragen auf AMBOSS richtig kreuzten, zu ermitteln.

Ergebnisse

ChatGPT beantwortete im M1 60,1 % (158/263) und im M2 66,7 % (168/252) der Fragen korrekt und bestand somit beide Prüfungen mit der Note 4 (ausreichend). Im M1 zeigten sich Unterschiede zwischen den Fachbereichen (p = 0,024; Tabelle 1). Im M1 wurden die besten Ergebnisse in Biologie (77,8 %; 14/18), Soziologie (75,9 %; 22/29) und Psychologie (73,3 %; 22/30) erzielt. Schlechter schnitt ChatGPT in Chemie (33,3 %; 3/9), Physik (45,5 %; 5/11) und Anatomie (46,4 %; 26/56) ab.

Leistung von ChatGPT im 1. Staatsexamen (M1)
Tabelle 1
Leistung von ChatGPT im 1. Staatsexamen (M1)

Auch im M2 zeigten sich Unterschiede zwischen Prüfungsfächern (p = 0,045; Tabelle 2). Die besten Ergebnisse wurden in Pharmakologie (94,7 %; 18/19), Augenheilkunde (85,7 %; 6/7) und Dermatologie (85,7 %; 6/7) erreicht. Die schlechtesten Resultate erzielte ChatGPT in Hals-Nasen-Ohrenheilkunde (33,3 %; 1/3), Neurologie (46,7 %; 21/45) und Epidemiologie (46,7 %; 7/15). Es ergaben sich keine Unterschiede (p = 0,629) zwischen den Ergebnissen in fallbasierten Fragen (65,7 %; 115/175; 95-%-Konfidenzintervall: [58,6; 72,8]) und nichtfallbasierten Fragen (68,8 %; 53/77; [58,3; 79,4]).

Leistung von ChatGPT im 2. Staatsexamen (M2)
Tabelle 2
Leistung von ChatGPT im 2. Staatsexamen (M2)

Die Leistung von ChatGPT korrelierte schwach mit dem Prozentsatz der Studierenden, der die Frage online richtig ankreuzte (M1: ρ = 0,207; p < 0,001; [0,085; 0,323]; M2: ρ = 0,288; p < 0,001; [0,167; 0,400]).

Diskussion

Ohne Berücksichtigung der Bildfragen bestand das LLM ChatGPT die schriftlichen Prüfungen des M1 und M2 knapp. Es erzielte damit ähnliche Leistungen wie in den US-amerikanischen Examina (1). ChatGPT erbrachte eine schlechtere Gesamtleistung als die durchschnittlichen Examensteilnehmenden (Studierende: M1 = 73,0 %; M2 = 74,2 %) (4). Dies könnte daran liegen, dass die medizinischen Fragen original in deutsch eingegeben wurden, denn ChatGPT wurde zu 93 % auf englischsprachigen Texten und ohne medizinischen Fokus trainiert (5).

Inwieweit ChatGPT eine Frage korrekt beantwortete, korrelierte schwach mit der Leistung von Medizinstudierenden bei der Beantwortung derselben Frage. Die unterschiedliche Leistung von ChatGPT in einzelnen Fachbereichen könnte auf die Komplexität der Fragen sowie die verfügbaren Trainingsdaten zurückzuführen sein. Fragen, die ein Verständnis von Lagebeziehung, multimodaler Diagnostik oder Transferwissen erforderten, wurden oft schlechter beantwortet. Auch Fragen, die Berechnungen oder Formel-Umformungen benötigten, ließen ChatGPT häufiger scheitern. Im Vergleich dazu wurden Fragen zu Begriffsdefinitionen der Psychologie und Soziologie oft korrekt beantwortet. Die herausragende Leistung in Pharmakologie könnte auf die strukturierten, frei verfügbaren Informationen zu Medikamenten zurückzuführen sein. Künftige Arbeiten sollten die Leistung von KI-Anwendungen bei Bildfragen sowie unterschiedlichen Fragetypen untersuchen.

Resümee

Diese ersten Ergebnisse zeigen die Leistung von ChatGPT in der Beantwortung komplexer medizinischer Fragen am Beispiel der medizinischen Staatsexamina. Die Fähigkeit von LLMs medizinische Daten zu strukturieren und Informationen vor dem Hintergrund der verfügbaren Literatur zu interpretieren, birgt Potenzial für die Nutzung von ChatGPT in der Medizin.

Leonard B. Jung*, Jonas A. Gudera*, Tim L. T. Wiegand*, Simeon Allmendinger, Konstantinos Dimitriadis, Inga K. Koerte

* Die Autoren teilen sich die Erstautorenschaft.

cBRAIN, Klinik und Poliklinik für Kinder- und Jugendpsychiatrie, Psychosomatik und Psychotherapie, Ludwig-Maximilians-Universität, München (Jung, Wiegand, Koerte) leonard.jung@gmx.com

Psychiatry Neuroimaging Laboratory, Department of Psychiatry, Brigham and Women’s Hospital, Harvard Medical School, Boston, MA, USA (Jung, Wiegand, Koerte)

LMU AIM, Ludwig-Maximilians-Universität, München (Gudera, Wiegand)

Kinderklinik und Kinderpoliklinik, Dr. von Hauner Kinderspital, Ludwig-Maximilians-Universität, München (Gudera)

Dana-Farber/Boston Children‘s Cancer and Blood Disorders Center, Harvard Medical School, Boston, MA, USA (Gudera)

Karlsruher Institut für Technologie, Karlsruhe (Allmendinger)

Neurologische Klinik und Poliklinik, Ludwig-Maximilians-Universität, München (Dimitriadis)

Institut für Schlaganfall- und Demenzforschung (ISD), Ludwig-Maximilians-Universität, München

Graduate School of Systemic Neurosciences, Ludwig-Maximilians-Universität, München (Koerte)

Department of Psychiatry, Massachusetts General Hospital, Harvard Medical School, Boston, MA, USA (Koerte)

Interessenkonflikt
Die Autorin und die Autoren erklären, dass kein Interessenkonflikt besteht.

Manuskriptdaten
eingereicht: 14.03.2023, revidierte Fassung angenommen: 25.04.2023

Zitierweise
Jung LB, Gudera JA, Wiegand TLT, Allmendinger S, Dimitriadis K, Koerte IK: ChatGPT passes German state examination in medicine with picture questions omitted.

Dtsch Arztebl Int 2023; 120: online first. DOI: 10.3238/arztebl.m2023.0113

Dieser Beitrag erschien online am 04.05.2023 (online first) unter: www.aerzteblatt.de

►Die englische Version des Artikels ist online abrufbar unter: www.aerzteblatt-international.de

1.
Kung TH, Cheatham M, Medenilla A, et al.: Performance of ChatGPT on USMLE: potential for AI-assisted medical education using large language models. PLOS Digit Health 2023; 2: e0000198 CrossRef MEDLINE PubMed Central
2.
Ouyang L, Wu J, Jiang X, et al.: Training language models to follow instructions with human feedback. NeurIPS 2022; 35: 27730–44 CrossRef
3.
OpenAI: Introducing ChatGPT. https://openai.com/blog/chatgpt (last accessed on 4 March 2023).
4.
IMPP: Prüfungen Medizin – Lösungen und Ergbnisse. www.impp.de/pruefungen/medizin/l%C3%B6sungen-und-ergebnisse.html (last accessed on 4 March 2023).
5.
Brown T, Mann B, Ryder N, et al.: Language models are few-shot learners. NeurIPS 2020; 33: 1877–901.
Leistung von ChatGPT im 1. Staatsexamen (M1)
Tabelle 1
Leistung von ChatGPT im 1. Staatsexamen (M1)
Leistung von ChatGPT im 2. Staatsexamen (M2)
Tabelle 2
Leistung von ChatGPT im 2. Staatsexamen (M2)
1. Kung TH, Cheatham M, Medenilla A, et al.: Performance of ChatGPT on USMLE: potential for AI-assisted medical education using large language models. PLOS Digit Health 2023; 2: e0000198 CrossRef MEDLINE PubMed Central
2.Ouyang L, Wu J, Jiang X, et al.: Training language models to follow instructions with human feedback. NeurIPS 2022; 35: 27730–44 CrossRef
3.OpenAI: Introducing ChatGPT. https://openai.com/blog/chatgpt (last accessed on 4 March 2023).
4.IMPP: Prüfungen Medizin – Lösungen und Ergbnisse. www.impp.de/pruefungen/medizin/l%C3%B6sungen-und-ergebnisse.html (last accessed on 4 March 2023).
5.Brown T, Mann B, Ryder N, et al.: Language models are few-shot learners. NeurIPS 2020; 33: 1877–901.

Der klinische Schnappschuss

Alle Leserbriefe zum Thema

Stellenangebote