ArchivDeutsches Ärzteblatt33-34/2021Studien zur Evaluation diagnostischer Verfahren

MEDIZIN: Übersichtsarbeit

Studien zur Evaluation diagnostischer Verfahren

Teil 28 der Serie zur Bewertung wissenschaftlicher Publikationen

Studies for the evaluation of diagnostic tests—part 28 of a series on evaluation of scientific publications

Hoyer, Annika; Zapf, Antonia

Als E-Mail versenden...
Auf facebook teilen...
Twittern...
Drucken...

Hintergrund: Grundlage für die Behandlung von Erkrankungen ist eine vorausgegangene akkurate Diagnose ebendieser. Die Evaluation der zugrunde liegenden diagnostischen Verfahren erfolgt in sogenannten Diagnosestudien.

Methoden: Basierend auf einer selektiven Literaturrecherche und eigener Erfahrung werden die grundlegenden Kennzahlen von Diagnosestudien und deren Interpretation beschrieben. Darüber hinaus werden Aspekte der Studienplanung und der Analyse komplexer Diagnosestudien diskutiert.

Ergebnisse: Im Regelfall lassen sich die Ergebnisse einer Diagnosestudie in einer Vierfeldertafel mit Angaben zur Anzahl der richtig-positiven, richtig-negativen, falsch-positiven und falsch-negativen Testergebnisse zusammenfassen. Darauf basierend können verschiedene Kenngrößen berechnet werden. Die wichtigsten sind dabei die Paare Sensitivität und Spezifität sowie positiv und negativ prädiktiver Wert. Dabei wird der Anteil der richtig positiven und negativen Testergebnisse beim ersten Wertepaar auf die Anzahl der Kranken sowie Gesunden und beim zweiten Wertepaar auf die Anzahl der positiv sowie negativ Getesteten bezogen. Die prädiktiven Werte sind die Kenngrößen, die Arzt und Patient vorrangig interessieren, haben aber den Nachteil, dass sie leicht fehlinterpretiert werden können. Zusätzlich stellen wir die „receiver operating characteristic“(ROC)-Kurve und die „area under the curve“ (AUC) als weitere wichtige Maße zur Bewertung von Diagnosestudien vor. Im elektronischen Zusatzmaterial werden weiterführende Themen adressiert.

Schlussfolgerung: Die Berechnung von Kennzahlen zur Bewertung diagnostischer Studien basiert im Wesentlichen auf Vierfeldertafeln. Bei der Interpretation dieser Kennzahlen ist jedoch Vorsicht geboten, damit die richtigen Schlussfolgerungen für die medizinische Praxis gezogen werden können.

LNSLNS

Die Diagnose einer Erkrankung ist der erste Schritt auf dem Weg zur Behandlung. Die Evaluation der zugrunde liegenden diagnostischen Verfahren erfolgt in sogenannten Diagnosestudien, in denen ermittelt wird, wie gut ein diagnostisches Instrument, etwa eine Laboruntersuchung, das Vorliegen einer Erkrankung erfasst.

Die richtige Interpretation der Ergebnisse diagnostischer Tests ist zentral wichtig, da ein positives Testergebnis nicht nur Auswirkungen für die betroffene Person, sondern – wie in der SARS-CoV-2-Pandemie – unter Umständen auch auf das soziale Umfeld hat (1). Dabei kommt insbesondere der Wahrscheinlichkeit für das tatsächliche Vorliegen einer SARS-CoV-2-Infektion bei positivem Testergebnis eine besondere Bedeutung zu, die auch von der steigenden Anzahl an Tests in der Bevölkerung und durch das aktuelle Infektionsgeschehen beeinflusst wird (1, 2). Vor diesem Hintergrund ist es für Ärzte unabdingbar, wichtige diagnostische Kenngrößen richtig einschätzen zu können. Fehlinterpretationen derartiger Maßzahlen sind jedoch nicht neu, unabhängig von Test oder Erkrankung, und die Situation hat sich über die Jahre nicht wesentlich gebessert (3, 4, 5, 6).

Entsprechend ist das Ziel dieser Arbeit, die verschiedenen Gütemaße eines diagnostischen Tests vorzustellen und den Zusammenhang der Maßzahlen zu erläutern, sodass nach dem Lesen des Artikels ein individuelles Testergebnis korrekt interpretiert werden kann.

Diagnostische Gütemaße

Wir stellen zuerst die diagnostische Vierfeldertafel und die Prävalenz, anschließend als wichtigste Kennzahlen Sensitivität und Spezifität sowie die prädiktiven Werte und die Genauigkeit („accuracy“) vor. Die Formeln der empirischen Schätzer sind im Kasten angegeben, während sie im Text direkt auf ein Beispiel angewendet werden. Für diagnostische Tests, die kein binäres Resultat, sondern einen metrischen Wert oder Score liefern, präsentieren wir die „receiver operating characteristic“(ROC)-Kurve und die zugehörige Fläche unter der Kurve (AUC, „area under the curve“). Grundsätzlich sollten zusätzlich für alle diagnostischen Kenngrößen Konfidenzintervalle (KI) angegeben werden. Für die Sensitivität, die Spezifität, die prädiktiven Werte und die Genauigkeit empfehlen wir logit-Konfidenzintervalle, da diese insbesondere auch bei kleinen Fallzahlen plausible Ergebnisse liefern und garantieren, dass die Grenzen nicht außerhalb des [0,1]-Intervalls liegen. Für Details verweisen wir auf die entsprechende Literatur (7, 8).

Diagnostische Vierfeldertafel

Wenn das Testergebnis binär (positiv versus negativ) ist, lassen sich die Ergebnisse einer Diagnosestudie in diagnostischen Vierfeldertafeln abbilden (Tabelle 1). Da ein diagnostischer Test im Allgemeinen einen metrischen Wert oder Score als Resultat liefert, muss ein Schwellenwert festgelegt werden, um die binäre Codierung zu erhalten. Der zu evaluierende diagnostische Test wird im Folgenden als Indextest bezeichnet. Dem gegenüber steht der sogenannte Gold- oder Referenzstandard, der den „wahren“ Krankheitszustand definiert. Beide Begriffe werden oftmals analog verwendet. Da jedoch „Goldstandard“ häufig mit der Annahme einer perfekten Definition des „wahren“ Krankheitszustands, der in der Praxis nicht unbedingt gegeben ist, einhergeht, verwenden wird im Folgenden den Begriff Referenzstandard. Als Referenzstandard sollte die zuverlässigste Methode gewählt werden, um den wahren Krankheitszustand festzustellen. Diese ist im Alltag häufig nicht verwendbar, weil sie zum Beispiel zu invasiv, teuer beziehungsweise aufwendig ist oder weil sie erst nach dem Tod angewendet werden kann. Anhand der Ergebnisse des Indextests (T+ [positiv] versus T [negativ]) und des Referenzstandards (K1 [erkrankt] versus K0 [nicht erkrankt]) erfolgt die Klassifikation als richtig-positiv (RP), richtig-negativ (RN), falsch-positiv (FP) oder falsch-negativ (FN). Die jeweiligen Zeilen- und Spaltensummen werden mit n1 beziehungsweise n0 für die Anzahl der Erkrankten beziehungsweise Nichterkrankten und mit n+ beziehungsweise n für die Anzahl der positiv beziehungsweise negativ Getesteten bezeichnet. N bezieht sich auf die Gesamtfallzahl.

Diagnostische Vierfeldertafel als Ergebnis einer Diagnosestudie
Tabelle 1
Diagnostische Vierfeldertafel als Ergebnis einer Diagnosestudie

Beispielstudie

Zur Illustration verwenden wir in diesem Artikel die Studie von Papoz et al., die den HbA1c-Wert als Screening-Marker zur Diagnose von Typ-2-Diabetes evaluiert (9). Als zugehöriges Referenzstandard-Verfahren wurde der orale Glukosetoleranztest (OGTT) verwendet. Als diagnostischer Schwellenwert für den Indextest wurde unter anderen ein HbA1c-Wert von 6,5, der aktuell zur Diagnose von Typ-2-Diabetes verwendet wird, untersucht (10). Dies bedeutet, dass Studienteilnehmende mit einem gemessenen HbA1c-Wert von größer oder gleich 6,5 als positiv klassifiziert wurden. Tabelle 2 zeigt die zugehörige diagnostische Vierfeldertafel.

Ergebnis der Studie von Papoz et al. (<a class=9) zum HbA1c-Schwellenwert von 6,5" width="250" src="https://cfcdn.aerzteblatt.de/bilder/133198-250-0" data-bigsrc="https://cfcdn.aerzteblatt.de/bilder/133198-1400-0" data-fullurl="https://cfcdn.aerzteblatt.de/bilder/2021/08/img262429684.gif" />
Tabelle 2
Ergebnis der Studie von Papoz et al. (9) zum HbA1c-Schwellenwert von 6,5

Prävalenz

Die Prävalenz spielt bei der korrekten Interpretation von Testergebnissen eine entscheidende Rolle. Sie bezeichnet den Anteil der erkrankten Personen in dem untersuchten Kollektiv und berechnet sich als Anzahl der Erkrankten geteilt durch die Gesamtfallzahl.

Betrachten wir die Studie von Papoz et al. (9) erhalten wir folgende geschätzte Prävalenz:

Prävalenz = 112
601
≈ 0,186 = 18,6%

Das 95-%-logit-Konfidenzintervall (KI) beträgt [15,7 %; 21,9 %].

Genauigkeit („accuracy“)

Die Genauigkeit berechnet sich aus dem Anteil der richtigen Ergebnisse (RN und RP) unter allen Testergebnissen:

Genauigkeit = 78 + 465
601
≈ 0,903 = 90,3%

Das 95%-logit-KI liegt bei [87,7 %; 92,4 %].

Daraus ergibt sich, dass 90,3 % der Testergebnisse korrekt waren. Es lässt sich jedoch nicht beurteilen, zu welchem Anteil die falschen Ergebnisse bei den Erkrankten beziehungsweise nicht Erkrankten aufgetreten sind, weshalb diese Kenngröße im Allgemeinen nicht empfohlen wird.

Sensitivität und Spezifität

Sensitivität und Spezifität sind bei der Testentwicklung die wichtigsten Kenngrößen. Diese beiden Maßzahlen beschreiben, welcher Anteil der Erkrankten beziehungsweise der nicht Erkrankten richtig diagnostiziert wird. Die Sensitivität berechnet sich als Anzahl der richtig-positiven Testergebnisse geteilt durch die Anzahl der Kranken, die Spezifität als Anzahl der richtig-negativen Testergebnisse dividiert durch die Anzahl der nicht Erkrankten.

Für die Sensitivität und Spezifität des Beispiels ergeben sich folgende Werte:

Sensitivität = 78
112
≈ 0,696 = 69,6%

und

Spezifität = 465
489
≈ 0,951 = 95,1%

Mit einer Wahrscheinlichkeit von 69,6 % fällt demnach der HbA1c-Test positiv aus, wenn die untersuchte Person an Typ-2-Diabetes erkrankt ist (Sensitivität). Umgekehrt fällt der HbA1c-Test mit einer Wahrscheinlichkeit von 95,1 % negativ aus, wenn ein Studienteilnehmer nicht an Typ-2-Diabetes erkrankt ist (Spezifität). Als 95-%-logit-KI ergeben sich für Sensitivität [60,5 %; 77,4 %] und Spezifität [92,8 %; 96,7 %].

Prädiktive Werte

Während Sensitivität und Spezifität die empfohlenen Kenngrößen für die Entwicklung eines diagnostischen Tests sind (11), sind sie für den Patienten und Arzt im Alltag nicht informativ. Außerhalb der Studie ist der wahre Krankheitszustand nicht bekannt, da der Referenzstandard nicht erhoben wird. Die hier interessierende Information ist die Wahrscheinlichkeit, dass die Erkrankung bei einem positiven Testergebnis vorliegt beziehungsweise bei einem negativen Testergebnis nicht vorliegt. Diese Aussagen können mithilfe der prädiktiven Werte getroffen werden. Sie berechnen sich als Anzahl der richtig-positiven Testergebnisse geteilt durch die Anzahl der positiven Testergebnisse (positiv prädiktiver Wert, PPW) beziehungsweise als Anzahl der richtig-negativen Testergebnisse geteilt durch die Anzahl der negativen Testergebnisse (negativ prädiktiver Wert, NPW). Damit handelt es sich bei diesen Werten um bedingte Wahrscheinlichkeiten. Der PPW gibt die Wahrscheinlichkeit für das Vorliegen der Erkrankung bei positivem Testergebnis an, der NPW hingegen die Wahrscheinlichkeit dafür, dass die Erkrankung nicht vorliegt, wenn der Test negativ ausfällt.

Für das Beispiel ergeben sich folgende Werte:

PPW = 78
102
≈ 0,765 = 76,5%

NPW = 465
499
≈ 0,932 = 93,2%

Bei positivem HbA1c-Testergebnis beträgt demnach das Risiko, an Typ-2-Diabetes zu leiden, 76,5 %. Dem gegenüber steht eine Wahrscheinlichkeit von 93,2 %, dass bei negativem HbA1c-Testergebnis kein Typ-2-Diabetes vorliegt. Als zugehörige 95-%-logit-KI ergeben sich für den PPW [67,3 %; 83,7 %] und für den NPW [90,6 %; 95,1 %]. Diese Ergebnisse sind jedoch mit Vorsicht zu betrachten, da die prädiktiven Werte, im Gegensatz zu Sensitivität und Spezifität, von der Prävalenz abhängen.

„Receiver operating characteristic“-Kurve

Oftmals wird in Diagnosestudien nicht nur ein Schwellenwert zur Klassifikation von Testpositiven und -negativen evaluiert, sondern gleich mehrere, um einen optimalen diagnostischen Grenzwert für die Praxis zu ermitteln. Dies geht einher mit verschiedenen Paaren von Sensitivitäten und Spezifitäten, die zu dem jeweils untersuchten Schwellenwert gehören. Papoz et al. (9) untersuchten insgesamt fünf verschiedene HbA1c-Grenzwerte zwischen 5,0 und 7,0. Zu jedem dieser Werte wurde eine zugehörige Sensitivität und Spezifität ermittelt (Tabelle 3).

Evaluierte Schwellenwerte von Papoz et al.
Tabelle 3
Evaluierte Schwellenwerte von Papoz et al.

Zur besseren Darstellung der Studienergebnisse wurde die ROC-Kurve verwendet. Hierbei wird für jeden untersuchten Schwellenwert die Sensitivität auf der y-Achse und 1–Spezifität auf der x-Achse eines Diagramms abgebildet (Grafik).

ROC-Kurve zur Studie von Papoz et al.
Grafik
ROC-Kurve zur Studie von Papoz et al.

Ein Kriterium, um einen Schwellenwert zu wählen, ist der Youden-Index. Er berechnet sich als Summe aus Sensitivität und Spezifität in Prozentpunkten minus 100. Der Schwellenwert mit dem maximalen Youden-Index gilt häufig als optimal. In der Beispielstudie wäre dies 6,0 (unterstrichener Wert in der Grafik mit einem Youden-Index von 0,672, Tabelle 3).

In seiner klassischen Form geht der Youden-Index von einer Gleichgewichtung von Sensitivität und Spezifität und damit auch von einer Gleichgewichtung falsch-positiver und falsch-negativer Testergebnisse aus. Bei einem Screening-Test sollte jedoch vor allem die Sensitivität, bei einem Bestätigungstest hingegen die Spezifität hoch sein. Um für diese Arten diagnostischer Tests optimale Schwellenwerte zu bestimmen, empfiehlt sich das Festlegen einer minimal geforderten Sensitivität und Spezifität vor Studienbeginn. Alternativ ließe sich ein gewichteter Youden-Index verwenden, bei dem Sensitivität oder Spezifität ein höheres Gewicht bekommen.

Insbesondere hängen Sensitivität und Spezifität vom gewählten Schwellenwert ab (Tabelle 3). Je größer der HbA1c-Schwellenwert, desto größer ist die Spezifität, aber desto niedriger ist die Sensitivität. Das bedeutet im Umkehrschluss, dass jede beliebige Sensitivität erreicht werden kann, wenn eine entsprechend geringe Spezifität akzeptiert wird und umgekehrt. Daher lautet die Empfehlung der europäischen und US-amerikanischen Guidelines zu Diagnostika (European Medicines Agency, EMA [11], Food and Drug Administration, FDA [12]), Sensitivität und Spezifität als primäre Endpunkte zu verwenden.

„Area under the curve“

Um die Gesamtgüte eines diagnostischen Tests zu beurteilen oder mehrere Tests zu vergleichen, eignet sich die Fläche unter der ROC-Kurve, die AUC. Sie gibt die Wahrscheinlichkeit an, dass eine erkrankte Person einen höheren Testwert aufweist als eine nichterkrankte Person, wenn hohe Werte für das Vorliegen der Erkrankung sprechen.

Für die Beispielstudie erhalten wir eine AUC von 91,4 %, sodass Personen, die an Typ-2-Diabetes erkrankt sind, mit einer Wahrscheinlichkeit von 91,4 % einen höheren HbA1c-Wert aufweisen als Personen, die nicht an Typ-2-Diabetes leiden. Je höher die AUC, desto besser diskriminiert der neue diagnostische Test zwischen Erkrankten und Nichterkrankten. Der maximale Wert der AUC ist 100 %. Beträgt die AUC 50 %, ist der Test nutzlos und mit einem Münzwurf vergleichbar. AUC-Werte unter 50 % bedeuten, dass niedrige statt hohe Werte für das Vorliegen der Erkrankung sprechen.

Abhängigkeit der prädiktiven Werte von der Prävalenz

Die prädiktiven Werte hängen, im Gegensatz zu Sensitivität und Spezifität, von der Prävalenz ab. Dies zeigt sich, wenn wir die Studienergebnisse von Papoz et al. (9) artifiziell verändern, wie in Tabelle 4. Diese Ergebnisse könnten resultieren, wenn der Test nicht als Screening-Test in einer Risikopopulation angewendet wird, sondern als Bestätigungstest bei Personen mit Verdacht auf Typ-2-Diabetes. Hierfür haben wir die Anzahl der Personen mit Typ-2-Diabetes mit 10 multipliziert (jeweils RP, FN und n1), aber die Anzahl der Personen ohne Typ-2-Diabetes unverändert gelassen. Dadurch ergeben sich eine Prävalenz von 69,9 % und folgende Werte:

Sensitivität = 780
1120
≈ 0,696 = 69,6%

Spezifität = 465
489
≈ 0,951 = 95,1%

PPW = 780
804
≈ 0,979= 97,9%

NPW = 465
805
≈ 0,578= 57,8%

Artifiziell verändertes Ergebnis der Studie von Papoz et al. zum HbA1c-Schwellenwert von 6,5
Tabelle 4
Artifiziell verändertes Ergebnis der Studie von Papoz et al. zum HbA1c-Schwellenwert von 6,5

Auch nach Erhöhung der Anzahl an Erkrankten verändert sich die Sensitivität nicht. Der positiv prädiktive Wert erhöht sich jedoch von 76,5 % [67,3 %; 83,7 %] auf 97,9 % [96,6 %; 98,7 %], der negativ prädiktive Wert sinkt von 93,2 % [90,6 %; 95,1 %] auf 57,8 % [54,4 %; 61,2 %]. Das allgemein gültige Resultat zeigt sich: Sensitivität und Spezifität sind unabhängig von der Prävalenz, prädiktive Werte jedoch nicht. Bei der Interpretation der prädiktiven Werte muss demnach die Prävalenz der Erkrankung in der Zielpopulation, in der ein neuer diagnostischer Test Anwendung finden soll, berücksichtigt werden. Handelt es sich bei der Studienpopulation um eine repräsentative Stichprobe der Zielpopulation, ist dies bei entsprechender Auswahl der Studienteilnehmenden gewährleistet und die prädiktiven Werte sind interpretierbar. Stimmen Studienprävalenz und Prävalenz in der Zielpopulation nicht überein, können die prädiktiven Werte unter Verwendung des Satzes von Bayes ermittelt werden:

PPW = Pr × Se
Pr × Se + (1 – Pr ) × (1 – Sp )

NPW = (1 – Pr ) × Sp
(1 – Pr ) × Sp + Pr × (1 – Se )

Se und Sp bezeichnen dabei die Sensitivität und Spezifität des untersuchten diagnostischen Tests, Pr die Prävalenz der Erkrankung in der Zielpopulation. Unter Annahme einer Typ-2-Diabetes-Prävalenz von 18,6 %, wie sie sich aus der Studie von Papoz et al. (9) ergibt, erhalten wir folgende Ergebnisse:

PPW = 0,186 × 0,696
0,186 × 0,696 + (1 – 0,186) × (1 – 0,951)
≈ 0,765

NPW = (1 – 0,186) × 0,951
(1 – 0,186) × 0,951 + 0,186 × (1 – 0,696)
≈ 0,932

Diese stimmen mit den Resultaten, die anhand der Vierfeldertafel ermittelt wurden, überein.

Um prädiktive Werte für eine andere Zielpopulation zu ermitteln, kann die Prävalenz entsprechend anpasst werden. Angenommen, die prädiktiven Werte des HbA1c-Tests zum Screening von Typ-2-Diabetes sollen in der gesamten deutschen erwachsenen Bevölkerung geschätzt werden, so wird die Prävalenz des Typ-2-Diabetes in Deutschland, die im Jahr 2015 circa 9,5 % (13) betrug, verwendet:

PPW = 0,095 × 0,696
0,095 × 0,696 + (1 – 0,095) × (1 – 0,951)
≈ 0,599

NPW = (1 – 0,095) × 0,951
(1 – 0,095) × 0,951 + 0,095 × (1 – 0,696)
≈ 0,967

Dies bedeutet, dass eine beliebige erwachsene Person aus Deutschland bei einem positiven HbA1c-Testergebnis mit einer Wahrscheinlichkeit von 59,9 % an Typ-2-Diabetes und bei einem negativen Testergebnis mit einer Wahrscheinlichkeit von 96, % nicht an Typ-2-Diabetes erkrankt wäre. Vor allem der positive prädiktive Wert ist kritisch zu sehen, da er besagt, dass von 100 positiv getesteten Personen nur circa 60 tatsächlich an Diabetes erkrankt sind. Damit würden etwa 40 falsch-positive Testergebnisse, die unter Umständen zu einer unnötigen weiteren Diagnostik oder Behandlung führen, erwartet werden. Zudem sollte kritisch hinterfragt werden, ob die Übertragung der Sensitivität und Spezifität aus der Studie von Papoz et al. (9) plausibel ist. Die Annahme ist hierbei, dass Sensitivität und Spezifität in allen Szenarien gleich sind. Denkbar ist jedoch, dass ein Test zum Beispiel schwer Erkrankte und Gesunde besser differenzieren kann als Verdachtsfälle und leicht Erkrankte. Sensitivität und Spezifität sind zwar nicht von der Prävalenz abhängig, jedoch vom Erkrankungsmuster. Zusätzlich sollte beachtet werden, dass auch die Prävalenz anhand von Studien ermittelt wurde und somit mit Unsicherheit behaftet ist. Dies sollte bei der Interpretation der prädiktiven Werte berücksichtigt werden und unterstreicht die Wichtigkeit der Konfidenzintervalle.

Diskussion

Diagnosestudien sind die Grundlage der Evaluation diagnostischer Verfahren. Sie bilden somit die Basis für resultierende therapeutische oder Präventivmaßnahmen. Die richtige Interpretation der Ergebnisse derartiger Studien ist für die medizinische Praxis unabdingbar, um den Nutzen eines neuen Diagnoseverfahrens bewerten zu können.

Wir haben die wichtigsten Kennzahlen für die Interpretation von Diagnosestudien vorgestellt. Dazu gehören Sensitivität und Spezifität, die vorrangig aus Studiensicht von Interesse sind, da sie die Güte des untersuchten diagnostischen Tests bei bekanntem „wahren“ Krankheitsstatus beschreiben und unabhängig von der Prävalenz sind. Dem gegenüber stehen die prädiktiven Werte, die vor allem aus praktisch-klinischer Sicht von besonderer Bedeutung sind. Diese bezeichnen die Wahrscheinlichkeit für das Vorliegen beziehungsweise Nichtvorliegen einer Erkrankung bei positivem oder negativem Testergebnis. Damit spiegeln sie die Situation des klinischen Alltags wider, sind jedoch abhängig von der Krankheitsprävalenz, die bei der Interpretation der Werte zu berücksichtigen ist. Auch ein positives Ergebnis eines Tests mit einer sehr hohen Sensitivität und Spezifität kann bei einer sehr niedrigen Prävalenz mit großer Wahrscheinlichkeit falsch-positiv sein.

Diese Kennzahlen bilden die Grundlage für Planung und Analyse komplexerer Diagnosestudien (7, 14). Das Verständnis der Maßzahlen zur Bewertung eines neuen diagnostischen Verfahrens und deren kritische Interpretation sind essenziell für dessen praktische Bewertung und Anwendung.

Weitere diagnostische Kenngrößen (diagnostische Likelihood- und Odds-Ratios), weiterführende Aspekte zu konfirmatorischen Diagnosegütestudien (unter anderem Hypothesen und Fallzahlplanung), Verzerrungsquellen und Studienqualität im eMethodenteil ermöglichen eine sorgfältige Planung und differenziertere Bewertung von Diagnosestudien.

Tabelle mit Aufzählung und Beschreibung der verschiedenen möglichen Verzerrungsquellen verändert nach
eTabelle
Tabelle mit Aufzählung und Beschreibung der verschiedenen möglichen Verzerrungsquellen verändert nach

Interessenkonflikt
Die Autoren erklären, dass kein Interessenkonflikt besteht.

Manuskriptdaten
eingereicht: 13. 2. 2021, revidierte Fassung angenommen: 26. 4. 2021

Anschrift für die Verfasser
Prof. Dr. Annika Hoyer
Institut für Statistik, Ludwig-Maximilians-Universität München
Ludwigstraße 33, 80539 München
annika.hoyer@stat.uni-muenchen.de

Zitierweise
Hoyer A, Zapf A: Studies for the evaluation of diagnostic tests—part 28 of a series on evaluation of scientific publications. Dtsch Arztebl Int 2021; 118: 555–60. DOI: 10.3238/arztebl.m2021.0224

►Die englische Version des Artikels ist online abrufbar unter:
www.aerzteblatt-international.de

Zusatzmaterial
eLiteratur, eMethodenteil, eTabelle:
www.aerzteblatt.de/m2021.0224 oder über QR-Code

1.
Schlenger RL: PCR-Tests auf SARS-CoV-2: Ergebnisse richtig interpretieren. Dtsch Arztebl 2020; 117: 1194 VOLLTEXT
2.
Lein I, Leuker C, Antao EM, et al.: SARS-CoV-2: Testergebnisse richtig einordnen. Dtsch Arztbl 2020; 117: 2304 VOLLTEXT
3.
Gigerenzer G, Hoffrage U, Ebert A: AIDS counselling for low-risk clients. AIDS Care 1998; 10: 197–211 CrossRef
4.
Eddy DM: Probabilistic reasoning in clinical medicine: problems and opportunities. In: In D. Kahneman, P. Slovic, & A. Tversky (eds.): Judgment under uncertainty Heuristic and Biases. Cambridge: Cambridge University Press 1982; 249–267.
5.
Gigerenzer G, Wegwarth O: [Medical risk assessment—using the example of cancer screening]. Z Evid Fortbild Qual Gesundhwes 2008; 102: 513–9.
6.
Ellis KM, Brase GL: Communicating HIV results to low-risk Individuals: Still hazy after all these years. Curr HIV Res 2015; 13: 381–90 CrossRef
7.
Pepe, MS (ed.): The statistical evaluation of medical tests for classification and prediction. Oxford University Press: Oxford 2003.
8.
Agresti A (ed.): Categorical data analysis, 3rd edition. Wiley series in probability and statistics. New Jersey: John Wiley & Sons, Inc., Hoboken 2013; 90–112.
9.
Papoz L, Favier F, Sanchez, et al.: Is HbA1c appropriate for the screening of diabetes in general practice? Diabetes Metab 2002; 28: 72–7.
10.
American Diabetes Association: Classification and diagnosis. Sec. 2. In: Standards of medical care in diabetes. Diabetes Care 2015; 38: 8–16.
11.
EMA 2010: Guideline on clinical evaluation of diagnostic agents. Doc. Ref. CPMP/ EWP/1119/98/Rev.1. www.ema.europa.eu/docs/en_GB/document_library/Scientific_guideline/2009/09/WC500003580.pdf (last accessed on 3 November 2020).
12.
FDA 2004: Developing Medical Imaging Drug and Biological Products Part 3: Design, Analysis, and Interpretation of Clinical Studies 2004. www.fda.gov/regulatory-information/search-fda-guidance-documents/developing-medical-imaging-drug-and-biological-products-part-3-design-analysis-and-interpretation (last accessed on 3 November 2020).
13.
Goffrier B, Schulz M, Bätzing-Feigenbaum J: Administrative Prävalenzen und Inzidenzen des Diabetes mellitus von 2009 bis 2015. Versorgungsatlas-Bericht Nr. 17/03. Berlin: Zentralinstitut für die kassenärztliche Versorgung in Deutschland (Zi) 2017.
14.
Zhou XH, McClish DK, Obuchowski NA (eds.): Statistical methods in diagnostic medicine (Vol. 569). New York: John Wiley & Sons 2011.
e1.
Korevaar DA, Gopalakrishna G, Cohen JF, Bossuyt PM: Targeted test evaluation: a framework for designing diagnostic accuracy studies with clear study hypotheses. Diagn Progn Res 2019; 3: 22 CrossRef
e2.
Stark M, Zapf A: Sample size calculation and re-estimation based on the prevalence in a single-arm confirmatory diagnostic accuracy study. Stat Methods Med Res 2020; 29: 2958–71 CrossRef
e3.
Newcombe RG: Two-sided confidence intervals for the single proportion: comparison of sevenmethods. Stat Med 1998; 7: 857–72.
e4.
Newcombe RG: Improved confidence intervals for the difference between binomial proportions based on paired data. Stat Med 1998; 17: 2635–50 CrossRef
e5.
STARD (2015): An updated list of essential items for reporting diagnostic accuracy studies. www.equator-network.org/reporting-guidelines/stard (last accessed on July 1, 2021).
e6.
Rabe-Hesketh S, Skrondal A: Multilevel and longitudinal modeling using Stata. Volume II: Categorical responses, counts, and survival. College Station: STATA press 2008.
e7.
Oosterhuis WP, Venne WPV, Deursen CTV, Stoffers HE, Acker BAV, Bossuyt PM: Reflective testing – a randomized controlled trial in primary care patients. Ann Clin Biochem 2021; 58: 78–85 CrossRef
e8.
van den Berk IAH, Kanglie MMNP, van Engelen TSR, et al.: OPTimal IMAging strategy in patients suspected of non-traumatic pulmonary disease at the emergency department: chest X-ray or ultra-low-dose CT (OPTIMACT)-a randomised controlled trial chest X-ray or ultra-low-dose CT at the ED: design and rationale. Diagn Progn Res 2018; 2: 20 CrossRef
e9.
Aviv JE: Prospective, randomized outcome study of endoscopy versus modified barium swallow in patients with dysphagia. Laryngoscope 2000; 110: 563–74 CrossRef
e10.
Fryback DG, Thornbury JR: The efficacy of diagnostic imaging. Med Decis Making 1991; 11: 88–94 CrossRef
e11.
Koebberling J, Trampisch HJ, Windeler J: Memorandun for the evaluation of diagnostic measures. J Clin Chem Clin Biochem 1990; 28: 873–9.
e12.
Lu B, Gatsonis C: Efficiency of study designs in diagnostic randomized clinical trials.Stat Med 2013; 32:1451–66 CrossRef
e13.
Zapf A, Stark M, Gerke O, et al.: Adaptive trial designs in diagnostic accuracy research. Stat Med 2020; 39: 591–601 CrossRef
e14.
Vach W, Bibiza E, Gerke O, Bossuyt PM, Friede T, Zapf A: A potential for seamless designs in diagnostic research could be identified. J Clin Epidemiol 2020; 129: 51–9.
e15.
Gerke O, Høilund-Carlsen PF, Poulsen MH, Vach W: Interim analyses in diagnostic versus treatment studies: differences and similarities. Am J Nucl Med Mol Imaging 2012; 2: 344–52.
e16.
Mazumdar M, Liu A: Group sequential design for comparative diagnostic accuracy studies. Stat Med 2003; 22: 727–39 CrossRef
e17.
Chu H, Cole SR: Bivariate meta-analysis of sensitivity and specificity with sparse data: a generalized linear mixed model approach. J Clin Epi 2006; 59: 1331–2 CrossRef
e18.
Rutter CM, Gatsonis CA: A hierarchical regression approach to meta-analysis of diagnostic test accuracy evaluations. Stat Med 2001; 20: 2865–84 CrossRef
e19.
Biondi-Zoccai (ed.): Diagnostic meta-analysis – a useful tool for clinical decision-making. Cham: Springer-Verlag 2019.
Institut für Statistik, Ludwig-Maximilians-Universität München: Prof. Dr. Annika Hoyer
Institut für Medizinische Biometrie und Epidemiologie, Universitätsklinikum Hamburg Eppendorf: Prof. Dr. Antonia Zapf
ROC-Kurve zur Studie von Papoz et al.
Grafik
ROC-Kurve zur Studie von Papoz et al.
Diagnostische Vierfeldertafel als Ergebnis einer Diagnosestudie
Tabelle 1
Diagnostische Vierfeldertafel als Ergebnis einer Diagnosestudie
Ergebnis der Studie von Papoz et al. (9) zum HbA1c-Schwellenwert von 6,5
Tabelle 2
Ergebnis der Studie von Papoz et al. (9) zum HbA1c-Schwellenwert von 6,5
Evaluierte Schwellenwerte von Papoz et al.
Tabelle 3
Evaluierte Schwellenwerte von Papoz et al.
Artifiziell verändertes Ergebnis der Studie von Papoz et al. zum HbA1c-Schwellenwert von 6,5
Tabelle 4
Artifiziell verändertes Ergebnis der Studie von Papoz et al. zum HbA1c-Schwellenwert von 6,5
Tabelle mit Aufzählung und Beschreibung der verschiedenen möglichen Verzerrungsquellen verändert nach
eTabelle
Tabelle mit Aufzählung und Beschreibung der verschiedenen möglichen Verzerrungsquellen verändert nach
1.Schlenger RL: PCR-Tests auf SARS-CoV-2: Ergebnisse richtig interpretieren. Dtsch Arztebl 2020; 117: 1194 VOLLTEXT
2.Lein I, Leuker C, Antao EM, et al.: SARS-CoV-2: Testergebnisse richtig einordnen. Dtsch Arztbl 2020; 117: 2304 VOLLTEXT
3.Gigerenzer G, Hoffrage U, Ebert A: AIDS counselling for low-risk clients. AIDS Care 1998; 10: 197–211 CrossRef
4.Eddy DM: Probabilistic reasoning in clinical medicine: problems and opportunities. In: In D. Kahneman, P. Slovic, & A. Tversky (eds.): Judgment under uncertainty Heuristic and Biases. Cambridge: Cambridge University Press 1982; 249–267.
5.Gigerenzer G, Wegwarth O: [Medical risk assessment—using the example of cancer screening]. Z Evid Fortbild Qual Gesundhwes 2008; 102: 513–9.
6.Ellis KM, Brase GL: Communicating HIV results to low-risk Individuals: Still hazy after all these years. Curr HIV Res 2015; 13: 381–90 CrossRef
7.Pepe, MS (ed.): The statistical evaluation of medical tests for classification and prediction. Oxford University Press: Oxford 2003.
8.Agresti A (ed.): Categorical data analysis, 3rd edition. Wiley series in probability and statistics. New Jersey: John Wiley & Sons, Inc., Hoboken 2013; 90–112.
9.Papoz L, Favier F, Sanchez, et al.: Is HbA1c appropriate for the screening of diabetes in general practice? Diabetes Metab 2002; 28: 72–7.
10.American Diabetes Association: Classification and diagnosis. Sec. 2. In: Standards of medical care in diabetes. Diabetes Care 2015; 38: 8–16.
11.EMA 2010: Guideline on clinical evaluation of diagnostic agents. Doc. Ref. CPMP/ EWP/1119/98/Rev.1. www.ema.europa.eu/docs/en_GB/document_library/Scientific_guideline/2009/09/WC500003580.pdf (last accessed on 3 November 2020).
12.FDA 2004: Developing Medical Imaging Drug and Biological Products Part 3: Design, Analysis, and Interpretation of Clinical Studies 2004. www.fda.gov/regulatory-information/search-fda-guidance-documents/developing-medical-imaging-drug-and-biological-products-part-3-design-analysis-and-interpretation (last accessed on 3 November 2020).
13.Goffrier B, Schulz M, Bätzing-Feigenbaum J: Administrative Prävalenzen und Inzidenzen des Diabetes mellitus von 2009 bis 2015. Versorgungsatlas-Bericht Nr. 17/03. Berlin: Zentralinstitut für die kassenärztliche Versorgung in Deutschland (Zi) 2017.
14.Zhou XH, McClish DK, Obuchowski NA (eds.): Statistical methods in diagnostic medicine (Vol. 569). New York: John Wiley & Sons 2011.
e1.Korevaar DA, Gopalakrishna G, Cohen JF, Bossuyt PM: Targeted test evaluation: a framework for designing diagnostic accuracy studies with clear study hypotheses. Diagn Progn Res 2019; 3: 22 CrossRef
e2.Stark M, Zapf A: Sample size calculation and re-estimation based on the prevalence in a single-arm confirmatory diagnostic accuracy study. Stat Methods Med Res 2020; 29: 2958–71 CrossRef
e3.Newcombe RG: Two-sided confidence intervals for the single proportion: comparison of sevenmethods. Stat Med 1998; 7: 857–72.
e4.Newcombe RG: Improved confidence intervals for the difference between binomial proportions based on paired data. Stat Med 1998; 17: 2635–50 CrossRef
e5.STARD (2015): An updated list of essential items for reporting diagnostic accuracy studies. www.equator-network.org/reporting-guidelines/stard (last accessed on July 1, 2021).
e6.Rabe-Hesketh S, Skrondal A: Multilevel and longitudinal modeling using Stata. Volume II: Categorical responses, counts, and survival. College Station: STATA press 2008.
e7.Oosterhuis WP, Venne WPV, Deursen CTV, Stoffers HE, Acker BAV, Bossuyt PM: Reflective testing – a randomized controlled trial in primary care patients. Ann Clin Biochem 2021; 58: 78–85 CrossRef
e8.van den Berk IAH, Kanglie MMNP, van Engelen TSR, et al.: OPTimal IMAging strategy in patients suspected of non-traumatic pulmonary disease at the emergency department: chest X-ray or ultra-low-dose CT (OPTIMACT)-a randomised controlled trial chest X-ray or ultra-low-dose CT at the ED: design and rationale. Diagn Progn Res 2018; 2: 20 CrossRef
e9.Aviv JE: Prospective, randomized outcome study of endoscopy versus modified barium swallow in patients with dysphagia. Laryngoscope 2000; 110: 563–74 CrossRef
e10.Fryback DG, Thornbury JR: The efficacy of diagnostic imaging. Med Decis Making 1991; 11: 88–94 CrossRef
e11.Koebberling J, Trampisch HJ, Windeler J: Memorandun for the evaluation of diagnostic measures. J Clin Chem Clin Biochem 1990; 28: 873–9.
e12.Lu B, Gatsonis C: Efficiency of study designs in diagnostic randomized clinical trials.Stat Med 2013; 32:1451–66 CrossRef
e13.Zapf A, Stark M, Gerke O, et al.: Adaptive trial designs in diagnostic accuracy research. Stat Med 2020; 39: 591–601 CrossRef
e14.Vach W, Bibiza E, Gerke O, Bossuyt PM, Friede T, Zapf A: A potential for seamless designs in diagnostic research could be identified. J Clin Epidemiol 2020; 129: 51–9.
e15.Gerke O, Høilund-Carlsen PF, Poulsen MH, Vach W: Interim analyses in diagnostic versus treatment studies: differences and similarities. Am J Nucl Med Mol Imaging 2012; 2: 344–52.
e16.Mazumdar M, Liu A: Group sequential design for comparative diagnostic accuracy studies. Stat Med 2003; 22: 727–39 CrossRef
e17.Chu H, Cole SR: Bivariate meta-analysis of sensitivity and specificity with sparse data: a generalized linear mixed model approach. J Clin Epi 2006; 59: 1331–2 CrossRef
e18.Rutter CM, Gatsonis CA: A hierarchical regression approach to meta-analysis of diagnostic test accuracy evaluations. Stat Med 2001; 20: 2865–84 CrossRef
e19.Biondi-Zoccai (ed.): Diagnostic meta-analysis – a useful tool for clinical decision-making. Cham: Springer-Verlag 2019.

Leserkommentare

E-Mail
Passwort

Registrieren

Um Artikel, Nachrichten oder Blogs kommentieren zu können, müssen Sie registriert sein. Sind sie bereits für den Newsletter oder den Stellenmarkt registriert, können Sie sich hier direkt anmelden.

Der klinische Schnappschuss

Alle Leserbriefe zum Thema

Stellenangebote