ArchivDeutsches Ärzteblatt19/2010Auswahl statistischer Testverfahren

MEDIZIN: Übersichtsarbeit

Auswahl statistischer Testverfahren

Teil 12 der Serie zur Bewertung wissenschaftlicher Publikationen

Choosing Statistical Tests—Part 12 of a Series on Evaluation of Scientific Publikations

Dtsch Arztebl Int 2010; 107(19): 343-8; DOI: 10.3238/arztebl.2010.0343

Prel, Jean-Baptist du; Röhrig, Bernd; Hommel, Gerhard; Blettner, Maria

Als E-Mail versenden...
Auf facebook teilen...
Twittern...
Drucken...
Hintergrund: Zur Interpretation wissenschaftlicher Artikel sind oft Kenntnisse über Verfahren der schließenden Statistik notwendig. Dieser Artikel will über häufig verwendete statistische Tests und deren richtige Anwendung informieren.
Methode: Auf der Grundlage einer selektiven Literaturrecherche zur Methodik in medizinisch-wissenschaftlichen Publikationen werden die am häufigsten verwendeten statistischen Tests identifiziert. Diese und eine Auswahl anderer Standardverfahren der schließenden Statistik werden präsentiert.
Ergebnisse/Schlussfolgerung: Leser, denen neben deskriptiven Verfahren zusätzlich Pearson’s Chi-Quadrat- beziehungsweise der exakte Test nach Fisher sowie der t-Test vertraut sind, können einen großen Teil der wissenschaftlichen Publikationen interpretieren, die im Bereich Humanmedizin veröffentlicht werden. Anhand häufig verwendeter Testformen werden Auswahlkriterien für statistische Tests vermittelt. Algorithmen und eine Tabelle sollen die Entscheidung für einen angemessenen statistischen Test erleichtern.
LNSLNS Medizinisches Wissen basiert zunehmend auf empirischen Studien, deren Ergebnisse mit statistischen Methoden dargestellt und analysiert werden. Kenntnisse über häufig verwendete statistische Tests sind daher für jeden Arzt vorteilhaft. Nur so kann er/sie die statistische Methodik in wissenschaftlichen Publikationen beurteilen und damit die Studienergebnisse richtig interpretieren. Im Folgenden werden häufig verwendete statistische Tests für unterschiedliche Skalenniveaus und Stichprobenarten vorgestellt. Ausgehend vom einfachsten Fall werden Entscheidungshilfen zur Auswahl statistischer Tests präsentiert.

Häufig verwendete statistische Tests in medizinischen Studien
Die Analyse von 1 828 Publikationen aus sechs Fachjournalen (Allgemeinmedizin, Gynäkologie und Geburtshilfe, Notfallmedizin) ging der Frage nach, welche statistischen Tests in medizinischen Zeitschriften oft angewandt werden. Das Resultat ergab, dass Leser, die neben deskriptiven Verfahren zusätzlich mit Pearson’s Chi-Quadrat- beziehungsweise dem exakten Test nach Fisher sowie dem t-Test vertraut sind, zumindest 70 % der Artikel statistisch richtig interpretieren können (1). Damit wurden frühere Ergebnisse zu häufig verwendeten statistischen Tests in der medizinisch-wissenschaftlichen Literatur bestätigt (2, 3). Das Spektrum der verwendeten statistischen Tests unterliegt jedoch zeitlichen Veränderungen. Nach einer Auswertung von verwendeten statistischen Analyseverfahren in Publikationen des ersten Halbjahres 2005 der Zeitschrift Pediatrics nahm der Anteil von Methoden der statistischen Inferenz zwischen 1982 und 2005 von 48 % auf 89 % zu (4). Daneben zeigte sich ein Trend hin zu komplexeren statistischen Testverfahren. Am häufigsten waren allerdings auch hier der t-Test und der Chi-Quadrat-Test beziehungsweise der exakte Test nach Fisher. Daher werden diese und weitere grundlegende statistische Tests einschließlich ihrer Anwendung in diesem Artikel vorgestellt. Mit Kenntnis dieser überschaubaren Testauswahl sollte der Leser einen großen Teil medizinischer Publikationen interpretieren können. Für seltenere statistische Tests wird auf die jeweilige Artikelbeschreibung, auf weiterführende Literatur (5–7) und auf die Konsultation eines erfahrenen Statistikers verwiesen.

Sinn und Zweck statistischer Tests
In klinischen Studien (zum Beispiel [5, 8]) werden beispielsweise oft Vergleiche zwischen einer Studiengruppe, die ein neues Präparat erhält, und einer Kontrollgruppe, die ein schon etabliertes oder ein Placebo bekommt, hinsichtlich der Wirksamkeit gezogen. Neben der reinen Deskription (9) möchte man wissen, ob die beobachteten Unterschiede zwischen den Behandlungsgruppen lediglich zufällig oder tatsächlich vorhanden sind. Unterschiede könnten ja durch zufällige Variabilität (= Streuung) des Merkmales, also zum Beispiel des Therapieerfolges innerhalb der Studienpersonen, hervorgerufen werden.

Definition
Soll bei einer wissenschaftlichen Fragestellung ein Vergleich zwischen zwei oder mehr Gruppen untersucht werden, so kann man einen statistischen Test durchführen. Dazu muss eine geeignete Nullhypothese, die es zu widerlegen gilt, formuliert und eine geeignete Prüfgröße aufgestellt werden (10, 11).

Wird beispielsweise in einer klinischen Studie untersucht, ob ein Blutdrucksenker besser wirkt als ein Placebo, ist der zu untersuchende Effekt die Reduktion des diastolischen Blutdruckes gemessen anhand der mittleren Blutdruckdifferenz in der Verum- und Placebogruppe. Entsprechend formuliert man dann als Nullhypothese: „Verum und Placebo unterscheiden sich hinsichtlich ihrer blutdrucksenkenden Wirkung nicht“ (Effekt = 0).

Ein statistischer Test berechnet dann die Wahrscheinlichkeit, die beobachteten Daten (oder noch extremere) zu erhalten, falls die Nullhypothese zutrifft. Ein kleiner p-Wert besagt, dass diese Wahrscheinlichkeit gering ist. Unterschreitet der p-Wert eine vorab definierte Signifikanzschranke, wird die Nullhypothese abgelehnt. Aus den beobachteten Daten wird eine Prüfgröße (Teststatistik) berechnet, die die Grundlage für den statistischen Test bildet (zum Beispiel Differenz des mittleren Blutdrucks nach sechs Monaten). Mit bestimmten Annahmen über die Verteilung der Daten (zum Beispiel Normalverteilung) kann die theoretische (erwartete) Verteilung der Prüfgröße berechnet werden.

Der aus den Beobachtungen berechnete Wert der Prüfgröße wird mit der Verteilung, die man erwarten würde, wenn die Nullhypothese zutrifft, verglichen (5). Übersteigt oder unterschreitet sie eine bestimmte Größe, die bei Gültigkeit der Nullhypothese wenig wahrscheinlich ist, so wird die Nullhypothese verworfen: das Ergebnis ist „statistisch signifikant zum Niveau α“. Der statistische Test ist also eine Entscheidung, ob die beobachtete Größe noch mit Zufall zu erklären ist oder ob sie überzufällig ist (statistisch signifikant). Die Begriffe „Signifikanzniveau“ und das Prinzip der Interpretation von p-Werten wurden bereits erörtert (10, 11). Der grundlegende Ablauf eines statistischen Testes ist im Kasten (gif ppt) noch einmal dargestellt.

Sowohl bei Ablehnung als auch bei Beibehaltung der Nullhypothese kann man einen Fehler machen. Das liegt daran, dass die Werte eine gewisse Streuung aufweisen, da zum Beispiel nicht alle Patienten gleich auf ein Medikament reagieren. Für den Fehler erster Art, also die Nullhypothese irrtümlich abzulehnen, entspricht die maximale Irrtumswahrscheinlichkeit dem Signifikanzniveau α. Häufig wird dafür 5 % gewählt (10, 11). Die Wahrscheinlichkeit für den Fehler zweiter Art (β), also die Nullhypothese irrtümlich beizubehalten, ist 1 minus der Power der Studie. Die Power der Studie wird vor Studienbeginn festgelegt und hängt unter anderem von der Fallzahl ab. Häufig wird eine Teststärke von 80 % gewählt (10, 11).

Wichtige Schritte bei der Entscheidung für einen statistischen Test
Die Entscheidung für einen statistischen Test erfolgt auf Grundlage der wissenschaftlichen Fragestellung, der Datenstruktur und des Studiendesigns. Vor der Datenerhebung – und damit natürlich auch vor der Wahl des statistischen Tests – müssen die Fragestellung und die Nullhypothese formuliert werden. Test und Signifikanzniveau sind vor Studiendurchführung im Studienprotokoll festzuhalten. Dabei muss entschieden werden, ob ein- oder zweiseitig getestet werden soll. Zweiseitig bedeutet, dass die Richtung des erwarteten Unterschiedes unklar ist. Man weiß also nicht, ob ein Wirksamkeitsunterschied zwischen Verum und Placebo besteht und lässt offen, in welche Richtung dieser Unterschied gehen könnte (Verum könnte sogar schlechter wirken als Placebo). Ein einseitiger Test sollte nur dann durchgeführt werden, wenn es eine klare Evidenz dafür gibt, dass eine Intervention nur in eine Richtung wirken kann.

Mit der Formulierung der Fragestellung wird auch die Zielgröße (Endpunkt) festgelegt. Für die Wahl des geeigneten statistischen Tests sind zwei Kriterien entscheidend:

• das Skalenniveau der Zielgröße (stetig, binär, kategorial)
• die Art des Studiendesigns (verbunden oder unverbunden).

Skalenniveau: stetig, kategorial oder binär
Die unterschiedlichen Skalenniveaus wurden bereits bei der Wahl der geeigneten Maßzahlen beziehungsweise bei der Wahl grafischer Darstellungsformen in dem Artikel zur deskriptiven Statistik erörtert (9, 12).

Beim Vergleich zweier Antihypertensiva kann der Endpunkt beispielsweise die blutdrucksenkende Wirkung in beiden Behandlungsgruppen sein. Blutdrucksenkung ist eine stetige Zielgröße. Bei einer stetigen Zielgröße ist weiterhin zu unterscheiden, ob sie (angenähert) normalverteilt ist oder nicht.

Würde man beispielsweise nur berücksichtigen, ob der diastolische Blutdruck unter 90 mm Hg gefallen ist oder nicht, so wäre die Zielgröße kategorial (sie wäre sogar binär, da es nur zwei mögliche Ergebnisse gibt). Wenn sich der Wertebereich eines kategorialen Endpunkts sinnvoll ordnen lässt, so spricht man in diesem Fall auch von einem ordinalen Endpunkt.

Unverbundene und verbundene Studiendesigns
Mittels eines statistischen Tests werden die Ergebnisse der Zielgröße für verschiedene Versuchsbedingungen (zum Beispiel Behandlungen) miteinander verglichen; oft dreht es sich dabei um zwei Therapien.

Ist es möglich, für jeden Patienten Ergebnisse unter allen Versuchsbedingungen zu erhalten, so handelt es sich um ein verbundenes (abhängiges) Design. Ein verbundenes Studiendesign läge beim Vergleich von zwei Messzeitpunkten vor, aber auch dann, wenn es sich in zwei Gruppen hinsichtlich bestimmter Merkmale um „Paare“ handelt.

Typisches Beispiel für „Paare“ sind Untersuchungen, die jeweils an einem Auge oder einem Arm derselben Person durchgeführt werden. Typisch für verbundene Designs sind auch Vergleich vor und nach der Behandlung. Eine Besonderheit bilden die „matched pairs“, zum Beispiel in Fall-Kontroll-Studien. Hierbei werden für Probanden aus einer Gruppe hinsichtlich bestimmter Merkmale gleiche Personen aus anderen Gruppen gewählt. Damit sind die Daten nicht mehr unabhängig und sollten so behandelt werden als wären es gepaarte Beobachtungen aus einer Gruppe (5).

Bei einem unverbundenen (unabhängigen) Studiendesign liegen für jeden Patienten nur die Ergebnisse unter einer einzigen Versuchsbedingung vor. Verglichen werden dann die Resultate zweier (oder mehrerer) Gruppen. Hier kann sich die Größe der zu untersuchenden Gruppen unterscheiden.

Vorstellung häufiger statistischer Tests
Die wichtigsten statistischen Tests werden in der Tabelle (gif ppt) aufgezeigt. Dabei wird immer unterschieden zwischen „kategorial oder stetig“ und „verbunden oder unverbunden“. Ist die Zielgröße stetig, so wird noch unterteilt in normalverteilte und nichtnormalverteilte Größen (Tabelle).

Gruppenvergleich von zwei kategorialen Zielgrößen
Der Gruppenvergleich zweier kategorialer Zielgrößen wird hier anhand des einfachsten Falles einer 2 × 2-Tafel (Vierfeldertafel) dargestellt (Grafik 1 gif ppt). Ähnlich wird auch beim Gruppenvergleich mehrstufiger kategorialer Zielgrößen verfahren (Tabelle).

• Unverbundene Stichproben:
Soll die Häufigkeit des Erfolges in zwei Behandlungsgruppen verglichen werden, ist der richtige statistische Test, insbesondere bei kleiner Stichprobengröße, der exakte Test nach Fisher (7). Bei großem Stichprobenumfang (etwa n > 60) kann auch der Chi-Quadrat-Test durchgeführt werden. (Tabelle).

• Verbundene Stichproben:
Ein Beispiel für die Anwendbarkeit dieser Testform ist eine Intervention innerhalb einer Gruppe an zwei Stellen, also zum Beispiel die Implantation zweier verschiedener Arten von IOL-Linsen in das rechte und linke Auge mit der Zielgröße „Operationserfolg Ja oder Nein“. Die zu vergleichenden Stichproben sind verbunden. In diesem Fall muss man den McNemar-Test durchführen (7).

Stetige und mindestens ordinal skalierte Variablen
Ein Entscheidungsalgorithmus für die Testauswahl findet sich in Grafik 2 (gif ppt).

Normalverteilte Variablen – Parametrische Tests:
Wenn die Zielgröße normalverteilt ist, dann können zum statistischen Testen sogenannte parametrische Testverfahren eingesetzt werden.

• Unverbundene Stichproben:
Falls die Probanden beider Gruppen unverbunden voneinander sind (das heißt, die Personen der ersten Gruppe sind andere im Vergleich zur zweiten Gruppe), wird bei normalverteilten, stetigen Merkmalen der unverbundene t-Test angewendet. Werden mehr als zwei unabhängige (unverbundene) Gruppen hinsichtlich eines normalverteilten, stetigen Merkmals miteinander verglichen, ist die Varianzanalyse (ANOVA, „analysis of variance“) geeignet (zum Beispiel Studie mit drei oder mehr Therapiearmen). Die ANOVA stellt eine Verallgemeinerung des unverbundenen t-Tests dar. Die ANOVA gibt nur Auskunft darüber, ob sich die Gruppen unterscheiden, aber nicht darüber welche. Hierzu sind Methoden des multiplen Testens erforderlich (11).

• Verbundene Stichproben:
Im Fall eines normalverteilten, stetigen Merkmals bei zwei verbundenen Gruppen wird der verbundene t-Test verwendet. Werden mehr als zwei verbundene Gruppen hinsichtlich eines normalverteilten, stetigen Merkmals miteinander verglichen, sind ebenfalls auf der Varianzanalyse basierende Methoden geeignet. Der Faktor beschreibt die verbundenen Gruppen, zum Beispiel mehr als zwei Erhebungspunkte bei einer Therapieanwendung.

Nichtnormalverteilte Variablen – nichtparametrische Tests: Ist das interessierende Merkmal nicht normalverteilt, aber mindestens ordinalskaliert, dann werden zum statistischen Testen nichtparametrische Testverfahren eingesetzt. Ein solcher Test („Rangtest“) basiert nicht direkt auf den beobachteten Werten, sondern auf daraus abgeleiteten Rangzahlen (die Werte werden dazu ihrer Größe nach geordnet und fortlaufend nummeriert). Aus diesen Rangzahlen wird dann die Prüfgröße des statistischen Tests berechnet. Wenn die Voraussetzungen erfüllt sind, sind parametrische Tests trennschärfer als nichtparametrische. Sind sie nicht erfüllt, kann die Trennschärfe der parametrischen Tests jedoch drastisch sinken.

• Unverbundene Stichproben:
Beim Vergleich zweier unverbundener Stichproben bezüglich eines nichtnormalverteilten, jedoch mindestens ordinalskalierten Merkmals kann der Mann-Whitney U-Test (= Wilcoxon-Rangsummentest) eingesetzt werden (5). Sind mehr als zwei unverbundene Stichproben zu vergleichen, so kann der Kruskal-Wallis-Test als Verallgemeinerung des Mann-Whitney U-Tests eingesetzt werden (13)

• Verbundene Stichproben:
Beim Vergleich zweier verbundener Stichproben bezüglich eines nichtnormalverteilten, jedoch mindestens ordinalskalierten Merkmals kann der Wilcoxon-Vorzeichenrangtest eingesetzt werden (13). Alternativ, wenn die Differenz der beiden Werte nur eine binäre Unterscheidung ermöglicht (zum Beispiel Verbesserung versus Verschlechterung), ist der Vorzeichentest anzuwenden (7). Beim Vergleich von mehr als zwei verbundenen Stichproben kann der Friedman-Test als Verallgemeinerung des Vorzeichentests eingesetzt werden.

Andere Testverfahren
Überlebenszeitanalyse
Interessiert nicht der Endpunkt selbst, sondern die Zeit bis zum Erreichen desselben, ist die Überlebenszeitanalyse das geeignete Verfahren. Dabei werden zwei oder mehrere Gruppen bezüglich der Zeiten bis zum Erreichen eines Endpunktes innerhalb eines Beobachtungszeitraumes miteinander verglichen (13). Ein Beispiel ist der Vergleich der Überlebenszeit von Patienten aus zwei Gruppen mit einer onkologischen Erkrankung und zwei unterschiedlichen Chemotherapien. Zielkriterium ist hier der Tod, könnte aber auch das Auftreten von Metastasen sein. Im Unterschied zu den vorangegangenen Tests kann bei der Überlebenszeitanalyse aufgrund der begrenzten Beobachtungszeit fast nie bei allen Subjekten das Erreichen des Endpunktes vernommen werden. Deshalb werden die Daten auch als (rechts)zensiert bezeichnet, da man zum Beobachtungsende nicht bei allen Probanden weiß, wann sie den Endpunkt erreichen werden. Der übliche statistische Test für den Vergleich der Überlebensfunktionen zwischen zwei oder mehreren Gruppen ist der Logrank-Test. Aus den beobachteten und den erwarteten Zahlen an Ereignissen wird anhand einer Formel ein bestimmter Wert, die Prüfgröße, berechnet. Dieser Wert kann dann mit einer bekannten Verteilung, die man erwarten würde falls die Nullhypothese zutrifft, hier die Chi2-Verteilung, verglichen und ein p-Wert ermittelt werden. Damit kann eine Entscheidungsregel für oder gegen die Nullhypothese angegeben werden.

Korrelationsanalyse
Die Korrelationsanalyse untersucht die Stärke des Zusammenhangs zwischen zwei Zielgrößen, zum Beispiel wie stark das Körpergewicht von Neugeborenen mit ihrer Körpergröße korreliert. Die Wahl eines geeigneten Assoziationsmaßes hängt vom Skalenniveau und der Verteilung beider Größen ab. Während die parametrische Variante, der Korrelationskoeffizient nach Pearson, ausschließlich lineare Zusammenhänge zwischen stetigen Merkmalen prüft, untersucht die nichtparametrische Alternative, der Rangkorrelationskoeffizient nach Spearman, lediglich monotone Beziehungen bei mindestens ordinal-skalierten Merkmalen. Vorteil des Letzteren ist seine Robustheit gegenüber Ausreißern und schiefen Verteilungen. Korrelationskoeffizienten messen die Assoziationsstärke und können Werte zwischen −1 und +1 annehmen. Je näher sie an 1 liegen, desto stärker ist der Zusammenhang. Aus dem Korrelationskoeffizient kann wiederum eine Prüfgröße und damit ein statistischer Test konstruiert werden. Die Nullhypothese, die geprüft werden soll, heißt hier: Es liegt kein linearer (beziehungsweise monotoner) Zusammenhang vor.

Diskussion
Neben den vorgestellten statistischen Tests, bei denen in der Nullhypothese Gleichheit der Gruppen formuliert ist, gibt es noch andere Testverfahren. Trendtests prüfen, ob es bei mindestens drei Gruppen eine Tendenz zu steigenden oder fallenden Werten gibt.

Zu den häufig vorkommenden Ungleichheitstests („inequality tests“), bei denen die Nullhypothese von Gleichheit zwischen den Gruppen ausgeht, existieren Überlegenheitstests („superiority tests“), Nichtunterlegenheitstests („non-inferiority tests“) und Äquivalenztests („equivalence tests“). Beim Überlegenheitstest wird zum Beispiel von einer neuen, teureren Medikation gefordert, dass sie um eine bestimmte, medizinisch sinnvolle Differenz besser als eine gängige Standardmedikation ist. Beim Nichtunterlegenheitstest wird zum Beispiel von einer neuen, kostengünstigeren Medikation verlangt, dass sie nicht viel schlechter als eine gängige ist. Welche Wirkung noch akzeptabel ist, wird aufgrund medizinischen Sachverstands vor Studienbeginn festgelegt. Bei Äquivalenztests soll gezeigt werden, dass die Medikation eine annähernd gleich große Wirkung wie eine gängige Standardmedikation hat. Vorteile der neuen Medikation können vereinfachte Applikation, weniger Nebenwirkungen oder Kostensenkung sein.

Auf die Methoden der Regressionsanalyse und statistische Tests im Zusammenhang damit wird im Rahmen der Serie zur Bewertung wissenschaftlicher Publikationen noch näher eingegangen.

Die vorliegende Auswahl an statistischen Tests muss unvollständig sein. Es sollte herausgestellt werden, dass die Wahl eines geeigneten Testverfahrens von Kriterien wie dem Skalenniveau der Zielgröße und der zugrunde liegenden Verteilung abhängt. Dem interessierten Leser sei das Buch von Altman (5) als praxisnahe Darstellung empfohlen. Für nichtparametrische Tests bietet Bortz et al. (7) eine umfangreiche Übersicht.

Mit der Entscheidung für einen statistischen Test vor Studienbeginn wird ausgeschlossen, dass die Studienergebnisse die Testauswahl beeinflussen. Von der Wahl des Testverfahrens hängt zudem die benötigte Fallzahl ab. Auf die Problematik der Fallzahlplanung wird im Rahmen dieser Serie noch näher eingegangen.

Abschließend ist es wichtig festzustellen, dass nicht in jeder Studie ein statistischer Test erforderlich ist. In rein deskriptiven Studien (12) oder wenn sich Zusammenhänge durch naturwissenschaftliche Plausibilität oder sachlogische Überlegungen ergeben, kann auf die Anwendung eines statistischen Testes verzichtet werden. Bei Untersuchung der Güte eines diagnostischen Testverfahrens oder der Raterübereinstimmmung (zum Beispiel in Form von Bland-Altman-Diagrammen) ist normalerweise ein statistischer Test ebenfalls nicht sinnvoll (14). Wegen den genannten Irrtumswahrscheinlichkeiten gilt bei Anwendung von statistischen Tests: „So viel wie nötig, so wenig wie möglich“. Die Wahrscheinlichkeit rein zufälliger Ergebnisse ist besonders beim multiplen Testen hoch (11).

Interessenkonflikt
Die Autoren erklären, dass kein Interessenkonflikt im Sinne der Richtlinien des International Committee of Medical Journal Editors besteht.

Manuskriptdaten
eingereicht: 14. 10. 2009, revidierte Fassung angenommen: 22. 2. 2010


Anschrift für die Verfasser
Prof. Dr. rer. nat. Maria Blettner
Institut für Medizinische Biometrie, Epidemiologie und Informatik (IMBEI)
Universitätsmedizin Mainz
Obere Zahlbacher Straße 69
55131 Mainz


SUMMARY
Choosing Statistical Tests—Part 12 of a Series on Evaluation of Scientific Publikations
Background: The interpretation of scientific articles often requires an understanding of the methods of inferential statistics. This article informs the reader about frequently used statistical tests and their correct application.
Methods: The most commonly used statistical tests were identified through a selective literature search on the methodology of medical research publications. These tests are discussed in this article, along with a selection of other standard methods of inferential statistics.
Results and conclusions: Readers who are acquainted not just with descriptive methods, but also with Pearson’s chi-square test, Fisher’s exact test, and Student’s t test will be able to interpret most medical research articles. Criteria are presented for choosing the proper statistical test to be used out of the more frequently applied tests. An algorithm and a table are provided to facilitate the selection of the appropriate test.

Zitierweise: Dtsch Arztebl Int 2010; 107(19): 343–8
DOI: 10.3238/arztebl.2010.0343

@The English version of this article is available online:
www.aerzteblatt-international.de
1.
Reed JF 3rd, Salen P, Bagher P. Methodological and statistical techniques: what do residents really need to know about statistics? J Med Syst 2003; 27: 233–8. MEDLINE
2.
Emerson JD, Colditz GA. Use of statistical analysis in the New England Journal of Medicine. N Engl J Med 1983; 309: 709–13. MEDLINE
3.
Goldin J, Zhu W, Sayre JW. A review of the statistical analysis used in papers published in Clinical Radiology and British Journal of Radiology. Clin Radiol 1996; 51: 47–50. Review. MEDLINE
4.
Hellems MA, Gurka MJ, Hayden GF. Statistical literacy for readers of Pediatrics: a moving target. Pediatrics 2007; 119: 1083–8. MEDLINE
5.
Altman DG: Practical statistics for medical research. London: Chapman and Hall 1991.
6.
Sachs L: Angewandte Statistik: Anwendung statistischer Methoden. 11. Auflage. Berlin, Heidelberg, New York: Springer 2004.
7.
Bortz J, Lienert GA, Boehnke K. Verteilungsfreie Methoden in der Biostatistik. 2. Auflage. Berlin Heidelberg New York: Springer-Verlag 2000.
8.
Röhrig B, du Prel JB, Wachtlin D, Blettner M: Types of study in medical research—part 3 of a series on evaluation of scientific publications [Studientypen in der medizinischen Forschung: Teil 3 der Serie zur Bewertung wissenschaftlicher Publikationen]. Dtsch Arztebl Int 2009; 106(15): 262–8. VOLLTEXT
9.
Spriestersbach A, Röhrig B, du Prel JB, Gerhold-Ay A, Blettner M. Descriptive statistics: the specification of statistical measures and their presentation in tables and graphspart—part 7 of a series on evaluation of scientific publications [Deskriptive Statistik: Angabe statistischer Maßzahlen und ihre Darstellung in Tabellen und Grafiken: Teil 7 der Serie zur Bewertung wissenschaftlicher Publikationen]. Dtsch Arztebl Int 2009; 106(36): 578–83. VOLLTEXT
10.
du Prel JB, Hommel G, Röhrig B, Blettner M: Confidence interval or p-value? Part 4 of a series on evaluation of scientific publications [Konfidenzintervall oder p-Wert? Teil 4 der Serie zur Bewertung wissenschaftlicher Publikationen]. Dtsch Arztebl Int 2009; 106(19): 335–9. VOLLTEXT
11.
Victor A, Elsässer A, Hommel G, Blettner M: Judging a plethora of p-values: how to contend with the problem of multiple testing—part 10 of a series on evaluation of scientific publications [Wie bewertet man die p-Wert-Flut – Hinweise zum Umgang mit dem multiplen Testen – Teil 10 der Serie zur Bewertung wissenschaftlicher Publikationen]. Dtsch Arztebl Int 2010; 107(4): 50–6. VOLLTEXT
12.
Röhrig B, du Prel JB, Blettner M. Study Design in Medical Research—part 2 of a series on evaluation of scientific publications [Studiendesign in der medizinischen Forschung: Teil 2 der Serie zur Bewertung wissenschaftlicher Publikationen]. Dtsch Arztebl Int 2009; 106(11): 184–9. VOLLTEXT
13.
Harms V. Biomathematik, Statistik und Dokumentation: Eine leichtverständliche Einführung. 7th edition revised. Lindhöft: Harms 1998
14.
Bland JM, Altman DG. Statistical methods for assessing agreement between two methods of clinical measurement. Lancet 1986; 1: 307–10. MEDLINE
Institut für Epidemiologie, Universität Ulm: Dr. med. du Prel
Medizinischer Dienst der Kran­ken­ver­siche­rung Rheinland-Pfalz (MDK), Referat Rehabilitation/Biometrie: Dr. rer. nat. Röhrig
Institut für Medizinische Biometrie, Epidemiologie und Informatik (IMBEI) Universitätsmedizin Mainz: Prof. Dr. rer. nat. Hommel, Prof. Dr. rer. nat. Blettner
1. Reed JF 3rd, Salen P, Bagher P. Methodological and statistical techniques: what do residents really need to know about statistics? J Med Syst 2003; 27: 233–8. MEDLINE
2. Emerson JD, Colditz GA. Use of statistical analysis in the New England Journal of Medicine. N Engl J Med 1983; 309: 709–13. MEDLINE
3. Goldin J, Zhu W, Sayre JW. A review of the statistical analysis used in papers published in Clinical Radiology and British Journal of Radiology. Clin Radiol 1996; 51: 47–50. Review. MEDLINE
4. Hellems MA, Gurka MJ, Hayden GF. Statistical literacy for readers of Pediatrics: a moving target. Pediatrics 2007; 119: 1083–8. MEDLINE
5. Altman DG: Practical statistics for medical research. London: Chapman and Hall 1991.
6. Sachs L: Angewandte Statistik: Anwendung statistischer Methoden. 11. Auflage. Berlin, Heidelberg, New York: Springer 2004.
7. Bortz J, Lienert GA, Boehnke K. Verteilungsfreie Methoden in der Biostatistik. 2. Auflage. Berlin Heidelberg New York: Springer-Verlag 2000.
8. Röhrig B, du Prel JB, Wachtlin D, Blettner M: Types of study in medical research—part 3 of a series on evaluation of scientific publications [Studientypen in der medizinischen Forschung: Teil 3 der Serie zur Bewertung wissenschaftlicher Publikationen]. Dtsch Arztebl Int 2009; 106(15): 262–8. VOLLTEXT
9. Spriestersbach A, Röhrig B, du Prel JB, Gerhold-Ay A, Blettner M. Descriptive statistics: the specification of statistical measures and their presentation in tables and graphspart—part 7 of a series on evaluation of scientific publications [Deskriptive Statistik: Angabe statistischer Maßzahlen und ihre Darstellung in Tabellen und Grafiken: Teil 7 der Serie zur Bewertung wissenschaftlicher Publikationen]. Dtsch Arztebl Int 2009; 106(36): 578–83. VOLLTEXT
10. du Prel JB, Hommel G, Röhrig B, Blettner M: Confidence interval or p-value? Part 4 of a series on evaluation of scientific publications [Konfidenzintervall oder p-Wert? Teil 4 der Serie zur Bewertung wissenschaftlicher Publikationen]. Dtsch Arztebl Int 2009; 106(19): 335–9. VOLLTEXT
11. Victor A, Elsässer A, Hommel G, Blettner M: Judging a plethora of p-values: how to contend with the problem of multiple testing—part 10 of a series on evaluation of scientific publications [Wie bewertet man die p-Wert-Flut – Hinweise zum Umgang mit dem multiplen Testen – Teil 10 der Serie zur Bewertung wissenschaftlicher Publikationen]. Dtsch Arztebl Int 2010; 107(4): 50–6. VOLLTEXT
12. Röhrig B, du Prel JB, Blettner M. Study Design in Medical Research—part 2 of a series on evaluation of scientific publications [Studiendesign in der medizinischen Forschung: Teil 2 der Serie zur Bewertung wissenschaftlicher Publikationen]. Dtsch Arztebl Int 2009; 106(11): 184–9. VOLLTEXT
13. Harms V. Biomathematik, Statistik und Dokumentation: Eine leichtverständliche Einführung. 7th edition revised. Lindhöft: Harms 1998
14. Bland JM, Altman DG. Statistical methods for assessing agreement between two methods of clinical measurement. Lancet 1986; 1: 307–10. MEDLINE

Leserkommentare

E-Mail
Passwort

Registrieren

Um Artikel, Nachrichten oder Blogs kommentieren zu können, müssen Sie registriert sein. Sind sie bereits für den Newsletter oder den Stellenmarkt registriert, können Sie sich hier direkt anmelden.

Anzeige

Alle Leserbriefe zum Thema

Anzeige