MEDIZIN: Aus der Redaktion

Unverstandener Standard

Peer Review ist fehleranfällig und wenig evaluiert, trotzdem scheint es alternativlos zu sein.

Standards in the Face of Uncertainty—Peer Review Is Flawed and Under-Researched, but the Best We Have

Dtsch Arztebl Int 2012; 109(51-52): 900-2; DOI: 10.3238/arztebl.2012.0900

Mertens, Stephan; Baethge, Christopher

Als E-Mail versenden...
Auf facebook teilen...
Twittern...
Drucken...

Der Anekdote nach war Robbie Fox kein Freund des Peer Review. Dem ehemaligen Chefredakteur des Lancet zufolge sei es, als würfe man einen Stapel Manuskripte eine Treppe herunter und veröffentliche nur jene, die unten ankämen. Fox fand, das Begutachtungssystem sei subjektiv, wenig reproduzierbar und willkürlich.

Dennoch ist Peer Review – die Bewertung wissenschaftlicher Texte durch andere Forscher, also durch „peers“, durch Gleichgestellte – ein Strukturmerkmal der Wissenschaft. Keine Fachzeitschrift und auch keine Forschungsförderorganisation oder Berufungskommission funktioniert heute ohne diese Form wissenschaftlicher Selbstkontrolle.

Auch wenn bereits die Philosophical Transactions – 1665 in London als eine der ersten wissenschaftlichen Zeitschriften gegründet – Experten zur Bewertung von Manuskripten heranzogen, ist Peer Review bei Fachperiodika erst seit rund 60 Jahren Standard (1).

Heute erscheinen jährlich weltweit mehr als 1 Million Artikel in begutachteten Journalen (1). Die Gutachter sind freiwillig und unentgeltlich tätig und fassen Begutachtungen als wissenschaftliche Verpflichtung auf, obwohl die gewissenhafte Bewertung eines Manuskriptes meist mehrere Stunden dauert. Nach einer Berechnung des Research Information Network müssten global pro Jahr £ 1,9 Milliarden aufgewendet werden, würde man die Wissenschaftler für ihre Tätigkeit entlohnen. Dies entspräche £ 1 200 pro Artikel (2).

Ablauf des Peer Review

Nachdem zunächst, etwa beim Deutschen Ärzteblatt, eine Redaktion die Entscheidung trifft, ob ein Manuskript grundsätzlich – beispielsweise wegen des Themas, der Verständlichkeit oder der Originalität – zur Publikation geeignet ist, wählt sie Experten aus, die mit dem Inhalt vertraut sind. Meistens bewerten mindestens zwei Fachleute ein Manuskript, und die Redaktion entscheidet auf der Basis dieser Stellungnahmen und redaktioneller Vorgaben über die Veröffentlichung. Dabei sprechen die Gutachter beim Deutschen Ärzteblatt, und auch bei anderen Journalen, eine globale Empfehlung aus, wie „Annahme“, „Annahme nach Überarbeitung“ oder „Ablehnung“, bevor sie dann das Manuskript im Einzelnen bewerten und Verbesserungsvorschläge unterbreiten. Übrigens findet auch nach Veröffentlichung eines Artikels eine Evaluation durch Kollegen statt, wie an Leserbriefen, Blogs und Foren deutlich wird („post publication review“). Einer Studie zufolge diskutieren Autoren in ihren Schlussworten allerdings lediglich etwa die Hälfte der substanziellen Kritikpunkte aus Leserbriefen (3), soweit es überhaupt zu einer Leserbriefdiskussion kommt.

Aber verbessert die Begutachtung vor einer Publikation tatsächlich die Manuskripte oder führt sie lediglich zu einer Bevorzugung vorherrschender, konventioneller Ideen und Ergebnisse? Wie genau sind Gutachter? Wie sehr stimmen ihre Voten überein? Lassen sich Gutachten und Gutachter durch Training verbessern? Diese Fragen stellen sich angesichts der Bedeutung der Begutachtung und des enormen Aufwandes, der für sie getrieben wird. Sie sollen in diesem Beitrag anhand der vorhandenen Untersuchungen beantwortet werden.

Die Forscher selbst zumindest scheinen Peer Review mehrheitlich zu befürworten. Für eine elektronische Befragung wurden 2009 insgesamt 40 000 zufällig ausgewählte Wissenschaftler angeschrieben, um deren Erfahrungen und Einstellungen zum gegenwärtig üblichen Begutachtungssystem zu analysieren. 4 000 Personen nahmen an der Umfrage teil, davon ordneten sich 616 (15 %) dem Gebiet Medizin zu (1). Grundsätzlich bewertete diese Subgruppe Peer Review so, wie die anderen wissenschaftlichen Disziplinen auch:

  • 69 % sind mit dem System zufrieden
  • 84 % befürchten, dass ohne Begutachtung die wissenschaftliche Kommunikation unkontrollierbar wird
  • 91 % der Wissenschaftler glauben, dass sich ihr letzter Artikel durch die Begutachtung verbessert hat
  • 86 % begutachten gerne und werden dies auch künftig tun.

Allerdings beklagen 56 % der Befragten einen Mangel an Führung, und 68 % vermuten, dass ein formales Training die Begutachtung verbessern würde.

Die Bewertung eines Artikels beanspruchte dieser Erhebung zufolge durchschnittlich sechs Stunden. 86 % der Befragten kamen nach eigener Auskunft ihrer Begutachtungsverpflichtung innerhalb eines Monats nach. Diese Ergebnisse werden durch eine weitere Untersuchung bestätigt, an der 3 040 von 39 232 Angeschriebenen teilnahmen (4).

Verblindung der Begutachtung

In der Regel weiß der Autor nicht, wer seinen Text beurteilt. Da der Gutachter unbekannt ist, kann er unbefangen entscheiden und muss auch bei einem negativen Votum keine Sanktionen des Autors befürchten. Im Schutz der Anonymität kann ein Gutachter aber auch willkürlich und missbräuchlich handeln: Er kann wider besseres Wissen eine Ablehnungsempfehlung aussprechen, den Vorgang verzögern oder gar Ideen für die eigene Forschung übernehmen, denn schließlich sind die besten Gutachter häufig jene, die auf dem gleichen Gebiet arbeiten und somit auch in Konkurrenz mit dem Autor stehen können. Beim doppelblinden Verfahren wird auch das Manuskript anonymisiert, so dass weder Autor noch Gutachter bekannt sind. Hierdurch soll erreicht werden, dass ausschließlich eine inhaltliche Bewertung erfolgt. Verblindung klingt jedoch einfacher als sie ist, denn Gutachter können häufig die Autorengruppe anhand des Forschungsfeldes und der Referenzliste identifizieren.

Zu den wenigen Zeitschriften mit offenem Begutachtungsverfahren gehören die Journale des Verlags BioMed Central und das British Medical Journal. Beim offenen Verfahren sind Autor und Reviewer bekannt. Dies erhöht die Transparenz und kann den Autor vor Willkür schützen. Offenes Peer Review ist aber bei Gutachtern unbeliebter, besonders wenn ein kritisches Urteil erforderlich ist, das zu Unmut beim Autor führen kann. Dies ist gerade für Gutachter problematisch, die noch nicht alle Karrierestufen erklommen haben – eine Gruppe, die jedoch erfahrungsgemäß mit die besten Gutachten erstellt, weil sie im Rahmen ihrer Qualifikationsarbeiten (zum Beispiel Habilitation) besonders in die Forschung involviert ist. Im Sinne einer authentischen Bewertung bleiben beim Deutschen Ärzteblatt die Gutachter anonym, um sie zu schützen.

Evaluation der Evaluation

Obwohl Peer Review jedes Jahr millionenfach angewendet wird, gibt es bisher nur wenige Studien, die seine Wirksamkeit untersuchen.

Vier randomisierte kontrollierte Studien zeigten, dass die Qualität der Begutachtung weder durch die Bekanntgabe der Gutachter noch die Anonymisierung der Autoren beeinflusst wird (5–8). In diesen Untersuchungen schienen demnach soziale Aspekte die Begutachtung nicht zu beeinflussen.

Wie viele vorsätzlich platzierte Fehler Gutachter entdecken, war Gegenstand zweier Studien: Insgesamt nahmen mehr als 700 Gutachter an beiden Untersuchungen teil. Entdeckt wurden von den acht oder neun groben Fehlern durchschnittlich 25 bis 30 %. Diese Quote ließ sich auch durch verschiedene Fortbildungsangebote nicht verbessern (5, 9).

Die Redaktion des British Medical Journal stellte sich die Frage, ob eine Fortbildung der Gutachter die Beurteilung verbessern kann. Während in einer Studie (10) ein Workshop die Qualität der Gutachten im Vergleich zu einer Kontrollgruppe zumindest kurzfristig verbesserte, konnte eine ähnliche Untersuchung noch nicht einmal einen initialen Effekt feststellen (11). Weitere Versuche, die Reviewer zu schulen, beispielsweise durch Workshops oder Rückmeldungen der Redaktion, erwiesen sich ebenfalls als wirkungslos (12). Andere Untersuchungen zeigten, dass methodisch versierte Gutachter die Qualität der Manuskripte verbessern können, allerdings gab es auch hierzu sich widersprechende Ergebnisse (12). Insgesamt gelangt eine umfängliche systematische Cochrane-Analyse zu dem Schluss, dass nur wenig darauf hinweist, dass Peer Review die Qualität der Publikationen gewährleistet (12).

Übereinstimmung zwischen Gutachtern

Retrospektiv untersuchten Richard Kravitz et al., wie gut die Gutachten übereinstimmten, die das Journal of General Internal Medicine für 2 264 Manuskripte erfragt hatte (13). Kravitz et al. werteten 5 881 Voten aus. 28 % stimmten für die Annahme, 28 % dagegen und rund 45 % für eine Revision. Die Gutachter hatten in 55 % der Fälle eine gleichlautende Empfehlung in Bezug auf eine Veröffentlichung ausgesprochen. Eine Metaanalyse von 52 Studien fand jedoch mit einer Korrelation von im Durchschnitt etwa 0,3 eine geringe Übereinstimmung (14).

Oft richteten sich die Redakteure nach den Empfehlungen der Gutachter: Wenn alle Reviewer für die Annahme votiert hatten, lehnten die Redakteure nur 20 % der Artikel ab. Wenn alle sich jedoch für eine Ablehnung ausgesprochen hatten, schlossen sich die Redakteure in 89 % der Fälle an. Die leichte Diskrepanz zwischen Votum und redaktioneller Entscheidung ist vermutlich dadurch zu erklären, dass aus Platzgründen nur eine begrenzte Zahl von Artikel tatsächlich produziert werden konnte, so dass sich Redaktionen manchmal auch gegen positiv bewertete Manuskripte entschieden haben. Ein zweiter Aspekt betrifft den Unterschied zwischen den Empfehlungen der Gutachter und ihrem ausführlichen Kommentar zum Manuskript: Nicht selten decken sich nach der Erfahrung beim Deutschen Ärzteblatt diese beiden Bestandteile nicht, etwa wenn eine Ablehnungsempfehlung durch den Kommentar nicht gut begründet wird. Manchmal scheinen Gutachter mit der Empfehlung „Ablehnung“ auch eher „Ablehnung in der vorliegenden Form“ zu meinen.

Das Deutsche Ärzteblatt hat zwischen 1. 7. 2008 und 31. 12. 2009 insgesamt 554 Gutachten über 206 Manuskripte erhalten (Grafik) – nachdem zuvor aus redaktionellen Gründen eine große Zahl von Manuskripten hatte abgelehnt werden müssen und gar nicht erst einer Begutachtung zugeführt worden war. Dies entspricht 2,7 Gutachten pro Manuskript. Nur wenige Expertisen (n = 39; 7,0 %) enthielten eine Empfehlung zur Annahme des unveränderten Manuskriptes. Rund drei Viertel der Reviewer (73,6 %, n = 408) empfahlen eine Überarbeitung, und ein Fünftel gab ein ablehnendes Votum ab (19,3 %; n = 107). Wie beim Journal of General Internal Medicine stimmten die Bewertungen der Gutachterpaare häufig überein: Sechs von zehn (61,2 %) empfahlen entweder gleichlautend die Annahme (0,4 %), eine Überarbeitung (55,0 %) oder die Ablehnung (5,8 %). In fast einem Drittel der Fälle allerdings hatte einer der Gutachter die Ablehnung empfohlen (30,5 %).

Haben originelle Ideen eine Chance?

Manuskripte haben eine höhere Chance, positiv begutachtet zu werden, wenn sie konservativ angelegt sind und dem Mainstream folgen (1). Unkonventionelle, originelle Ideen stoßen dagegen häufig auf Misstrauen. Dies zumindest ergab eine randomisierte Studie, in der die Begutachtung eines Manuskripts über einen neuartigen Wirkstoff eher zu einer Ablehnung führte als die eines Manuskriptes über ein bekanntes Medikament. Dabei waren die fiktiven Artikel bis auf den Namen des Wirkstoffs identisch (15).

Tobias Opthof et al. haben untersucht, ob die Beurteilung der Gutachter und der Redaktion mit der späteren Akzeptanz des Artikels durch die Wissenschaftsgemeinde übereinstimmt. Hierzu wurde das Gesamturteil, das zur Annahme führte, mit der Zahl der auf den Beitrag entfallenden Zitate – als Surrogatparameter für Relevanz – in Beziehung gesetzt: Die am besten bewerteten Artikel wurden auch am häufigsten zitiert (16).

Zweifellos könnten neue Konzepte der Qualitätssicherung erprobt werden. Besonders bei Spezialzeitschriften böte das Internet neue Möglichkeiten: Der Evaluationsprozess könnte interaktiv gestaltet werden und Kommentare sowie Querverweise zulassen. Das EMBO-Journal hat bereits 2009 begonnen, die Kommentare der Gutachter und der Redaktion mit den Entgegnungen der Autoren zu veröffentlichen. So kann der Leser nicht nur den Artikel und zahlreiche ergänzende Daten, sondern auch Hintergrundinformationen abrufen, die etwa auf Schwächen oder neu aufgeworfene Forschungsfragen hindeuten.

Resümee

Das heute übliche Begutachtungsverfahren ist einerseits wenig erforscht, andererseits deutet die vorhandene Evidenz darauf hin, dass die Erwartungen in seine Wirksamkeit größer sind als die tatsächlich gemessenen Effekte. Dennoch ist das Begutachtungsverfahren gegenwärtig unverzichtbar – vermutlich umso mehr, je allgemeiner eine medizinische Zeitschrift ausgerichtet ist. Beim Deutschen Ärzteblatt etwa ist die Redaktion nicht allein in der Lage, die inhaltliche Qualität aller Manuskripte aus den Dutzenden medizinischer Fachgebiete zu bewerten. Insofern ist die Redaktion den Gutachtern für ihre Tätigkeit ausgesprochen dankbar.

Danksagung
Die Autoren danken Melanie Engels für die Unterstützung bei der Datenerhebung.

Interessenkonflikt

Dr. Mertens ist Redakteur in der medizinisch-wissenschaftlichen Redaktion des Deutschen Ärzteblatts, Prof. Baethge ist deren Leiter.

Anschrift für die Verfasser
Dr. sc. nat. Stephan Mertens
Deutsches Ärzteblatt, Ottostaße 12, 50859 Köln
Mertens@aerzteblatt.de

Englische Überschrift:
Standards in the Face of Uncertainty—Peer Review Is Flawed and Under-Researched, but the Best We Have

Zitierweise
Mertens S, Baethge C: Standards in the face of uncertainty—peer review is flawed and under-researched, but the best we have. Dtsch Arztebl Int 2012; 109(51−52): 900–2. DOI: 10.3238/arztebl.2012.0900

@The English version of this article is available online:
www.aerzteblatt-international.de

1.
Peer review survey 2009: full report. www.senseaboutscience.org/data/files/Peer_Review/Peer_Review_Survey_Final_3.pdf (last accessed June 2012)
2.
Research Information Network: Activities, costs and funding
flows in the scholarly communications system in the UK. http://rinarchive.jisc-collections.ac.uk/our-work/communicating-and-disseminating-research/activities-costs-and-funding-flows-scholarly-commu 2008 (last accessed August 2012).
3.
Gotzsche PC, Delamothe T, Godlee, F, Lundh A: Adequacy of authors´ replies to criticism raised in electronic letters to the editor: cohort study. BMJ 2010; 341: c3926. CrossRef MEDLINE
4.
Mark Ware Consulting: Peer review in scholarly journals:perspective of the scholarly community—an international study. www.publishingresearch.net/documents/PeerReviewFullPRCReport-final.pdf 2008 (last accessed August 2012).
5.
Godlee F, Gale CR, Martyn CN: Effect on the quality of peer review of blinding reviewers and asking them to sign their reports. JAMA 1998; 280: 237–40. CrossRef MEDLINE
6.
van Rooyen S, Godlee F, Evans S, Smith R, Black N: Effect of blinding and unmasking on the quality of peer review. JAMA 1998; 280: 234–7. CrossRef MEDLINE
7.
Justice AC, Cho MK, Winker MA, Berlin JA, Rennie D, and the peer investigaters: Does masking author identity improve peer review quality? JAMA 1998; 280: 240–2. CrossRef MEDLINE
8.
van Rooyen S, Godlee F, Evans S, Black N, Smith R: Effect of open peer review on quality of reviews and on reviewers’ recommendations: a randomised trial. BMJ 1999; 318: 23–7. CrossRef MEDLINE PubMed Central
9.
Schroter S, Godlee F, Black N, Osorio L, Evans S, Smith R: What errors do peer reviewers detect, and does training improve their ability to detect them? J R Soc Med 2008; 101: 507–14. CrossRef MEDLINE PubMed Central
10.
Schroter S, Black N, Evans S, Carpenter J, Godlee F, Smith R: Effects of training on quality of peer review: randomised controlled
trial. BMJ 2004; 328: 673–5. CrossRef MEDLINE PubMed Central
11.
Callaham ML, Wears RL, Waeckerle JF: Effect of attendance at a training session on peer reviewer quality and performance. Ann Emerg Med 1998; 32: 318–22. CrossRef MEDLINE
12.
Jefferson T, Rudin M, Brodney Folse S, Davidoff F: Editorial peer review for improving the quality of reports of biomedical studies (review) Cochrane Database of Systematic Reviews 2007, issue 2. MEDLINE
13.
Kravitz RL, Franks P, Feldman MD, Gerrity M, Byrne C, Tierney WM: Editorial peer reviewers’ recommendations at a general medical journal: are they reliable and do editors care? PLoS One. 2010; 5: e10072. CrossRef MEDLINE PubMed Central
14.
Bornmann L, Mutz R, Daniel HD. A reliability-generalization study of journal peer reviews: A multilevel meta-analysis onf inter-rater reliability and its determinants. PLoS ONE 2010; 5: e14331. CrossRef MEDLINE PubMed Central
15.
Resch KI, Ernst E, Garrow J: A randomized controlled study of reviewer bias against an unconventional therapy. J R Soc Med 2000; 93: 164–7. MEDLINE PubMed Central
16.
Opthof T, Coronel R, Janse MJ: The significance of the peer review process against the background of bias: priority ratings of reviewers and editors and the prediction of citation, the role of geographic bias. Cardiovasc Res 2002; 56: 339–46. CrossRef MEDLINE
1.Peer review survey 2009: full report. www.senseaboutscience.org/data/files/Peer_Review/Peer_Review_Survey_Final_3.pdf (last accessed June 2012)
2. Research Information Network: Activities, costs and funding
flows in the scholarly communications system in the UK. http://rinarchive.jisc-collections.ac.uk/our-work/communicating-and-disseminating-research/activities-costs-and-funding-flows-scholarly-commu 2008 (last accessed August 2012).
3.Gotzsche PC, Delamothe T, Godlee, F, Lundh A: Adequacy of authors´ replies to criticism raised in electronic letters to the editor: cohort study. BMJ 2010; 341: c3926. CrossRef MEDLINE
4.Mark Ware Consulting: Peer review in scholarly journals:perspective of the scholarly community—an international study. www.publishingresearch.net/documents/PeerReviewFullPRCReport-final.pdf 2008 (last accessed August 2012).
5.Godlee F, Gale CR, Martyn CN: Effect on the quality of peer review of blinding reviewers and asking them to sign their reports. JAMA 1998; 280: 237–40. CrossRef MEDLINE
6.van Rooyen S, Godlee F, Evans S, Smith R, Black N: Effect of blinding and unmasking on the quality of peer review. JAMA 1998; 280: 234–7. CrossRef MEDLINE
7.Justice AC, Cho MK, Winker MA, Berlin JA, Rennie D, and the peer investigaters: Does masking author identity improve peer review quality? JAMA 1998; 280: 240–2. CrossRef MEDLINE
8.van Rooyen S, Godlee F, Evans S, Black N, Smith R: Effect of open peer review on quality of reviews and on reviewers’ recommendations: a randomised trial. BMJ 1999; 318: 23–7. CrossRef MEDLINE PubMed Central
9.Schroter S, Godlee F, Black N, Osorio L, Evans S, Smith R: What errors do peer reviewers detect, and does training improve their ability to detect them? J R Soc Med 2008; 101: 507–14. CrossRef MEDLINE PubMed Central
10.Schroter S, Black N, Evans S, Carpenter J, Godlee F, Smith R: Effects of training on quality of peer review: randomised controlled
trial. BMJ 2004; 328: 673–5. CrossRef MEDLINE PubMed Central
11.Callaham ML, Wears RL, Waeckerle JF: Effect of attendance at a training session on peer reviewer quality and performance. Ann Emerg Med 1998; 32: 318–22. CrossRef MEDLINE
12.Jefferson T, Rudin M, Brodney Folse S, Davidoff F: Editorial peer review for improving the quality of reports of biomedical studies (review) Cochrane Database of Systematic Reviews 2007, issue 2. MEDLINE
13.Kravitz RL, Franks P, Feldman MD, Gerrity M, Byrne C, Tierney WM: Editorial peer reviewers’ recommendations at a general medical journal: are they reliable and do editors care? PLoS One. 2010; 5: e10072. CrossRef MEDLINE PubMed Central
14.Bornmann L, Mutz R, Daniel HD. A reliability-generalization study of journal peer reviews: A multilevel meta-analysis onf inter-rater reliability and its determinants. PLoS ONE 2010; 5: e14331. CrossRef MEDLINE PubMed Central
15.Resch KI, Ernst E, Garrow J: A randomized controlled study of reviewer bias against an unconventional therapy. J R Soc Med 2000; 93: 164–7. MEDLINE PubMed Central
16.Opthof T, Coronel R, Janse MJ: The significance of the peer review process against the background of bias: priority ratings of reviewers and editors and the prediction of citation, the role of geographic bias. Cardiovasc Res 2002; 56: 339–46. CrossRef MEDLINE

    Leserkommentare

    E-Mail
    Passwort

    Registrieren

    Um Artikel, Nachrichten oder Blogs kommentieren zu können, müssen Sie registriert sein. Sind sie bereits für den Newsletter oder den Stellenmarkt registriert, können Sie sich hier direkt anmelden.

    Fachgebiet

    Alle Leserbriefe zum Thema

    Login

    Loggen Sie sich auf Mein DÄ ein

    E-Mail

    Passwort

    Anzeige