ArchivDeutsches Ärzteblatt6/2005cDNA-Microarrays – Strategien zur Bewältigung der Datenflut

MEDIZIN

cDNA-Microarrays – Strategien zur Bewältigung der Datenflut

Victor, Anja; Klug, Stefanie J.; Blettner, Maria

Als E-Mail versenden...
Auf facebook teilen...
Twittern...
Drucken...
LNSLNS Zusammenfassung
Die Zahl von Artikeln zu Untersuchungen mit Beteiligung von Microarray-Techniken nimmt derzeit stark zu. Mit Microarrays kann die Genexpression (Genaktivität) vieler Gene gleichzeitig bestimmt werden. Die Genexpression entspricht dabei der Menge an mRNA, die in einer Zelle vorhanden ist; die mRNA ist ein Surrogat für die Genaktivität in einer Zelle. Damit können beispielsweise Unterschiede in der
Expression verschiedener Gene zwischen Tumorgewebe und Normalgewebe untersucht werden. Potenziell sind so Aussagen über den Beitrag der Gene zur Tumorentstehung möglich. Ein weiteres Anwendungsbeispiel ist die bessere Klassifikation von Tumoren. In diesem Artikel wird aus biometrischer Sicht dargestellt, welche Aussagen anhand von Microarray-Untersuchungen derzeit getroffen werden können und was bei der Planung, Durchführung, Auswertung und Interpretation der Ergebnisse beachtet werden sollte.

Schlüsselwörter: molekulare Medizin, Microarray, Klassifikation, Krebsentstehung, multiples Testen

Summary
-DNA-Microarrays – Strategies for Coping Abundant Data
The number of articles in scientific literature concerning microarrays increases steadily. With microarrays gene expression levels (gene
activity) can be determined for a large number of genes simultaneously. The gene expression corresponds to the amount of mRNA present in the cell and is used as a surrogate for the degree of gene activity in the cell. The comparison of differential expression between tumourous and normal tissue is an example for the application of this technique. As a result of this investigation it may be possible to determine the potential contribution of one or more genes to tumour development. Another example is the classification of tumour subtypes. This article discusses what kind of results can be achieved with microarray experiments so far and what has to be considered when planning, performing and interpreting such experiments from a biostatistician´s viewpoint.

Key words: molecular medicine, microarray, classification, development of cancer, multiple testing


Die Anzahl der Artikel, bei denen der Begriff Microarray im Titel oder Abstract vorkommt, ist seit der ersten Publikation zur Anwendung von Microarrays zur Messung von Genexpressionsstärke im Jahre 1995 (27) exponentiell gestiegen (Grafik 1). Die Besonderheit der Microarray-Technik liegt in ihrer Eigenschaft, dass bis zu mehrere zehntausend Gene einer Probe gleichzeitig auf die Stärke ihrer Expression (Genaktivität) untersucht werden können. Als Proben können biologische Materialien von Viren, Bakterien, Pflanzen, Tieren oder Menschen verwendet werden. Microarrays sind ein Werkzeug, mit dem die Suche nach geeigneten Kandidatengenen für eine Hypothese stark beschleunigt wird. Diese Kandidatengene können dann in weiterführenden Untersuchungen (so genannte „Downstream-Analysen“) überprüft werden.
In Microarray-Studien ist die Anwendung und Fortentwicklung von
Algorithmen und Methoden aus der Informatik (Bioinformatik), insbesondere bei der Datenerfassung und der Vernetzung der Ergebnisse, sowie die Implementierung und Erweiterung statistischer Methoden (Biometrie) vor allem in der Auswertung unabdingbar.
Ziele von Microarray-Untersuchungen
Obwohl die Anwendung der Microarray-Technologie sehr vielseitig ist, lassen sich die Ziele der Auswertungen aus statistisch methodischer Sicht in der biomedizinischen Forschung grob in folgende drei Bereiche einteilen, wobei es im Rahmen der Analyse einer Microarray-Studie auch zur Anwendung von Methoden aus mehreren Bereichen kommen kann:
- Untersuchung auf Unterschiede in der Expression zwischen Proben aus verschiedenen Gruppen/Populationen,
- Clusteranalyse von Genen/Proben zur Entdeckung von Gruppen oder Strukturen („unsupervised learning“),
- Klassifikation von Krankheitsentitäten („supervised learning“).
Bei der Untersuchung auf Unterschiede in der Expression zwischen verschiedenen Gruppen sind zwei unterschiedliche Fragestellungen hervorzuheben. Zum einen interessiert der Vergleich zwischen Tumorgewebe und Normalgewebe bei einem Patienten, zum anderen der Vergleich der Expressionsstärke im Gewebe von Patienten gegenüber gesunden Kontrollen. Ziel ist dabei die Entdeckung von genetischen Ursachen insbesondere für komplexe Krankheiten, die dann zu Ansatzpunkten für (kausale) Therapien führen können (17). Auch der Vergleich von unbehandelten Zellkulturen mit solchen, die bestrahlt oder mit einem Medikament behandelt wurden, stellt ein mögliches Untersuchungsdesign dar. Hieraus erhofft man sich eine Verbesserung oder Differenzierung für Therapien.
In der Clusteranalyse wird nach Gengruppen oder Subgruppen in Proben gesucht, die ähnliche Expressionsmuster zeigen (14, 32). Eine Anwendung ist zum Beispiel die Differenzierung neuer Tumorsubtypen oder die Aufdeckung von Gengruppen, deren Expression zusammenhängt (1, 24, 30).
In der Klassifikation verschiedener Krankheitsentitäten liegt eine der für die Klinik viel versprechenden Möglichkeiten der Genexpressionsanalyse. Die Klassifikation verschiedener Tumorsubtypen kann die Diagnose verbessern und damit die Wahl und den Erfolg der Therapie. Mit Microarrays könnten gleichzeitig Tausende Gene untersucht und damit das Verständnis der molekularen Unterschiede zwischen Tumorsubtypen verbessert werden. In einer Studie wurde beispielsweise nach Genexpressionsprofilen geforscht, die im Voraus einen Hinweis auf den Erfolg einer Chemotherapie mit Docetaxel bei Brustkrebspatientinnen geben könnten (9).
Eine andere Anwendung ist die Bestimmung eines Sets von Genen, anhand deren Expressionsprofil Patientinnen mit Brustkrebs in Hoch- undNiedrig-Risikogruppen eingeteilt und entsprechend dieser Einteilung therapiert werden könnten (35). Als Beispiele für die Einsatzmöglichkeiten von Microarrays aus dem Bereich der Bakterien, die aus medizinischer Sicht interessant sind, seien die genaue Klassifizierung (7, 20) und Identifikation von neuen Bakterienstämmen genannt (4). Beim Patienten kann eine Infektion somit schneller identifiziert und gezielt behandelt werden (15, 36). Clusteranalyse und Klassifikation sind nicht immer klar trennbar. Auch bei Untersuchungen zur Klassifikation können Clusteranalysen als einer der Analyseschritte verwendet werden (16, 23).
Molekularbiologische Technik
Grafik 2 stellt schematisch den Ablauf eines cDNA-Microarray-Experiments dar, bei dem mRNA aus einem Tumor mit mRNA aus den Zellen einer gesunden Kontrolle verglichen wird. DNA-Fragmente der interessierenden Gene werden mit der Polymerase-Kettenreaktion (PCR) amplifiziert und auf der Oberfläche des Microarray-Chips, meist handelt es sich hierbei um einen einfachen Glasobjektträger, aufgetragen. Die so entstandenen Spots, die jeweils unterschiedliche Genfragmente enthalten, werden anschließend fixiert. Auch Gendoubletten, Negativ- und Positivkontrollen sollten nach Möglichkeit auf einem cDNA-Microarray enthalten sein. Microarray-Chips können gekauft oder selbst hergestellt werden.
Die zu untersuchende mRNA des interessierenden Ausgangsmaterials wird isoliert und mithilfe des Enzyms reverse Transkriptase wird cDNA („complementary DNA“) neu synthetisiert.
Dabei werden in die neue cDNA Nukleotide mit fluoreszierenden Farbstoffen inkorporiert. So werden aus verschiedenen Ausgangsmaterialien, hier im Beispiel von Tumor und Kontrolle (Grafik 2), verschieden fluoreszierende Farbstoffe eingebaut, die bei unterschiedlicher Wellenlänge zum Beispiel rot oder grün leuchten. Die entstandene cDNA aus den zu untersuchenden Ausgangsmaterialen wird gemischt und zur Hybridisierung auf die einzelnen Spots des Microarrays aufgetragen. Anschließend wird der Microarray gewaschen, um ungebundene cDNA zu entfernen. Zur Quantifizierung der Genexpression wird die Fluoreszenzintensität der einzelnen Spots auf dem Microarray mit einem Laser, meist ein konfokales Lasermikroskop, ermittelt (gescannt). Hierbei wird jeweils mit den unterschiedlichen Wellenlängen gemessen, die für die Fluoreszenzreaktion der verwendeten Farbstoffe nötig sind.
In dem Beispiel würde die cDNA, die aus der Tumor-mRNA synthetisiert wurde, rot leuchten, wenn diese hauptsächlich hybridisiert wäre. Gebundene cDNA der Kontrolle würde als grüner Spot erkennbar sein, ein gelber Spot bedeutet, dass beide cDNAs in gleicher Menge hybridisiert sind, wohingegen ein schwarzer Spot indiziert, dass keine der beiden cDNAs gebunden hat (Grafik 3). Von der Farbe und der Intensität der Fluoreszenz kann die relative Expressionsaktivität der auf dem Microarray fixierten Genfragmente der beiden Proben abgeschätzt werden.
Zur vertieften Darstellung der Methodik und zusätzlich der zugrunde liegenden Molekularbiologie wird auf folgende Texte verwiesen (21, 28) (www.ebi.ac.uk/ microarray/biology_intro.html).
Weitere Anwendungsbereiche der Microarray-Technik, auf die nicht eingegangen wird, umfassen Oligonukleotide-Microarrays (www.affymetrics.com) sowie Protein- und Antikörper-Arrays (18).
Planung und Auswertung von Microarray-Experimenten
Ziel der Planung und Auswertung aus biometrischer Sicht ist es (Grafik 4):
- bei der Planung das für die Fragestellung optimale Design zu wählen und die nötige Fallzahl abzuschätzen,
- die anfallenden Datenmengen zu reduzieren und systematische Fehler in den Daten zu beheben, sodass eine sinnvolle Auswertung möglich ist,
- den Vergleich zwischen den Gruppen oder die Klassifikation oder andere statistische Verfahren der Fragestellung entsprechend auszuwählen und durchzuführen,
- die Ergebnisse zu interpretieren und auf eventuelle Limitationen hinzuweisen.
Design des Versuchs
Bei Verwendung von Microarrays gibt es kein standardisiertes Design. Das Vorgehen muss in Abhängigkeit von der Fragestellung auch im Hinblick auf die Durchführbarkeit und Auswertung ausgewählt werden (39). Eine Möglichkeit besteht darin, pro Array jeweils nur eine Probe auszuwerten, so ergeben sich mit jedem Chip Intensitätswerte für eine Probe. Häufig verwendet werden auch komparative Designs, bei denen zwei verschiedene Proben mit unterschiedlichen Fluoreszenzfarbstoffen markiert und anschließend auf demselben Chip hybridisiert werden (Grafik 3). Man betrachtet dann das Intensitätsverhältnis zweier Proben zueinander. Möchte man zwei Gruppen mit einem komparativen Design vergleichen, gibt es die Möglichkeit eines „common reference“-Designs, das heißt, alle Proben werden gegen dieselbe Kontrolle verglichen. Dies kann zum Beispiel eine aus allen Kontrollen gepoolte cDNA-Probe sein. Der Vergleich zwischen den zwei Gruppen erfolgt indirekt über die Quotienten jeweils zur gleichen Kontrolle. Beim direkten Design wird je eine Probe einer Gruppe mit einer Probe der anderen Gruppe auf einem Glasobjektträger hybridisiert. In vielen Fällen ergibt dieser direkte Vergleich eine geringere Varianz (39). Beim paarweisen Vergleich von mehr als zwei Gruppen werden bei einer direkten Gegenüberstellung jedoch schnell sehr viele Vergleiche erforderlich. Sollen mehr als zwei Gruppen verglichen werden, ist häufig ein Design unter Verwendung indirekter Vergleiche von der Durchführbarkeit her zu empfehlen. Die Art der Vergleiche, sowie die Anzahl und Art der Replikationen sollte vor Beginn des Experiments in Absprache mit einem Biometriker festgelegt werden (19, 39).
In diesem Artikel beziehen sich die Autorinnen in der Regel auf die komparative Form der Microarray-Versuche.
Datenvorbereitung und Bioinformatik
Bei der Auswertung der Ergebnisse von Microarray-Versuchen ergeben sich zahlreiche Probleme, mit deren Lösung sich die Bioinformatik und die Biometrie beschäftigt. Es werden enorme Datenmassen generiert, für die geeignete Speicherungs- und Darstellungsmöglichkeiten gefunden werden müssen. Die bunt leuchtenden Microarrays müssen in Intensitätswerte (Zahlen) umgewandelt und hieraus müssen Aussagen gewonnen werden.
Schon die Bildanalyse ist ein umfangreiches Aufgabenfeld für die Informatik. Die sich ergebenden Fluoreszenzen müssen gemessen und zu Intensitäten verarbeitet werden. Die Entscheidung, was Hintergrundhelligkeit und was Intensität der Probe ist, wird von verschiedener Scannersoftware unterschiedlich gehandhabt. Aus den vielen Bildpunkten je Spot muss eine zusammenfassende Maßzahl der Helligkeitspixel gebildet werden. In der Regel wird der Mittelwert aller dem Hintergrund zugeordneten Pixel und aller der Probe zugeordneten Pixel gebildet. Anschließend wird für den Intensitätswert der Hintergrundmittelwert vom Probenmittelwert abgezogen. Um annähernd normal verteilte Werte zu erhalten, wird zumeist mit logarithmierten Intensitäten gearbeitet. Bei komparativen Experimenten, bei denen die Proben mit unterschiedlichen Farbstoffen (zum Beispiel Cy5 und Cy3, rot und grün) markiert wurden, wird die Differenz dieser zwei logarithmierten Werte gebildet, das logRatio (hierbei stehen Cy5 und Cy3 für den Intensitätswert von Cy5 beziehungsweise Cy3). Dieser Wert wird für die weitere Analyse verwendet.
Fehlerquellen und Normalisierung
Experimente mit Microarrays enthalten zahlreiche potenzielle Fehlerquellen. Bereits die Präparation der zellulären mRNA ist ein kritischer Schritt der Untersuchung, da diese zum Beispiel degradieren kann, oder Fehler beim Markieren der mRNA mit den fluoreszierenden Nukleotiden auftreten können (21). Dadurch könnte es sein, dass das Versuchsergebnis nicht die In-vivo-Situation widerspiegelt. Weitere Fehlerquellen können bei der Herstellung des Chips im eigenen Labor, der Hybridisierung oder beim Scannen des Arrays auftreten.
Vor der Datenprozessierung und Auswertung muss eine gründliche Untersuchung auf mögliche Fehler oder systematische Einflüsse beim Versuchsablauf erfolgen (33). Fehlerhafte Ergebnisse müssen von der Analyse ausgeschlossen werden, systematische Fehler, die ein Ergebnis verzerren können, versucht man mit der Normalisierung zu korrigieren. Normalisierung könnte man auch mit dem Begriff Skalierung umschreiben. Die erhaltenen Intensitäten sind keine absoluten Werte, die für dieselben Proben bei jedem Versuch gleich sind. Vielmehr ist die Höhe der Intensität von zahlreichen äußeren Faktoren des Versuchs abhängig. Eine Möglichkeit der Normalisierung besteht darin, auf dem Array Gene, die für ständig benötigte Gene in der Zelle kodieren (Housekeeping-Gene), mitzuhybridisieren, die dann als Nullkontrolle dienen. Nach Beendigung des Versuchs wird die mittlere Intensität dieser Nullkontrollen ermittelt und von allen anderen Werten subtrahiert (3, 29). Die Verwendung von Housekeeping-Genen weist einige Probleme auf. So ist nicht immer sicher, dass es sich bei den verwendeten Genabschnitten wirklich um Nullkontrollen handelt. Außerdem ist ihre Zahl in Relation zur Gesamtheit der Gene auf dem Array meist zu klein. Dadurch kann es zu einer fehlerhaften Skalierung kommen. Eine Alternative besteht darin, die Intensitäten aller Gene zur Normalisierung zu nutzen. Dabei wird davon ausgegangen, dass die meisten Gene für die Fragestellung nicht wichtig sind. Bei diesem Ansatz wird die mittlere oder mediane Intensität aller Gene von jedem einzelnen Wert subtrahiert. Eine feinere Anpassung, die die Möglichkeit, dass die Einflüsse unterschiedlich für verschiedene Intensitätshöhen sind, berücksichtigt, ist die Verwendung robuster lokaler Regression (38). Da nicht immer davon ausgegangen werden kann, dass die Mehrheit der Gene auf dem Array keine differenzielle Expression zeigt, gibt es weitere Vorschläge zur Wahl der zur Normalisierung herangezogenen Kontrollen. Beispielsweise kann die Auswahl einer Untermenge aller Gene, „rank invariant selection“ (26), hierfür verwen-
det werden. Eine weitere Möglichkeit bietet die Zugabe künstlicher Transkripte, deren Verhalten definiert ist. Erst die entsprechend vorbereiteten (logarithmierten Quotienten der) Intensitätswerte verwendet man schließlich als „wahres“ Signal in der statistischen Auswertung. Im Folgenden werden mit „fold change“ diese qualitätskontrollierten, normalisierten Quotienten bezeichnet.
Wie die Ausführungen zeigen, existiert für die Datenvorbereitung der Microarray-Technik noch kein ausgereiftes, standardisiertes Vorgehen. Für fast jeden Analyseschritt gibt es verschiedene Vorgehensmöglichkeiten. Es ist daher schwierig, die Qualität der Ergebnisse zu beurteilen und Resultate verschiedener Studien miteinander zu vergleichen. Um dieses Problem anzugehen, wurde eine Arbeitsgruppe „Microarray Gene Expression Data Society“ (mged) gegründet. Diese Arbeitsgruppe hat einen Leitfaden „minimum information about a microarray experiment“ (MIAME) herausgegeben, der bei Veröffentlichungen eine Beurteilung der Qualität ermöglichen soll (6). Zeitschriften wie Nature, Cell und Lancet haben angekündigt, diese Standards einzuhalten.
Das EBI (European Bioinformatics Institute) hat ebenso wie das NCBI (National Center for Biotechnology Information) eine Datenbank, in der Daten aus Microarray-Experimenten gespeichert sind, (ähnlich der EMBL-Datenbank für DNA-Sequenzdaten) eingerichtet. Diese Datenbanken heißen ArrayExpress (www.ebi.ac.uk/arrayexpress) und Gene Expression Omnibus (www.ncbi.nlm.nih.gov/geo/).
Statistische Auswertung
Die Herausforderung in der statistischen Analyse besteht in der hohen Zahl von Genabschnitten mit gemessener Expression im Vergleich zur meist geringen Anzahl untersuchter Proben, das heißt, es werden viele Merkmale, aber nur wenige Beobachtungseinheiten erhoben.
Beim Vergleich von Gruppen (beispielsweise zwischen Tumor- und Normalgewebe) bezüglich der Genexpressionsstärke wird häufig nur die Größe der „fold change“ betrachtet (ein Wert von zum Beispiel > 3 wird dabei als relevant bezeichnet). Eine Entscheidung anhand dieses Kriteriums ist häufig fehlerhaft, weil dabei nicht beachtet wird, dass es mit höheren Intensitätswerten auch zu höheren Varianzen kommt.
Stattdessen ist die Verwendung statistischer Tests auf Unterschiede (zum Beispiel t-Test), besonders wenn mehr als eine explorative Aussage erwünscht ist, notwendig. Jedoch kann es aufgrund der vielen untersuchten Abschnitte und der somit hohen Zahl durchgeführter Tests zu vielen falschpositiven (fälschlich signifikanten) Ergebnissen kommen. Eine Beachtung dieses Problems (multiples Testen)
ist notwendig (11, 12). Man kann sich dafür entscheiden, die Wahrscheinlichkeit, mindestens ein falschpositives Ereignis zu erhalten, zu kontrollieren („familywise error rate“, FWER). Hier wurden Verfahren von Westfall und Young entwickelt (37), die auf die Microarray-Analyse übertragbar sind (12).
Die Kontrolle der FWER ist ein sehr striktes Fehlerkriterium und mit dem Nachteil einer geringen Power, wahre Unterschiede zu entdecken, behaftet. Eine weniger strikte Definition zugunsten einer höheren Power ist in vielen Studien wünschenswert, weil es sich bei Microarray-Studien in erster Linie um explorative Studien handelt, deren Ergebnisse in weiteren Analysen überprüft werden. Deshalb bietet sich die Kontrolle der „false discovery rate“ (FDR) an (5,
11, 34). Die FDR ist der erwartete Anteil fälschlich abgelehnter Hypothesen an allen abgelehnten Hypothesen (Tabelle) (5). Ihre Kontrolle hat den Vorteil einer in den meisten Situationen höheren Power, jedoch können mehr falschpositive Ergebnisse auftreten.
Die Clusteranalyse dient dazu, große Mengen an Information zusammenzufassen und kondensiert zu präsentieren. Es wird versucht, zuvor unbekannte Gruppen von Genen anhand ähnlicher Expressionsstärke oder Gruppen von Proben anhand ähnlicher
Expressionsprofile zusammenzufassen (zu „clustern“). Man kann sich das vereinfacht als Unterscheidung von Punktwolken vorstellen. Bei der Clusteranalyse handelt es sich vor allem um ein Verfahren zur Deskription, statistische Testverfahren werden hier in einem anderen Sinn angewandt.
Die explorative Natur dieses Verfahrens zeigt sich auch dadurch, dass die Ergebnisse (Cluster) stark von den gewählten Eigenschaften der Cluster-Analyse abhängen. So ist die Wahl des Abstandsmaßes (was ist „ähnlich“) oder die Wahl des Clusterverfahrens ausschlaggebend für die resultierende Gruppierung (Cluster). Beim hierarchischen Clustering zum Beispiel werden zunächst die zwei nächsten Elemente zu einem Cluster zusammengefasst, anschließend wird dieser Cluster wieder mit anderen Elementen oder Clustern weiter zusammengefasst, sodass ein geschachteltes System von Clustern entsteht. Demgegenüber wird die Anzahl der Cluster beim k-means-Verfahren vorher festgelegt, anschließend werden die Gene/Proben „optimal“ zugeteilt. Eine Zusammenstellung von Clusterverfahren für Microarray-Anwendungen bietet Quackenbush (25).
Alle genannten Analysen können auch als Vorstufen für die Klassifikation verwendet werden. Klassifikation ist die Zuordnung von Proben zu
bekannten Gruppen anhand ihrer Expressionsprofile. Man versucht dabei, eine minimale Gruppe von Genen zu identifizieren, anhand derer man bekannte Populationen mit ausreichender Sicherheit unterscheiden kann.
Eine Zusammenstellung und einen Vergleich der in diesem Zusammenhang gebräuchlichen statistischen Verfahren wie Diskriminanzanalyse, „nearest neighbor classifiers“, „classification and regression trees“, sowie „bagging and boosting“ sind bei Dudoit, Fridlyand und Speed (10) zu finden. Ein weiteres statistisches Verfahren, das in diesem Zusammenhang verwendet werden kann, sind „support vector machines“ (8).
Neben der Auswertung sollte auch die Vorbereitung der Daten für die endgültige Analyse von einem Biometriker vorgenommen werden. Heute werden viele Programmpakete angeboten, die diese Vorbereitungsschritte wie zum Teil auch schon die Analyseschritte nach Aussagen der Hersteller implementiert haben. Hierbei handelt es sich aber oftmals um eine Blackbox deren Dokumentation und vor allem deren Anpassbarkeit an die Situation der Daten häufig unzureichend ist. Die Autorinnen raten daher davon ab, solche Programme unkritisch zu verwenden. Man sollte alle Schritte von den Rohdaten bis zur Aussage unter wissenschaftlicher Betreuung durch einen Biometriker durchführen, der auch schon in die Planung vor Beginn des Versuchs eingebunden sein sollte.
Für das frei verfügbare Statistiksoftware-Paket R (ähnlich S-Plus, www. cran.r-project.org) hat eine Gruppe von Biometrikern eine Plattform eingerichtet, die kostenfrei zugängliche Programme mit Dokumentation zur Datenvorbereitung und Auswertung von Microarray-Daten zur Verfügung stellt (www.bioconductor.org).
Zum erweiterten Studium sei auf entsprechende Bücher (2, 22, 31) verwiesen.
Fazit
Microarrays lassen die gleichzeitige Untersuchung der Expression zahlreicher Genabschnitte zu. Hierdurch wird das molekulare Verständnis von Krankheiten verbessert und ermöglicht, Therapieoptionen zu finden oder zu optimieren. Mit der Generierung vieler Ergebnisse steigt allerdings gleichzeitig das Risiko vieler falschpositiver Resultate. Außerdem handelt es sich bei Messung der mRNA nur um einen Surrogatparameter für die Aktivität eines Gens. Ferner ist aufgrund der verwendeten Technik eine hohe Fehleranfälligkeit gegeben; dies muss bei der Auswertung adäquat berücksichtigt werden. Microarray-Studien haben somit noch explorativen Charakter; zur Verifizierung ihrer Ergebnisse sollten Bestätigungsversuche mit anderen Methoden wie zum Beispiel mittels „real time“-PCR durchgeführt werden. Derzeit gibt es noch keine einheitlich verwendeten Standards, anhand derer die Ergebnisse von Microarray-Studien beurteilt werden können. Die Microarray-Methode besitzt jedoch ein enormes Entwicklungspotenzial, das in der Erforschung von Ursachen und Therapien komplexer Krankheiten zu Erfolgen führen kann.
Die Autorinnen erklären, dass kein Interessenkonflikt im Sinne der Richtlinien des International Committee of Medical Journal Editors besteht.
Manuskript eingereicht: 1. 3. 2004, revidierte Fassung angenommen: 13. 7. 2004
zZitierweise dieses Beitrags:
Dtsch Arztebl 2005; 102: A 355–360 [Heft 6]


Die Zahlen in Klammern beziehen sich auf das Literaturverzeichnis, das beim Verfasser erhältlich oder im Internet unter www.aerzteblatt.de/lit0605 abrufbar ist.
Anschrift für die Verfasserinnen:
Prof. Dr. rer. nat. Maria Blettner
Institut für Medizinische Biometrie, Epidemiologie
und Informatik
Klinikum der Universität Mainz
Obere Zahlbacher Straße 69, 55131 Mainz
E-Mail: blettner@imbei.uni-mainz.de
1.
Alizadeh AA, Eisen MB, Davis RE et al.: Distinct types of diffuse large B-cell lymphoma identified by gene expression profiling. Nature 2000; 403: 503–511. MEDLINE
2.
Amaratunga D, Cabrera J: Exploration and analysis of DNA microarray and protein array data. Hoboken: Wiley 2003.
3.
Beißbarth T, Fellenberg K, Brors B et al.: Processing and quality control of DNA array hybridization data. Bioinformatics 2000; 16: 1014–1022. MEDLINE
4.
Bekal S, Brousseau R, Masson L, Prefontaine G, Fairbrother J, Harel J: Rapid identification of Escherichia coli pathotypes by virulence gene detection with DNA-microarrays. J Clin Microbiol 2003; 41: 2113–2125. MEDLINE
5.
Benjamini Y, Hochberg Y: Controlling the false discovery rate: a practical and powerful approach to multiple testing. J Roy Stat Soc B Met 1995; 57: 289–300.
6.
Brazma A, Hingamp P, Quackenbush J et al.: Minimum information about a microarray experiment (MIAME) – towards standards for microarray data. Nat Genet 2001; 29: 365–371. MEDLINE
7.
Broekhuijsen M, Larsson P, Johansson A et al.: Genome-wide DNA microarray analysis of Francisella tularensis strains demonstrates extensive genetic conservation within the species but identifies regions that are unique to the highly virulent F. tularensis subsp. tularensis. J Clin Microbiol 2003; 41: 2924– 2931. MEDLINE
8.
Brown MP, Grundy WN, Lin D et al.: Knowledge based analysis of microarray gene expression by using support vector machines. Proc Natl Acad Sci USA 2000; 97: 262–267. MEDLINE
9.
Chang JC, Wooten EC, Tsimelzon A et al.: Gene expression profiling for the prediction of therapeutic response to docetaxel in patients with breast cancer. Lancet 2003; 362: 362–369. MEDLINE
10.
Dudoit S, Fridlyand J, Speed TP: Comparison of discrimination methods for the classification of tumors using gene expression data. J Am Stat Assoc 2002; 97: 77–87.
11.
Dudoit S, Shaffer JP, Boldrick JC: Multiple hypothesis testing in microarray experiments. Stat Sci 2003: 18: 71–103.
12.
Dudoit S, Yang YH, Callow MJ, Speed TP: Statistical methods for identifying differentially expressed genes in replicated cDNA microarray experiments. Stat Sinica 2002; 12: 111–139.
13.
Duggan DJ, Bittner M, Chen Y, Meltzer P, Trent JM: Gene expression profiling using cDNA microarrays. Nat Genet 1999; 21: 10–14. MEDLINE
14.
Eisen MB, Spellman PT, Brown PO, Botstein D: Cluster analysis and display of genome-wide expression patterns. Proc Natl Acad Sci USA 1998; 95: 14863–14868. MEDLINE
15.
Fukushima M, Kakinuma K, Hayashi H, Nagai H, Ito K, Kawaguchi R: Detection and identification of mycobacterium species isolates by DNA microarray. J Clin Microbiol 2003; 41: 2605–2615. MEDLINE
16.
Golub TR, Slonim DK, Tamayo P et al.: Molecular classification of cancer: class discovery and class prediction by gene expression monitoring. Science 1999; 286: 531–537. MEDLINE
17.
Gu CC, Rao DC, Stormo G, Hicks C, Province MA: Role of gene expression microarray analysis in finding complex disease genes. Genet Epidemiol 2002; 23: 37–56. MEDLINE
18.
Haab B: Methods and applications of antibody microarrays in cancer research. Proteomics 2003; 3: 2116–2122. MEDLINE
19.
Lee ML, Kuo FC, Whitmore GA, Sklar J: Importance of replication in microarray gene expression studies: Statistical methods and evidence from repetitive cDNA hybridisations. Proc Natl Acad Sci USA 2000; 97: 9834–9839. MEDLINE
20.
Li J, Chen S, Evans DH: Typing and subtyping influenza virus using DNA microarrays and multiplex reverse transcriptase PCR. J Clin Microbiol 2001; 39: 696–704. MEDLINE
21.
Nguyen DV, Arpat AB, Wang N, Carroll RJ: DNA microarray experiments: biological and technological aspects. Biometrics 2002; 58: 701–717. MEDLINE
22.
Parmigiani G, Garrett ES, Irizarry RA, Zeger SL, ed.: The analysis of gene expression data. New York: Springer 2003.
23.
Perou CM, Jeffrey SS, van de Rijn M et al.: Distinctive gene expression patterns in human mammary epithelial cells and breast cancers. Proc Natl Acad Sci USA 1999; 96: 9212–9217. MEDLINE
24.
Perou CM, Sørlie T, Eisen MB et al.: Molecular portraits of human breast tumours. Nature 2000; 406: 747–752. MEDLINE
25.
Quackenbush J: Computational analysis of microarray data. Nat Rev Genet 2001; 2: 418–427. MEDLINE
26.
Schadt EE, Li C, Ellis B, Wing HW: Feature extraction and normalization algorithms for high-density oligonucleotide gene expression array data. J Cell Biochem 2001; Suppl. 37: 120–125. MEDLINE
27.
Schena M, Shalon D, Davis RW, Brown PO: Quantitative monitoring of gene expression with a complementary DNA microarray. Science 1995; 270: 467– 470. MEDLINE
28.
Schena M: Microarray analysis. Hoboken: Wiley 2003.
29.
Schuchhardt J, Beule D, Malik A et al. : Normalization strategies for cDNA microarrays. Nucleic Acids Res 2000; 28: e47. MEDLINE
30.
Sørlie T, Perou CM, Tibshirani R et al.: Gene-expression patterns of breast carcinomas distinguish tumor subclasses with clinical implications. Proc Natl Acad Sci USA 2001; 98: 10869–10874. MEDLINE
31.
Speed T, ed.: Statistical analysis of gene expression microarray data. Boca Raton: Chapman & Hall CRC 2003.
32.
Tamayo P, Slonim D, Mesirov Q et al.: Interpreting patterns of gene expression with self-organizing maps: methods and application to hematopoetic differentiation. Proc Natl Acad Sci USA 1999; 96: 2907–2912. MEDLINE
33.
Tseng GC, Oh MK, Rohlin L, Liao JC, Wong WH: Issues in cDNA microarray analysis: quality filtering, channel normalization, models of variations and assessment of gene effects. Nucleic Acids Res 2001; 29: 2549– 2557. MEDLINE
34.
Tusher VG, Tibshirani R, Chu G: Significance analysis of microarrays applied to the ionising radiation response. Proc Natl Acad Sci USA 2001; 98: 5116– 5121. MEDLINE
35.
Van de Vijver MJ, Yudong DH, Van't Veer LJ et al.: A gene-expression signature as a predictor of survival in breast cancer. N Engl J Med 2002; 347: 1999– 2009. MEDLINE
36.
Volokhov D, Rasooly A, Chumakov K, Chizikhov V: Identification of Listeria species by microarray-based assay. J Clin Microbiol 2002; 40: 4720–4728. MEDLINE
37.
Westfall PH, Young SS: Resampling based multiple testing: examples and methods for p-value adjustment. New York: Wiley 1993.
38.
Yang YH, Dudoit S, Luu P et al.: Normalization for cDNA microarray data: a robust composite method addressing single and multiple slide systematic variation. Nucleic Acids Res 2002; 30: e15. MEDLINE
39.
Yang YH, Speed T: Design issues for cDNA microarray experiments. Nat Rev Genet 2002; 3: 579–588. MEDLINE
1. Alizadeh AA, Eisen MB, Davis RE et al.: Distinct types of diffuse large B-cell lymphoma identified by gene expression profiling. Nature 2000; 403: 503–511. MEDLINE
2. Amaratunga D, Cabrera J: Exploration and analysis of DNA microarray and protein array data. Hoboken: Wiley 2003.
3. Beißbarth T, Fellenberg K, Brors B et al.: Processing and quality control of DNA array hybridization data. Bioinformatics 2000; 16: 1014–1022. MEDLINE
4. Bekal S, Brousseau R, Masson L, Prefontaine G, Fairbrother J, Harel J: Rapid identification of Escherichia coli pathotypes by virulence gene detection with DNA-microarrays. J Clin Microbiol 2003; 41: 2113–2125. MEDLINE
5. Benjamini Y, Hochberg Y: Controlling the false discovery rate: a practical and powerful approach to multiple testing. J Roy Stat Soc B Met 1995; 57: 289–300.
6. Brazma A, Hingamp P, Quackenbush J et al.: Minimum information about a microarray experiment (MIAME) – towards standards for microarray data. Nat Genet 2001; 29: 365–371. MEDLINE
7. Broekhuijsen M, Larsson P, Johansson A et al.: Genome-wide DNA microarray analysis of Francisella tularensis strains demonstrates extensive genetic conservation within the species but identifies regions that are unique to the highly virulent F. tularensis subsp. tularensis. J Clin Microbiol 2003; 41: 2924– 2931. MEDLINE
8. Brown MP, Grundy WN, Lin D et al.: Knowledge based analysis of microarray gene expression by using support vector machines. Proc Natl Acad Sci USA 2000; 97: 262–267. MEDLINE
9. Chang JC, Wooten EC, Tsimelzon A et al.: Gene expression profiling for the prediction of therapeutic response to docetaxel in patients with breast cancer. Lancet 2003; 362: 362–369. MEDLINE
10. Dudoit S, Fridlyand J, Speed TP: Comparison of discrimination methods for the classification of tumors using gene expression data. J Am Stat Assoc 2002; 97: 77–87.
11. Dudoit S, Shaffer JP, Boldrick JC: Multiple hypothesis testing in microarray experiments. Stat Sci 2003: 18: 71–103.
12. Dudoit S, Yang YH, Callow MJ, Speed TP: Statistical methods for identifying differentially expressed genes in replicated cDNA microarray experiments. Stat Sinica 2002; 12: 111–139.
13. Duggan DJ, Bittner M, Chen Y, Meltzer P, Trent JM: Gene expression profiling using cDNA microarrays. Nat Genet 1999; 21: 10–14. MEDLINE
14. Eisen MB, Spellman PT, Brown PO, Botstein D: Cluster analysis and display of genome-wide expression patterns. Proc Natl Acad Sci USA 1998; 95: 14863–14868. MEDLINE
15. Fukushima M, Kakinuma K, Hayashi H, Nagai H, Ito K, Kawaguchi R: Detection and identification of mycobacterium species isolates by DNA microarray. J Clin Microbiol 2003; 41: 2605–2615. MEDLINE
16. Golub TR, Slonim DK, Tamayo P et al.: Molecular classification of cancer: class discovery and class prediction by gene expression monitoring. Science 1999; 286: 531–537. MEDLINE
17. Gu CC, Rao DC, Stormo G, Hicks C, Province MA: Role of gene expression microarray analysis in finding complex disease genes. Genet Epidemiol 2002; 23: 37–56. MEDLINE
18. Haab B: Methods and applications of antibody microarrays in cancer research. Proteomics 2003; 3: 2116–2122. MEDLINE
19. Lee ML, Kuo FC, Whitmore GA, Sklar J: Importance of replication in microarray gene expression studies: Statistical methods and evidence from repetitive cDNA hybridisations. Proc Natl Acad Sci USA 2000; 97: 9834–9839. MEDLINE
20. Li J, Chen S, Evans DH: Typing and subtyping influenza virus using DNA microarrays and multiplex reverse transcriptase PCR. J Clin Microbiol 2001; 39: 696–704. MEDLINE
21. Nguyen DV, Arpat AB, Wang N, Carroll RJ: DNA microarray experiments: biological and technological aspects. Biometrics 2002; 58: 701–717. MEDLINE
22. Parmigiani G, Garrett ES, Irizarry RA, Zeger SL, ed.: The analysis of gene expression data. New York: Springer 2003.
23. Perou CM, Jeffrey SS, van de Rijn M et al.: Distinctive gene expression patterns in human mammary epithelial cells and breast cancers. Proc Natl Acad Sci USA 1999; 96: 9212–9217. MEDLINE
24. Perou CM, Sørlie T, Eisen MB et al.: Molecular portraits of human breast tumours. Nature 2000; 406: 747–752. MEDLINE
25. Quackenbush J: Computational analysis of microarray data. Nat Rev Genet 2001; 2: 418–427. MEDLINE
26. Schadt EE, Li C, Ellis B, Wing HW: Feature extraction and normalization algorithms for high-density oligonucleotide gene expression array data. J Cell Biochem 2001; Suppl. 37: 120–125. MEDLINE
27. Schena M, Shalon D, Davis RW, Brown PO: Quantitative monitoring of gene expression with a complementary DNA microarray. Science 1995; 270: 467– 470. MEDLINE
28. Schena M: Microarray analysis. Hoboken: Wiley 2003.
29. Schuchhardt J, Beule D, Malik A et al. : Normalization strategies for cDNA microarrays. Nucleic Acids Res 2000; 28: e47. MEDLINE
30. Sørlie T, Perou CM, Tibshirani R et al.: Gene-expression patterns of breast carcinomas distinguish tumor subclasses with clinical implications. Proc Natl Acad Sci USA 2001; 98: 10869–10874. MEDLINE
31. Speed T, ed.: Statistical analysis of gene expression microarray data. Boca Raton: Chapman & Hall CRC 2003.
32. Tamayo P, Slonim D, Mesirov Q et al.: Interpreting patterns of gene expression with self-organizing maps: methods and application to hematopoetic differentiation. Proc Natl Acad Sci USA 1999; 96: 2907–2912. MEDLINE
33. Tseng GC, Oh MK, Rohlin L, Liao JC, Wong WH: Issues in cDNA microarray analysis: quality filtering, channel normalization, models of variations and assessment of gene effects. Nucleic Acids Res 2001; 29: 2549– 2557. MEDLINE
34. Tusher VG, Tibshirani R, Chu G: Significance analysis of microarrays applied to the ionising radiation response. Proc Natl Acad Sci USA 2001; 98: 5116– 5121. MEDLINE
35. Van de Vijver MJ, Yudong DH, Van't Veer LJ et al.: A gene-expression signature as a predictor of survival in breast cancer. N Engl J Med 2002; 347: 1999– 2009. MEDLINE
36. Volokhov D, Rasooly A, Chumakov K, Chizikhov V: Identification of Listeria species by microarray-based assay. J Clin Microbiol 2002; 40: 4720–4728. MEDLINE
37. Westfall PH, Young SS: Resampling based multiple testing: examples and methods for p-value adjustment. New York: Wiley 1993.
38. Yang YH, Dudoit S, Luu P et al.: Normalization for cDNA microarray data: a robust composite method addressing single and multiple slide systematic variation. Nucleic Acids Res 2002; 30: e15. MEDLINE
39. Yang YH, Speed T: Design issues for cDNA microarray experiments. Nat Rev Genet 2002; 3: 579–588. MEDLINE

Leserkommentare

E-Mail
Passwort

Registrieren

Um Artikel, Nachrichten oder Blogs kommentieren zu können, müssen Sie registriert sein. Sind sie bereits für den Newsletter oder den Stellenmarkt registriert, können Sie sich hier direkt anmelden.

Fachgebiet

Zum Artikel

Anzeige

Alle Leserbriefe zum Thema

Stellenangebote