ArchivDeutsches Ärzteblatt14/2010Krebsgenomprojekt (2): Ungeheure Datenfluten

THEMEN DER ZEIT

Krebsgenomprojekt (2): Ungeheure Datenfluten

Dtsch Arztebl 2010; 107(14): A-650 / B-566 / C-558

Krüger-Brand, Heike E.

Als E-Mail versenden...
Auf facebook teilen...
Twittern...
Drucken...
LNSLNS Im deutschen Teilprojekt des internationalen Krebsgenomkonsortiums erzeugte Genomdaten werden am Forschungszentrum BioQuandt der Universität Heidelberg gespeichert und für funktionelle Analysen bereitgestellt.

Foto: iStockphoto
Foto: iStockphoto
Weltmeister im Datengenerieren war in der Wissenschaftswelt bislang immer die Hochenergiephysik. Aktuelle Hochrechnungen zeigen jedoch, dass schon bald die Genomsequenzierung die Teilchenphysik in dieser Hinsicht schlagen wird“, erklärt Prof. Dr. Roland Eils, Professor für Bioinformatik und Funktionelle Genomik an der Universität Heidelberg sowie Leiter der Abteilung Theoretische Bioinformatik am Deutschen Krebsforschungszentrum (DKFZ). Im deutschen ICGC-Forschungsverbund (International Cancer Genome Consortium) sollen die molekulargenetischen Ursachen von Hirntumoren bei Kindern erforscht werden. Dazu analysieren die Experten jeweils 300 Tumorproben des Medulloblastoms und des pilozytischen Astrozytoms. Hinzu kommt die gleiche Anzahl von gesunden Proben derselben Patienten, um krebsspezifische Veränderungen erkennen zu können. Dabei wird unter anderem mit verschiedenen Methoden die Sequenz der DNA-Bausteine im Kern der Zellen erfasst.

Das Erbgut einer Zelle ist aus rund drei Milliarden Bausteinen zusammengesetzt, die bei den verschiedenartigen Analysen bis zu 30-fach erfasst werden, um die Qualität der Ergebnisse abzusichern. „Ein Sequenzierer spuckt neben den reinen Sequenzdaten eine Menge anderer Daten aus, die man braucht, um zu verstehen, wie zuverlässig ist eigentlich die Information, dass an der Stelle zum Beispiel A, C, G oder T steht. Man speichert also die Sequenz plus statistische Zusatzinformationen ab. Unsere Recheneinheit ist Bytes per Base. Der Standard, der zurzeit in der Bioinformatik-Community herrscht, liegt bei 30 Bytes per Base (= pro DNA-Baustein). Jede Position im Genom wird 30-mal sequenziert, um Fehler auszumerzen. Letztlich kommt man auf 90 Milliarden Basenpaare mal 30 (30 Bytes per Base), das heißt, es sind im Wesentlichen 2,7 Terabyte pro Sequenz. Und wir haben 1 200 Genome, hochgerechnet sind das etwa 3,2 Petabyte“, rechnet Eils vor.

Bei Eils laufen sämtliche Daten der deutschen ICGC-Projekte zusammen. Um diese immensen Datenmengen zu verwalten, baut er in seiner Funktion als Gründungsdirektor am universitären Forschungszentrums BioQuant derzeit eine der weltweit größten Datenspeichereinheiten für die Lebenswissenschaften auf. „Beim ICGC-Verbund werden wir mit einer völlig neuen Aufgabenstellung auf der IT-Seite konfrontiert, nämlich dergestalt, dass wir eine ungeheure Datenflut zu bewältigen haben, die es in dieser Größenordnung in den Lebenswissenschaften noch nie gegeben hat. Das heißt, wir haben im Prinzip zwei Probleme zu adressieren: Einmal geht es darum, diese Daten zu speichern und zu verwalten, und dann sind die Daten natürlich auch zu analysieren“, beschreibt Eils die Herausforderung. Der Mathematiker ist für die gesamte Bioinformatik im deutschen ICGC-Projekt verantwortlich – sowohl für die Datenanalyse am DKFZ als auch für das Datenmanagement am BioQuant-Zentrum.

Wenn der Aufbau des mit fünf Millionen Euro vom Bund und vom Land Baden-Württemberg geförderten Datenzentrums abgeschlossen ist, wird am Wissenschaftsstandort Heidelberg für die lebenswissenschaftliche Forschung eine „Large Scale Data Facility“ von mehr als fünf Petabyte Speicherkapazität zur Verfügung stehen. „Zur Veranschaulichung: Fünf Petabyte sind 5 000 Terabyte oder fünf Millionen Gigabyte. Die größten Festplatten, die bis Ende 2009 auf dem Markt waren, hatten eine Kapazität von einem Terabyte, inzwischen gibt es auch Zwei-Terabyte-Festplatten“, erläutert Eils. Eine große Anzahl von Festplatten muss zusammen mit den entsprechenden Ausfallsicherheitsleveln flexibel und dynamisch verwaltet werden, bis hin zur Langzeitarchivierung der anfallenden Datenmengen.

Datentranfer über die normale Autobahn
Einen Großteil der Sequenzierarbeiten werden externe Laboratorien übernehmen. Die Frage ist daher: Wie kommen die Daten aus der Sequenziermaschine in die Data Facility nach Heidelberg? Glasfaser wäre zu teuer, und das Internet kommt mangels Bandbreite nicht infrage: „Der schnellste Transfer per Internet beträgt zehn Gigabit pro Sekunde. Selbst wenn wir eine 10-Gigabit- Leitung exklusiv für uns hätten, würde es 30 Stunden dauern, um zum Beispiel 100 Terabyte über diese Leitung zu schicken. Die Schnellverbindung ist daher – die ‚normale‘ Autobahn. Es klingt fast anachronistisch, aber die einzige Art und Weise, Datenmengen in dieser Größe von A nach B zu bekommen, ist, dass Sie die in einem Computerrack gespeicherten Daten auf einen Lkw stellen und diesen dann von A nach B fahren, um die Daten einzulesen“, erklärt Eils. Anders als etwa bei physikalischen Aufgaben, die in viele kleine Häppchen zerteilt und auf die weltweite Forschungscommunity verteilt werden können, erfordert die lebenswissenschaftliche Forschung, insbesondere die Genomanalyse, den Zugriff auf die Gesamtheit der Daten. „Wenn wir wissen wollen, was patientenspezifisch für Mutationen aufgetreten sind im Vergleich zu den Normalgenomen aus der Keimbahn, müssen wir alle Patienteninformationen auf einmal analysieren. Das heißt, unsere Usecases liegen in der Größenordnung von Hunderten von Terabytes, und wir können nicht einfach sagen: Wir analysieren heute mal ein halbes Terabyte in Heidelberg, ein halbes Terabyte in München und so weiter“, erklärt Eils. Eingesetzt werden Verfahren der Mustererkennung, um herauszufinden, welche Gene im Tumorgenom im Vergleich zum Normalgenom auf DNA-Ebene mutiert sind und wie häufig.

Computingcluster nahe beim Datencluster
Forscher, die auf die gespeicherten Datenmassen zugreifen wollen, können sich im System einloggen, müssen allerdings „lokal“ rechnen. „Unter der Maßgabe, dass es allein für 100 Terabyte bereits 30 Stunden dauern würde, die Daten hin- und herzuschieben, muss lokal gerechnet werden. Das heißt, die Computingcluster, die mit diesen Daten rechnen, müssen direkt neben dem Datencluster stehen.“ Das Computingcluster ist in diesem Fall beim DKFZ beheimatet, jedoch mit der BioQuant-Datenspeichereinheit geografisch so nahe verbunden, dass sich mit schnellen Technologien wie der Fibre-Channel-Technologie, die eine deutlich höhere Bandbreite hat als Internet per Glaskabel, höhere Transferraten erzielen lassen.

Innerhalb des Projekts arbeiten allein in Heidelberg bis zu zehn Bioinformatiker mit den Daten, hinzu kommen bis zu 20 Forscher aus den anderen am Konsortium beteiligten Projektgruppen. Geplant ist zudem, die Daten entweder unmittelbar nach der Generierung und Qualitätssicherung oder aber mit einem geringen Zeitverzug auch für die weltweite Bioinformatik-Community zugänglich zu machen. Voraussichtlich wird dies nicht in Form der Massenrohdaten, sondern zunächst auf einer reduzierten Ergebnisebene geschehen können.
Heike E. Krüger-Brand
Anzeige

Leserkommentare

E-Mail
Passwort

Registrieren

Um Artikel, Nachrichten oder Blogs kommentieren zu können, müssen Sie registriert sein. Sind sie bereits für den Newsletter oder den Stellenmarkt registriert, können Sie sich hier direkt anmelden.

Fachgebiet

Zum Artikel

Anzeige

Alle Leserbriefe zum Thema