„Unsere Daten bilden 90 Prozent der deutschen Bevölkerung ab“

Montag, 2. Februar 2026

Bonn – Seit Oktober arbeitet das neu gegründete Forschungsdatenzentrum Gesundheit. Das Zentrum – angesiedelt beim Bundesinstitut für Arzneimittel und Medizinprodukte (BfArM) – soll Versorgungsforschung mit echten und möglichst aktuellen Daten aus dem deutschen Gesundheitswesen verbessern. Forschende aus Wissenschaft und Industrie, aber auch Krankenkassen dürfen die Daten nach Beantragung nutzen.

Wie der Start des FDZ Gesundheit lief, welche Forschungsprojekte mit den aktuell verfügbaren Daten durchgeführt werden können und wie das Datenzentrum in der Zukunft weiterentwickelt werden soll – inklusive Anbindung an die elektronische Patientenakte (ePA), darüber sprach das Deutsche Ärzteblatt mit dem Leiter des FDZ Gesundheit, Steffen Heß.

5 Fragen an Steffen Heß, Leiter des Forschungsdatenzentrum Gesundheit

Der Startschuss für das FDZ Gesundheit fiel Anfang Oktober 2025 nach einiger Verzögerung. Warum wurde das FDZ erst deutlich später eröffnet als geplant und wie lief der Start?
Der Start lief gut. Die ersten ein, zwei Wochen konnten wir im laufenden Betrieb nutzen, um Abläufe zu verbessern und technische Hürden auszuräumen. Mittlerweile haben wir knapp 80 registrierte Institutionen – die Registrierung ist der erste nötige Schritt vor der Antragstellung.

Es liegen rund 50 Forschungsanträge aus der Wissenschaft, also meist von Universitäten, aber auch von Krankenkassen und von der Industrie zu relativ gleichen Anteilen vor. Im Moment arbeiten etwas mehr als 15 Teams in unserer sicheren Verarbeitungsumgebung. Wir haben aber noch ausreichend Kapazitäten – sowohl in der Antragsbearbeitung als auch wie viele Personen gleichzeitig in der Arbeitsumgebung tätig sein können.

Die Verzögerung hatte mehrere Gründe. Die Komplexität auf unserer Seite, aber auch auf Dienstleisterseite hatten wir anfangs unterschätzt. Bei den Dienstleistern, die etwa für die technische Umsetzung der sicheren Verarbeitungsumgebung zuständig sind, wurde zwischendurch auch eine Änderung vorgenommen.

2020 war die Cloud-Technologie noch nicht auf dem Stand gewesen, dass wir sie hätten nutzen können. Deshalb haben wir ein Rechenzentrum von Null an aufgebaut, das hat die Komplexität deutlich erhöht. Wir wollten die Daten von vornherein so gut schützen wie möglich, so haben wir einige Sicherheitsschichten mehr eingezogen als ursprünglich geplant.

Mit diesen Voraussetzungen sind wir mit einem „Minimal Viable Product“ gestartet. Das System hat durchaus noch ein paar Ecken und Kanten, aber wir holen gerade sehr viel Nutzerfeedback ein, um es schnell verbessern zu können.

Welche Daten stellen Sie zur Verfügung? Woher kommen die Daten?
Wir verfügen über strukturierte Abrechnungsdaten aller gesetzlichen Krankenkassen seit 2009. Diese Daten sind aus Abrechnungsgründen erhoben worden, entsprechend muss man bei gewissen Fragestellungen mögliche Verzerrungen beachten.

Enthalten sind Diagnosecodes in ICD-Systematik, alle Verschreibungen im ambulanten Bereich sowie Prozeduren im niedergelassenen als auch stationären Bereich. Möglich ist auch die Betrachtung von gesundheitsökonomischen Fragestellungen. Mit dem neuen geplanten Datensatzmodell werden weitere Bereiche wie Heil- und Hilfsmittel sowie Hebammenleistungen ergänzt.

Die Daten kommen über die Datensammelstelle beim GKV-Spitzenverband und das Robert-Koch-Institut (RKI) zu uns. Das RKI vergibt allen Versicherten Pseudonyme, die erlauben, dass man sie über Jahre hinweg nachverfolgen kann, auch mit zukünftigen Daten. Wir bekommen also nur pseudonymisierte Daten. Diese sind dennoch schützenswert, weil es immer noch personenbezogene Daten sind. Insbesondere bei Personen mit sehr vielen medizinischen Informationen, wird es relativ schnell einzigartig. Deswegen haben wir die Sicherheitsvorkehrungen erhöht.

Forschende müssen maximal drei Monate von ihrem gestellten Antrag bis zur Datennutzung warten. Nach der Erstellung des Skripts im Analyseraum sind es nochmal maximal vier Wochen, bis sie die Ergebnisse bekommen. Die Zeiten hängen vom Bedarf ab, also wie viele Forschungsanträge gleichzeitig geprüft werden müssen, meist geht es deutlich schneller als die gesetzliche Frist es vorgibt.

Im ersten Halbjahr 2026 erfolgt zudem eine Umstellung, so dass wir künftig in jedem Quartal eine Aktualisierung erhalten und die Daten maximal drei Monate alt sein werden. Im Moment sind die letzten Daten von 2023, bald wird der Datensatz aber mit Daten aus 2025 aktualisiert.

Wie läuft das Antragsverfahren?
Es gibt zwei Möglichkeiten. Einerseits stellen Forschende Anträge mit genauen Forschungsfragen. Man kann aber auch einen Antrag stellen, der etwas mehr in die Breite geht und mit dem man die Daten etwas explorativer prüfen kann, um im zweiten Schritt die passende statistische Methodik zu wählen.

Um sich vorzubereiten, ist es hilfreich sich auf unserer Webseite das Informationsmaterial anzuschauen und zu prüfen, welche Zwecke mit der Forschung erfüllt werden sollen. In unserem Statistikportal kann man auch ein erstes Gefühl dafür bekommen, welche Daten wir haben.

Wenn der Antrag von uns positiv beschieden wird, erhalten die Forschenden Zugang zu der sicheren Verarbeitungsumgebung. Wichtig ist, dass man dafür gut vorbereitet ist, um die Ressourcen nicht unnötig zu belasten. Die Zeit darin wird begrenzt. Zudem kostet jeder Tag in der sicheren Verarbeitungsumgebung, für die Industrie sind es 1.000 Euro pro Tag. Akademische Forschende erhalten einen Rabatt von 90 Prozent. Es gibt weitere Ausnahmen, die in der Gebührenordnung festgehalten sind.

Wir bieten in der sicheren Umgebung nur Datenzuschnitte an. Wer etwa zu Atemwegserkrankungen bei Kindern forschen will, erhält keinen Zugang zu den Erwachsenendaten. In der Arbeitsumgebung, die über einen Webbrowser zugänglich ist, findet sich dann der entsprechende Datensatz sowie Auswertungssoftware (R-Studio, Python oder SQL), um die Analysen durchzuführen beziehungsweise ein Analyseskript zu entwickeln.

Die Daten kann man aber nicht herunterladen. Wenn man mit dem erzeugten Skript zufrieden ist, wird es gespeichert und wir lassen es dann auf den vollständigen Echtdaten laufen. Die daraus resultierende Ergebnismenge prüfen wir nochmal, bevor die Forschenden sie erhalten.

Wir führen außerdem ein Antragsregister, in dem alle positiv beschiedenen Anträge aufgelistet werden. Damit wollen wir Transparenz reinbringen und zeigen, wofür und mit welchen Daten geforscht wird.

Was kann man bei Ihnen erforschen? Geben Sie gerne ein Beispiel.
Mit unseren Daten kann man vor allem beobachtende Studien durchführen. Unsere große Stärke ist, dass wir Abrechnungsdaten seit 2009 haben und diese Daten je Versicherten auch über die Zeit hinweg verfolgen können, wenn sie im gesetzlichen Versicherungssystem bleiben. Auch wenn die Versicherten die gesetzliche Krankenkasse wechseln, bleiben sie nachverfolgbar. Damit bilden wir 90 Prozent der deutschen Bevölkerung in unserem Datensatz ab, eine gute Grundlage für repräsentative und longitudinale Studien.

Ein Beispiel wäre Versorgungsforschung, etwa bei Krebs. Für spezifische onkologische Krankheiten ist die Datenlage oft sehr kleinteilig. Da braucht es die große Basis der gesamten Bevölkerung, sodass man noch signifikante Gruppen erhält, die miteinander verglichen werden können.

Ein anderes Beispiel sind seltene Erkrankungen, auch hier ist der große Datenbestand eine Stärke. Zwar sind die ICD-Codes, die wir in unserem Datensatz hauptsächlich haben, in Richtung seltene Erkrankungen limitiert. Aber seit 2023 gibt es die Verpflichtung zur Kodierung der Orpha-Codes für seltene Erkrankungen, die ebenfalls enthalten sind.

Auch Krankenkassen stellen bei uns Anträge zur Forschung. Manche Krankenkassen haben nur wenig Versicherte und wissen gar nicht, ob das, was sie in ihren eigenen Daten sehen, verallgemeinerbar ist. Solche Fragen können mit unseren Daten getestet werden. Man kann auch krankenkassenspezifische Auswertungen bei uns beantragen, dafür braucht man aber die Zustimmung der einzelnen Krankenkasse.

Wie soll das FDZ weiterentwickelt werden? Welche Daten sollen künftig integriert werden?
Die Vision ist der europäische Gesundheitsdatenraum (EHDS). Die Umsetzungszeit dafür ist bis Frühjahr 2029. Zu dem Zeitpunkt soll es ein Gesundheitsdaten-Ökosystem geben. Als europäischer Forscher soll man dann alle europäischen Daten in irgendeiner Form nutzen können.

Die große Anzahl an Patientinnen und Patienten in Europa sowie die Heterogenität der verschiedenen Gesundheitssysteme bietet damit deutliches Potenzial für die künftige Forschung. Dafür sollen Informationen aus verschiedenen Datensätzen zu einer Person zusammengebracht werden können. Hierfür sind wir in Gesprächen mit dem Bundesgesundheitsministerium (BMG) und anderen wichtigen Organisationen.

In diese Richtung – ich nenne es „Record Linkage“ – gibt es bereits konkrete Planungen. Ein erster Schritt in Richtung Ökosystem ist die vorgesehene Datenlieferung aus der elektronischen Patientenakte (ePA), die in der zweiten Jahreshälfte 2026 erfolgen soll. Diese Verknüpfung bietet einen großen Mehrwert, weil Abrechnungsdaten beispielsweise nur anzeigen, dass ein kleines Blutbild beauftragt wurde, aber über keine Ergebnisse verfügen. Diese Daten werden jedoch in der ePA enthalten sein.

Wir starten im Herbst zunächst mit den strukturierten Daten aus der elektronischen Medikationsliste. Im kommenden Jahr soll es darüber hinaus strukturierte Labordaten in der ePA geben, die wir auch für Forschungszwecke zur Verfügung stellen können. Die PDF-Dokumente in der ePA sind für uns schwierig, da kommen wir ohne spezifische Methoden oder Künstliche Intelligenz nicht weiter. Gesetzlich Versicherte können vor der Datenausleitung widersprechen, so dass ihre Daten nicht zu Forschungszwecken genutzt werden.

Zweitens sind wir in Gesprächen mit den Landeskrebsregistern, sodass wir auch die Informationen aus den Landeskrebsregistern nutzbar machen können. Die Register verfügen über detaillierte Informationen insbesondere zur Therapie und zu Phänotypen. Schwierig ist hingegen, dass sie keine Vor- und Nachbeobachtungszeit haben. Der Datensatz der Krebsregister startet mit der Diagnose und endet nach erfolgter Behandlung. Mit der Verknüpfung der Abrechnungsdaten ist ein vollständigeres Bild möglich.

cmk

Diskutieren Sie mit:

Deutsches Ärzteblatt bei Google bevorzugen

Wenn Sie Deutsches Ärzteblatt als bevorzugte Quelle festlegen, können Inhalte von uns in Ihren Google-Ergebnissen sichtbarer erscheinen.

Jetzt bei Google bevorzugen

Diskutieren Sie mit

Werden Sie Teil der Community des Deutschen Ärzteblattes und tauschen Sie sich mit unseren Autoren und anderen Lesern aus. Unser Kommentarbereich ist ausschließlich Ärztinnen und Ärzten vorbehalten.

Anmelden und Kommentar schreiben
Bitte beachten Sie unsere Richtlinien. Der Kommentarbereich wird von uns moderiert.

„Unsere Daten bilden 90 Prozent der deutschen Bevölkerung ab“

Diskutieren Sie mit

Es gibt noch keine Kommentare zu diesem Artikel.

Newsletter-Anmeldung