ArchivDeutsches Ärzteblatt12/2018Diagnose-Apps: Wenig Evidenz

THEMEN DER ZEIT

Diagnose-Apps: Wenig Evidenz

Dtsch Arztebl 2018; 115(12): A-522 / B-454 / C-454

Merz, Sibille; Bruni, Tommaso; Gadebusch Bondio, Mariacarla

Als E-Mail versenden...
Auf facebook teilen...
Twittern...
Drucken...
LNSLNS

Schnelle und sichere Diagnosen wünschen sich alle. Das wachsende Angebot an diagnostischen Software-Tools will zu einer effizienteren Gesundheitsversorgung beitragen. Die Anwendenden – ob medizinisches Personal oder Kranke – müssen zunächst ohne Evidenz mit ihnen klarkommen.

Foto: Devrimb/iStockphoto
Foto: Devrimb/iStockphoto

Eine wachsende Anzahl mobiler Software-Applikationen zur Unterstützung der medizinischen Diagnosestellung werden Ärztinnen, Ärzten, Patientinnen und Patienten im Internet zum Download angeboten. Sie sollen die (Selbst-)Diagnostik erleichtern, zeitaufwendige Arztbesuche ersparen und Patienten zu medizinischer Expertise verhelfen. „Be your own physician now!“, werben zum Beispiel die Entwickler der App „Common Illnesses & Diagnosis“ (1). Gleich die gesamte Gesundheitsversorgung revolutionieren will „Babylon Health“, ein Dienstleister aus Großbritannien, der durch künstliche Intelligenz automatisierte Chatbots mit der Möglichkeit virtueller Arztbesuche per Smartphone verbindet. Und viele Laboranalysen lassen sich bereits jetzt bequem von zu Hause oder unterwegs vornehmen. Zum Beispiel erlaubt eine von dem US-amerikanischen Start-up-Unternehmen Biomeme entwickelte Anwendung die Durchführung mobiler Tests für sexuell übertragbare Krankheiten. Hierfür wird auf Grundlage der Untersuchungsprobe (Urin beziehungsweise Speichel) und mithilfe firmeneigener Software eine DNA-Analyse durchgeführt, deren Resultate über zelluläre Signalübermittlung, Kameras und das WLAN des genutzten Smartphones in einer App dargestellt werden. Binnen einer Stunde können die Nutzer die Testergebnisse auf ihren Smartphones oder Tablets einsehen. Bald soll ein ähnlicher Test auch für Patienten selbst auf den Markt kommen (2).

Anzeige

Solche digitalen Diagnoseformate versprechen, Betroffenen unkompliziert Zugang zu Informationen zu verschaffen und gegebenenfalls die gesundheitliche Orientierung zu erleichtern. Zukunftsvisionen von digital versierten Bürgern, die ihre gesundheitsrelevanten Daten selbst generieren, mit sich tragen und virtuelle Arzttermine wahrnehmen, nähren Hoffnungen auf eine Entlastung des Gesundheitssystems. Für Ärzte bieten Diagnose-Apps darüber hinaus einen effizienten und schnellen Zugang zu den in konkreten Situationen benötigten Informationen. In den USA sind diese Vorgänge bereits integraler Teil der medizinischen Ausbildung. In einigen Medical Schools wie zum Beispiel der Johns Hopkins University, der Stanford University oder der University of Chicago erhalten Medizinstudierende von Beginn an Tablets mit der entsprechenden Software. Ziel der medizindidaktischen Maßnahme ist es, effiziente, digital versierte und patientenzugewandte Ärzte auszubilden (3). Auch hierzulande zeigt sich ein breites und stetig wachsendes Angebot an virtuell verfügbaren Dienstleistungen, die dabei sind, Smartphones und Tablets in mobile Medizinberater zu verwandeln. In Deutschland tätige Ärzte erhoffen sich durch die teilweise Auslagerung der Diagnose eine signifikante Verbesserung des Arzt-Patienten-Verhältnisses durch die gewonnene Zeit zur eigentlichen Therapiebestimmung (4). Digitale Hilfsmittel werden als möglicher Ausweg von einem kräftezehrenden Alltag wahrgenommen, in dem Zeitmangel und Informationsüberflutung herrschen (4). Kaum bestreiten lassen sich auch die beachtlichen Kosteneinsparungen, die solche Angebote ermöglichen können.

Doch parallel dazu kursieren bedrückende Szenarien einer permanenten, fremdgesteuerten Überwachung durch digitale Technologien. Der Realisierung eines Gesundheitssystems, das zunehmend auf durch künstliche Intelligenz getroffenen Entscheidungen beruht, scheint man wieder einen Schritt nähergekommen zu sein. Sicherlich muss die Frage nach der Signifikanz menschlicher diagnostischer Kompetenzen und Fähigkeiten wie Empathie und emotionaler Intelligenz – bislang zentrale Bestandteile des ärztlichen Selbstverständnisses – in diesem Zusammenhang neu gestellt werden. Die rasante Verbreitung automatisierter, maschinengesteuerter Diagnosen wird ohne Zweifel Auswirkungen auf die Wertschätzung menschlichen Könnens, insbesondere in der Pflege, und auf die Arzt-Patienten-Beziehung nach sich ziehen.

Aber selbst jenseits dystopischer Visionen bleiben zwei zentrale Fragen unbeantwortet. Zum einen werden die Qualität der Datenerzeugung und die Nachhaltigkeit der Datensicherung sowie Datenschutz, -eigentum und -missbrauch kontrovers diskutiert. Bei jeder Anwendung einer App werden Daten generiert, die von den Anbietern gespeichert und – oft beliebig – weiterverwendet werden können. Nicht selten stehen hinter solchen Angeboten profitorientierte Unternehmen, die in der Künstliche-Intelligenz-Diagnose vor allem ein äußerst lukratives neues Marktsegment wittern. Daten können verkauft oder zum Akquirieren neuer Patente verwendet werden. Insbesondere bei kommerziellen Anbietern muss bei der prospektiven Sammlung von Daten, ähnlich wie bei industriellen Biobanken, die Reichweite der informierten Einwilligung und die Möglichkeiten des Widerrufs genau geprüft werden. In Anbetracht der potenziellen Schäden, die für Patienten durch die unfreiwillige Verbreitung ihrer gesundheitsbezogenen Daten entstehen können, muss gewährleistet werden, dass diese sicher gespeichert und nur mit expliziter Zustimmung verwendet werden dürfen. Die Anwendenden müssen zeitnah und transparent über die genaue Nutzung ihrer Daten informiert werden.

Zum anderen polarisiert die Frage nach der Evidenz, denn das Fehlen solider Studien berechtigt, an der Robustheit diagnostischer Künstliche-Intelligenz-Technologien zu zweifeln. Lassen sich aber die Methoden der evidenzbasierten Medizin mit den daraus abgeleiteten Leitlinien überhaupt in den Bereich der automatisierten Diagnose übertragen? Die Tatsache, dass virtuelle Diagnosen durch künstliche Intelligenz auf mannigfaltige Art und Weise durchführbar sind – zum Beispiel mit oder ohne ärztliche Begleitung, ausschließlich durch interaktive Programme, die auf Symptombeschreibungen basieren, oder auf Basis von Software, die körpereigene Proben examiniert -, erschwert eine systematische Evaluation und Kontrolle beträchtlich.

In der Tat werfen britische Mediziner insbesondere dem Babylon-Gründer Ali Parsa, promovierter Physiker, Ingenieur und Unternehmer, regelmäßig vor, dass der Beweis der Evidenz für die Vorteile seiner sich rasch verbreitenden Angebote noch ausstehe. Zwar versuchte Parsa beispielsweise, die Zuverlässigkeit und Sicherheit der Triage-App „Babylon Check“ durch eine wissenschaftliche Studie evidenzbasiert zu belegen. In einem semi-reellen Szenario, in dem professionelle Schauspieler als Patienten fungierten, führten zwölf Kliniker und 17 Pflegekräfte eine Triage-Performance aus. Die Patienten wurden entsprechend in drei Gruppen eingeteilt: Zur Überweisung in die Notaufnahme, zur Weiterbehandlung durch den Hausarzt und zur Selbstversorgung. Anschließend nutzten die Schauspieler die App Babylon Check zur Diagnose derselben Symptomatik. Die Ergebnisse suggerierten, dass die Leistungen der künstlichen Intelligenz akkurater, schneller und fehlerfreier seien als die von Pflege- beziehungsweise medizinischem Personal (5).

Wie die schottische Ärztin und Evidenz-Expertin Margaret McCartney allerdings kürzlich herausstellte, handelt es sich bei Parsas Studie mitnichten um ein valides Forschungsdesign (6). Fraglich blieb nicht nur, inwiefern der Einsatz von professionellen Schauspielern reale Bedingungen simulieren kann. Auch die Unabhängigkeit der Studie, die von fünf aktuellen oder ehemaligen Babylon-Mitarbeitern wie Parsa selbst durchgeführt, evaluiert und veröffentlicht wurde, lässt zu wünschen übrig – Parsas Versicherung der Neutralität zum Trotz. Was McCartney zu Recht vermisst, ist der Beweis der Wirksamkeit von Babylons Gesundheitsangebot in der realen Welt. Das nun im Norden Londons laufende Triage-Modellprojekt, eine Kooperation von Babylon und dem britischen National Health Service (NHS), scheint ebenso wenig lege artis angelegt worden zu sein. Auf die Fragen, ob die teilnehmenden Patienten über die experimentelle Situation aufgeklärt wurden, eine Ethik-Kommission involviert war und Studienprotokolle von Anfang an zugänglich gemacht worden seien, antwortet Parsa vage: „Ich bin sicher, der NHS hat all dies getan ...“ (7).

Auch wenn diagnostische Apps den Eindruck vermitteln, Symptome zuverlässig und präzise zu deuten und die Fehlerquote der angewendeten Algorithmen geringer erscheinen mag als bei den Diagnosen ausgebildeter Ärzte, bedarf es also einer genauen Prüfung. In der Tat zeigt eine konkurrierende Studie, welche die diagnostische Treffgenauigkeit des automatisierten Symptom Checkers „The Human Diagnosis Project“, kurz „Human Dx“, anhand 45 unterschiedlicher Fallbeschreibungen mit derjenigen ausgebildeter Ärzte verglich, gänzlich andere Resultate. Während Human Dx in lediglich 34 Prozent der Fälle zuerst die korrekte Diagnose stellte, lag die Trefferquote der teilnehmenden Ärzte bei 72,1 Prozent (8). Wenn mobile Technologien nicht nur in neue Untersuchungsinstrumente verwandelt werden können, sondern neue Apps womöglich alte Standards ersetzen (2), muss also systematisch geprüft werden, welche Sicherheit, Gültigkeit und Reproduzierbarkeit die entsprechenden Softwareprogramme garantieren.

Ohne das immer komplexer und unüberschaubarer werdende Konvolut an virtuellen Angeboten diagnostischer Natur einer kritischen Analyse zu unterziehen, bleiben die Kernfragen unbeantwortet: Helfen diese Informationen als Orientierung im Vorfeld eines Arzt- oder Krankenhausbesuchs? Welche Risiken, Vorteile und Nachteile entstehen, wenn sie als Alternative zum Arztbesuch genutzt werden und Patienten therapeutisch lenken? Wird die ärztliche Kompetenz künftig auch, oder sogar nur, darin bestehen, die richtige App im richtigen Augenblick abzurufen? Werden Patienten durch die Anwendung automatisierter Diagnosemöglichkeiten wirklich gesundheitskompetenter? Wie könnte eine kluge Anwendung digitaler Technologien zur Flankierung und Verbesserung des ärztlichen Erkenntnis- und Erfahrungskapitals aussehen? Und nicht zuletzt: Welche Instanz wird die Schwächen und Grenzen artifizieller Intelligenz prüfen, bekannt geben und beheben?

Zur Beantwortung dieser Fragestellungen sind interdisziplinär angelegte Studiendesigns unter Einbeziehung der anwendenden Personengruppen und medizininformatischer Technologien erforderlich, um die Komplexität der Entwicklungen adäquat erfassen zu können. Die Tragweite der Veränderungen involviert auch die über die Medizin reflektierenden Fächer an der Schnittstelle von Geistes-, Sozial- und Naturwissenschaften.

Sibille Merz M.A.,
Dr. phil. Tommaso Bruni,
Prof. Dr. phil. Dr. rer. med. habil.
Mariacarla Gadebusch Bondio,
Medizinhistorisches Institut,
Universitätsklinikum Bonn

Diese Publikation ist im Rahmen der durch die Deutsche Forschungsgemeinschaft (DFG) geförderten Forschergruppe 2448 entstanden.

Literatur im Internet:
www.aerzteblatt.de/lit1218
oder über QR-Code.

Welche Apps nutzen Sie?

Erfahrungen teilen und Empfehlungen an Kollegen und Kolleginnen weitergeben – in der neuen Rubrik „Apps“ haben Sie Gelegenheit dazu. Regelmäßig stellen wir hier Smartphone- und Tablet-Anwendungen aus den Bereichen Medizin und Gesundheit vor.

Schreiben Sie uns Ihre Erfahrungen: Welche Apps nutzen Sie? Warum eignen sie sich für den Praxisalltag, was kön

nte verbessert werden? Welche Anwendungen können Sie Kollegen oder auch Patienten empfehlen?

Wir freuen uns über Ihre Zuschrift an:

digital@aerzteblatt.de



Hoch hinaus und radikal neu?

Künstlich intelligente Diagnose- und Beratungs-Apps werden sowohl von Ärztinnen und Ärzten als auch von Patientinnen und Patienten zunehmend zur Unterstützung der Diagnosestellung genutzt. In Großbritannien ist vor allem der Anbieter Babylon Health auf dem gesundheitsökonomischen Vormarsch.

Gegründet von Ali Parsa im Jahr 2013, bietet Babylon unterschiedliche Dienstleistungen an, von virtuellen Sprechstunden mit Hausärzten und Experten per Internettelefonie bis hin zu einem automatisierten „Symptom Checker“ zur Selbstdiagnose von unterwegs. Dabei orientiert sich Babylon vor allem an dem eng getakteten Alltag der urbanen, digital höchst versierten Millennials, in den sich die virtuelle, allzeit verfügbare medizinische Beratung nahtlos einfügt. Trotz des steuerfinanzierten National Health Service (NHS) bezahlen diese bereitwillig rund 28 Euro für eine einmalige Beratung beziehungsweise 56 Euro für ein jährliches Abonnement, um die oft langen Wartezeiten niedergelassener NHS-Praxen zu umgehen; der künstlich intelligente Symptom Checker hingegen ist kostenlos. Zwischen Januar 2016 und April 2017 verzeichnete die Firma einen Zuwachs um 600 Prozent an weltweiten Neuregistrierungen, Zeugnis für die Beliebtheit virtueller medizinischer Dienstleistungen.

Trotz Parsas groß angelegtem Projekt, sogleich nach der radikalen Revolution der Medizin zu streben und diese grenzüberschreitend zu demokratisieren, mangelt es aber an der wissenschaftlichen Evaluation vieler Angebote, die Zweifel an der Evidenzbasiertheit ihrer diagnostischen Fähigkeiten nährt.

1.
Jutel A und Lupton D: Digitizing diagnosis: a review of mobile applications in the diagnostic process. Diagnosis 2015, 2 (2): 89–96.
2.
Murgia M: How smartphones are transforming healthcare. Financial Times, 12 January 2017. Online: https://www.ft.com/content/1efb95ba-d852–11e6–944b-e7eb37a6aa8e.
3.
Hafner K: Redefining Health with Apps and iPads. The New York Times, 8.October 2012. http://www.nytimes.com/2012/10/09/science/redefining-medicine-with-apps-and-ipads-the-digital-doctor.html.
4.
Recktenwald L: Realitäts-Check – Nutzen Ärzte Health Apps? https://www.coliquio-insights.de/nutzen-aerzte-health-apps-exklusive-umfrage/.
5.
Middleton K, Butt M, Hammerla N, Hamblin S und Parsa A: Sorting out symptoms: design and evaluation of the ‚babylon check‘ automated triage system. Pre-publication version online: https://arxiv.org/abs/1606.02041.
6.
McCartney M: Innovation without sufficient evidence is a disservice to all. BMJ 2017, 358: 3980 CrossRef MEDLINE
7.
Porter M: Robo-docs, using AI to diagnose; Pancreatic cancer; Statins and muscle aches. BBC Radio 4, http://www.bbc.co.uk/programmes/b08x9ckx.
8.
Semigran HL, Levine DM, Nundy S, Mehrotra A: Comparison of Physician and Computer Diagnostic Accuracy. JAMA Internal Medicine2016; 176 (12): 1860–61 CrossRef MEDLINE
1.Jutel A und Lupton D: Digitizing diagnosis: a review of mobile applications in the diagnostic process. Diagnosis 2015, 2 (2): 89–96.
2.Murgia M: How smartphones are transforming healthcare. Financial Times, 12 January 2017. Online: https://www.ft.com/content/1efb95ba-d852–11e6–944b-e7eb37a6aa8e.
3.Hafner K: Redefining Health with Apps and iPads. The New York Times, 8.October 2012. http://www.nytimes.com/2012/10/09/science/redefining-medicine-with-apps-and-ipads-the-digital-doctor.html.
4.Recktenwald L: Realitäts-Check – Nutzen Ärzte Health Apps? https://www.coliquio-insights.de/nutzen-aerzte-health-apps-exklusive-umfrage/.
5.Middleton K, Butt M, Hammerla N, Hamblin S und Parsa A: Sorting out symptoms: design and evaluation of the ‚babylon check‘ automated triage system. Pre-publication version online: https://arxiv.org/abs/1606.02041.
6.McCartney M: Innovation without sufficient evidence is a disservice to all. BMJ 2017, 358: 3980 CrossRef MEDLINE
7.Porter M: Robo-docs, using AI to diagnose; Pancreatic cancer; Statins and muscle aches. BBC Radio 4, http://www.bbc.co.uk/programmes/b08x9ckx.
8.Semigran HL, Levine DM, Nundy S, Mehrotra A: Comparison of Physician and Computer Diagnostic Accuracy. JAMA Internal Medicine2016; 176 (12): 1860–61 CrossRef MEDLINE

Leserkommentare

E-Mail
Passwort

Registrieren

Um Artikel, Nachrichten oder Blogs kommentieren zu können, müssen Sie registriert sein. Sind sie bereits für den Newsletter oder den Stellenmarkt registriert, können Sie sich hier direkt anmelden.

Themen:

Fachgebiet

Zum Artikel

Anzeige

Alle Leserbriefe zum Thema

Anzeige