ArchivDÄ-TitelSupplement: PRAXiSPRAXiS 4/2006Text Mining: Intelligente Suchwerkzeuge nach Maß

Supplement: PRAXiS

Text Mining: Intelligente Suchwerkzeuge nach Maß

Dtsch Arztebl 2006; 103(40): [25]

Herzog, Christian

Als E-Mail versenden...
Auf facebook teilen...
Twittern...
Drucken...
LNSLNS Information-Push-Dienste für den Kliniker und Analysewerkzeuge für den Wissenschaftler – mit dem Text-Mining-Verfahren lassen sich beide Anforderungen unterstützen.

Die Suche in medizinischen Fachpublikationen gestaltet sich für den wissenschaftlich und den klinisch tätigen Arzt oft mühsam. Allein in Medline, der Literaturdatenbank der National Library of Medicine (www.pub med.org), stehen mehr als 15 Millionen Fachartikel als Abstracts zur Verfügung, und jährlich kommen mehr als 500 000 neue Einträge hinzu. Klassische Suchstrategien helfen hier nur bedingt weiter oder gestalten sich sehr zeitraubend, was insbesondere den klinischen Arbeitsprozess behindert.
Die Bedürfnisse der beiden Zielgruppen – des wissenschaftlich tätigen Mediziners und des klinisch tätigen Arztes – unterscheiden sich dabei erheblich: Der Kliniker ist auf gesicherte Erkenntnisse, leitlinienbasierte Dokumente, Fallberichte und Ähnliches angewiesen und weniger an Ergebnissen von Grundlagenforschung interessiert. Im Unterschied dazu interessieren den Wissenschaftler neueste Entwicklungen in seinem Arbeitsgebiet; er benötigt Unterstützung bei der Identifikation neuer Ansätze und will einen möglichst vollständigen Überblick über ein Themenfeld erhalten.
Wie lassen sich diese unterschiedlichen Informationsanforderungen erfüllen? Klassische Suchzugänge, die stichwortgetrieben die relevanten Ergebnisse liefern, sind im Alltag unerlässlich und hilfreich. Will man aber einen Themenkomplex in der Tiefe analysieren, müssen andere Werkzeuge eingesetzt werden. Ebenso lassen sich dem klinisch tätigen Arzt Zugänge zu Fachwissen eröffnen, die ihn proaktiv mit Wissen versorgen.
Inhaltliche Analyse
Möglich wird eine solche angepasste Informationsversorgung auf der Basis von etablierten Technologien, mit denen sprachliche Texte analysiert werden können. Ein Beispiel hierfür ist die Collexis Fingerprint Core Engine, eine ontologiebasierte Indexierungs- und Retrievalengine, die speziell für den biomedizinischen Bereich entwickelt wurde und von großen Organisationen, wie etwa der WHO, und verschiedenen Pharmaunternehmen, eingesetzt wird. Mit dieser Technologie ist es möglich, wissenschaftliche Veröffentlichungen inhaltlich zu analysieren und in intelligenten Anwendungen genau entsprechend dem Informationsbedürfnis des Nutzers zu präsentieren („Fingerprint-Technologie“).
Auf dieser Grundlage wurden zwei Anwendungen entwickelt, die den beschriebenen unterschiedlichen Informationszugangsbedürfnissen des Arztes und des Wissenschaftlers Rechnung tragen: „Clinical Consult“ und „Knowledge Cockpit“. Beide verwenden bei der Indexierung mehrere Ontologien, darunter MeSH (Medical Subject Headings), UMLS (Unified Medical Language System) und einen speziell entwickelten Gen-Thesaurus.
Information-Push-Service für den Kliniker
Mit der Lösung „Clinical Consult“ (www.clinicalconsult.syynx.de) werden dem Arzt relevante Fachartikel und Guidelines im Arbeitsprozess zur Verfügung gestellt – automatisiert für den Patienten recherchiert, den er gerade behandelt. Diese automatisierte „Wissensversorgung“ wird durch die anonymisierte Übermittlung von ICD-Codes, Geschlecht und Alter ermöglicht, welche als Ausgangsbasis für die Recherche verwendet werden. Eine Datenbasis, auf die die Anwendung zugreift, ist die medizinische Literaturdatenbank „PubMed“. Dabei werden dem Arzt vor allem klinisch relevante Publikationen angezeigt (wie Cochrane Reviews, Fallbeispiele und Guidelines).
Gleichzeitig werden dem Arzt weitere Suchverfeinerungen vorgeschlagen, mit denen er die Ergebnisse entsprechend der besonderen Situation des Patienten anpassen kann. So kann er beispielsweise mit einem Mausklick das dem Patienten verschriebene Medikament hinzufügen und erhält direkt die spezifischen Fachinformationen dazu angezeigt (Abbildung 1).
Das Hauptaugenmerk liegt darauf, den Arzt im gedrängten klinischen Alltag nicht mit Informationen zu überfluten, sondern durch die Einbindung von Informationsangeboten in den Workflow den Arzt zur Auseinandersetzung mit Innovationen und Fachveröffentlichungen anzuregen.
Die Lösung ist inzwischen in verschiedene Krankenhausinformationssysteme integriert (beispielsweise in die Systeme von Agfa und Isoft), die Einbindung in Praxissoftwaresysteme steht bevor.
Darüber hinaus wird auch die integrierte Datenbasis erweitert, um zusätzlich zu Medline auch weitere klinisch relevante Informationen von Verlagen und Fachgesellschaften zu integrieren. Gemeinsam mit dem Fraunhofer-Institut für Software und Systementwicklung (ISST) in Dortmund werden im Smart Health Lab des ISST neue Funktionalitäten entwickelt, erprobt und umgesetzt, etwa die Einbeziehung des Kontextes von Behandlung und Behandler in die Informationsversorgung, um noch spezifischere Lösungen bieten zu können.
Der Überblick für den Wissenschaftler
Für den Wissenschaftler steht nicht die automatisierte Versorgung mit klinisch relevanten Informationen im Vordergrund, sondern im wissenschaftlichen Arbeitsprozess geht es um einen möglichst vollständigen Überblick über ein Arbeitsgebiet, über die in einem Themengebiet aktiven Experten sowie um Assoziationsmöglichkeiten als Motor wissenschaftlicher Innovation. Diese Anforderungen sind mit der Lösung „Knowledge Cockpit“ (www.knowledgecockpit.syynx.de) umgesetzt. Mit dieser Software kann der Wissenschaftler ein Themengebiet in „PubMed“ eingrenzen und dieses dann in der Tiefe analysieren.
Dazu werden die Publikationen – bis zu 250 000 Abstracts zu einem Thema – in ein System integriert, das nicht einen klassischen Suchzugang bietet, bei dem die relevanten Publikationen über die Eingabe von Suchbegriffen identifiziert werden. Stattdessen werden alle Publikationen aufbereitet und unter einer ontologiebasierten Navigation so verfügbar gemacht, dass der Nutzer sich einen schnellen Überblick verschaffen kann.
Intuitives Arbeiten
Ist ein Wissenschaftler beispielsweise am Thema „Alzheimer“ interessiert, werden 40 000 „PubMed“-Publikationen in eine solche Anwendung integriert. Hier kann er nun intuitiv explorieren, welche anderen Erkrankungen oder Medikamente im Kontext von Alzheimer genannt werden. Darüber hinaus lassen sich aus den Abstracts und den Metainformationen Expertenprofile generieren. So hat der Nutzer gleichzeitig einen direkten Zugriff auf 57 000 Expertenprofile sämtlicher Wissenschaftler, die in den letzten 25 Jahren weltweit zum Thema Alzheimer publiziert haben.
In Trendanalysen kann der wissenschaftliche Anwender mit statistischen Methoden visualisieren, welche Gene, Erkrankungen oder Präparate zunehmend häufig in Verbindung mit Alzheimer genannt werden. In weiteren Auswertungen werden ihm Fachbegriffe aufgezeigt, die bisher noch nie mit Alzheimer genannt wurden, die jedoch aufgrund mathematisch-statistischer Berechnungen künftig relevant werden könnten. Durch Interpolation der Ähnlichkeitsfaktoren über einen Zeitstrahl von zehn Jahren können selbst feinste Entwicklungen analysiert werden und Wahrscheinlichkeiten für entstehende Assoziationen berechnet werden.
Die Berechnungen fördern zwar keine absoluten Wahrheiten zutage, bieten jedoch dem Wissenschaftler die Möglichkeit, die statistisch ermittelten Begriffe mit hoher Relevanzwahrscheinlichkeit zu bewerten und sie gegebenenfalls in seine Arbeit einzubeziehen (Abbildung 2).
Sowohl für den Arzt als auch für den Wissenschaftler stehen speziell auf die jeweiligen Bedürfnisse ausgerichtete Lösungen zur Bewältigung ihrer Aufgaben zur Verfügung – sei es für die gesicherte Behandlung der Patienten oder die systematische Analyse großer Publikationsmengen.
Christian Herzog
Informationen: Christian Herzog, SyynX Solutions GmbH,
BioCampus Cologne,
Nattermannallee 1,
50829 Köln,
E-Mail: christian.herzog@syynx.de


Hintergrund Text Mining
Mit dem Begriff Text Mining („Textschürfung“) wird die automatisierte Entdeckung neuer relevanter Informationen aus Textdaten bezeichnet. Das Text Mining ist verfahrenstechnisch mit dem Data Mining vergleichbar, allerdings bezieht sich Letzteres auf stark strukturierte Daten, die zum Beispiel in Datenbanken gespeichert sind. Die Text-Mining-Software dagegen erschließt mit statistischen und linguistischen Methoden aus unstrukturierten oder nur wenig strukturierten Texten Informationen, die dazu beitragen, das Wissen des Benutzers zu erweitern oder ihm Handlungsgrundlagen zu liefern. Mit den Werkzeugen des Text Minings lassen sich außerdem Hypothesen generieren, überprüfen und schrittweise verfeinern. Text Mining zählt deshalb auch zu den Verfahren der explorativen Datenanalyse.
Informationen unter http://de.wikipedia.org/wiki/Text-Mining
Anzeige

Leserkommentare

E-Mail
Passwort

Registrieren

Um Artikel, Nachrichten oder Blogs kommentieren zu können, müssen Sie registriert sein. Sind sie bereits für den Newsletter oder den Stellenmarkt registriert, können Sie sich hier direkt anmelden.

Fachgebiet

Zum Artikel

Anzeige

Alle Leserbriefe zum Thema