SUPPLEMENT: PRAXiS
Spracherkennung in der Cloud: Arzt an Wolke: Zum Diktat, bitte!


Die digitale Sprachverarbeitung erfreut sich wachsender Beliebtheit in der Medizin. Für die Nutzer von Smartphones und Tablets stellt sich die Frage, wie sich beides kombinieren lässt. Das Lösungsspektrum reicht von der reinen Diktier-App bis hin zur Spracherkennung in der Cloud.
Die Welt der digitalen Sprachverarbeitung ist schon bisher alles andere als monolithisch. Klassische, kabelgebundene Lösungen, bei denen elektronisch aufgezeichnete Diktate an ein zentralisiertes Schreibbüro übermittelt und klassisch transkribiert werden, haben genauso ihre Anhänger wie Lösungen mit Online-Spracherkennung, bei denen der Arzt sein Diktat direkt sieht und eigenhändig bearbeitet. Schließlich sind in einigen Häusern auch Installationen zu finden, bei denen Ärzte ihre Diktate mit mobilen Diktiergeräten aufzeichnen und sie dann über LAN oder WLAN an einen Server versenden, auf dem eine Offline-Spracherkennung die Umwandlung in Text übernimmt. Das Transkript geht entweder zurück an den Arzt oder über ein Sekretariat in die Korrekturschleife.
Gerade bei den mobileren Szenarien stellt sich zunehmend die Frage, ob die Mikrofonfunktion nicht auch von Smartphones oder Tablet-Geräten übernommen werden kann, die ohnehin viele Ärzte ständig bei sich tragen. Dass das funktioniert, macht nicht zuletzt Apple mit der in die neueren iOS-Betriebssysteme integrierten Spracherkennung vor. Auch der Spracherkennungsspezialist Nuance vertreibt für „Otto Normalverbraucher“ eine App zur Nutzung der Spracherkennung „Dragon“ via App-Store.
„Wir sehen uns diese Entwicklung natürlich sehr genau an“, betont Wolfgang Spannlang, Senior Product Manager bei Speech Processing Solutions. „Teilweise funktioniert das tatsächlich recht gut. Wir glauben allerdings, dass klassische Diktiergeräte gerade im professionellen Umfeld durch Mobil-Devices allenfalls ergänzt, aber nicht vollständig ersetzt werden.“
Verschiedene Optionen
Im Rahmen seiner digitalen Sprachverarbeitungslösung „SpeechExec Enterprise“ bietet Philips unterschiedliche Optionen für die Einbindung von Mobilgeräten wie iPhone, Blackberry oder Android-Smartphone an. Krankenhäuser können eine Serverlösung nutzen, bei der Ärzte die mobil aufgezeichneten Diktate an den Server senden. Dort werden sie dann entweder von einer Schreibkraft transkribiert oder von einer Offline-Spracherkennung – bei Philips ist das Dragon Medical von Nuance – in Text umgewandelt. „Normale“ Endkunden ohne Serverlandschaft können mit einem sogenannten Dictation Hub mobil aufgezeichnete Diktate an eine beliebige E-Mail-Adresse versenden. Dort kann ein Angestellter oder eine Schreibkraft sie dann weiterverarbeiten.
Sollen iPhone und Co. zur „Online“-Spracherkennung eingesetzt werden, bei der der Arzt das Resultat direkt auf seinem Mobilgerät zu Gesicht bekommt, dann wird die Sache etwas komplizierter. Die digitale Spracherkennung unternimmt derzeit einen Technologiesprung, der den Einsatz mobiler Endgeräte wie Smartphones und Tablet-PC deutlich begünstigt. Gerade im medizinischen Umfeld ist abgesehen von der Erkennungsrate auch die Frage der Integration in die vorhandenen Informationssysteme ein wichtiger Faktor, der mit darüber entscheidet, ob eine Lösung alltagstauglich ist oder nicht. Sowohl der Einsatz von Mobilgeräten als auch die Integration der Spracherkennung in Informationssysteme wird durch sogenannte cloudbasierte Spracherkennungslösungen erheblich vereinfacht.
Sichere „Private Clouds“
Cloudbasierte Spracherkennung bedeutet nicht, dass medizinische Diktate plötzlich alle im Internet landen. Es geht eher um einen technologischen Wandel, der darin besteht, dass individuelle Sprachprofile nicht mehr – wie bei herkömmlichen serverbasierten Installationen von Spracherkennung – lokal auf dem Endgerät („Client“), an dem diktiert wird, vorgehalten werden müssen. Vielmehr ermöglichen kleine Softwareprogramme (Apps) die Übertragung – das „Streaming“ – der Sprachaufzeichnung an einen mit Spracherkennung ausgestatteten Server, der dann in Echtzeit die eingehenden Diktate in Text umwandelt und diesen direkt zurückspielt.
Dieser Server kann irgendwo im Internet stehen, muss es aber nicht. Im medizinischen Kontext hantieren die Anbieter vor allem im datenschutzsensiblen Europa eher mit sogenannten Private Clouds. Hier spielen sich sämtliche Datenübertragungen im geschützten Netz des Krankenhauses, des medizinischen Versorgungszentrums, der Arztpraxis oder eines Ärztenetzes ab. „Cloud“ heißt also nicht automatisch „offen“. Es heißt lediglich, dass der lokale Client, an dem der Arzt arbeitet, letztlich nur noch eine Art Tunnel ist, durch den Audiodateien weitergeleitet werden. Alles andere passiert „in der Cloud“, also auf einem Server im jeweiligen Netzwerk.
„Durch die Verarbeitung und Lagerung der Daten in der Cloud werden die Komplexität der Einrichtung und Integration einer Spracherkennungslösung signifikant verringert“, erläutert Mert Öz von Nuance. Das ist einerseits schön für die Hersteller von Spracherkennungslösungen und von klinischen Informationssystemen. Es ist aber vor allem auch aus Sicht des Nutzers ein Vorteil. Denn bisher gibt es häufig Probleme, wenn bei Einsatz einer „konventionellen“ Spracherkennung plötzlich ein größeres Update des klinischen Informationssystems ansteht. Bei cloudbasierten Lösungen sind solche Updates deutlich unproblematischer, weil die lokalen Clients überhaupt nicht angetastet werden müssen. Sämtliche Veränderungen betreffen lediglich den Server beziehungsweise die App.
Der Übergang zur Cloud-Technologie, der sich derzeit bei der digitalen Spracherkennung vollzieht, wird sich für die Anwender insbesondere in einer größeren Vielfalt von Endgeräten äußern, die eingesetzt werden können, ohne dass dazu gleich die ganze IT-Abteilung mobilisiert werden muss. Weil auf den lokalen Clients nichts mehr abgespeichert wird, lassen sich in einer Cloud-Welt praktisch alle Endgeräte problemlos an eine Spracherkennungsinstallation anschließen – ob das jetzt der Thin Client eines Kliniknetzwerks oder das Smartphone des Oberarztes oder Praxis-Chefs ist. Die Anforderungen an die Netzwerke sind dabei überschaubar: „Wir benötigen eine Bandbreite von circa 30 bis 50 kbit pro Sekunde. Das kann selbst von 3G-Netzwerken verarbeitet werden. Krankenhausinterne WLAN oder LAN sollten dazu problemlos in der Lage sein“, so Öz.
„Wir haben derzeit insgesamt vier Installationen auf Basis von Cloud-Technologie entweder bereits im Gang oder in der Pilotphase. Der Bedarf ist deutlich größer, aber wir können und wollen das nur schrittweise angehen“, betont Öz. Im Angebot hat Nuance zwei Lösungen. Die Plattform „Speech Anywhere“ richtet sich primär an die Hersteller von Klinikinformationssystemen beziehungsweise an die Partnerunternehmen aus dem Bereich Sprachverarbeitung, die mit Nuance-Technologie arbeiten. Die „Dragon Medical Network Edition“ ist dagegen ein cloudbasiertes Produkt für Endkunden, das in einem Praxis- oder Klinik-LAN Spracherkennung ohne viel technischen Aufwand auf allen stationären oder mobilen Endgeräten verfügbar macht.
Zentralisierter Ansatz
Auch beim Anbieter MediaInterface ist die cloudbasierte Sprachverarbeitung ein Thema. „Der Hauptvorteil aus unserer Sicht ist die Tatsache, dass es sich um einen sehr zentralisierten Ansatz handelt, der extrem skalierbar ist. Ob zwei Anwender oder 2 000 Anwender gleichzeitig diktieren, ist hierbei praktisch egal“, betont Geschäftsführer Robert Gröber. Trotzdem will er bei diesem Thema nichts überstürzen: „Aktuell bieten wir nur das digitale Diktat als App an. Damit können Smartphones problemlos an unsere Software ,SpeaKING Dictat‘ angebunden werden.“ Auch der Einsatz von Apps zur digitalen Spracherkennung ist für ihn ein interessantes Thema. Er weist allerdings darauf hin, dass der Nutzen von Telefonen als Clients für die Spracherkennung schon aufgrund der kleinen Displays begrenzt ist. „Durch die zunehmende Verbreitung der Tablet-PCs könnte sich da allerdings einiges tun“, so Gröber.
Je nach Bedarf
Wie immer in der IT-Welt sollten Kunden sich über ihre individuellen Bedürfnisse im Klaren sein, bevor sie die eine oder andere Lösung erwerben. „Bei der Frage, ob Smartphones als Diktiergeräte sinnvoll sind oder nicht, kommt es beispielsweise sehr auf das individuelle Diktierverhalten an“, betont Spannlang von Speech Processing Solutions. Wer ein langes Diktat schreibt, bei dem er zwischendurch anhält, nachdenkt, dann weiter diktiert, für den ist ein klassisches Diktiergerät mit 4-Positions-Schalter oft besser geeignet als ein noch so schickes Touch-Screen-Handy. Wer dagegen viel von unterwegs diktiert und die Diktate auch gleich versenden oder sogar eine cloudbasierte Spracherkennung nutzen möchte, der landet eher beim Smartphone oder beim Tablet-Gerät. Das Schöne ist: Anders als früher gibt es diese Wahlmöglichkeiten heute und erst recht in Zukunft. Armin Scheuer
Informationen
Speech Processing Solutions GmbH: www.dictation.philips.com
Nuance Communications, Inc: www.nuance.de/for-individuals/by-industry/healthcare-solutions/index.htm
MediaInterface Dresden GmbH: www.mediainterface.de
Beispiel für eine integrierte Arztsoftwarelösung: http://medatixx.de/produkte/zusatzprodukte/ixxvoice