Machine Learning und Sprachverarbeitung in der Medizin

Wir sind heute mit immer grösseren Datenmengen konfrontiert. Daten alleine bringen aber keinen Nutzen, wenn man daraus keine Informationen gewinnen kann. Unzählige neuere und nicht mehr so neue Technologien setzen genau dort an – also bei der Gewinnung von Informationen aus verschiedenen Arten von Datenquellen. Die eonum AG hat sich auf Machine Learning und Sprachverarbeitung (Natural Language Processing – NLP), sowie deren Anwendung in der Medizin spezialisiert.

Was ist Machine Learning?

Beim Machine Learning werden Algorithmen entwickelt, die in grossen Datenmengen nach Mustern suchen. Das erlangte Wissen soll der Computer dann weiterverwenden können. Der Algorithmus kann also Erfahrungen sammeln und diese nutzen. Das Ziel ist es, Daten intelligent miteinander zu verknüpfen, Zusammenhänge zu erkennen, Rückschlüsse zu ziehen und Vorhersagen zu treffen.

Ein solches Computerprogramm kann auf verschiedene Arten aufgebaut sein. Zum einen gibt es das überwachte Lernen: Dem Algorithmus werden Inputs mit den dazu passenden Outputs präsentiert, das erlernte Wissen kann der Algorithmus dann weiter verwenden, um zu neuen Inputs fehlende Outputs zu errechnen. Dann gibt es das unüberwachte Lernen: Man füttert einem Algorithmus Daten, welche erklärt und strukturiert werden müssen, indem nach Verbindungen und Mustern gesucht wird. Dies funktioniert gut mit Daten, welche im Zusammenhang miteinander stehen. Im Bereich der Robotik oder der Navigation wird häufig mit verstärktem Lernen (Reinforcement Learning) gearbeitet. Dies bedeutet, dass der Computer bei guten Entscheidungen eine Belohnung erhält und bei schlechten Entscheidungen bestraft wird.

Deep Learning ist ein neuer Ansatz des maschinellen Lernens, welcher in vielen Bereichen in den letzten fünf Jahren neue Massstäbe gesetzt hat. Der Name rührt daher, dass die verwendeten Modelle eine tiefere und hierarchische Struktur als herkömmliche Methoden haben. Die lose an biologische neuronale Netze angelehnten Modelle können durch diese Struktur auf einer abstrakteren Ebene arbeiten und entsprechend die Komplexität der Daten reduzieren.

Der hierarchische Aufbau ersetzt viele, früher notwendige Vorverarbeitungsschritte, welche nun als Teil des Modells mitgelernt werden. Beispielsweise setzen heutige Modelle für die Bildanalyse direkt auf der Ebene der Pixel an. Früher wurden in mühseliger, jahrelanger Ingenieursarbeit, dem Feature Engineering, Methoden entwickelt, um die Datenkomplexität zu reduzieren. Beispielsweise wurden mit geometrischen Algorithmen die Bilder so vorverarbeitet, dass diese überhaupt fassbar wurden für die traditionellen Modelle. Dabei wurde nicht nur viel Arbeit investiert, es ging auch wertvolle Information verloren. Paradoxerweise sind die Systeme so aus Sicht des Ingenieurs einfacher geworden.

Wirtschaftszweige, die sich diese Technologien zu Nutzen machen sind unter anderem das Finanz- und Bankenwesen, staatliche Einrichtungen, Verkehr, Marketing und Verkauf und das Gesundheitswesen. Gerade in medizinischen Bereichen wird im Ausland sehr viel investiert, um Spitälern und Ärzten, Arbeit bei der Dokumentation und Recherche abzunehmen und die Qualität zu erhöhen.

Unter anderem sind Google und IBM daran, Systeme zu entwickeln, die aus Bildmaterial Krebsdiagnosen erstellen oder Frühwarnsysteme, die Auffälligkeiten bei einem Patienten erkennen. In der Schweiz wird an den Universitäten viel geforscht, aber in der Wirtschaft und vor allem im Gesundheitswesen werden diese neuen Technologien noch sehr selten eingesetzt.

Ein grosses Anwendungsgebiet von Machine Learning ist die Verarbeitung von Sprache, NLP. Ziel von NLP ist eine Kommunikation zwischen Computer und Mensch herzustellen, auf der Basis natürlicher Sprache. Konventionell wird Mensch-Computer-Interaktion so gelöst, dass sich der Mensch dem Computer anpasst. Dies passiert unter Anderem mit der Verwendung von formalen Sprachen (Programmiersprachen, Beschreibungssprachen) oder Klassifikationen und Nomenklaturen (beispielsweise der ICD-Katalog in der Medizin). NLP verfolgt den umgekehrten Ansatz: Der Computer hat sich der natürlichen Sprache des Menschen anzupassen. Dies ermöglicht uns, Informationen aus grossen Mengen an unstrukturiertem Text und Audio herauszufiltern.

Natürliche Sprache ist sehr komplex, individuell und mehrdeutig. Der gleiche Sachverhalt kann in unzähligen Varianten und Stilen dargestellt werden und folgt dabei nicht immer formalisierbaren Regeln. Deshalb wird NLP heute immer mehr mit Ansätzen des Machine Learning gelöst. Historisch gesehen waren symbolische, regelbasierte Systeme dominanter. Beispielsweise wurden früher mit viel Aufwand Synonymlisten und semantische Wörterdatenbanken gepflegt (z. B. Medical Subject Headings – MeSH). Heute wird der semantische Zusammenhang von Wörtern aus grossen Mengen an unstrukturiertem Freitext automatisch gelernt.

Wir von der eonum sehen das grosse Potenzial dieser Technologien. Im Casematch, ein webbasiertes Tool für Spitäler, welches auf Fehler in der medizinischen Kodierung aufmerksam macht, nutzen wir bereits Machine Learning und statistische Methoden. Dies im Gegensatz zu den meist eingesetzten rein regelbasierten Programmen.

Eine Schwierigkeit, um in der Sprachverarbeitung Fortschritte zu machen, ist, dass in deutscher Sprache kaum textbasierte Datenbanken für die Medizin existieren. Deswegen sind wir daran, eine Datenbank mit frei verfügbaren medizinischen Texten anzulegen. Diese werden wir nutzen, um in der Sprachverarbeitung weiter voranzukommen, insbesondere auch in der Analyse von Primärdokumentation: Austrittsberichte, OP-, Pflege-, Labordokumentationen in Freitext. Die möglichen Anwendungen sind zahlreich: Kodierunterstützung durch Generierung von Vorschlägen anhand der Dokumentation, Suche nach Schlüsselstellen in der Dokumentation für einen bestimmten Code oder die automatisierte Selektion von potentiell unterkodierten Fällen. Ein weiteres Beispiel ausserhalb der Kodierung ist die automatische Übersetzung von Diagnosen und Spital- oder Arztrechnungen in eine für Laien verständliche Sprache.