R-Visualisierungen auf Krebsdaten mit CARESS 9

BIB
David Korfkamp, Kolja Blohm, Christian Lüpkes, Andreas Hein
63. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V. (GMDS)
Einleitung: CARESS (http://www.mustang-analysis.de) ist ein analytisches Informationssystem zur Auswertung von Krebsregisterdaten, das seit 1993 am Informatikinstitut OFFIS in enger Zusammenarbeit mit dem epidemiologischen Krebsregister Niedersachsen (http://www.krebsregister-niedersachsen.de) entwickelt wird. Es wird von epidemiologischen Krebsregistern in diversen Bundesländern zur Analyse Ihrer Datenbestände eingesetzt. Seit der Einführung von Version 9 kann CARESS um komplexe Berechnungen und Visualisierungen mit Hilfe der Statistik-Sprache R erweitert werden. R ist eine verbreitete Statistik-Programmiersprache für die es eine Vielzahl an Funktionen gibt um statistische Verfahren und Berechnungen durchzuführen. Die Ergebnisse dieser Berechnungen kann R auf vielfältige Weise plotten (https://www.r-project.org/). Methoden: CARESS enthält ein OLAP-Modul, über das multidimensionale OLAP-Daten abgefragt und visualisiert werden können. Dazu enthält es einen Visualisierungsbereich, in dem sich Schaltflächen für jede verfügbare Visualisierung befinden. Per Mausklick kann der Benutzer zwischen den Visualisierungen wechseln und seine Daten so beispielsweise als Tabelle, Box-Plot oder Streudiagramm darstellen. Eine Schnittstelle ermöglicht es, CARESS um R-Visualisierungen zu erweitern. Diese erscheinen ebenfalls im Visualisierungsbereich und können analog zu den Standardvisualisierungen per Mausklick ausgewählt werden. Um eine R-Visualisierung zu implementieren reicht es aus, zwei Dateien anzulegen: eine Konfigurationsdatei und eine Datei mit dem eigentlichen R-Skript. Die Konfigurationsdatei beschreibt die Visualisierung und enthält beispielsweise den Namen und eine Beschreibung. Die R-Datei enthält das auszuführende Skript. Die hierfür bereitgestellte Ausführungsumgebung enthält eine Variable mit dem Dataframe der ausgewählten Daten, sowie eine Beschreibung des Dataframes. Der Dataframe enthält das Ergebnis der OLAP-Abfrage in tabellarischer Form. Die Beschreibung gibt für jede Spalte an, ob es sich um eine Kennzahl oder eine Hierarchie handelt. Eine detaillierte Beschreibung der Struktur von R-Visualisierungen findet sich unter (http://www.mustang-analysis.de/administration/r-visualisations.html). Zur Ausführung werden die OLAP-Daten von CARESS in eine CSV-Datei geschrieben und das R-Skript um generierten Code zum Einlesen der CSV-Dateien und zum Schreiben der Ergebnisse in CSV- bzw. Grafikdateien erweitert und als Datei gespeichert. Dann wird durch Aufruf der auf dem System installierten R-Umgebung (Rscript.exe) das Skript zur Ausführung gebracht und die Ergebnisdateien hinterher von CARESS eingelesen. Nach Ausführung einer R-Visualisierung analysiert CARESS die Ausführungsumgebung und rendert von der Visualisierung spezifizierte Dataframes als Tabellen. Außerdem werden sämtliche Plots, die in R erstellt wurden, angezeigt. Ergebnisse: Da diese Funktion relativ neu ist, können wir bislang noch nicht darüber berichten, wie diese in der Praxis der Krebsepidemiologen zum Einsatz kommt. In der Diskussion mit unseren Anwendern fand diese Funktion jedoch positiven Anklang, somit hoffen wir, dass wir in Kürze erste Erfahrungsberichte dazu erhalten. Diskussion: R-Visualisierungen stellen eine Möglichkeit dar, mit der Anwender CARESS um weitere Darstellungsformen erweitern können. Dabei können die Daten nicht nur auf andere Art und Weise gerendert, sondern auch weitere statistische Verfahren angebunden werden. Unserer Erfahrung nach sind Krebsepidemiologen häufig nicht ausreichend technisch versiert, um die für Ihre Arbeit benötigten Daten beispielsweise direkt über OLAP-Anfragen in R zu laden um dort dann weitere Berechnungen darauf vorzunehmen. R-Visualisierungen übernehmen diesen Schritt und können, wenn Sie fertiggestellt sind, auch von Epidemiologen mit nur geringer R-Expertise genutzt werden. Beispielhaft haben wir ein Parallel-Coordinates-Diagramm, sowie das DBScan-Clustering implementiert und zur Nutzung sowie als Blaupause für weitere R-Visualisierungen zur Verfügung gestellt. Die Autoren geben an, dass kein Interessenkonflikt besteht. Die Autoren geben an, dass kein Ethikvotum erforderlich ist.
September / 2018
conference
German Medical Science GMS Publishing House
Deutsche Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie
CARLOS
Epidemiologisches Krebsregister Niedersachsen
CARESS
CARESS Clinical and Epidemiological Cancer Data Warehouse System and Tooling