TODAY Toolsuite for Managing a Data Warehouse’s Data Supply (sorry - only available in German)

Goal

Unter dem Begriff Data-Warehouse-System werden im Allgemeinen Technologien zur Entscheidungsunterstützung subsumiert, die auf Basis integrierter und konsolidierter Datenbasen eine schnellere, umfassendere und qualitativ hochwertigere Entscheidungsunterstützung ermöglichen. Kernstück von Data-Warehouse-Systemen sind dedizierte Datenbanken, die den effizienten Zugriff auf themenbezogene, integrierte Sichten auf einen Gesamtdatenbestand bereit stellen, der durch verschiedene im Unternehmen verteilte, zumeist heterogene Informationsquellen gebildet wird.Ein zentraler Aspekt bei Aufbau und Pflege eines Data-Warehouse-Systems ist der Prozess der Datenintegration, der zum Einen das initiale Aufbereiten des Data-Warehouse-Datenbestandes und zum Anderen dessen kontinuierliche Aktualisierung auf der Grundlage neuer und geänderter Daten in beteiligten Informationsquellen umfasst. Die Datenintegration wird auf Grund der Heterogenität der Informationsquellen und hinsichtlich einer besseren Anpassung einzelner Komponenten üblicherweise in die drei Schichten Extraktion, Transformation und Laden unterteilt, die auch den Begriff ETL-Prozess geprägt hat. Die Aufgaben der einzelnen Schichten sind hierbei:die Extraktion benötigter Daten aus den bez. Datenrepräsentation und -strukturierung meist heterogenen Informationsquellen, die Transformation der Daten in ein einheitliches Format unter Auflösung struktureller und semantischer Konflikte sowie die Bereinigung und Verknüpfung der Daten und das physische Laden der neuen Daten in die Data-Warehouse-Datenbanken. Bedingt durch unterschiedliche Typen von Informationsquellen, wie bspw. relationale Datenbanken, Internet-Datenquellen oder Anwendungssysteme, sind in Data-Warehouse-Systemen oftmals verschiedene Werkzeuge im Einsatz, um die für die Integration benötigten Daten in den Quellen zu ermitteln und für die Transformationsphase zur Verfügung zu stellen. Zur Gewährleistung der Wartbarkeit und Verständlichkeit von ETL-Prozessen im Kontext einer heterogenen ETL-Umgebung werden im Rahmen des Forschungsprojektes TODAY Konzepte und Werkzeuge entwickelt, durch die eine werkzeugübergreifende Modellierung und Ausführung von ETL-Prozessen ermöglicht wird. Die Modellierung von ETL-Prozessen erfolgt auf Basis einer werkzeugunabhängigen, datenflussbasierten Notation, um von technischen Details zu abstrahieren und auf die Beschreibung des eigentlichen Integrationsprozesses zu fokussieren. Grundlage für diese Modellierung ist die Beschreibung von benötigten Datenstrukturen und Prozessen mittels Metadaten, die in einem zentralen Repository abgelegt sind. Für die Speicherung der Metadaten kommt der Metadatenstandard Common Warehouse Metamodel (CWM) der Object Management Group (OMG) zum Einsatz.

 

Persons