ETL

Aus Wikipalo

Share/Save/Bookmark
Wechseln zu: Navigation, Suche

Inhaltsverzeichnis

Einführung

Der ETL-Prozess beschreibt die Beschaffung von Daten aus verschiedenen Vorsystem, wie SAP, Navision, Oracle, MySQL usw., zur Weiterverarbeitung in einer OLAP-Datenbank oder einem Data Warehouse.

ETL beschreibt einen Prozess, um Daten aus mehreren Datenquellen in einer einheitlichen Datenbank zu vereinigen. Dieser Prozess wird in Schritten vollzogen, aus denen sich das Akronym ETL ableitet.

  • Extraktion (extract)
  • Tranformation (transform)
  • Laden (load)

In der Praxis werden Tools verwendet, welche die grafische Modellierung des ETL-Prozesses unterstützen.

Die drei Prozessschritte werden im Folgenden näher betrachtet.

Extraktion

Die relevanten Daten werden aus den verschiedenen Quellen (Datenbanken, Textdateien, XML-Dateien...) extrahiert und zur Transformation zur Verfügung gestellt. Zum Zeitpunkt der Extraktion muss sich die Quelle in einem konsistenten Zustand befinden, d.h. es werden keine Datenänderungen während der Extraktion vorgenommen. Es werden periodische Extraktionszeitpunkte definiert, zu denen die Datenbank konsistent sein muss.

Transformation

Die Datentransformation setzt sich aus den Teilschritten Filterung, Harmonisierung, Verdichtung und Anreicherung zusammen. Bei der Filterung der Daten werden nicht benötigte Daten ausgeschlossen, die über den Extraktionsprozess nicht eindeutig identifiziert werden konnten. Zusätzlich wird an dieser Stelle die Bereinigung von syntaktischen oder inhaltlichen Defekten vorgenommen (z.B. 7-stellige Postleitzahlen).

Die Harmonisierung beinhaltet die inhaltliche Abstimmung der gefilterten Daten. Darunter fallen:

  • Anpassung von Datentypen (z.B. unterschiedliche Behandlung des Datums in den versch. Quellsystemen)
  • Anpassung von Datenwerten (z.B. unterschiedliche Kodierung des Geschlechts wie 1 / 2 oder m / w)

Die Verdichtung beinhaltet die Aggregation der gefilterten und harmonisierten Daten (z.B. Tagesumsätze werden zu Monatsumsätzen summiert).

Schließlich werden im Transformationsprozess die Daten angereichert. Dabei werden aus den gefilterten, harmonisierten und teilweise verdichteten Daten betriebswirtschaftliche Kennzahlen gebildet und gespeichert (z.B. Kalkulationsergebnisse, Gewinn)

Laden

Die Datenübernahme in die Zieldatenbank erfolgt auf der Basis der benutzerdefinierten Aktualitäts- und Konsistenzanforderung. Um inkonsistente Anfrageergebnisse zu vermeiden, ist während der Aktualisierung der Zugriff auf die Daten der Zieldatenbank nicht möglich. Aus diesem Grund werden die meisten Zieldatenbanken zu einem Zeitpunkt aktualisiert, während dessen kein Zugriff auf die Daten erfolgt (z.B. nachts, am Wochenende). Um die Sörung der Endanwender zu vermeiden, muss der Aktualisierungsvorgang so kurz wie möglich sein. Daher werden Werkzeuge benötigt, die mittels Parallelität den Ladevorgang entsprechend verkürzen.

Datei:OLAP Datenfluss 01.png

  • Die Massendaten, d.h. die Stamm-/Strukturdaten und die Bewegungsdaten aus den unterschiedlichen Vorsystemen werden in Form von csv-Dateien, txt-Dateien oder über eine ODBC-Schnittstelle dem Palo-System zur Verfügung gestellt.
  • Diese Daten werden dann zum Beispiel mit Hilfe des PALO ETL-Servers in die Dimension und/oder die Würfel eingelesen.
  • Die Excel-Tabellen greifen dann über Palo-Funktionen auf diese Daten zu.

Hinweis

  • Das Verständnis für diese Zusammenhänge ist deshalb wichtig, weil Sie grundsätzlich wissen sollten aus welchen Datenquellen die Informationen stammen, die Sie sich in Excel betrachten und wie aktuell diese Informationen sind. Die Werte, die Sie in Excel betrachten sind immer nur so aktuell, wie der letzte Datenimport aus den Vorsystemen in die Palo-Datenbank.
  • Mit dem Kategorie:Palo ETL Server kann man auf einfache Weise den Datenimport flexibel aufsetzten und automatisieren.
  • Einige Unternehmen erweitern die oben dargestellte Architektur, indem Sie zwischen das Vorsystem und der Palo-Datenbank eine weitere Datenhaltungsebene (relationaler Infopool) einfügen und somit das System zu einem Data-Warehouse ausbauen.
Persönliche Werkzeuge