Das JobInstance und ETL-Framework Konzept der cimt ag

JobInstance und ETL-Framework

Die cimt ag ist seit mehr als 10 Jahren mit über 100 zertifizierten Beratern der einzige Talend Platinum Partner in der DACH-Region aktiv. Mit den Talend-Datenintegrations-Produkten (wie beispielweise der Talend Cloud Data Management Platform oder Talend Data Integration) als ETL-Tool erstellen unsere Berater komplexe Ladeprozesse für unsere Kunden, um zum Beispiel ein Data Warehouse (DWH) zu bewirtschaften. Im Laufe der Jahre haben wir eine Reihe von Best Practices für diese ETL-Prozesse entwickelt.

Einer dieser Best Practices ist die Verwendung unseres JobInstance- und ETL-Framework-Konzepts. Es wurde ein Rahmen vieler Talend-Projekte konzipiert und kundenunabhängig ständig weiterentwickelt. Für die ETL-Entwicklung mit Talend werden die entsprechenden Komponenten kostenfrei und öffentlich bereitgestellt. Einzige Grundvoraussetzung ist lediglich eine relationale Datenbank sowie die Verwendung der öffentlich zugänglichen Talend-Komponenten.

In diesem Beitrag gibt unser cimt-Kollege eine kurze Einführung und erklärt Ihnen, warum dieses Konzept ein unverzichtbarer Bestandteil jeder Ladestrategie sein sollte.

Ziele

Das cimt ETL-Framework dient dazu, die folgenden Aspekte für Implementierung und Betrieb von ETL-Prozessen zu standardisieren:

Basiselemente

Um die gesetzten Ziele zu erreichen, wird die JobInstance als Basiselement eingeführt.

JobInstance

Als JobInstance wird ein konkreter Joblauf bezeichnet. Sie hat eine für den Gesamtlebenszyklus des Zielsystems (zum Beispiel ein Datawarehouse) eindeutige Kennzeichnung (JobInstanceID)

Zu einer JobInstance gibt es immer folgende Informationen:

Implementierungsmuster für Jobs

Jeder Job schreibt beim Start seine zum Startzeitpunkt bekannten Jobmetadaten in einen neuen Datensatz der Managementdatenbank (manage DB), also der Datenbank, in der die Daten des ETL-Frameworks gespeichert werden. Danach kann er die bisherigen Metadaten nutzen, um seinen Workload oder Aufsetzpunkt zu bestimmen. Am Ende des Joblaufs werden die finalen Metadaten in die Datenbank übertragen. Der Ablauf wird in Abbildung 1 dargestellt.

Inkrement-Verwaltung

Eine inkrementelle Verarbeitung von Quelldaten wird in einem Ladeprozess immer dann angewendet, wenn die Datenquelle ihre Informationen nur in Inkrementen übergibt oder eine vollständige Transformation der Daten einer Quelle nicht möglich bzw. nicht für den Regelbetrieb zu empfehlen ist.

Grundmuster

Für jede Art von inkrementeller Verarbeitung wird ein Verfahren benötigt, mit dem die Datensätze eines einzelnen Inkrements von den anderen Daten in der Quelle unterschieden werden.

Dabei gibt es folgende Szenarien:

1.Die Daten eines Inkrements sind mit einer gemeinsamen Kennzeichnung versehen und:

2. Die Daten werden aus einem umfangreicheren Bestand als Intervall eines Wertebereichs abgerufen:

Fazit

Das ETL-Framework-Konzept der cimt ag hilft dabei, die gängigen Probleme zu lösen, die bei der Bewirtschaftung eines DWH auftreten können. Dieser Beitrag stellt eine grundlegende Einführung dar, wenn Sie mehr Informationen zu dem Konzept und den einzelnen Komponenten haben möchten, sprechen Sie uns gerne an.

Kontakt

Oliver Fromm
Telefon: +49 30 834098 0
E-Mail: oliver.fromm@cimt-ag.de

cimtAcademy

Jetzt registrieren und keine Veranstaltungen mehr verpassen.​



    Nach oben scrollen