Das JobInstance und ETL-Framework Konzept der cimt ag
JobInstance und ETL-Framework
Die cimt ag ist seit mehr als 10 Jahren mit über 100 zertifizierten Beratern der einzige Talend Platinum Partner in der DACH-Region aktiv. Mit den Talend-Datenintegrations-Produkten (wie beispielweise der Talend Cloud Data Management Platform oder Talend Data Integration) als ETL-Tool erstellen unsere Berater komplexe Ladeprozesse für unsere Kunden, um zum Beispiel ein Data Warehouse (DWH) zu bewirtschaften. Im Laufe der Jahre haben wir eine Reihe von Best Practices für diese ETL-Prozesse entwickelt.
Einer dieser Best Practices ist die Verwendung unseres JobInstance- und ETL-Framework-Konzepts. Es wurde ein Rahmen vieler Talend-Projekte konzipiert und kundenunabhängig ständig weiterentwickelt. Für die ETL-Entwicklung mit Talend werden die entsprechenden Komponenten kostenfrei und öffentlich bereitgestellt. Einzige Grundvoraussetzung ist lediglich eine relationale Datenbank sowie die Verwendung der öffentlich zugänglichen Talend-Komponenten.
In diesem Beitrag gibt unser cimt-Kollege eine kurze Einführung und erklärt Ihnen, warum dieses Konzept ein unverzichtbarer Bestandteil jeder Ladestrategie sein sollte.
Ziele
Das cimt ETL-Framework dient dazu, die folgenden Aspekte für Implementierung und Betrieb von ETL-Prozessen zu standardisieren:
-
Logging der essenziellen Ereignisse des ETL-Jobs:
- - Name
- - Version
- - Start/Stop-Zeitpunkt
- - Return Code
- - Umsatz
- Markierung der Daten zur späteren Rückverfolgung
-
Inkrement-Verwaltung für folgende Fragestellungen:
- - Welche Daten sind für den Folgeprozess nutzbar?
- - Welche Daten müssen noch verarbeitet werden?
- Effizienter Neustart eines abgebrochenen Joblaufs
- Standardverfahren zum Wiederholen bereits eingelesener Inkremente
- Monitoring des Status der gesamten Bewirtschaftung
- Monitoring der Langzeitentwicklung
Basiselemente
JobInstance
Als JobInstance wird ein konkreter Joblauf bezeichnet. Sie hat eine für den Gesamtlebenszyklus des Zielsystems (zum Beispiel ein Datawarehouse) eindeutige Kennzeichnung (JobInstanceID)
Zu einer JobInstance gibt es immer folgende Informationen:
- Name und Version des Jobs
- Ausführender Host inklusive JobInstanceID des Parent-Jobs
- Mit Talend außerdem: Talend GUID des Jobs, des direkten Parent-Jobs und des Root-Jobs
- Start und Stoppzeit des Jobs
- Return Code
Implementierungsmuster für Jobs
Inkrement-Verwaltung
Grundmuster
Für jede Art von inkrementeller Verarbeitung wird ein Verfahren benötigt, mit dem die Datensätze eines einzelnen Inkrements von den anderen Daten in der Quelle unterschieden werden.
Dabei gibt es folgende Szenarien:
1.Die Daten eines Inkrements sind mit einer gemeinsamen Kennzeichnung versehen und:
- In einer Datei zusammengefasst
- In einer Message enthalten
- Haben identische Markierung in jedem Datensatz (z. B. Job Instance ID, „unverarbeitet“ Flag)
2. Die Daten werden aus einem umfangreicheren Bestand als Intervall eines Wertebereichs abgerufen:
- Zeitliches Intervall (z. B. letzte Änderung)
- Index Interval (z. B. Kafka Streaming Position)
Fazit
Das ETL-Framework-Konzept der cimt ag hilft dabei, die gängigen Probleme zu lösen, die bei der Bewirtschaftung eines DWH auftreten können. Dieser Beitrag stellt eine grundlegende Einführung dar, wenn Sie mehr Informationen zu dem Konzept und den einzelnen Komponenten haben möchten, sprechen Sie uns gerne an.
Jetzt registrieren und keine Veranstaltungen mehr verpassen.