Veolia Umweltservice GmbH

Veolia Umweltservice GmbH
Branche: Abfallentsorgung und Energieversorgung
Firmensitz: Hamburg

Technologien und Methoden

  • Google Cloud Platform (Goolge BigQuery, Google Storage, Google Drive)
  • Talend Data Integration (Cloud)
  • Oracle DB, MySQL, MS SQL Server
  • CSV, XML
  • SAP
  • Scrum/Kanban

Beratungsthemen

  • DWH-Entwicklung
  • DWH-Architektur
  • Talend Komponentenentwicklung

Quantifizierbare Benefits

  • Signifikanter Anstieg der Nutzerzahlen
  • Langfristige Senkung der BigQuery- und Umsetzungskosten
  • Umfangreiches Monitoring zur Überwachung und Prozessoptimierung

Kunde

Die Veolia Umweltservice GmbH verfügt über 160 Jahre Erfahrung in den Bereichen Wasser, Entsorgung und Energie. Die darin gründende Fähigkeit zur Innovation stellt Veolia in den Dienst des Fortschritts und Wohlergehens der Menschheit und der Leistungsfähigkeit von Unternehmen und Regionen.

Anforderungen an das Projekt

Ein zentraler Bestandteil in der BI-Strategie bei Veolia Umweltservice GmbH ist der Aufbau eines DWH zur Bereitstellung von Daten aus den operativen Systemen für BI-Auswertungen. Die DWH-Verarbeitungen und -Auswertungen sollen visualisiert dargestellt werden können.

Ein neues DWH soll skalierbar und mit wenig Administrationsaufwand im Betrieb aufgebaut und erweitert werden können. Dazu sollten möglichst vorhandene, gut nutzbare Technologien sowie eine moderne zukunftsfähige Plattform gewählt werden.

Als Technologien hat man sich für das vorhandene ETL-Werkzeug Talend Data Integration und Google BigQuery (Google Cloud Plattform = GCP) entschieden.

Google BigQuery bietet als Cloud-Datenbank zur Speicherung der Daten eine sehr leistungsfähige Grundlage. Hinzu kommen vorhandene Cloud-Anwendungen. Mit dem in GCP integrierten Visualisierungstool Data Studio können in der Cloud auf Grundlage dieser Daten Reports und Dashboards erstellt werden. Für die Anbindung der Daten aus den verschiedensten Quellsystemen dienen ETL-Jobs, die mit Talend Data Integration entwickelt und automatisiert ausgeführt werden.

Herausforderungen Optimierung Cloud-DWH

Herausforderungen bei bestehenden ETL-Prozessen gab es bei Datenquellen mit großen Datenmengen und hoher Änderungsfrequenz. Bei der Bereitstellung der Daten in Google BigQuery als Geschäftsobjekte in der Form von denormalisierten Tabellen mit bis zu mehreren hundert Spalten und bis zu 100 Mio. Datensätzen stießen die ETL-Jobs teilweise an Performance-Grenzen. Die vielfältigen Transformationen sowie vielzählige Lookups auf Referenztabellen innerhalb der ETL-Jobs erschwerten zusätzlich die Wartung bzw. Erweiterungen und Änderungen.

Als Ergebnis konnte die Aktualität der bereitgestellten Daten nicht immer sichergestellt werden und Umsetzungszeiten bei Erweiterungen/Anpassungen waren relativ lang.

Lösungskonzept

Das Lösungskonzept beinhaltete eine Umstellung vom ETL- auf einen ELT-Ansatz und die damit einhergehende Erweiterung der Schichten-Architektur des DWH.

Über eine prototypische Umsetzung wurde die Machbarkeit getestet. Danach konnte innerhalb von nur 3 Monaten die Anbindung der wichtigsten Datenquelle, das Auftragsverarbeitungssystems von Veolia Umweltservice GmbH, umgestellt werden.

Seitdem wurden weitere verschiedene Quellsysteme erfolgreich nach dem neuen Muster an das DWH angebunden. Datenquellen sind z. B. Datenbanken wie Oracle, MySQL, MS SQL Server sowie CSV- und XML-Dateien, die per SFTP, Google Storage, Google Drive oder AWS S3 bereitgestellt werden, und SAP.

Messbare Erfolge

Innerhalb eines Jahres ist die Akzeptanz für das DWH innerhalb der BI-Abteilung und den Fachabteilungen gewachsen, was der Anstieg der Nutzerzahlen belegt. In diesem Zeitraum hat sich die Anzahl der DWH-Nutzer pro Monat durchschnittlich um 88 Prozent gesteigert und die Anzahl der ausgeführten Abfragen um 55 Prozent. Gleichzeitig konnten die BigQuery-Kosten um 90 Prozent gesenkt werden.

Das gestiegene Vertrauen in die Aktualität, Integrität und Zuverlässigkeit des DWH zeigt sich ebenfalls darin, dass es verstärkt auch als zentraler Datenlieferant für operative Systeme genutzt wird, statt eines direkten Datentransfers zwischen diesen Systemen.

Bei der Anbindung von Daten aus Datenbank-Systemen konnten die Umsetzungszeiten durch die Entwicklung von generischen, metadatengesteuerten Staging Jobs in letzter Zeit noch weiter verkürzt werden.

Zur Sicherstellung des reibungslosen Betriebs der DWH-Bewirtschaftungsprozesse wurde ein umfängliches Monitoring eingerichtet. Die Monitoring Jobs selbst werden durch AWS-CloudWatch-Alarme überwacht. Zusätzlich geben Monitoring Views im DWH Auskunft über Ladezeitpunkte und Aktualität der Daten und werden mit Reports/Dashboards überwacht.

Warum Talend?

Talend ist mit seinen umfangreichen Konnektoren hervorragend dafür geeignet, den Bedarf der Integration als Middleware zu repräsentieren. Die visuelle Darstellung von ETL Jobs macht es für viele Entwickler und Power-User einfach, die Plattform zu nutzen. Der Einstieg ist intuitiv und ermöglicht so einen schnellen Mehrwert.

Warum cimt?

Für die Entwicklung von generischen, metadatengesteuerten Staging Jobs wurde von der cimt eigens für Veolia Umweltservice GmbH eine Talend-Custom-Komponente entwickelt, die den schemalosen Import von CSV-Dateien nach BigQuery ermöglicht (Dynamic Schema). Mit nur einem Talend-Job kann so eine unbegrenzte Anzahl von Quelltabellen innerhalb kürzester Umsetzungszeit in die Stage-Schicht des DWH angebunden werden.

Für das Monitoring der DWH-Bewirtschaftungsjobs wird das cimt JobInstance-Framework eingesetzt (beim Beratungseinsatz von cimt mitgeliefertes Know-how). Informationen zu Job-Ausführungen werden in strukturierter Form in Datenbank-Tabellen geloggt. Monitoring Jobs werten diese Daten aus und lösen entsprechende E-Mail-Benachrichtigungen aus.

Weitere Business Cases
ZU ALLEN REFERENZEN

Sie möchten mehr erfahren?