GEMA

Wie die GEMA mit Databricks ihre Datenstrategie neu erfand

Kunde

GEMA
Branche: Medien
Firmensitz: Berlin, München

Beratungsschwerpunkte

Quantifizierbare Benefits

Über die GEMA

In der GEMA haben sich Komponisten, Textdichter und Musikverleger als Urheber von Musikwerken zusammengeschlossen. Die GEMA nimmt die Rechte der Musikschaffenden in Deutschland und von weltweit über zwei Millionen weiteren Rechteinhabern wahr. Sie sorgt dafür, dass die Urheber und Musikverleger an den Einnahmen aus der Nutzung ihrer Musikwerke angemessen beteiligt sind.

In einer Welt, in der datenbasierte Entscheidungen zum entscheidenden Wettbewerbsvorteil werden, ist ein effizienter und skalierbarer Datenverarbeitungsprozess unerlässlich. Doch in vielen Unternehmen sind gewachsene Strukturen, manuelle Prüfprozesse und unflexible Workflows bis heute Realität.

Das Projekt mit der GEMA verdeutlicht, wie der gezielte Einsatz von Databricks im Rahmen einer Lakehouse-Architektur ein zuvor fragmentiertes Setup aus SQL, Excel und manuellen Abstimmungsprozessen in eine moderne Datenplattform mit hohem Automatisierungsgrad verwandelt hat. Dadurch erhalten zahlreiche Fachbereiche ihre Daten mit hoher Zuverlässigkeit, Qualität und Aktualität – bei gleichzeitig reduzierten Kosten und höherer Transparenz.

Die Ausgangslage: Reporting mit vielen manuellen Schritten

Zu Beginn waren sämtliche Prozesse im Datenmanagement bei der GEMA stark von manueller Arbeit und zahlreichen Einzelschritten geprägt.

Die Datenprüfung erfolgte ausschließlich in Excel-Tabellen, die im Fachbereich Finanzen genutzt wurden. Sie dienten dazu, die Daten zu kontrollieren, zu validieren und für die weitere Verarbeitung freizugeben. Ein erster Schritt in Richtung Vereinfachung war die Einführung von Tableau. Dafür wurde ein SQL-Statement entwickelt, das die Daten in Google BigQuery importierte und dort weiter aggregierte. Mit Tableau konnten die Daten dann visualisiert und
ausgewertet werden.

Das Vorgehen funktionierte zwar, verursachte jedoch einen zusätzlichen manuellen Aufwand. Jede Aktualisierung erforderte Anpassungen an den Skripten und ein manuelles Laden der Ergebnisse. Dadurch stieg das Risiko von Fehlern, was letztlich Zeit und Ressourcen kostete.

Der Wendepunkt: Einführung von Databricks

Mit der Entscheidung, Databricks als zentrale Data Management Plattform einzuführen, wurde ein grundlegender Richtungswechsel eingeleitet. Die zentrale Herausforderung bestand darin, dass die relevanten Daten in unterschiedlichen Systemen und Formaten verteilt lagen. Die gesamten Daten wurden von Databricks mittels Delta Lake in einer einheitlichen Datensenke gelegt und organisiert. Die Entscheidung für die Architektur eines Data Lakehouse fiel, um eine moderne Plattform aufzubauen, die Big-Data-Dateiformate, Object Storages und schlanke Data Pipelines optimal unterstützt. Dazu passte das Prinzip einer schrittweisen Datenveredelung und dem Datendesign in einer Medaillon-Architektur, wie sie in einem Lakehouse mit Databricks erprobt ist.

Neben der Bewirtschaftung mittels Data Pipelines können die Anwender eigene Dateien hochladen und aus dem gesamten Datenpool individuelle ETL-Pipelines für ihre Auswertungen erstellen. Die Konsolidierung der Daten war dem Kunden sehr wichtig, außerdem wollte man aber die Anwender selbst dazu zu befähigen, ihre Daten auszuwerten. Der Self-Service-Gedanke wurde damit von vornherein berücksichtigt und war bei der Entscheidung ein wichtiger Grundgedanke. Ein weiteres Ziel war es, die bestehenden Prozesse zu automatisieren, skalierbarer zu gestalten und auf eine moderne Cloud-Infrastruktur zu migrieren – ein Vorhaben, das mit den Bordmitteln in Databricks erfolgreich umgesetzt werden konnte.

Die wichtigsten Schritte:

1. Migration von SQL nach PySpark
Die zentralen SQL-Statements wurde vollständig in PySpark überführt – der Open-Source-Engine, die in Databricks nativ unterstützt wird. Dadurch wurde der Code deutlich flexibler, besser wartbar und konnte einfacher in Pipelines eingebettet werden.

2. Optimierung des Ladeprozesses
Anfangs liefen die Jobs auf einem All-Purpose Cluster, was für erste Tests ausreichend war. In späteren Projektphasen erfolgte die Umstellung auf Job Cluster, die automatisch starten, ausführen und wieder gestoppt werden – eine Maßnahme, die die Kosten spürbar reduzierte.

3. Ausbau zur Multi-Pipeline-Struktur
Jeder Fachbereich hatte eigene Anforderungen – ob Reporting, Planung oder Controlling. Dadurch entwickelte sich aus einem anfänglichen SQL-Skript eine Struktur mit fünf dedizierten ETL-Pipelines, über die sich die Fachbereiche heute mit einem Knopfdruck mit aktuellen Daten versorgen können.

4. Nutzung des Unity-Catalogs
Auch Daten aus Excel- oder CSV-Dateien lassen sich problemlos nutzen: Über den Unity Catalog werden sie in Databricks eingebunden, wo sie mit den integrierten Funktionen verarbeitet und ohne Umwege in bestehende Pipelines integriert werden können. Kundennutzen: Automatisierung, Effizienz und Zukunftssicherheit.

Die Transformation brachte nicht nur technologische, sondern auch wirtschaftliche Vorteile:

Automatisierung statt Handarbeit: Das manuelle Aktualisieren von Daten entfällt
– durch automatisierte Pipelines sind aktuelle, geprüfte Daten jederzeit verfügbar. Dadurch werden gebunden Ressourcen (vor allem Arbeitszeit) frei, da weniger manuelle Tätigkeiten notwendig sind und Entscheidungen schneller getroffen werden können.

Kosteneffizienz durch dynamische Skalierung: Die Nutzung von Job Clustern sorgt dafür, dass Compute-Ressourcen nur bei Bedarf angefordert werden – ein wesentlicher Vorteil im Vergleich zu dauerhaft laufenden Systemen. Dadurch konnten laufende Infrastrukturkosten reduziert werden.

Integrierte Verarbeitung externer Datenquellen: Strukturierte Daten (z.B. Excel,
CSV), die nicht in klassischen Datenbanken liegen, können über den einheitlichen Metadaten-Catalog organisiert und direkt in Databricks integriert und analysiert werden. Dadurch können Analysezeiten verkürzt, die Produktivität gesteigert und schnellere, fundierte Geschäftsentscheidungen ermöglicht werden. Das Resultat: Ein zukunftssicheres, cloudbasiertes Datenökosystem, das sich flexibel anpassen und skalieren lässt – ganz ohne manuelle Prüfschritte.

Fazit: Databricks als Katalysator für datengetriebene Organisationen

Was mit einem manuell gepflegten SQL-Skript begann, entwickelte sich mit einem Data Lakehouse und Databricks zu einer modernen, wartbaren und automatisierten Datenlandschaft. Was vorher einen Verarbeitungsaufwand von ca. zwei bis drei Tagen und unzähligen Abstimmungen zur Beschaffung der Daten verursachte, steht heute in weniger als zwei Stunden zur Verfügung – ganz ohne zusätzliche Abstimmungen.

Der Übergang von isolierten Tools zu einer integrierten Cloud-Plattform ermöglichte nicht nur höhere Datenqualität und Transparenz, sondern schuf auch eine nachhaltige Grundlage für zukünftige Anforderungen – etwa in Richtung AI-Use Cases, Machine Learning, Echtzeit-Analysen oder Self-Service BI.

Das Projekt wurde von der cimt ag begleitet, die umfassende Erfahrung in der Konzeption und Umsetzung moderner Datenplattformen einbrachte. Gemeinsam mit dem Kunden entwickelte das Team eine zukunftsfähige Lösung, die nicht nur technisch überzeugt, sondern sich flexibel an die wachsenden Anforderungen anpassen lässt. Besonderer Wert wurde daraufgelegt, dass die Plattform langfristig Mehrwert schafft und den täglichen Arbeitsalltag des Kunden spürbar erleichtert.

GEMA – Neue Datenstrategie dank Databricks

Sievert SE – Datenbasis statt Datensilos

porta holding – Integration von strukturierten und semi-strukturierten Stammdaten

Sie wollen mehr erfahren?