Observability-Lösung für Talend-Managed-Services Kunden

Leistungsfähige und skalierbare Observability Lösung für Talend-Installationen

Viele Unternehmen nutzen Talend, um Daten aus unterschiedlichen Quellen zu extrahieren, zu transformieren und zu laden (ETL), Datenpipelines zu automatisieren, Datenqualität und Governance sicherzustellen sowie Analysen und Reporting durch zentrale Integration und Aufbereitung konsistenter, bereinigter Daten zu ermöglichen.

Doch wie verhält es sich mit dem eigentlichen Betrieb der Tasks und Services? Manchmal sind Verbindungsprobleme mit Datenquellen die Ursache für fehlgeschlagene Tasks. Zertifikate, Token und Passwörter können abgelaufen sein und müssen erneuert werden. Plötzlich anwachsende Datenmengen können Ressourcenprobleme wie Speicherüberschreitungen und CPU- oder I/O-Engpässe verursachen.

Reicht es im Fehlerfall den Task erneut auszuführen, oder wäre es besser die eigentlichen Ursachen zu erkennen und seine Infrastruktur entsprechend zu skalieren?

Hier kommt unsere Observability-Lösung für Talend-Managed-Services ins Spiel, welche von Anfang an Teil der Architektur und Entwicklung sein sollte – nicht erst dann, wenn erste Probleme auftreten.

Was versteht man unter Observability?

Observability (dt. Beobachtbarkeit) ist mehr als modernes Monitoring. Es bezeichnet die Fähigkeit, auf den internen Zustand eines Systems allein aus seinen externen Messungen und Signalen zu schließen. Das Ziel ist es, Probleme schnell zu erkennen, zu verstehen und zu beheben, ohne das System instrumentieren oder anhalten zu müssen.

Observability ermöglicht eine hypothesengetriebene Fehlersuche, welche es erlaubt, aus beobachtbaren Signalen (Metriken, Logs, Traces) gezielte Vermutungen über mögliche Ursachen zu bilden, diese systematisch zu testen und durch Korrelation von Telemetrie und Kontext schnell zur tatsächlichen Fehlerquelle vorzudringen.

Dabei unterstützen Alerts, Dashboards und Runbooks den Betrieb und die Incident-Response.

Observability macht also ein System durch umfassende, strukturierte Telemetrie und Analyse so durchschaubar, dass aus externen Signalen zuverlässig auf interne Ursachen geschlossen werden kann.

Im Rahmen des durchgeführten cimt Innovation Projekts hat das Managed Service Team den Prototypen für eine cloudbasierte Observability-Plattform erstellt, welche in der Lage ist, Talend-spezifische Metriken aufzuzeichnen, darzustellen und auswerten zu können.

Was ist der Vorteil cloudbasierter Observability-Plattformen gegenüber On-Premises-Installationen?

Schnellere Time-to-Value und einfacheres Onboarding

Cloudbasierte Observability-Plattformen liefern vorkonfigurierte Dashboards, Alarme und vorgefertigte Integrationen, sodass Teams deutlich weniger Zeit für Installation, Konfiguration und Anpassung aufwenden müssen. Das reduziert die Einführungszeit, beschleunigt die Fehlerdiagnose und erlaubt es Entwicklern und SREs, praktisch sofort Erkenntnisse aus Telemetrie zu gewinnen statt sich um Infrastrukturaufbau und lange Integrationsphasen zu kümmern.

Geringerer Betriebsaufwand

Bei cloudbasierten Observability-Anbietern wird die zugrunde liegende Infrastruktur, Software-Wartung und Verfügbarkeit vom Dienstleister übernommen. Das umfasst automatische Upgrades, Patching, Skalierung, Backups und Redundanz — Aufgaben, die bei einer On-Prem-Lösung intern geplant und ausgeführt werden müssten. Für die Operations-Teams bedeutet das weniger tägliche Betriebsarbeit, geringeren Personalaufwand für Infrastrukturmanagement und mehr Kapazität, sich auf höhere Prioritäten wie Zuverlässigkeit, Performance-Optimierung und Incident-Response zu konzentrieren.

Bessere Multi-Tenant- und Team-Funktionen

Cloudbasierte Observability-Plattformen bieten zentrale Organisationsebenen, rollenbasierte Zugriffskontrollen und native Multi-Tenant-Unterstützung, sodass mehrere Teams oder Geschäftseinheiten sicher und getrennt dieselbe Plattform nutzen können. Das vereinfacht gemeinsames Troubleshooting, gemeinsame Dashboards und geteilte Alerts bei gleichzeitiger Trennung von Daten, Kostenstellenerfassung und Zugriffsrechten. Zentralisiertes Team-Management reduziert administrativen Aufwand und erleichtert Governance, ohne dass jede Einheit eigene Infrastruktur betreiben muss.

Welcher Technologie-Stack wurde verwendet?

Google Kubernetes Engine (GKE)

GKE ist ein verwalteter Kubernetes-Dienst von Google Cloud, mit dem sich Container-basierte Anwendungen in Produktionsumgebungen betreiben lassen. Er ermöglicht eine einfache Integration mit Google Cloud-Diensten wie Cloud Storage, Identity und Access Management, Virtual Private Cloud und Load Balancing.

Hohe Verfügbarkeit, automatische Skalierung (horizontal und vertikal) sowie regelmäßige Sicherheitsupdates sorgen für stabile, leistungsfähige und sichere Produktionsumgebungen, reduzieren Betriebsaufwand und ermöglichen schnelle, zuverlässige Rollouts.

Grafana Mimir

Eine Open Source, horizontal skalierbare Time Series Database (TSDB) für Prometheuskompatible Metriken. Prometheus gilt als ein Standard zur Aufzeichnung und Abfrage zeitbasierter Metriken. Mimir ermöglicht große Deployments, bietet MultiTenancy, hohe Verfügbarkeit, langlebige Speicherung und schnelle Abfragen und ist bis zu Milliarden von Serien ausgelegt.

Über den Mimir-Alertmanager können Alarme zentral verarbeitet, dedupliziert und an verschiedene Benachrichtigungskanäle (z. B. E‑Mail, Slack, PagerDuty, Webhooks) weitergeleitet werden. Er unterstützt Routing-Regeln, Eskalationspfade, Silencing, Wiederholungsintervalle und Multi‑Tenancy, sodass pro Tenant getrennte Alert‑Policy‑Verarbeitung möglich ist.

PostgreSQL

Ein freies objektrelationales Datenbankmanagementsystem für ereignisbasierte Daten und Abfragen, die sich mit Prometheus nur begrenzt realisieren lassen.

Grafana

Ein Open-Source-Tool zur Visualisierung von Daten, das häufig in der Observability von Softwareanwendungen und Infrastruktur eingesetzt wird. Es ermöglicht Benutzern, Daten aus verschiedenen Quellen zu aggregieren und in ansprechenden Dashboards darzustellen. Es spielt eine zentrale Rolle bei der Observability, indem es die Überwachung und Analyse von Systemen erleichtert und Erkenntnisse auf eine benutzerfreundliche Weise präsentiert.

Terraform

Ein Open-Source-Infrastruktur-Management-Tool, welches Benutzern ermöglicht Infrastruktur als Code (IaC) zu definieren und bereitzustellen, was die Verwaltung von Cloud-Ressourcen, Servern, Netzwerken und anderen Infrastrukturkomponenten erheblich vereinfacht.

Im Zusammenspiel mit Google Kubernetes Engine ermöglicht Terraform die automatisierte Bereitstellung von Clustern, einschließlich der Konfiguration von Autoscaling, Netzwerken und Sicherheitsrichtlinien. Dadurch wird die Verwaltung komplexer Cluster erheblich vereinfacht.

Terraform kann in Continuous Integration/Continuous Deployment-Pipelines integriert werden, um sicherzustellen, dass die Kubernetes-Infrastruktur beim Deployment von Anwendungen automatisch angepasst wird.

Überwachung von Anwendung im Talend-Kontext

Nutzung der Qlik Talend API

Möchte man einen tieferen Einblick in seine Talend-Umgebung gewinnen, als es das Talend Administration Center (TAC) oder die Talend Management Console (TMC) ermöglichen, so bietet die Qlik Talend API die Möglichkeiten zur Abfrage der Ausführungshistorie und den Download detaillierter Logs.

In unserer Monitoring-Lösung wird z.B. der Status aller ausgeführten Tasks in Echtzeit abgerufen und in einer SQL-Datenbank zwischengespeichert. Das ermöglicht auch komplexerer Abfragen über Zuverlässigkeit, Laufzeit und Fehlerverhalten aller Tasks im Beobachtungszeitraum. Über ein sog. Smart Alerting kann im wiederholten Fehlerfall benachrichtigt werden. Außerdem erfolgt auch eine Mitteilung, wenn ein Task nach mehreren Fehlschlägen wieder erfolgreich ausgeführt werden konnte (alert resolution). Die TAC, bzw. TMC leistet dies nicht, da dort nur über jeden Fehlschlag einzeln informiert werden kann.

Oft ist die Ursache für fehlgeschlagen Taskläufe nicht so einfach zu ermitteln. Daher können alle Läufe zeitlich auf einem Dashboard graphisch dargestellt werden und mit weiteren Metriken wie CPU- und Speicherauslastung in einen zeitlichen Zusammenhang gebracht werden.

Das ermöglicht auch ein erweitertes Kapazitätsmanagement, denn durch die Analyse historischer Daten können Vorhersagen über zukünftige Ressourcenanforderungen getroffen werden was das Risiko von weiteren Engpässen und Systemausfällen minimiert.

Metrikabfragen über Java Management Extensions (JMX)

Da alle gängigen Talend-Komponenten auf Java basieren können Metriken über JMX abgefragt werden. Zur Umwandlung in Prometheus-Metriken kann hier der Prometheus JMX-Exporter genutzt werden, obwohl manche Anwendungen wie z.B. die Talend Remote Engine auch Prometheus-Metriken nativ unterstützen. Hier muss darauf geachtet werden, dass bei der Vielzahl der abgreifbaren Metriken möglichst nur auf relevante Metriken gefiltert wird, um die zusätzliche Last der beobachteten Maschine klein zu halten, als auch das eigentliche scraping effizient zu gestalten.

Fazit

Mit Open-Source-Tools lässt sich eine leistungsfähige und skalierbare Observability Lösung für Talend-Installationen bereitstellen. Weil der meiste Aufwand in Bereitstellung, Konfiguration und Betrieb steckt, lohnt sich für viele Kunden die Nutzung fertiger Cloud‑Plattformen – sie reduzieren deutlich die Betriebskomplexität, sparen Skalierungs‑ und laufende Kosten und bieten sofort einsatzbereite Integrationen.

Sie möchten mehr über Observability-Lösung für Talend-Managed-Services erfahren? Sprechen Sie uns gerne an!

Kontakt

Marcel Kuszak
Telefon: +49 30 834 098-0
E-Mail: kontakt@cimt-ag.de