Übergreifendes Monitoring der nächsten Generation

Die ersten Computer kamen noch ohne Monitoring aus, schliesslich waren es einzelne Geräte, die mit speziell ausgebildeten Techniker daherkamen, so dass kein Bedarf für eine zentrale Überwachung bestand.

Das änderte sich mit der Verbreitung von Servern und vor allem Netzwerkkomponenten. In den 90er Jahren des letzten Jahrhunderts entstanden daher Tools wie MTRG oder nmon. Diese waren hauptsächlich auf die Netzwerk-Aspekte fokussiert und mit dem rasanten Aufstieg des Internets Ende der 90er, Anfang 2000er Jahre wurde es immer wichtiger, auch die Compute-Ressourcen zu überwachen. So entstanden Systeme wie Nagios oder Zabbix, welche auch heute noch verbreitet sind.

Warum also sollte man darüber nachdenken, Monitoring mit Splunk umzusetzen?

IT Systeme als zentrale Grundlage von Geschäftsprozessen
Nun, zunächst einmal ist die Digitalisierung weiter rasant fortgeschritten und mit ihr der Bedarf an Compute, Netzwerk und Storage Systemen. IT Systeme haben sich zur zentralen Grundlage von Geschäftsprozessen entwickelt. Dabei hat sich die Bedeutung von einzelnen Komponenten verschoben. War man früher daran interessiert, dass die einzelne Festplatte funktioniert, so kann sich heute kein Unternehmen mehr eine Architektur leisten, welche von einzelnen Komponenten abhängt.

Business-Prozesse und Services bestehen aus vielen verketteten Systemen, welche unbedingt redundant ausgelegt sein müssen. Wenn also eine Hardware-Komponente oder ein virtueller Server ausfällt, ist das fürs Business uninteressant. Sicherlich sollte sich jemand drum kümmern, aber die Pressestelle muss nicht involviert werden. Anders sieht es aus, wenn nicht nur eine Komponente, sondern ein ganzer Service ausfällt, wie z.B. das Datenbank-Backend. Hier muss ganz anders reagiert werden.

Mit traditionellen Monitoring Systemen liegt die Prozesssteuerung für einen solchen Ausfall beim Operator, der zunächst einmal die Tragweite des Ausfalls einschätzt und dann nicht nur das technische Problem adressiert, sondern auch die betroffenen Stellen informieren muss. Wäre es da nicht wunderbar, wenn automatisch diejenigen informiert werden würden, die vom Ausfall wissen müssen?

Splunk ITSI für Service Einblicke

Genau hier setzt Splunk mit der IT Service Intelligence (ITSI) App an. ITSI erlaubt es, nicht nur Komponenten zu überwachen, sondern ganze Business-Services. Diese können selbst wieder aus verschiedenen Sub-Services bestehen, so dass am Ende eine Service-Kette entsteht. Je nach Verknüpfung der einzelnen Komponenten kann die Abhängigkeit modelliert werden. Besteht ein Service z.B. aus einem Cluster, so ist der Service immer noch funktional, wenn ein einzelner Host ausfällt. Das Server-Team muss informiert werden, aber nicht das Produkt-Team. Das Service-Model erlaubt also eine zielgenaue Alarmierung.

 

Beispiel einer Service-Kette in ITSI:

Aber wäre es nicht noch besser, wenn man Probleme erkennen könnte, bevor sie entstehen? Sicherlich ist das nicht immer möglich – z.B. ein spontaner Stromausfall lässt sich normalerweise nicht vorhersehen. Anders sieht es mit Problemen aus, welche sich anbahnen. Hierzu kann Splunk Metriken überwachen. Metriken sind numerische Werte, die einen Zustand abbilden, wie zum Beispiel CPU oder Memory Auslastung. Hohe Memory-Auslastung bei niedriger CPU-Auslastung kann ein Hinweis auf ein Applikations-Problem sein. Um dies zu überprüfen, ist Splunk in der Lage mehrere Key Performance Indicators (KPIs) zu korrelieren.

Und warum sollte man für so ein System ausgerechnet Splunk als Unterbau wählen?
Ganz einfach, weil Splunk extrem flexibel in Bezug auf die Datenquellen ist. Weiterhin können auch Log-Events ausgewertet werden, so dass die komplette Observability-Kette abgebildet werden kann.

Konkret haben wir diese Architektur bei einem unserer Kunden aus dem Maschinenbau umgesetzt. Dieser Kunde betreibt Services sowohl im eigenen Datacenter als auch in der Azure-Cloud. In der Azure Cloud ist eine komplexe, selbst-entwickelte Applikation im Einsatz. Diese Applikation besteht aus mehreren Sub-Services, die teilweise auf virtuellen Azure-Servern laufen, zum Teil Azure-native Services sind und zu teilen auf Kubernetes (AKS) gehostet werden.

Das Ops-Team muss sowohl die On-Prem- wie auch die verschiedenen Azure-Services im Blick haben. On-Prem wie auch in Azure besteht die Herausforderung darin, die Zusammenhänge der verschiedenen Systeme im Monitoring abzubilden. Das sind nicht nur Up/Down Stati, sondern oft eine Kombination aus Hardware-, Host-, Prozess- und Applikations-Metriken und Logs. Splunk aggregiert all diese Daten und bietet mit ITSI einen kompletten Werkzeugkasten, um die Applikations-Kette abzubilden. Sowohl diese Kette als auch die Daten-Vielfalt konnte mit dem vorhandenen Monitoring-Tool nicht abgebildet werden.

Eine weitere technische Herausforderung war die Brücke zwischen On-Prem (wo Splunk aktuell betrieben wird) und der Azure-Cloud zu schlagen. Den Monitoring-Datentransfer aus der Cloud wurde durch eine Kombination aus Azure-EventHub (einem Kafka-Clon) und Cribl Stream realisiert. Dadurch konnten die Daten gleichzeitig auch noch aufbereitet werden. Unter anderem kann Cribl Stream Metriken aus Logs extrahieren, was bei bestimmten Datenquellen nicht nur die Weiterverarbeitung in Splunk deutlich vereinfachte, sondern nebenbei auch noch lizensiertes Log-Volumen einsparte.

Ein Monitoring-Projekt dieser Grössenordnung ist auch aus Organisations-Sicht spannend. Traditionelle Silos werden durch ein übergreifendes Monitoring aufgeweicht. Die Service-Sicht erfordert einen integrierten Blick auf die verschiedenen IT Systeme, welche auch schon vorher voneinander abhängig waren. Hierfür benötigt es auch auf der Führungsebene eine enge Koordination. Deswegen bestehen unsere Projekt-Teams nicht nur aus Techniker, sondern verfügen auch über Projektleiter. Die Projektleitung stellt sicher, dass sowohl Techniker als auch Führungskräfte auf Kundenseite im Boot sind und das gemeinsame Ziel fristgerecht erreicht werden kann.

Wenn also auch Sie ihr Monitoring auf das nächste Level heben wollen, sprechen Sie uns an und profitieren Sie von unserer langjährigen Projekterfahrung. Sprechen Sie mit uns!

Sie haben Fragen?

Kontaktieren Sie uns!