Warum ein IT Leitstand ohne AI Tools möglich, aber nicht sinnvoll ist

Veröffentliche eine Notiz:

Es gibt Statements unter Hundebesitzern, die fangen etwa so an : „Ein Leben ohne Hund ist zwar möglich, aber nicht erfüllend und daher sinnlos“.

Ganz so krass ist die Einstellung in der IT unter Systemadministratoren und Site Reliability Engineers noch nicht, was den Einsatz von Tools angeht. Aber die Sinnhaftigkeit des Einsatzes von AI Algorithmen und AI Tools für IT Operations, kurz AIOps genannt, wird oft kritisch hinterfragt :

  • Sehe und erfahre ich Dinge, die ich vorher in meiner Systemlandschaft nicht eh schon gesehen und gewusst habe im Fehlerfall ?
  • Bringt mir der Einsatz von AI Tools eine Erkenntnis, die ich vorher mit meinen Monitoring-, Observability– und Logging-Tools noch nicht hatte ?
  • Welchen Mehrwert bringen mir als IT Administrator oder SRE vorgefertigte Scripts (Runbooks), um auf kritische Ereignisse und Ausfälle zu reagieren ?
  • Welchen Erkenntnisgewinn habe ich, wenn ich in IT Service Management Systemen nach Lösungen für bereits gelöste Incidents suche ?

Ähnlich ist es im Umfeld Security und Tools zur Sicherheitsabwehr. Oft macht man sich Gedanken, NACHDEM ein Vorfall passiert ist und Schaden angerichtet wurde.

Denn Sicherheit und Verfügbarkeit kostet ja Geld, zusätzliches Geld.

Traditionelle IT Landschaften verändern sich, es kommen immer mehr Komponenten hinzu oder System- und Anwendungsumgebungen werden immer komplexer und skalierbarer. Daher verändern sich auch die Anforderungen an die Monitoring Tools. IT Administratoren können sich nicht mehr nur auf die traditionellen Tools verlassen, um Probleme rechtzeitig zu erkennen. Ohne eine allumfassende Übersicht auf die Systeme, können wichtige Events plötzlich zu Problemen (issues) mutieren, ohne frühzeitige Warnungen.

Daher lautet die Devise:

Verbessere die OPERATIONALE EFFIZIENZ mit einem allumfassenden Ereignis-Management im IT Leitstand.

Event Management ist die Basis für AIOps

Viele kleine, mittlere und grosse Unternehmen, also eigentlich ALLE, haben bereits ein mehr oder weniger ausgebautes oder zielgerichtetes Ereignismanagement, eine Event Management Lösung, die als IT Leitstand das Auftreten und die Auswirkungen von IT Events, die zu Alarmen (Alerts) und Vorkommnissen (Incidents) führen, in verschiedenen Dashboards darstellen.

Durch die technologische Weiterentwicklung der verwalteten Umgebungen (immer mehr VMs, Container, Kubernetes Cluster, Netzwerkeinheiten, ganze Cloud Accounts bei Hyperscalern, immer mehr software-definierte Objekte bei Netzwerken), wird die Anzahl der zu überwachenden Resources zum einen massiv immer grösser. Sie wird sogar kurzlebiger (bei containerisierten Anwendungen) und die zu überwachenden Objekte ändern ihre Namen und Versionen gemäss DevSecOps stetig.  D.h., die zu managende Umgebung „lebt“ und ist dynamischer denn je. Diese Erkenntnis ist nicht neu, stellt aber IT Administrations-Abteilungen vor neue Herausforderungen, was das Event und Incident Management angeht. Die configuration items, die CMDBs, die Anwendungs- und System-Topologien und die Abhängigkeiten untereinander werden immer dynamischer und ändern sich kontinuierlich. Prominente Beispiele sind hier Kubernetes Clustern, Container, Microservices sowie software-defined networks für remote access networks (RANs) und 5G.

Wie geht man nun mit diesen neuen Anforderungen an das Event-und Incident-Management  um ? Je nach Grösse, Dynamik und Skalierbarkeit einer verwalteten Umgebung kann man unterschiedliche Ansätze wählen und mit geeigneten AI Tools die IT Operations zu unterstützen :

Bildquelle 1: IBM Architecture Center

AIOps ist ein Kreislauf zwischen Collect, Analysis und Infuse. In der Analyse Phase unterscheidet man neben dem Daten sammeln und gruppieren (Collect) auch noch Detect, um Dinge zu erkennen, die man noch nicht weiss, um dann zu handeln (Act) und eine Entscheidung (Decide) über eine mögliche Problemlösung zu treffen.

Im ersten Schritt (Collect) ist es notwendig, die „richtigen“ Daten in den Kreislauf einfliessen zu lassen. Hierbei kommen aus vielen Systemen und Anwendungen über Observability und Monitoring und Logging Tools wichtige Daten wie Events, Metriken, Traces und Topologie Daten in den Leitstand rein.

Ein wesentlicher Vorteil der IBM AIOps Lösung ist, dass viele marktrelevante Monitoring und Logging und IT Service Management Tools in der Anbindung unterstützt werden und der IT Leitstand aus IBM und non-IBM Datenquellen die wesentlichen Informationen bekommt.   Ein Paradebeispiel hierfür ist das IBM Observability Tool Instana für Application Performance Management (APM) hat zur IBM AIOps Platform eine direkte, out-of-the-box Verbindung, in der diese Daten granular ausgewählt werden können, welche KPIs und Metriken an den AIOps Leitstand gesendet werden :

Bildquelle 2: IBM AIOPs Data Collections

Da eine Vielzahl an wertvollen Event Daten an den Leitstand geschickt werden, kommt es bei Ausfällen in der überwachten IT Landschaft fast zu einer „Überflutung“ von Events und Alerts, die oft auch redundanten Ursprung haben. Und genau da setzt ein wichtiger AI Algorithmus an, die Gruppierung und Korrelation von Events zu unterstützen und die sog. noise reduction zu ermöglichen, um sich nur auf die wesentlichen Alerts zu konzentrieren und den Ausgangs-Alert, die eigentliche root cause gleich im Blick zu haben.  

Event Gruppierung und Korrelation

Das klassische Event Management der IBM AIOps Lösung basiert auf zwei wichtigen Funktionen : Event Gruppierung (event grouping) und Event Korrelation.

Beim event grouping werden mit deskriptiven AI Algorithmen eine Vielzahl Events auf Zusammengehörigkeit analysiert und bei passenden Mustern zu einem Incident zusammengefasst (gruppiert).  

Drei Gruppierungsverfahren haben sich dabei etabliert und bringen für das Event Management einen signifikanten Mehrwert, um die Flut an Events einzudämmen, man spricht hier auch von noise reduction :

Bildquelle 3: IBM Noise Reduction

Die zeitliche (temporale) Gruppierung basiert auf einem lernenden AI Algorithmus, der Events aufgrund der Zeitspanne und des Kontextes erkennt und gruppiert. Entstehen durch ein Ereignis gleichartige Events innerhalb kürzester Zeit an verschiedenen Systemen oder Umgebungen, erkennt der AI Algorithmus dieses Zusammenhänge, vergleicht die Details zu den Ressourcen und behandelt alle korrespondieren Events, als wenn sie zu einem Problem gehören, d.h. aus vielen gleichartigen Events eines Ursprungs wird durch Gruppierung ein „Haupt-Event“ gemacht. Praktischen Beispiel hierfür wäre ein Ausfall einer zentralen Netzwerkkomponente, wo sehr viele betroffenen Systemen und Komponenten den gleichen Netzausfall melden, aber nur zu einer Ursache (root cause) gehören. So werden statt hunderter Events nur ein einziger in der Event Konsole aufgeführt, da diese sinvoll gruppiert wurden. So wird nur ein Incident statt vieler gleicher Incidents erstellt.

Die topologie-basierte Gruppierung basiert auf einem AI Algorithmus, der Zusammenhänge innerhalb einer gleichen Resourcengruppe erkennt, also Resourcen, die alle aus einer gleichen Gruppe stammen, wie z.B. einem Kubernetes namespace oder einem vmware datacenter. Dann werden alle Ressourcen, wie VMs, pods, container, microservices, etc. die logisch in einer Ressourcengruppe zusammenhängen, topologisch gruppiert. Damit sieht man im Fehlerfall gleich die Auswirkung von zusammenhängenden (und auch nicht zusammen hängenden) Komponenten in einem Topologiebild, hier dargestellt als Trennung von Kubernetes namespaces (links)und Anwendungen (rechts) :

Bildquelle 4: IBM Topology Manager

Die zweckbasierte Gruppierung (scope-based grouping) ist ähnlich wie die beiden anderen Gruppierungen, nur dass man hier einen bestimmten Zweck (scope) definieren kann, wie Komponenten zusammenhängen. Ein scope kann z.B. sein, dass man Events gruppiert, die sowohl zeitlich, als auch topologisch, aber auch räumlich zusammen hängen, z.B. in einer gemeinsamen Lokation (data center) oder einen gemeinsamen fachlichen Zweck haben (z.B. alles Server die zu der gleichen SAP ID gehören).

Alle Gruppierungsverfahren führen zu einer sauberen Kategorisierung wiederkehrender Events, egal welcher Priorität (severity) :

Bildquelle 5: IBM Gruppierungen

Eine Königsdisziplin der Event Gruppierung stellt das sog. super-grouping dar.   Events können mehr als einer dieser Gruppen angehören und wenn mehrere Gruppen gemeinsame Events haben, dann werden diese Event Gruppen zu sog. supergroups kombiniert.

IBM AIOps bietet mit diesen Gruppierungs-Funktionen, basierend auf AI Algorithmen eine marktführende Event-Analyse und Event-Korrelation. Jede dieser Gruppierungsfunktionen allein reicht nicht aus, um Events sinnvoll zu korrelieren. Scope-basierte Korrelation fasst Events zusammen, die den gleichen scope haben, aber wenn der scope zu weit gefasst ist, besteht die Gefahr, dass Events nicht korrekt korreliert werden.  Die zeitlich (temporale) Gruppierung von Events, lernt mit Hilfe von AI-Algorithmen, welche Events in einer Zeitreihe zusammen aufgetreten sind, doch oft kommen auch Events dazu, die zwar innerhalb einer Zeitreihe auftraten, aber fachlich nichts mit der gemeinsamen Ursache dieser Events zu tun hatten. Die topologie-basierte Korrelation von Events erlaubt es, Abhängigkeiten und Verbindungen von Events untereinander zu erkennen und Verbindungen der Events untereinander durch die Topologie zu identifizieren, aber auch hier können wichtige Gruppierungsattribute übersehen werden.

Erfahrungen aus vielen Projekten haben uns gezeigt, dass jede einzelne Gruppierungsfunktion für sich schon sehr mächtig ist, aber durch die Vielzahl der möglichen use cases beim Event Management, schafft es kein einzelner Algorithmus allein, die maximale Gruppierung und Korrelation zu erreichen.

Daher verwendet IBM AIOps mit dem AI Manager und super-grouping eine Kombination von allen drei Gruppierungsfunktionen, um eine bestmögliche Korrelation zu erreichen, eine sehr hohe noise reduction zu erreichen und die Anzahl der notwendigen Tickets bei Incidents dadurch deutlich zu reduzieren.

Weiterführende Details zur Event Gruppierung findet man in der IBM AIOps-Dokumentation :https://www.ibm.com/docs/en/cloud-paks/cloud-pak-aiops/4.2.0?topic=algorithms-about-event-grouping

Anomalien-Erkennung

Die Erkennung von Anomalien gehört zu den wichtigsten Funktionen einer AIOps Lösung überhaupt. Die wichtigsten KPIs, die Monitoring- und Logging Systeme an einen IT Leitstand senden, sind Events als Basisinformationen, Alerts aus Log Dateien, Performance-Metriken von Systemen und Anwendungen sowie Topologie-Veränderungen. 

IBM bietet mit AIOps für alle vier Bereiche eine Anomalie-Erkennung mit Hilfe von AI Algorithmen. Diese Algorithmen erkennen Anomalien über Textanalysen (Natural Language Processing, NLP) bei Log Anomalien, Muster Erkennung bei Topologieveränderungen (Topologien-Anomalien Erkennung) und Erkennung von Performance Veränderungen mit Hilfe von Metrikveränderungen innerhalb einer bestimmten Zeit (Metrik-Anomalien Erkennung).

Bei einer Anomalien-Erkennung wird über einen definierten Zeitraum ein Datenbestand trainiert, d.h. der Normalzustand wird über die Zeitreihe analysiert.

Passiert nun über einen Indikator eine Veränderung am trainierten (erlernten) Datenbestand, wird bei der Echtzeitanalyse des Datenbestandes eine Anomalie ausgewiesen, die vorher nicht vorhanden war im trainierten Datenbestand.  Beispiele dafür können sein :

Bildquelle 6: IBM AIOps Field Guide
  • Log-Anomalie Erkennung: Ein neuer Fehlereintrag in einem System- oder Anwendungslog (Erkennung mittels Natural Language Processing Algorithmen) 
  • Metrik-Anomalien Erkennung: Eine sich verändernde Performance-Metrik, die durch ein Monitoring– oder Observability Tool festgestellt wird und sich anbahnende Incidents bereits im Vorfeld erkennen kann
  • Topologie-Anomalien Erkennung: Eine sich verändernde Topologie, wo Beziehungen der Komponenten (= AIOps Resources) untereinander sich über eine Zeitreihe verändern, z.B. durch den Ausfall / Wegfall einer Komponente oder durch Hinzuschalten einer Komponente bei Auto-Skalierung.

Anomalien-Erkennung ist eine der bedeutenden Mehrwerte von AI Algorithmen bei einer AIOps Lösung und IBM bietet mit seinen marktführenden und erprobten AI Algorithmen und Datenmodellen hier eine technologische Marktführung beim Einsatz dieser AI Algorithmen für die IBM AIOps Lösung.

Historische Incident- und Ticket-Analse

Das Analysieren von ähnlichen, in der Vergangenheit bereits aufgetretenen (historischen) Incidents aus einem IT Service Management System ist eine wichtige Aufgabe für den IT Leitstand. Alerts, die zu Incidents führen würden, und eine Ähnlichkeit mit einem Problem haben, können in der Vergangenheit bereits als gelöste Tickets vorliegen in einem IT Service Management System. Daher ist es hilfreich, den Kontext eines Alerts zu prüfen, ob es bereits  Tickets von ähnlichen Incidents im ITSM System gibt, und wie diese in der Vergangenheit gelöst wurden, oder ob es Lösungsvorschläge in den ITSM Records dazu gibt. Oft ist es sogar hilfreich, zu erfahren, wie frühere Tickets gelöst wurden, oder eben nicht gelöst werden konnten, oder ob es Hinweise auf den Fehlerkontext gibt. Hierbei prüft ein AI Algorithmus, für den use case  „similar-incident Analysis“, anhand Informationen aus in früheren Tickets, welche Massnahmen angewendet wurden und ob diese erfolgreich waren. Es wird also anhand bereits dokumentierter Erfahrungen, und hierbei ist die Datenqualität bei der Ticket-Dokumentation sehr wichtig, geprüft, welche Aktion zum Lösen des Problems angewendet wurde. Es wird also nach der next best action gesucht und diese anhand von Bewertungen (Rankings) vorgeschlagen. Ein AI Algorithmus untersucht mit National Language Processing den Datenbestand mit historischen Tickets und dokumentierten Problemlösungen und errechnet anhand der erlernten Zusammenhänge ein Ranking, welche Aktionen zum Ziel führen könnten und schlägt diese dem IT Administrator oder SRE in einer eigens für die Problemlösung aufgebauten Story mit Prioritäten vor :

Bildquelle 7: IBM ChatOps

Selbstlernende AI Algorithmen

Ein AI Algorithmus ist nur so gut bzw. nur so lange gut, wie er sich an neue Gegebenheiten anpassen kann. Die Kombination aus semi-supervised Lernen und Auto-AI führt zu einer genaueren Ergebniserreichung.  Supervised Learning trainiert ein Modell aus gelabelten Daten und unterstützt die Vorhersagegenauigkeit über noch nicht bekannte oder zukünftig auftretende Daten. Unsupervised Learning ermöglicht bei einem Datenbestand durch Analyse der Trends in den Daten (clustering) die Tendenzen herauszufinden.

Semi-supervised Learning ist eine Kombination aus beiden, mit (wenigen) gelabelten Daten Vorhersagen und (vielen) ungelabelten Daten die Verteilung dieser Daten zu erkenn bzw. zu erlernen.

Im AIOps beobachtet man dabei die Muster und Gegebenheiten der IT Landschaft im  Leitstand, was kommt wie an Events, Metriken, Topologien und Tickets rein, und lernt durch erkannte Muster, wann welche Policy zutrifft und wann welche Aktionen angetriggert werden, um so zukünftige Vorhersagen bei neu aufkommenden Alerts und Incidents besser einschätzen zu können.

Auch das periodische Überprüfen der AI Modelle, die sog. AI Model Maintenance, führt zu einer besseren AI Performance, also einer besseren Trefferquote, indem regelmässig die erlernte Baseline, der Referenzdatenbestand, neu berechnet, trainiert und aktualisiert wird im Laufe der Zeit. Das führt zu noch besseren Treffern, Ergebnissen, Vorschlägen und einer höheren Genauigkeit beim Erstellen von Empfehlungen für die Fehlersuche und das Beheben der Incidents.

Mehr Details über die Arten der AI Algorithmen und deren Verwendung in der IBM AIOPs Platform finden Sie im IBM Architecture Center unter :

Business Service Management

Bei der Definition von Bedingungen und Regeln (policies) für Events, Alerts, Gruppierungen, Korrelationen und Anomalien, die im IT Leitstand (AIOps Konsole) ankommen bzw.- erkannt werden, kann man eine Gewichtung eines Problems vergeben. Diese Gewichtung, die business criticality, kann man mit Prioritäten einteilen. Je nach Priorität der business criticality einer Bedingung wird dann diese Komponente (Resource) in der weiteren Problembearbeitung favorisiert und entsprechende Aktionen aufgrund der eingeteilten, meist hohen Priorität getriggert, und spezielle Aktionen (runbooks) ausgeführt oder Personen benachrichtigt. Die business criticality in den policies hilft dem IT Administrator / SRE die Priorisierung des Problems eher zu sehen und zu reagieren.

Planungen und Übersichten im IT Leitstand mit AIOps

Für Entscheider ist es oft wissenswert, eine Übersicht zu bekommen, welche Probleme in einem definierten Zeitraum, z.B. 7 Tage, aufgetreten sind, wie viele Events und Alerts reingekommen sind, welche gruppiert wurden, oder zu Incidents geworden sind, wie sie gelöst wurden, wie welche AI Algorithmen zur Lösung beigetragen haben oder wie viele Aktionen (runbooks) zur Problemlösung angetriggert wurden. Die AIOps Insights Übersicht  im Cloud Pak for AIOps bietet über ein akkumuliertes Dashboard zum Business Service Management eine übersichtliche und zielgerichtete Darstellung über die wichtigsten Aktionen im IT Leitstand und wie AIOps diese gelöst hat. Somit bekommen SREs immer einen schnellen Überblick, wie ihr AIOps unterstützter IT Leitstand „performt“.

Bildquelle 8: IBM AIOps Insights Dashboard

Zusammenfassung

Mit einem AIOps unterstützten IT Leitstand erkennt man mit Hilfe von verschiedenen, kombinierbaren AI Algorithmen frühzeitig auftretende IT System- und Anwendungsprobleme. Gerade dort, wo in einem IT Leitstand aus multiplen Datenquellen wertvolle Informationen wie Events, Alerts, Metriken und Topologie Informationen zusammenkommen, können diese schnell die IT Administratoren und SREs mit wichtigen Informationen zu aufkommenden Problemen überfluten. Und genau da setzt die IBM AIOps Platform zielgerichtet an :

  • Mit einer on-premise oder auch cloud installierbaren Paketlösung, dem CloudPak for AIOPS, einem Paket, das alle Facetten des AIOps umfasst und einen allumfassenden und skalierbaren IT Leitstand mit wirksamen AI Algorithmen zur Verfügung stellt.
  • Mit einer SaaS Lösung, dem AIOps Insights, einer SaaS Lösung, mit gezielten Datenschnittstellen zu den wichtigsten und marktrelevanten Systemen, die zielgerichtet die wichtigsten Event Informationen, Metriken, Topologien, Policies und Runbooks für eine schnelle und effiziente Problemlösung als Software-as-a-Service bereitstellt.

Mit einer AIOps Lösung von IBM schaffen Sie es, die Mean Time to Detect zu reduzieren, die root cause eines IT Problems schneller zu finden, aufkommende Probleme im managed environment prädiktiv zu erkennen, BEVOR etwas passiert, und wenn etwas doch passiert ist, diese durch den AI Manager zielsicher mit einer hohen Wahrscheinlichkeit zu erkennen und mit den vorgeschlagenen Aktionen automatisierbar und zielsicher zu lösen.

Mit allen diesen Möglichkeiten und Vorteilen, die uns heute die AI Algorithmen für IT Operations in einem Leitstand bieten, ist die Feststellung wahrscheinlich gerechtfertigt:

Ein IT Leitstand ohne AIOps ist zwar möglich, aber nicht wirklich sinnvoll.

Kann ein IT Leitstand von IBM mit AIOps die gewünschten Mehrwerte bringen?

Wir meinen: JA, unbedingt!

Probieren Sie es aus : https://www.ibm.com/de-de/aiops

Certified IT Architect Automation and Integration

Malte Menkhoff

More stories
By innovate-banking on Februar 14, 2024

Leadership Skills in the Digital Transformation Wave of Central Banks

In an era of unprecedented change, many companies are faced with the challenges of digital transformation. Becoming a digital business means using technology to create new value in business models, customer experiences, and the internal capabilities that support core operations, whilst also generating efficiencies. The successful adoption of new technologies, digital ways of working and […]

Weiterlesen

By Georg Ember and Malte Menkhoff on Oktober 13, 2023

Warum ein IT Leitstand ohne AI Tools möglich, aber nicht sinnvoll ist

Es gibt Statements unter Hundebesitzern, die fangen etwa so an : „Ein Leben ohne Hund ist zwar möglich, aber nicht erfüllend und daher sinnlos“. Ganz so krass ist die Einstellung in der IT unter Systemadministratoren und Site Reliability Engineers noch nicht, was den Einsatz von Tools angeht. Aber die Sinnhaftigkeit des Einsatzes von AI Algorithmen […]

Weiterlesen

By innovate-banking on August 30, 2023

Implementation of the Digital Euro

EXECUTIVE SUMMARY The digital euro will enter the highly competitive, multifaceted, and heterogeneous payments landscape in the Eurozone. As any other payments method, it needs to provide additional value for the variety of stakeholders to achieve the envisioned acceptance rate in daily payments. Therefore we see the following aspects as levers for a successful digital […]

Weiterlesen