Automation

Die Kunst der Automatisierung: AIOps

Dezember 13, 2021 | von: IBM Digitale Perspektive Redaktion

Veröffentliche eine Notiz:

In der Zukunft sind vollständig instrumentierte, kontrollierbare, selbständige, automatisierte und autonome IT-Betriebsumgebungen möglich. KI und, konkreter, AIOps können uns auf dem Weg dorthin helfen.

Inhalt

Die Vision eines autonomen (selbsterkennenden, selbstheilenden, selbstverwaltenden) IT-Systems
Eine Einführung und ein ganzheitlicher Ansatz für das IT-Betriebsmanagement
Wie künstliche Intelligenz ITOps-Management in AIOps verwandeln kann
Zukünftig erweitert AIOps die betriebliche Effizienz – und bezieht auch die Softwareentwicklung und -bereitstellung ein

Auf dem Weg zu einem autonomen IT-System

Die Vision von selbstbewussten, selbstheilenden und selbstverwaltenden IT-Systemen galt bis vor kurzem noch als unerreichbar. Die jüngsten Entwicklungen in den Bereichen Cloud Computing, natürliche Sprachverarbeitung (NLP), maschinelles Lernen (ML) und künstliche Intelligenz (KI) im Allgemeinen machen ihre Verwirklichung jetzt möglich. KI kann heute das IT-Betriebsmanagement entscheidend optimieren: Sie erhöht die Anwendungsverfügbarkeit, erkennt Probleme frühzeitig und vermeidet sie proaktiv oder sorgt für deren schnellere Lösung; und sie optimiert die Ressourcen und Kosten für den Betrieb von Geschäftsanwendungen in hybriden Clouds.

In diesem Post erläutern wir die Möglichkeiten von KI im IT-Betriebsmanagement und die Techniken, die wir bei IBM als Teil von IBM Cloud Pak® for Watson AIOps entwickeln. Wir beschreiben:

wie halbstrukturierte Anwendungs- und Infrastrukturprotokolle analysiert werden, um Anomalien frühzeitig zu erkennen
wie Entitäten aus Protokollen, Warnmeldungen und Ereignissen extrahiert und verknüpft werden, um das Warnrauschen für IT-Betriebsadministratoren zu reduzieren
wie NLP auf unstrukturierte Inhalte in früheren Tickets angewendet wird, um Empfehlungen für die nächstbeste Aktion zur Problemlösung zu extrahieren
wie Beschreibungen von geplanten Änderungen am System in Kombination mit Ursachen früherer Incidents analysiert werden, um entsprechende Probleme zu vermeiden

IT-Betriebsmanagement – KI hilft gegen Komplexität

Das Management des IT-Betriebs ist für die meisten Unternehmen ein lästiges Problem – vor allem wenn sie sich bei geschäftskritischen Anwendungen auf ihre IT-Systeme verlassen müssen. Trotz der bester Planung durch Experten, guter Designs und solider Entwicklungspraktiken bleiben Software- und Hardwaresysteme anfällig. Das führt jedes Jahr zu Arbeitsaufwand in Millionenhöhe, Umsatzverlusten und unzufriedenen Kunden.

Auch die besten Analysetools sind nicht immer in der Lage, Incidents frühzeitig zu erkennen und vorherzusagen, wann sie auftreten könnten. Sie können keine zeitnahen und sachdienlichen Hinweise zur schnellen und effizienten Behebung von Incidents geben und verhindern, dass sie sich wiederholen. Das liegt an der Komplexität des Problems.

Und das Problem verschärft sich, denn mit der Umstellung auf modulare, auf Microservices basierendeArchitekturen wachsen die Datenmengen weiter rasant an. Gartner schätzt, dass allein die von der IT-Infrastruktur erzeugten Datenmengen jedes Jahr um das Zwei- bis Dreifache ansteigen. Hinzu kommt die Heterogenität heutiger Umgebungen. Denn Unternehmen betreiben IT-Anwendungen auf einer Mischung aus traditionellen Bare-Metal-Systemen, virtuellen Maschinen und öffentlichen oder privaten Clouds, die von verschiedenen Parteien betrieben werden. Auch das erhöht die Komplexität und den Umfang, mit denen IT-Betriebsmanagement -Lösungen umgehen müssen.

Hinzu kommt, dass Anwendungen, Infrastruktur und Netzwerksysteme große Mengen an strukturierten und unstrukturierten Daten in Form von Protokollen, Traces und Metriken erzeugen. Das Volumen und die Vielfalt der in Echtzeit erzeugten Daten stellen die Analysetools vor große Herausforderungen. Sie haben Schwierigkeiten damit, echte Anomalien zu erkennen, unterschiedliche Signale aus verschiedenen Quellen zu korrelieren und auch nur dann Alarm zu schlagen, wenn die Erkenntnisse die Aufmerksamkeit der IT-Betriebsleitung verdienen. Um Probleme effektiv zu lösen, werden die besten IT-Betriebsmanagement-Tools benötigt – und selbst die reichen nicht aus. Die komplexen und dynamischen Umgebungen von heute erfordern einen neuen Ansatz des IT-Betriebsmanagements: intelligent, in Echtzeit, adaptiv und skalierbar.

KI kann IT-Betriebsadministratoren, die auch als Site Reliability Engineers (SREs) bekannt sind, dabei helfen, diese Probleme zu lösen: KI kann sie dabei unterstützen, Probleme frühzeitig zu erkennen und vorherzusagen, bevor sie auftreten. Sie kann helfen, das Grundrauschen von Ereignissen und Warnungen zu reduzieren. Auch hilft sie, die spezifische Anwendung oder Infrastrukturkomponente zu lokalisieren, die die Ursache des Problems ist. Und sie kann die Auswirkungen eines Vorfalls bestimmen und zeitnahe Maßnahmen empfehlen. Diese Analysen tragen dazu bei, die mittlere Zeit bis zur Erkennung, Identifizierung/Isolierung und Behebung eines Vorfalls zu verkürzen. Das wiederum vermeidet sowohl direkte Kosten (z. B. Umsatzeinbußen, Strafen, Opportunitätskosten usw.) als auch indirekte Kosten (z. B. Kundenunzufriedenheit, verlorene Kunden, verlorene Referenzen usw.). Unternehmen können durch KI-Unterstützung also Millionen an Dollar sparen.

Im Folgenden beschreiben wir unseren ganzheitlichen Ansatz für das IT-Betriebsmanagement und erläutern die allgemeinen Optimierungsmöglichkeiten der KI in diesem Bereich. Anschließend gehen wir speziell darauf ein, was wir bei IBM tun, um die Vision von selbstheilenden, selbstverwaltenden und selbstüberwachenden IT-Systemen zu erreichen. Abschließend werfen wir einen Blick auf die Chancen, die sich dadurch bieten.

Ein ganzheitlicher Ansatz für das IT-Betriebsmanagement

KI ermöglicht uns einen ganzheitlichen Ansatz für das IT-Betriebs- und Servicemanagement [Abbildung 1]. Unsere Vision für die Anwendung von KI zur Optimierung des IT-Betriebsmanagements bezeichnen wir als AIOps:

Von strukturiert zu strukturiert, halbstrukturiert und unstrukturiert

Traditionell bestand der primäre Ansatz zur Lösung von IT-Betriebsproblemen in der Überwachung der Metriken in Form von strukturierten Daten. Unstrukturierte Daten wie Logs und frühere Incident-Ticket-Daten (d. h. halbstrukturierte und unstrukturierte Daten) können jedoch dazu beitragen, Probleme frühzeitig zu erkennen und auf der Grundlage früherer Lösungen zu beheben. Der Aufstieg der künstlichen Intelligenz hat neue Möglichkeiten für die Verarbeitung unstrukturierter Daten eröffnet. Diese Entwicklung verdankt sich vor allem den Fortschritten in den Bereichen Hardware-Architekturen, Cloud Computing, Verarbeitung natürlicher Sprache, maschinelles Lernen und Optimierungs-Frameworks für die Architektur tiefer neuronaler Netze.

Es ist heute möglich Features in mehreren Sprachen mithilfe von Sprachmodellen vorzutrainieren [X. Liu et al., 2020]. Substantiv-Verb-Phrasen können aus früheren Incident-Tickets extrahiert werden, um Lösungen zu identifizieren [L. Chiticariu et al., 2010]. Durch semantische Parsing-Techniken können Schlüsselbegriffe und Phrasen extrahiert werden, um daraus Runbooks abzuleiten [P. Mohapatra et al., 2018] [A. Gupta et al., 2018]. Mithilfe dieser neuesten NLP-Techniken lassen sich Logs und Tickets im IT-Betriebsbereich nutzen, um Signale und Problemlösungen zu erkennen.

Von isolierten Signalen zu integriertem Kontext

Diese Techniken ermöglicht es, Erwähnungen der Problemkomponenten wie Anwendungsnamen, Servernamen, Pod-IDs, Knoten-IDs usw. aus verschiedenen strukturierten und unstrukturierten Daten zu extrahieren. Dadurch lassen sich die Punkte in den IT-Daten miteinander verbinden, um einen ganzheitlichen Problemkontext zu erstellen.

In Verbindung mit Topologie und Ursachenforschung kann die Korrelation von Daten über verschiedene Signale hinweg helfen, ein vollständiges Bild des Problemkontextes zu gewinnen. Das wiederum ermöglicht eine bessere Problemlösung.

Von reaktiv zu prädiktiv und proaktiv

„Vorbeugen ist besser als heilen“, sagt ein altes Sprichwort. Das Monitoring von Geschäftsanwendungen, ein optimiertes Störungsmanagement und Problemlösungen allein reichen nach unserer Ansicht nicht aus. Das IT-Betriebs- und Servicemanagement sollte auch die Entwicklung von IT-Systemen, -Anwendungen und -Diensten, ihre Erstellung, Prüfung und Bereitstellung mit höchstmöglicher Qualität umfassen. Nur so lassen sich Probleme von vornherein vermeiden. Im Wesentlichen geht es darum, von Anfang an für einen besseren Betrieb zu sorgen.

Vorstellbar ist die Ausstattung der verschiedenen Phasen der IT-Anwendungsentwicklung und der Tools für Programmierung, Erstellung, Testen, Bereitstellung und Überwachung mit KI-gestützten intelligenten Funktionen. So können Entwickler, Tester, Bereitstellungsexperten und IT-Betriebsingenieure bzw. SREs dazu angeleitet werden, von Anfang an sichere, stabile und skalierbare Software zu schreiben.

Sollten sich dennoch Probleme einschleichen – was während Codierung, Erstellung, Tests und Bereitstellung trotz allem möglich ist – könnte diese am Ende jeder Phase mithilfe von Risikovorhersagemodellen erkannt werden. So ließe sich verhindern, dass minderwertige Artefakte in die nächste Phase gelangen. Intelligente Prüfungen und Gates verhindern beispielsweise, dass Code mit riskanten Sicherheitslücken in produktive Umgebungen gelangt. Unzureichend getestete Codemodule lassen sich so vor dem Ausrollen in eine produktive Umgebung ausfiltern, riskante Versionen gelangen dadurch nicht in die Produktion usw.

Wir stellen uns vor, dass unsere AIOps-Lösung vergangene Incidents mit den Grundursachen korreliert, die auf Sicherheitslücken, unzureichende Code-Testabdeckung und unzureichend getestete neue Versionen zurückgeführt werden können. Lassen sich diese Informationen zurückverfolgen, sind sie ein wichtiger Input für die Verstärkung der Kontrollen und Gates in den früheren Phasen des DevSecOps-Lebenszyklus (Abbildung 2).

Abbildung 2: Linksverschiebung im DevSecOps-Lebenszyklus bei gleichzeitiger Schließung der positiven Feedback- und Feedforward-Zyklen der Schleife für ein effizientes Betriebsmanagement.

In Tabelle 2-1 werden einige der Analysemöglichkeiten beschrieben, die KI in Anwendungsfällen des Vorfallmanagements bieten kann:

Tabelle 2-1: KI-Analysemöglichkeiten im IT-Betriebsmanagement im Anwendungsfall Incident Management.

KI-Modelle verwalten: von der ersten Generation bis hin zu fortgeschrittenen Fällen

Vorhersagemodelle, die mit Hilfe des maschinellen Lernens erstellt werden, machen zwangsläufig Fehler. Sie müssen während der Arbeit lernen und sich ständig verbessern. Es ist daher eine Sache, KI-Modelle zu entwickeln und sie in der Produktion einzusetzen. Eine andere Sache ist es, die Modelle dazu zu bringen, dass sie kontinuierlich lernen und sich anhand neuer, fairer, ausgewogener und unvoreingenommener Daten auf Basis von Nutzerfeedback verbessern. Zu diesem Zweck müssen KI-Modelle bei jeder Iteration eine disziplinierte Fehleranalyse durchführen. Es ist daher von entscheidender Bedeutung, dass eine KI-Plattform die Verwaltung des Lebenszyklus von KI-Modellen unterstützt, damit diese aktuell und relevant bleiben.

Eine solche Plattform sollte sowohl die Data Scientists unterstützen, welche die ersten Modelle erstellen, als auch die Administratoren für die AIOps-Produkte und IT-Operations-Tools. Letztere müssen die AIOps-Tools in der Produktion pflegen. Dabei sollte berücksichtigt werden, dass sie keine Data Scientists sind und entsprechende Skills für ihren Teil der KI-Modell-Lebenszyklus-Management-Plattform nicht erforderlich sind.

Eine AIOps-Plattform sollte so eingerichtet sein, dass sie kontinuierlich aus aktuellen Umgebungsdaten und Benutzerfeedback lernt und sich verbessert. Zudem können AIOps-Produkte keine Blackbox-Lösungen sein. Unternehmen verlangen heute volle Transparenz über die Funktionsweise der KI-Modelle. Das ist schon allein aus rechtlichen Gründen notwendig. IT-Operations-Produkte sollten so eingerichtet sein, dass ihre Administratoren Zugriff auf KI-Modelle haben, um bei Bedarf ein Neutraining zur Überprüfung der Modellleistung auszulösen. Außerdem sollten Vorkehrungen für ein regelmäßiges automatisches Neutraining getroffen werden.

Übergang zur natürlichen Mensch-KI-Zusammenarbeit

Den meisten Nutzen haben Mitarbeiter von Informationen, wenn sie sie genau dort erreichen, wo sie gerade arbeiten. Tool-Wechsel bedeuten immer Unterbrechungen, die es zu vermeiden gilt, das haben Benutzertests bestätigt. IBM stellt daher die Erkenntnisse sowohl in einem Dashboard bereit, als auch in der ChatOps-Umgebungen wie Slack und Microsoft Teams. Benutzer können nahtlos zwischen Dashboards und ChatOps-Umgebungen hin- und herspringen, ohne das Tool zu wechseln.

Compliance per Design

Compliance ist heute ein wichtiges Thema. KI und Automatisierungen müssen die Richtlinien und Präferenzen einhalten, die sich ein Unternehmen gesetzt hat. Vorstellbar ist, dass AIOps-Produkte zukünftig über ein flexibles Rahmenwerk verfügen, mit dem Benutzer die Richtlinien und Regeln für ihre KI und die Erkenntnisse, die sie generiert, festlegen können. Zum Beispiel ließe sich über das Rahmenwerk einstellen, zu welchen Ereignisse die Benutzer gewarnt werden sollen und zu welchen nicht. Ebenso müssen bestimmte Benachrichtigungen, die automatisch gelöst werden, nicht zu Incidents hochgestuft werden. Einstellungen dieser Art ließen sich im Rahmenwerk festlegen.

Der Weg zur Automatisierung

KI-gestützte Automatisierung muss keine Alles-oder-Nichts-Angelegenheit sein. Während manche Dinge vollständig automatisiert werden können, ist es bei anderen sinnvoll, einen Mitarbeiter mit in die Schleife zu nehmen. Jedenfalls so lange, bis das Vertrauen in die Automatisierung hergestellt ist. In jedem Fall glauben wir, dass eine solide Grundlage in Form einer Automatisierungsplattform ein wesentlicher Bestandteil von AIOps ist. Funktionen wie Runbook-Automatisierung, Process Mining und -Analyse sowie Robotic Process Automation (RPA) sind integrale Bestandteile dieser Plattform. Die Plattform bietet den Vorteil, dass sich AIOps-Erkenntnisse mit den Geschäftsprozessen und Anwendungen, die sie überwachen und unterstützen, verknüpfen und erweitern lassen.

Die KI in Watson AIOps

All diese Ideen rund um AIOps und wie KI hartnäckige Probleme des Betriebsmanagements lösen kann, fließen in das IBM-Produkt Cloud Pak for Watson AIOps ein. Dazu gehört etwa die Entwicklung der verschiedenen in Tabelle 2-1 beschriebenen KI-Analysen.

Watson AIOps [Abbildung 3] löst dabei das ein, was SREs generell von der Unterstützung durch KI erwarten sollten: Probleme frühzeitig erkennen und vorhersagen, das Rauschen von Ereignissen und Warnungen reduzieren, die Problemursachen in den Anwendungen oder in der Infrastruktur lokalisieren, die Auswirkungen des Vorfalls bestimmen und zeitnahe Maßnahmen empfehlen. Alles in allem tragen diese Analysen dazu bei, die mittlere Zeit bis zur Erkennung, Identifizierung/Isolierung und Behebung eines Vorfalls zu verkürzen.

Anomalien werden mithilfe von KI-Modellen aus Protokollen und Metriken vorhergesagt. Die vorhergesagten Anomalien und andere Ereignisse und Warnungen, die in einer IT-Umgebung generiert werden, werden in die entsprechenden Vorfallsbereiche gruppiert. Dabei werden verschiedene Techniken eingesetzt wie Entity Linking sowie räumliche, zeitliche und topologische Algorithmen, um das Ereignisrauschen zu reduzieren. Dies geschieht durch Event-Grouping-KI-Modelle. Fehler werden durch spezifische Fault-Localization-KI-Modelle diagnostiziert und lokalisiert. Die betroffenen Komponenten werden von KI-Modellen für den Explosionsradius erfasst. Durch Incident-Similarity-KI-Modelle werden ähnliche Incidents aus der Vergangenheit identifiziert und die nächstbesten Maßnahmen abgeleitet. Schließlich werden Probleme durch die Vorhersage von Risiken im Zusammenhang mit Bereitstellungs- und Konfigurationsänderungen mithilfe des KI-Modells Change Risk Prediction vermieden. Hier ein kurzer Einblick, wie diese KI-Analysen realisiert werden können:

Abbildung 3: KI-Pipelines in IBM Cloud Pak für Watson AIOps.

Vorhersage von Log-Anomalien

Eine Anomalie ist etwas, das vom normalen, standardmäßigen oder erwarteten Verhalten abweicht. Normalerweise legen Unternehmen entweder statische Schwellenwerte oder manuelle Regeln fest, um Abweichungen zu definieren und zu verwalten. Statische Schwellenwerte haben nur ein zweifaches Problem:

Es dauert lange, bis die Fachexperten sie durch Erfahrungswerte passend erstellt haben.
Sie lassen sich nicht verändern und sind daher schnell veraltet und nicht mehr relevant.

Werden diese manuellen, regelbasierten Anomalien nicht aktualisiert oder gelöscht, überfluten sie die SREs bald mit irrelevanten Warnungen. Daher verwenden wir Deep-Learning-Algorithmen, um sowohl Merkmale aus Logs während des Log-Parsing vorzubereiten als auch um Anomalievorhersagen zu treffen. Die Benutzer müssen keine statischen Schwellenwerte oder manuelle Regeln festlegen.

Metrische Vorhersage von Anomalien

Watson AIOps analysiert Daten aus verschiedenen Systemen wie New Relic, AppDynamics und SolarWinds, um das Normalverhalten der Metriken in einem Unternehmen automatisch zu lernen und Anomalien zu erkennen. Dabei kommen bewährte Zeitreihenalgorithmen wie Granger Causality, Robust Bounds, Variant/Invariant, Finite Domain und Predominant Range zur Anwendung. So lassen sich saisonale Faktoren und signifikante Trends erfassen und Prognosen erstellen.

Ereignis-Gruppierung

Ein Ereignis zeigt an, dass in einer IT-Betriebsumgebung etwas Auffälliges passiert ist. Das ist der z.B. der Fall, wenn eine Anwendung nicht mehr verfügbar ist oder eine Festplatte ihre Kapazitätsgrenze erreicht usw. Ziel der Gruppierung und Klassifizierung von Ereignissen ist es, das Rauschen für die Mitarbeiter des IT-Betriebsmanagements zu reduzieren. Sie sollen sich auf die Ereignisse konzentrieren können, die ihre sofortige Aufmerksamkeit erfordern. Anomalien erkennt Watson AIOps anhand von Metriken, Protokollen und Tickets und ordnet sie mithilfe mehrerer Algorithmen (z. B. durch zeitliches, räumliches und Assoziationsregel-Mining) zur Ereignisgruppen.

Statische und dynamische Topologieverwaltung

Die Anwendungs- und Netzwerktopologie bezieht sich auf eine Karte oder ein Diagramm, in dem die Verbindungen zwischen geschäftskritischen Anwendungen und ihren Komponenten dargestellt sind. Die statische Topologie bezieht sich auf eine Karte, die auf der Grundlage der Build- und Deployment-Informationen über Anwendungen und Infrastrukturkomponenten erstellt wird. Die dynamische Topologie hingegen bezieht sich auf eine dynamische Karte, welche die Ressourcen und ihre Beziehungen während Laufzeitänderungen der Umgebung erfasst. Sie bietet nahezu eine Echtzeit-Sichtbarkeit derselben.

Mit dem Topology Manager in Watson AIOps lässt sich die aktuelle Topologie mit einer historischen vergleichen. Fragen wie „Was ist passiert?“ und „Was passiert jetzt?“ können damit beantwortet werden. So lassen sich die Details untersuchen, die zu einem Vorfall geführt haben. Man erkennt, wie sich die Topologie (und der Status) im Laufe der Zeit verändert hat. Außerdem werden Fehler in der Topologie lokalisiert.

Fehlerlokalisierung und Explosionsradius

Erwähnungen von Entitäten bestehen aus den Namen der Ressourcen, auf die in Anomalie-Protokollen, Warnungen, Tickets und Ereignissen verwiesen wird. Dazu zählen z.B. Dienst- oder Anwendungskomponenten, Servernamen, Server-IP-Adressen, Pod-IDs, Knoten-IDs usw. Sobald die Ereignisse gruppiert sind, werden diese Erwähnungen in Anomalie-Protokollen, Metriken, Alarmen und Ereignissen extrahiert. Die Entitäten werden mit topologischen Ressourcen aufgelöst, um das Problem zu isolieren und die identifizierten Entitäten auf den entsprechenden dynamischen Topologie-Instanzen zu platzieren, die dem Zeitpunkt entsprechen, an dem die Erwähnungen festgestellt wurden. Das Durchlaufen des topologischen Graphen in den Anwendungs-, Infrastruktur- und Netzwerkschichten ermöglicht es, die betroffenen Komponenten, den so genannten Explosionsradius, abzubilden.

Auflösung des Vorfalls

Watson AIOps nimmt frühere Incident-Tickets auf und wertet sie aus, indem es eine Verbindung zu Tools wie ServiceNow herstellt. So werden zeitnahe und relevante Empfehlungen für die nächstbeste Maßnahme für das aktuell diagnostizierte Problem bereitgestellt. Die aktuellen Incident-Symptome werden als Abfrage auf die indizierten Ticketdaten formuliert, um nicht nur die wichtigsten früheren Incident-Tickets zu suchen und abzurufen, sondern auch wichtige Entity-Action-Phrasen (auch Substantiv-Verben genannt) aus jedem relevanten Datensatz zu extrahieren. So gewinnen die SREs einen schnellen Überblick über die vorgeschlagene Aktion. Wir wenden verschiedene Techniken zur Verarbeitung natürlicher Sprache an, um Entitäts- und Aktionsphrasen zu extrahieren, einschließlich regelbasierter Systeme.

Bereitstellung von Erkenntnissen und Umsetzung von Maßnahmen

In Watson AIOps werden alle oben beschriebenen Erkenntnisse sowohl über ChatOps als auch über Dashboards bereitgestellt. Echtzeit-Einsichten werden über ChatOps an den Arbeitsplatz der SREs geliefert. Innerhalb der ChatOps können Mitarbeiter interagieren und sich zu Lösungsvorschlägen für Incidents austauschen und die Belege für die Erkenntnisse untersuchen. Von ChatOps aus können SREs Log-, Metrik- und Ticket-Überwachungstools starten, um weitere Details zu untersuchen. Auch können sie interaktive Dashboards zur detaillierten Untersuchung von Ereignissen, Ereignisgruppen, metrischen Anomalien und der Topologie aufrufen. Entsprechende Aktionen/Runbooks können automatisch ausgeführt werden.

Wie geht es mit AIOps weiter?

Wie bereits zu Beginn dieses Blogposts erwähnt, stellen wir uns für die Zukunft vollständig instrumentierte, kontrollierbare, selbsterkennende, automatisierte und autonome IT-Betriebsumgebungen vor. KI kann uns auf dem Weg dorthin helfen.

Vorstellbar ist, dass AIOps-Lösungen nicht nur in der Lage sein werden, Probleme reaktiv zu lösen. Sie werden auch dabei helfen, Probleme von vornherein zu vermeiden. Das erreichen sie, indem sie die Aktivitäten im Lebenszyklus von Entwicklung, Sicherheit und Betrieb (DevSecOps) so gestalten, dass der Betrieb von Anfang effizient läuft. Intelligente Prüfungen und Gates verhindern beispielsweise, dass riskante Implementierungen in die Produktion oder unzureichend getestete Code-Module oder Code mit Sicherheitslücken in die Produktion gelangen usw. Und durch Feedback- und Feedforward-Schleifen in der Softwareentwicklung [Abbildung 4] lässt sich durchgehende Transparenz und damit eine bessere Verwaltung der IT-Systeme erreichen. Wir freuen uns darauf, diese Zukunft zu gestalten und Sie mit auf diese Reise zu nehmen.

Abbildung 4: Entwickeln, um zu verwalten: Ausarbeitung der Vorwärts- und Rückkopplungsschleifen im Lebenszyklus der Softwareentwicklung.

Mehr erfahren

Autor des englischen Originalbeitrags zu AIOps: Rama Akkiraju, IBM Fellow, CTO, KI für IT-Betrieb

Hören Sie sich unbedingt den Podcast The Art of Automation an, insbesondere Episode 4, in der sich Michael Mrose mit Isabell Sippli zu Automation und AIOps unterhalten.

Für Fragen Steht Ihnen Isabell Sippli als unser lokaler SME unter zur Verfügung.

Alle Beiträge dieser Blog-Reihe finden Sie hier.

IBM Digitale Perspektive Redaktion

AIops Automatisierung IBM Cloud Pak IT Betrieb IT-Betriebsmanagement IT-Systeme KI Künstliche Intelligenz

Vorheriger Beitrag

Die Kunst der Automatisierung: APIs

Nächster Eintrag

“Was habt ihr gegen 25% Wachstum?” - 3 Thesen

Leadership Skills in the Digital Transformation Wave of Central Banks

In an era of unprecedented change, many companies are faced with the challenges of digital transformation. Becoming a digital business means using technology to create new value in business models, customer experiences, and the internal capabilities that support core operations, whilst also generating efficiencies. The successful adoption of new technologies, digital ways of working and […]

By Georg Ember and Malte Menkhoff on Oktober 13, 2023

Warum ein IT Leitstand ohne AI Tools möglich, aber nicht sinnvoll ist

Es gibt Statements unter Hundebesitzern, die fangen etwa so an : „Ein Leben ohne Hund ist zwar möglich, aber nicht erfüllend und daher sinnlos“. Ganz so krass ist die Einstellung in der IT unter Systemadministratoren und Site Reliability Engineers noch nicht, was den Einsatz von Tools angeht. Aber die Sinnhaftigkeit des Einsatzes von AI Algorithmen […]

By innovate-banking on August 30, 2023

Implementation of the Digital Euro

EXECUTIVE SUMMARY The digital euro will enter the highly competitive, multifaceted, and heterogeneous payments landscape in the Eurozone. As any other payments method, it needs to provide additional value for the variety of stakeholders to achieve the envisioned acceptance rate in daily payments. Therefore we see the following aspects as levers for a successful digital […]

Automation

Die Kunst der Automatisierung: AIOps

Auf dem Weg zu einem autonomen IT-System

IT-Betriebsmanagement – KI hilft gegen Komplexität

Ein ganzheitlicher Ansatz für das IT-Betriebsmanagement

Von strukturiert zu strukturiert, halbstrukturiert und unstrukturiert

Von isolierten Signalen zu integriertem Kontext

Von reaktiv zu prädiktiv und proaktiv

KI-Modelle verwalten: von der ersten Generation bis hin zu fortgeschrittenen Fällen

Übergang zur natürlichen Mensch-KI-Zusammenarbeit

Compliance per Design

Der Weg zur Automatisierung

Die KI in Watson AIOps

Vorhersage von Log-Anomalien

Metrische Vorhersage von Anomalien

Ereignis-Gruppierung

Statische und dynamische Topologieverwaltung

Fehlerlokalisierung und Explosionsradius

Auflösung des Vorfalls

Bereitstellung von Erkenntnissen und Umsetzung von Maßnahmen

Wie geht es mit AIOps weiter?

Mehr erfahren

Die Kunst der Automatisierung: APIs

“Was habt ihr gegen 25% Wachstum?” - 3 Thesen

Leadership Skills in the Digital Transformation Wave of Central Banks

Warum ein IT Leitstand ohne AI Tools möglich, aber nicht sinnvoll ist

Implementation of the Digital Euro

Sie haben Fragen? Kontaktieren Sie uns.

Vernetzen