AIOps - Zukunftsorientierte IT-Services

Entdecken Sie, wie KI und Big Data die Zukunft der IT-Services durch AIOps und XOps Methodiken revolutionieren und operative Effizienz steigern.


Zukunftsorientierte IT-Services

Heutige Lösungen im Bereich der IT-Services stehen vor immer größeren Herausforderungen. Aufgrund der unüberschaubaren Datenmengen, die von modernen und immer dynamischeren IT-Infrastrukturen generiert werden, kommt die menschliche Expertise an ihre Grenzen und sorgt für den Bedarf einer neuen Lösung. Diese kann im Einsatz von KI und Big Data in Form einer bedarfsorientierten Plattform, welche mit Hilfe von Open-Source Lösungen sowie XOps Methodiken die Konzepte von AIOps modular und integrierbar umsetzt, gefunden werden.

 

Effiziente Störungsbehebung

Moderne IT-Infrastrukturen werden immer dynamischer und wachsen in ihrer Komplexität. Sie kosteneffizient und effektiv zu betreiben wird entsprechend anspruchsvoller. Eine der größten Herausforderungen, denen sich IT-Service-Expert:innen bei der Störungsbehebung stellen müssen, besteht darin, im Meer der Betriebsdaten (Logs, Metriken, Ereignisse, Vorfälle usw.) die relevanten Informationen zu finden, die helfen, den Vorfall zu identifizieren, verstehen und zu lösen. Bevor überhaupt mit der eigentlichen Störungsbehebung begonnen werden kann, besteht ein erheblicher Aufwand in der Ermittlung, Selektion und Analyse der Betriebsdaten.

Vor einigen Jahren wurde das Potenzial erkannt, dieselben Technologien und Techniken, die erfolgreich für die Bereitstellung und die Unterstützung von KI-Lösungen in anderen Geschäftsbereichen eingesetzt werden, für IT-Betriebszwecke zu nutzen. So wurde Artificial Intelligence for Operations, „AIOps“ geboren. Gartner prägte den Namen AIOps als die Kombination von Big Data (BD) und maschinellem Lernen (ML), die auf IT-Betriebsdaten angewendet werden, um Betriebsprozesse zu automatisieren. Dazu gehören auch Ereigniskorrelation, Anomalie Erkennung und Kausalitätsbestimmung₁.

Da IT-Betriebsdaten den Zustand der IT-Infrastruktur zu einem bestimmten Zeitpunkt umfassen, bietet AIOps eine Möglichkeit, Bilder dieses Zustands (Erkenntnisse) oder auch möglicher Zustände in der Zukunft (Prognosen) zu generieren, so dass IT-Service-Expert:innen diese nicht selbst mühsam manuell erarbeiten müssen und nahezu unmittelbar an der Lösung für Störungen arbeiten können, statt sich mit Analyseaufwänden aufzuhalten. Mit AIOps ist es zudem möglich, die Ursachen von Störungen zu ermitteln und bei Bedarf eine automatische Behebung zu initiieren.

Zusammengefasst geht es bei AIOps um die Vermeidung von Vorfällen durch Vorhersagen, die schnellere Ursachenanalyse und eine rasche Lösung von Störungen. Damit augmentieren Service-Teams ihre Problemlösungsfähigkeiten, gestalten den IT-Betrieb ressourcenschonend und kosteneffizient, und stabilisieren dadurch ihre IT-Services.

 

Do-It-Yourself AIOps

Laut Gartner muss eine qualifizierte AIOps-Lösung folgendes bieten₄: Domänen-übergreifende Datenaufnahme und -analyse, Topologieerkennung, Korrelation von Ereignissen zu Vorfällen, Mustererkennung von Vorfällen und möglichen Ursachen, und Identifizierung einer wahrscheinlichen Lösungsmaßnahme. Obwohl es bereits kommerzielle AIOps-Werkzeuge mit erheblichem Funktionsumfang auf dem Markt gibt und einige klassische  Monitoring-Tools neue AIOps-Funktionalitäten anbieten, gibt es noch viel Raum für Do-It-Yourself-Ansätze (DIY)₃. Ein Grund dafür ist, dass KI-basierte Lösungen in jedem Fall ein gewisses Maß an Konfiguration, Training, Parametrisierung oder Tuning erfordern, und das auch bei kommerziellen Lösungen mit Out-of-the-Box Anwendungsfällen. Ein weiterer Grund für einen DIY-Ansatz ist die Möglichkeit Free and Open-Source Software (FOSS) und Technologien für den Zusammenbau einer für AIOps-Zwecke spezialisierten offenen Architektur zu nutzen, welche sich in neue oder bestehende Pipelines integrieren lässt. Besonders Organisationen mit einer FOSS-Only-Strategie begrüßen diesen Ansatz. Organisationen, die KI-basierte Lösungen erfolgreich implementiert haben, verfügen häufig über die erforderlichen Skills und Erfahrungen in den für die Implementierung einer AIOps-Lösung erforderlichen Technologien.

Die Nutzer:innen der AIOps Lösung sind die IT Service-Teams selber, welche Anforderungen und Nutzungsfälle zu definieren und zu implementieren haben. So tragen sie eine Schlüsselrolle für den Erfolg. Aufgrund der datenwissenschaftlichen Aspekte, die mit der Implementierung von AIOps verbunden sind, durchlaufen sie einen Mindset–Change mit Blick auf ihren eignen Alltag im IT Service und Betrieb. Dies könnte der Beginn des IT-Service-Profis der Zukunft sein, der Wert darauf legt, Erkenntnisse aus ansonsten meist ungenutzten operativen Rohdaten zu gewinnen und wirksam einzusetzen.

Eine Zukunft, die Gartner ohne AIOps nicht vorhersehen kann₄.

Es ist noch eine frühe Phase der Einführung von AIOps. Der Aufbau neuer Qualifikationen, die Reaktion auf neue Erkenntnisse und ein kontinuierliches und konsequentes Umdenken in den operativen und führenden Organisationseinheiten ist auf der Wegstrecke unerlässlich. Um der Organisation den dafür nötigen Raum und die Zeit zu geben, ist ein schrittweises Vorgehen in der Implementierung nötig. Das Team reift mit der schrittweisen Implementierung von AIOps in einem DIY-Vorgehen, womit ihm neue Perspektiven geboten werden.

 

XOps ebnet den Weg zu AIOps

AIOps ist eine technische Lösung auf die Anforderung zur Effizienzsteigerung in IT-Betrieben. AIOps gibt weder die Methodik, noch die Technologie oder die Kultur für ihre Umsetzung vor. Eine DIY-AIOPS-Lösung erfordert jedoch Berücksichtigung solcher Aspekte.

XOps bietet ebendiese Aspekte, um einen zielgerichteten Einsatz zu ermöglichen. Es liefert zum Beispiel zuverlässige und qualitative Deployment- und Wartungsprozesse von Daten- und ML-Modellen, die zum Zweck der Analyse von Betriebsdaten anwendbar sind.

Einige Definitionen von XOps schließen AIOps als Teil davon ein. AIOps jedoch ist eher ein einzelner Anwendungsfall von XOps als eine Reihe von Methoden an sich₅. Von den spezifischen Disziplinen im Rahmen von XOps sind DevOps, DataOps und MLOps diejenigen, die am meisten zu einem DIY-AIOps-Ansatz beitragen können.

DevOps befasst sich mit der Qualität der Bereitstellung und des Betriebs aus einer Sicht der Softwareentwicklung₂, während DataOps sich mit den Besonderheiten befasst, die für die Produktion hochwertiger Daten erforderlich sind₁.  MLOps betrachtet vor allem Besonderheiten bei der Erstellung neuer zuverlässiger ML-Modelle mittels kurzer Entwicklungszyklen₅. Einige der in diesen Disziplinen verwendeten Aktivitäten und Technologien überschneiden sich. 

Die DIY-AIOps-Lösung erfordert einen Prozess zur Schaffung neuer Anwendungsfälle, die implementiert und aktiv genutzt werden und die kontinuierlich verbessert und gepflegt werden müssen. Dies bedarf einen AIOps-Entwicklungslebenszyklus, von dem folgend ein Beispiel auf hoher Ebene beschrieben wird, einschließlich der Beziehung zwischen den AIOps-Aktivitäten und den von XOps übernommenen Methoden und Technologien.

Sammeln von Betriebsdaten aus Quellen:

Betriebsdaten werden normalerweise über die einzelnen Komponenten generiert, die eine IT-Infrastruktur bilden, wie z.B.: Server, Container, Datenbanken, Firewalls, Router, Systeme, Dienste, etc. Aus der Sicht des IT-Services werden diese Komponenten als Configuration Items (CI) bezeichnet. Weitere Quellen für AIOps-relevante Daten sind IT Service Management Tools wie z.B. Monitoring Tools oder Ticketing Systeme. Die Daten können mittels Data-Collection-Agents im Push- oder Pull-Modus gesammelt werden, die in der Lage sind Log-Dateien, Metriken oder Events zu lesen und an einen beliebigen Zielort zu senden oder zu empfangen. DevOps bietet Verfahren zur Automatisierung der Bereitstellung, der Konfiguration, des Betriebs und der Überwachung der Agenten für die Datenerfassung. DataOps bietet Methoden zur Definition der Anforderungen an die Datenerfassung, Datensicherheit, Data Governance und Datenqualität. FluentBit und Fluentd sind Beispiele für Data-Collectoren und -Aggregatoren, die speziell für die Sammlung von Betriebsdaten entwickelt wurden.

 

Erstellung und Wartung von Pipelines:

Aus der Sicht von DataOps wird sie als Produkt eines Entwicklungsprozesses betrachtet₁. Die Komponenten einer Datenpipeline können kodiert, getestet und ausgeliefert werden. Diese Prozesse können mit Hilfe von DevOps-Methoden automatisiert und kontinuierlich verbessert werden. Folgend sind die wichtigsten Komponenten, die zur Implementierung einer AIOps Data Pipeline benötigt werden, zusammengefasst:

  • Sammeln von Daten: Die AIOps-Plattform erfordert eine Technologie, die in der Lage ist, große Datenströme stabil und zuverlässig zu verarbeiten. DevOps bietet Methoden, um die Bereitstellung, die Konfiguration, den Betrieb und die Überwachung des Data Brokers zu automatisieren. DataOps bietet Methoden zur Sicherstellung der Qualität und der Verwaltung der Daten. Apache Kafka ist eine solche Technologie, die ein hochleistungsfähiges Daten-Streaming ermöglicht.
     
  • Daten verarbeiten: Die Definitionen der Anforderungen für die Datenverarbeitung ist eine Schlüsselaktivität von DataOps₁. ETL (Extract Transform Load)-fähige Technologien sind die übliche Wahl zur Durchführung dieser Aufgabe. DevOps bietet Methoden zur Automatisierung von Bereitstellung, Konfiguration, Betrieb und Überwachung des ETL-Tools. Apache Nifi ist ein für diese Aufgabe geeignetes Werkzeug. Dazu verfügt es über Data- Provenance-Funktionen, d. h. es kann die Änderungen an jedem einzelnen Datenelement verfolgen.

  • Daten speichern: DevOps bietet Verfahren zur Automatisierung von Bereitstellung, Konfiguration, Betrieb und Überwachung der Datenbank. DataOps bietet Methoden für das Definieren und die Implementierung von Datenspeicheranforderungen. Postgresql ist eine relationale Datenbank. OpenSearch und Prometheus hingegen sind nicht-relationale Datenbanken, die für die Speicherung von Betriebsdaten beispielsweise verwendet werden können.

 

Analysieren von Betriebsdaten:

Die konsolidierten Daten können untersucht werden, um mögliche AIOps-Anwendungsfälle zu identifizieren. MLOps stellt hierfür die benötigen Verfahren zur Verfügung. Um die Qualität der Daten während des AIOps-Entwicklungslebenszyklus weiter zu überwachen, werden DataOps-Methodiken verwendet. Folgende Technologien können zum Einsatz kommen:

  • ML-Experimentier- oder Entwicklungsumgebung: Diese besteht in der Regel aus einer Programmiersprache der Wahl, die mit ML-Bibliotheken erweitert wird, und einer IDE mit Datenvisualisierungsfunktionen. Jupyter Notebooks und Pycharm mit Python und ML-Bibliotheken wie Tensorflow, Keras, Pytorch sind Beispiele solcher Umgebungen.
  • ML Lifecycle Management Tool: Es implementiert die von MLOps definierten Prozesse und Pipelines, die Folgendes unterstützen: Nachverfolgung von Experimenten und Modellen, einschließlich ihres Codes, ihrer Daten, Parameter und Ergebnisse; ordnungsgemäße Produktionalisierung und Speicherung von Modellen; Bereitstellung von Modellen in Zielumgebungen. MLflow ist ein Beispielprojekt, das einige dieser Methoden abdeckt.
  • Werkzeug zur Datenvisualisierung: Es ermöglicht die Visualisierung und Abfrage der eingegebenen Betriebsdaten zusammen mit den von den AIOps-Modellen generierten Erkenntnissen. Grafana ist ein Beispiel eines leistungsfähiges Visualisierungstools, das speziell für die operative Beobachtbarkeit entwickelt wurde.

 

Identifizieren und Implementieren von AIOps-Anwendungen:

Ein Anwendungsfall wird auf einem oder mehreren ML-Modellen basieren, die als Service paketiert und bereitgestellt werden können. Für die Automatisierung der Ausführung der AIOps-Services können Workflow-Automatisierungswerkzeuge eingesetzt werden. Apache Airflow ist eine Beispiellösung, die Workflow-Automatisierungsfunktionalitäten auf programmatische Weise bietet.

 

Visualisierung von Use Case Erkenntnissen:

Ziel dieser Aktivität ist es, die Erkenntnisse eines AIOps-Anwendungsfalls dem Endbenutzer in geeigneter Weise wie zum Beispiel in Form eines Dashboards zu präsentieren.

 

Evaluierung des Anwendungsfalls:

Das Serviceteam gibt Feedback zur Implementierung eines Anwendungsfalls. Wenn die Ergebnisse nicht zufriedenstellend sind, ist eine Verbesserungsschleife erforderlich, die auf eine der vorherigen Aktivitäten des AIOps-Entwicklungslebenszyklus zurück geht. Kollaborationstools können als Kanal für Feedback und Dokumentation nützlich sein.

 

Nutzung des AIOps-Anwendungsfalls auf einen Live-IT-Service:

Der Anwendungsfall wird in die Zielumgebung ausgerollt, und die Endbenutzer (IT-Service-Expert:innen) nutzen die gewonnenen Erkenntnisse, um ihre Fähigkeiten effektiv zu erweitern. Ein Live-Anwendungsfall muss immer noch betrieben, überwacht und gewartet werden, was durch DevOps-, DataOps- und MLOps-Verfahren abgedeckt wird. Diese Methoden, die auf kontinuierliche Verbesserung setzen, ermöglichen es, die Aktivitäten des AIOps-Entwicklungslebenszyklus zu wiederholen und mit jeder Iteration effektivere Anwendungsfälle zu erzeugen.

Weitere DevOps-Technologien für allgemeine Entwicklungs-, Betriebs- und Lieferaktivitäten können ein Versionskontrollsystem wie Git umfassen. Terraform eignet sich als Infrastructure-as-a-Code-Tool, Ansible als Automatisierungstool, oder Docker als Container-Virtualisierungstools.

 

Fazit

XOps kann jede Aktivität eines beispielhaften DIY-AIOps-Entwicklungslebenszyklus prägen, der auf hochwertige inkrementelle Anwendungsfälle abzielt. In Kombination mit einer FOSS-Only-Strategie und einer inkrementellen Einführung von Änderungen können Organisationen durch die Optimierung ihrer IT-Services in kurzen Entwicklungsphasen mit minimalen Investitionen einen spürbaren Mehrwert schaffen. Darüber hinaus ermöglicht die schrittweise Einführung und der Ausbau von AIOps-Skills der IT–Organisation, sich nachhaltig auf eine Zukunft mit sehr dynamischen, volatilen und komplexen Infrastrukturen vorzubereiten.

 

Literatur 


1. Detemple, K: DataOps als Basis und Treiber einer erfolgreichen Data Governance. In: Gluchowski, P. (Hrsg.): Data Governance. Dpunkt.verlag 2020

2. Kim, G. et al.: Das DevOps-Handbuch. O'Reilly 2017

3. Kroculick, K. Effective AIOps with Open Source Software in a Week. 06.08.2021, https://www.youtube.com/watch?v=NuL1u_CIkQw, abgerufen am 30.08.2022

4. Prasad, P et al.: Market Guide for AIOps Platforms. 30.05.2022, https://www.gartner.com/doc/reprints?id=1-2A6HEH3Y&ct=220531&st=sb, abgerufen am 30.08.2022

5. Treveil, M. MLOps. Kernkonzepte im Überblick. O'Reilly 2021

IT-Herausforderung? Kontaktieren Sie uns!

Wir sind Ihr zuverlässiger Partner für IT-Dienstleistungen. Unser erfahrenes Team steht Ihnen zur Seite, um Ihre Anforderungen zu erfüllen und Ihre Ziele zu erreichen.

Weitere Themen für Sie