Incident Response

Bedienungsfreie Incident Response

Input für diesen Usecase ist die Betriebsstörungsmeldung oder auch Sicherheitsmeldung, kurz ein Incident. Solche Incident-Meldungen haben keine einheitliche Form, es gilt:

  • Meldung kann über unterschiedliche Kanäle (Ticket, E-Mail, Telefon, etc.) erfolgen.
  • Die Meldung erfolgt durch unterschiedliche Anwender, mit unterschiedlichen Informationen, Ticketinhalten und Wortlaut

 

Auf Basis der trainierten KI wird die Fehlerquelle zuverlässig identifiziert, Mehrfachmeldungen erkannt und schließlich die im Incident-Management-Prozess definierten Prozessschritte automatisiert, ohne Eingreifen von Betriebsteams durchgeführt. Zu den automatisierten Prozessschritten zählen:

 

  • Informationsverarbeitung für Prozessverantwortliche/betroffene Services/Anwender
  • Automatisierte Anreicherung von Information (relevante Logdateien oder Auszüge, aktueller Systemzustand, Auflistung weiterer Incident-Meldungen etc.)
  • Bereitstellen der Information über E-Mails, Tickets, Messaging-Dienste, Dashboards
  • Automatisierte Ausführung von hinterlegten Behebungsprozesse

 

  • Beispielsweise Hinzufügen von Storage für VMs
  • Restart von Services
  • Hochfahren von Clusternodes
  • Steuerung von LoadBalancer
  • Automatisierte Redeployments
  • Recovery (Infrastructure as Code)
  • direkte zeitnahe Sicherung des Arbeitsstandes oder Durchführen eines Full-Backups

 

Der UseCase „Intelligente Alarmierung“ setzt auf die automatisierte Erkennung von Fehlern und kann somit hier als vorheriger Prozessschritt sinnvoll ergänzen:

 

  • Durch zuverlässige Erkennung der Incidents und deren Aufbereitung
  • Entlastung der Serviceteams (1st Level, 2nd Level und 3rd Level Support)
  • Durch Darstellung der Fehler an geeigneter Stelle
  • Entlastung Anwender, erkennbar ob Systemstörung vorliegt, keine zusätzliche Fehlermeldung muss erfasst werden, Zufriedenheit erhöht sich, Anzahl Incident-Meldungen verringert sich
  • Durch sofortiges Ausführen von hinterlegten Prozessen nach Meldung des Incidents
  • Entlastung der Serviceteams (1st Level, 2nd und 3rd Level Support)

 

  • Rechtzeitige Ausführung von notwendigen Prozessschritten, losgelöst von Uhrzeit und Personaldecke, automatisiert direkt nach Auftritt des Fehlers
  • Sicherstellung der Einhaltung der Prozesse durch das System, z.B. Benachrichtigungsvorgaben (Admin vom Dienst, etc.)
  • Reduktion von Downtime der Produktionssysteme
  • Schaffung von Anwenderzufriedenheit durch aktive Benachrichtigung von Fehlern und der Information zur Vermeidung von Incident-Mehrfachmeldungen

 

Zurück zur Startseite