Ein IT‑Systemausfall kostet 5.600 USD pro Minute – Lösung: IT-Operation-Analytics für Banking-Systeme
2016 wickelten mehr als 53% der Deutschen ihre Bankgeschäfte online ab, einen Ausfall ihrer Online-Banking-Plattform kann sich keine Bank leisten. Laut Gartner kostet ein IT-Systemausfall im Durchschnitt 5.600 USD in der Minute – der Imageschaden kommt oben drauf. Eine Hochverfügbarkeits-Strategie ist obligatorisch – aber: Viele Finanzinstitute haben gar keinen Gesamtüberblick. Die Lösung heißt: IT Operation Analytics (ITOA).
von Dr. Marcus Dill, mayato
Banken und Versicherungen legen höchsten Wert auf ihre IT samt funktionierender Hochverfügbarkeits-Strategie. Allerdings zeigt der Beratungsalltag, dass viele Finanzinstitute aufgrund der Vielzahl an IT-Systemen nicht immer den Gesamtüberblick haben. Unterschiedliche Zuständigkeiten und gewachsene Strukturen lassen die IT häufig zu einem dichten Dschungel werden. IT Operation Analytics (ITOA) erfasst und verknüpft sämtliche IT-Maschinendaten. Ziel ist dabei nicht nur umfassende Transparenz, sondern auch die Prognose und Vermeidung von Ausfällen und Systemüberlastungen.Was ist IT-Operations Analytics (ITOA)?
Mit IT-Operations Analytics werden IT-Betriebsdaten mithilfe von Big Data Analytics in Echtzeit ausgewertet. Die Einsatzbereiche lassen sich in drei Sektionen unterteilen: Suchen, Optimieren und Prognostizieren. Jedes ITOA-System bietet eine Suchmaschine, um die gesammelten Daten zu durchsuchen. Hierfür wird meist eine eigens entwickelte Abfragesprache verwendet. Durch diese Such-Engine, die über alle IT-Daten hinweg Auswertungen ermöglicht, ist eine schnellere Problemlösung und Root-Cause Ermittlung gewährleistet.
Mittels moderner Machine-Learning Methoden kann das ITOA-System das Verhalten der IT lernen und bei Abweichungen alarmieren. Zudem kann aus dem gelernten Systemverhalten abgeleitet werden, wann ggf. weitere Ressourcen zur Verfügung gestellt werden müssen, um Performance- bzw. Kapazitätsengpässe zu vermeiden. ITOA kann also auch zur Performance-Optimierung eingesetzt werden. Durch Prognosemethoden können ITOA-Systeme zukünftige Systemzustände berechnen und evtl. auftretende Ausfälle vorhersagen. Dies können Fragestellungen sein wie: „Wann wird eine Festplatte bei normalem Systemverhalten keinen freien Speicherplatz mehr haben?“, „Welche Festplatte wird aufgrund der historischen Auswertungen als nächstes ausfallen? (Analyse der SMART-Daten)“, „Wird meine Systemleistung bei einer neuen Werbeaktion in meinem Onlineshop ausreichen?“Zudem können ITOA-Systeme genutzt werden, um Probleme zielgerichtet den jeweiligen IT-Operations Teams zuzuordnen und diese je nach Impact zu priorisieren. Auch Alarme werden in ITOA-Systemen nur noch bei Abweichungen des Systemverhaltens generiert und nicht anhand festgelegter Schwellwerte – dies führt dazu, dass die Verantwortlichen nur noch bei wirklich wichtigen Vorfällen alarmiert und kurzzeitige Abweichungen vom System ignoriert werden.
Welche Daten werden für welche Ergebnisse herangezogen?
Die nachfolgende Grafik veranschaulicht die möglichen Datenquellen im Zusammenhang mit den jeweilig zu erwartenden Ergebnissen im Überblick.
Im ersten Reifegrad eines ITOA-Systems werden verschiedene Logdaten ausgewertet, um die Fehlersuche während des Entwicklungsprozesses zu vereinfachen, ein Reporting zu etablieren und ein IT-übergreifendes Monitoring zu ermöglichen. Das ITOA-System fungiert hier als Single Point of Truth – alle IT-Betriebsdaten werden an einer Stelle zentral gesammelt und auswertbar gemacht. So ist eine End-to-End-Betrachtung der IT möglich.Im zweiten Schritt der Implementierung werden weitere Quellen angebunden, wie z.B. ein Active Directory oder eine Vulnerability Datenbank. Ist diese Stufe etabliert, kann das ITOA-System als IT-Leitstand genutzt werden und bei der Incident-Bearbeitung unterstützen.
In der letzten Stufe werden Applikationsdaten von z.B. SAP-Systemen eingebunden, das Patch-Management sowie weitere Verzeichnisdienste implementiert. Die führt dazu, dass das ITOA-System auch komplexes Fehlverhalten erkennen und Ausfälle oder Probleme vorhersagen kann.
Wie sehen typische ITOA-Architekturen aus?
Eine ITOA-Architektur muss skalierbar sein, viele Schnittstellen bzw. Konnektoren und einen Datenspeicher für historische Analysen aufweisen und Auswertungen in Echtzeit ermöglichen. Neben den genannten Anforderungen kommt dem Punkt Sicherheit eine große Bedeutung zu. Die nachfolgende Grafik zeigt eine allgemeine, stark vereinfachte Architektur eines ITOA-Systems.
Der in der Abbildung gezeigte Log-Collector sammelt alle Arten von Maschinendaten im jeweiligen Netzsegment und leitet diese an den Log-Server weiter. Dies können, wie auf dem Bild zu sehen, Daten von Firewalls, Servern, Switches, Routern oder andere o.g. Maschinendaten sein. Der Log-Server ist verantwortlich für den Zugriff auf die indizierten Daten und deren Organisation. Er ist auch die zentrale Instanz, die alle Daten analysiert. Für die Auswertung von historischen Daten ist zudem ein Langzeitspeicher an den Log-Server angebunden. Je nach Anforderungen des Kunden und Setup der Infrastruktur kann diese Lösung um beliebig viele Log-Collectoren und Log-Server erweitert werden, um eine hohe Performance und Verfügbarkeit zu gewährleisten.Chancen und Risiken von ITOA Systemen
Ein ITOA-System steigert die Effizienz der IT, indem es Ressourcen zielgerichtet zuweist. Darüber hinaus lassen sich durch ein zentral organisiertes ITOA-System Fehlerursachen schneller identifizieren, da die Suche nicht separat in den einzelnen Fachabteilungen erfolgt, sondern in einem zentralen Datenspeicher. Auch Kapazitätsengpässe können durch die Nutzung intelligenter Algorithmen vorhergesagt und durch die Bereitstellung weiterer Ressourcen vermieden werden. Zudem können mit ITOA-Systemen Einmal-Fragestellungen beantwortet werden, wie z.B. „Was hat ein Herstellerwechsel an Problemen verursacht?“ oder „Was ist bei Fehlern auf eine bestimmte Handlung (z.B. Patch) zurückzuführen?“. ITOA-Systeme können so eine ganzheitliche Sicht auf die IT und ihren derzeitigen Status bieten und somit Transparenz schaffen.
Bei der Implementierung eines ITOA-Systems kommt dem Thema Sicherheit eine große Bedeutung zu: Hinsichtlich des Datenschutzes sollte berücksichtigt werden, dass enorme Mengen sicherheitsrelevanter Daten gespeichert werden. Dabei könnten mit den ITOA-Systemen auch Daten wie Benutzeraktivitäten auf Mitarbeiterebene gemessen werden. Die erhobenen Maschinendaten könnten ebenfalls personenbezogene Daten wie IP-Adressen o.ä. enthalten. Darüber hinaus sollte bei der Konzeption eines ITOA-Systems von Anfang an die Frequenz und Menge der Daten berücksichtigt werden. Ansonsten besteht zum einen die Gefahr, dass das System überfordert ist und dadurch keine Analysen mehr möglich sind. Zum anderen könnten daraus auch hohe Kosten resultieren, da die Daten rasant wachsen und viele Softwareanbieter im ITOA-Bereich nach der Indizierung der täglich angefallenen Datenmenge abrechnen.
Wie läuft ein typisches ITOA-Projekt ab?
Aufgrund der Komplexität von ITOA-Systemen ist es sinnvoll, bei der Einführung eines solchen Systems nach einem Vorgehensmodell zu verfahren. Die nachfolgende Grafik zeigt einen allgemeinen Ansatz zur Vorgehensweise:
Konkret heißt das in ITOA-Projekten im Bankenumfeld beispielsweise, dass zunächst die schnellere Fehlerbehebung im Online-Banking erreicht werden soll. Im nächsten Schritt folgt dann die Vorhersage von Ausfällen und deren Vermeidung. Um diese Ziele zu erreichen, wird ein ITOA-System Reifegrad 1 implementiert. Die Herausforderung dabei ist es, dass die Implementierung des ITOA-Systems und dessen Agenten keinen Einfluss auf die Performance der sensiblen und stark individualisierten Systeme im Online-Banking haben dürfen.
Im Rahmen der Ist-Analyse und Konzeption gilt es alle relevanten Komponenten und involvierten Abteilungen zu identifizieren, die Risiken zu erkennen und zu bewerten sowie ein Konzept für die Implementierung inkl. Toolauswahl, Zonierung des Systems, Berechtigungskonzept, Testpläne etc. zu erstellen. Anschließend erfolgt die Abstimmung der Architektur mit allen beteiligten Abteilungen.
Bei der Implementierung und Anbindung der Datenquellen wird das ITOA-System zunächst in der Entwicklungsumgebung für erste Tests implementiert. Anschließend wird es nach der Qualitätssicherung in die produktive Umgebung überführt und die notwendigen Datenquellen werden angebunden.
Im Zuge der Datenanalyse werden Abfragen für die eingehenden Datenströme sowie Dashboards und Alerts für unterschiedliche Abteilungen erstellt, die dann eine schnellere Fehleranalyse ermöglichen. Als Ergebnis erhält die Bank eine End-to-End Prozessübersicht über das Online-Banking von der Datenbank bis zum Frontend und somit jederzeit einen Überblick über die aktuelle Gesamtperformance. Darauf baut dann im nächsten Schritt die Predictive Analytics-Lösung auf, die mit Hilfe von Machine Learning Prognosen zum Ausfall der Systeme erstellt.
Fazit
Dank IT-Operations Analytics können gerade im sensiblen Finanzwesen teure Ausfallzeiten vermieden, die Zeiten zur Fehlerbehebung reduziert und die Gesamtperformance der IT gesteigert werden. Ein ITOA-System bietet einen Single-Point-of-Truth und ermöglicht somit eine Suche über alle IT-Betriebsdaten hinweg. Durch moderne Analysemethoden und Prognosemethoden, wie Machine-Learning, werden Ausfälle vorhergesagt, und es kann ihnen proaktiv entgegengewirkt werden.aj
Sie finden diesen Artikel im Internet auf der Website:
https://itfm.link/53503
Schreiben Sie einen Kommentar