Banking: Data Science mit Cloud Bursting umsetzen – kurzfristig enorme Rechenleistung nutzen
Bei der NASA ging man ursprünglich davon aus, dass man an die hundert Tage warten müsse, um im eigenen Rechenzentrum die Satellitendaten des Orbiting Carbon Observatory 2 (OCO-2) zu verarbeiten. Die anfallenden Unkosten wurden auf 200.000 US Dollar geschätzt. Immerhin ging es um Daten im Petabyte-Bereich. Doch es kam anders. Die Organisation nutze nicht das eigene Rechenzentrum sondern die AWS Cloud, brauchte nur sechs Tage und hatte Unkosten von 7.000 US-Dollar. Aber “Cloud Bursting” kann mehr – gerade auch für Banken.
von Dominik Claßen, Director of Sales Engineering EMEA & APAC bei Hitachi Vantara
Der epheme, punktuelle Zugriff auf Rechenleistung in einer Public Cloud ist auch unter dem Begriff “Cloud Bursting” bekannt und bietet Wissenschaftlern eine effiziente und günstige Lösung, um große kurzfristig anfallende Datenmengen zu verarbeiten.Doch ist dieses Szenario auch für das Bankengewerbe geeignet? Die Antwort lautet – unbedingt. Wir arbeiten zum Beispiel mit zwei großen weltweit tätigen Banken, die erfolgreich Cloud Bursting nutzen.”
Da Banken große Datenvolumen an allgemeinen Information wie zum Beispiel Zinssätze oder Risikoaktiva verarbeiten müssen, ist Cloud Bursting ein attraktives Anwendungsszenario für sie. Es sind keine personenbezogenen Daten, die hier verarbeitet werden. Oftmals wird auch kurzfristig, zum Beispiel für die Erstellung von Compliance-Berichten, mehr Rechenleistung benötigt, als im eigenen Rechenzentrum vorhanden. Da diese spezifischen Berichte nur sporadisch anfallen, wäre die Investition in zusätzliche Kapazitäten schwer zu rechtfertigen. Auch bei der dauerhaften Bereitstellung einer Anwendung in der Cloud würden zu viele operative Kosten entstehen. Cloud Bursting verspricht hier die perfekte Balance zwischen Speicherkapazität und Kosten. Darüber hinaus bietet es Data-Science-Teams den notwendigen Spielraum, um zu neuen Einsichten zu gelangen.
Cloud Bursting in der Praxis
Die Schritte, die zur Ausführung von Cloud Bursting durchgeführt werden müssen, sind grob gesprochen folgende: Daten müssen in die Cloud verschoben werden, Rechenleistung und Speicherkapazitäten werden zugewiesen, die entsprechenden Daten-Tranchen werden verarbeitet und schließlich zurückgebracht.
Hier ein Beispiel dazu, wie dies in der Praxis bei einem Bankkunden aussieht:
1. Die Bank nutzt Pentaho Data Integration, um die Daten automatisch zu versenden und in den Objektspeicher in der AWS Cloud zu laden, wobei die Daten in Batches verarbeitet werden. 2. Als nächstes wird ein Script für Carte aufgerufen, einem einfachen Webserver für die Ausführung von Remote-Datentransformationen (zur Umwandlung von Datenformaten oder -strukturen), wobei Amazon Elastic Map Reduce (EMR) in Hadoop oder Amazon Redshift verwendet wird. 3. Sobald die Daten bereinigt, transformiert und temporär in die Cloud geladen wurden, macht das Data-Science-Team seine Arbeit, wie zum Beispiel Was-wäre-wenn-Analysen bei Risiko- und Zinsraten.Der größte Vorteil von Cloud Bursting ist sicherlich die gewonnene Agilität, aber es gibt auch Einsparungen bei den Hardwarekosten. Die erwähnte Bank hatte zum Beispiel Hardware- und Softwarekosten für ihr Risk Reporting Hadoop-Cluster von rund einer Million US Dollar. Wir haben eine Teilmenge der Daten genommen, immerhin 12 Millionen Datenreihen, und sie in AWS für 2,20 US Dollar und in Google für 0,50 US Dollar prozessiert.
Erfolgsfaktoren für Cloud Bursting
Cloud Bursting ist nicht unbedingt leicht, oftmals wird es allerdings unnötig erschwert. Dabei kann es einfacher sein als viele annehmen, wenn folgende Erfolgsfaktoren berücksichtigt werden:
1. Agile Datenintegration – welches Datenintegrations-Tool man auch wählt, es sollte automatisch in die Hadoop-Cluster in der Cloud installiert werden können, damit keine Zeit durch manuelle Installation oder Aktualisierungen verlorengeht. 2. Einsatz von DevOps – Banken, die DevOps nutzen, insbesondere Continuous Integration, haben es bei der Datenvorbereitung für die Verarbeitung im Cloud Bursting einfacher. 3. Open Standard Umgebung – es ist wichtig, dass die Datenvorbereitung von der Cloud-Umgebung abstrahiert wird, sodass sie nicht an einen spezifischen Anbieter gebunden ist. Die gleiche Logik sollte per Knopfdruck in einer anderen Umgebung beziehungsweise bei einem anderen Anbieter ausgeführt werden können, ohne dass ein Redesign nötig ist. Open Standards und Frameworks bieten hier mehr Flexibilität. 4. Rückführungsplan – Was passiert, wenn eine Bank erfolgreich Cloud Bursting nutzt, aber später sensible Daten in die Analyse einbeziehen will? In diesem Fall muss der Verarbeitungsprozess samt Daten wieder zurück ins eigene Rechenzentrum verlagert werden. Dafür braucht die Bank eine Analyse-Plattform, die hybride Computerumgebungen und Container unterstützt. Mit Hilfe von Containern wie Docker lässt sich der Rückführungsprozess schneller und einfacher organisieren.Ebenso wie bei der NASA waren die Cloud-Bursting-Initiativen, die wir bei den Banken gesehen haben, vielversprechend und haben durch die Reduzierung der Gesamtbetriebskosten (TCO) und die Steigerung der Agilität zu Kosteneinsparungen in Millionenhöhe geführt. In Zeiten von politischen und ökonomischen Turbulenzen ist die Fähigkeit, mit Daten in einem temporären Raum verschiedene Szenarien durchspielen zu können, vielleicht noch wichtiger als die monetären Vorteile.aj
Sie finden diesen Artikel im Internet auf der Website:
https://itfm.link/61053
Schreiben Sie einen Kommentar