Pflicht zu strukturierten Daten: “Keine Zahlung unter dieser Adresse”
Im Rahmen von SEPA 2.0 müssen Banken künftig strukturierte Adressen in SEPA-Zahlungsdateien ausliefern. Eine Herkulesaufgabe angesichts der schier unendlichen Zahl von bislang unstrukturierten Adressen, die nun transformiert werden müssen. Abhilfe kann eine Anwendung auf Basis Künstlicher Intelligenz schaffen. Damit lassen sich Adressen automatisiert strukturieren und Format-Besonderheiten auf der ganzen Welt berücksichtigen.
von Dr.-Ing. Thomas Stuht, Produktmanager PPI und Dr. Stefan Rieß, Leading Software Engineer PPI
Es ist eine vermeintlich kleine Änderung mit weitreichenden Folgen: Aktuell sind Banken gemäß EU-Recht verpflichtet, im Zahlungsverkehr außerhalb des Europäischen Wirtschaftsraums (EWR) die Adresse des Zahlers anzugeben. Befinden sich sowohl Zahler als auch Empfänger innerhalb des EWR-Raums, ist die Angabe der Adresse freiwillig. Die Auslieferung der Adressen erfolgt unstrukturiert. Innerhalb der XML-Datei stehen dafür pro Adresse bis zu zwei Adress Lines (AdrLine) zur Verfügung; dort wird die Postadresse als Freitext angegeben. Lediglich der Name muss separat ausgewiesen werden.Im Rahmen von SEPA 2.0, also der Umstellung der SEPA-Formate auf die ISO-Version 2019 des ISO-20022-Standards, ist damit Schluss. Künftig werden Kreditinstitute dazu verpflichtet, bei jeder Zahlung Adressdaten strukturiert auszuliefern. Das gilt für alle SEPA-Zahlungsformate. Bei Zahlungen innerhalb des EWR-Raums bleibt die Auslieferung zwar weiterhin freiwillig – wenn sich Banken jedoch dafür entscheiden, müssen auch diese Adressen strukturiert sein.
Künftig gibt es eigene Felder für die verschiedenen Bestandteile einer Adresse, etwa die Straße und Hausnummer, den Namen des Gebäudes, die Postleitzahl und den ISO-Ländercode. Die Payment Markets Practice Group listet insgesamt 14 Merkmale auf, die einer Postadresse zugeordnet werden können.
Durch die Strukturierung und internationale Vereinheitlichung der Adressen sollen unter anderem regulatorische Prozesse sowie Reportings und Datenabgleiche vereinfacht werden. Ein Grund dafür ist die flächendeckende Einführung von Instant Payments. Denn angesichts der drastischen Beschleunigung im Zahlungsverkehr ist ein reibungsloses Straight-Through-Processing, also eine durchgängige Datenverarbeitung mit möglichst wenig Interaktionen, wichtiger denn je.
Die Umstellung erfolgt stufenweise: Ab dem 19. November 2023 müssen Banken in der Lage sein, strukturierte Daten zu empfangen und zu verarbeiten. Ab dem 23. November 2025 dürfen die Adressdaten schließlich nur noch strukturiert angeliefert werden. Das gilt sowohl für Transaktionen zwischen Kunde und Bank als auch zwischen Banken untereinander. Werden Adressdaten nicht strukturiert ausgeliefert, wird die Zahlung abgelehnt.
Die Institute stehen also jetzt vor der Herausforderung, die gewaltige Menge an unstrukturierten Adressdaten gemäß den neuen Anforderungen im Zuge von SEPA 2.0 aufzubereiten. Angesichts der Vielzahl von Adressen inklusive möglicher Varianten ist dies eine Herkulesaufgabe.”
Die Universal Post Union, eine Sonderorganisation der Vereinten Nationen für das Postwesen, listet allein für Deutschland 75 unterschiedliche Beispiele auf, wie eine Postadresse aussehen kann – je nachdem, ob zum Beispiel die betreffende Person einen akademischen Titel trägt, in einem Mehrfamilienhaus wohnt oder es sich bei der Anschrift um ein Postfach beziehungsweise eine Packstation handelt. Noch höher ist die Vielfalt in den USA: Der United States Postal Service beschreibt auf über 200 Seiten, wie Adressen in den USA aussehen können, etwa welche Formate und Abkürzungen zulässig sind und welche nicht. Richtig kompliziert wird es, wenn nicht nur die Zahl an möglichen Adressvariationen hoch ist, sondern auch die Schriftzeichen und Struktur eine völlig andere ist, etwa bei asiatischen Ländern.
Für eine manuelle Umwandlung wären gewaltige personelle Ressourcen notwendig. Außerdem braucht es ein umfassendes Spezialwissen über die verschiedenen Adressformate auf der ganzen Welt. Dazu ein Beispiel: Eine Bank verfügt über 500.000 Firmenkunden, deren Daten in fünf verschiedenen Banksystemen gepflegt werden. Pro Kunde gibt es im Schnitt drei unterschiedliche Adressen. Das ergibt insgesamt 7,5 Millionen Adressen, die strukturiert werden müssen. Unterstellt man einen zeitlichen Aufwand von zwei Minuten pro Adresse – was angesichts der Vielfalt der zu berücksichtigenden Adressformate realistisch ist – liegt der zeitliche Aufwand bei 250.000 Stunden. Hinzu kommt der Aufwand für notwendige Schulungen im Vorfeld.
Die manuelle Transformation der Adressdaten ist damit nicht nur aufwändig und teuer, sondern erhöht auch das Risiko für Fehler, wenn Adressen nicht korrekt gepflegt werden. Im schlimmsten Fall droht dann eine Ablehnung der Zahlung.
Auch sogenannte reguläre Ausdrücke sind wenig effektiv. Bei diesem musterbasierten Ansatz werden die Daten auf Basis von vorhandenen Muster-Beispielen transformiert – vereinfacht gesagt eine Art „Suchen und Ersetzen“-Funktion. Das Problem:
Für jedes Land müssten solche Ausdrücke erstellt werden – und selbst dann würde es kaum möglich sein, der Vielfalt der Adressen gerecht zu werden. Denn Adressen sind in den wenigsten Fällen regulär.”
Darüber hinaus braucht es unzählige Testdaten, um sicher sein zu können, dass die Ausdrücke funktionieren.
Eine weitere Möglichkeit der Adresstransformation ist die Nutzung von externen Adressservices. Diese Dienste sind in der Regel allerdings nicht nur sehr teuer, sondern häufig auch auf bestimmte Regionen oder Länder begrenzt. Außerdem können sie zu Datenschutzbedenken führen. Schließlich geben die Banken hier das Wertvollste aus der Hand, was sie besitzen: die Daten ihrer Kunden. Und das gleich millionenfach. Ein einziger Datenvorfall, und der Schaden wäre immens.
Doch wie können Banken ihre Adressdaten nun einfach, sicher und zuverlässig in die neue Struktur überführen? Die Lösung bietet eine Anwendung auf Basis Künstlicher Intelligenz (im Folgenden KI genannt), die in den Systemen der Bank betrieben wird. Der wohl wichtigste Vorteile einer KI im Vergleich zu regulären Ausdrücken ist, dass man hier nicht für jedes Land eigene Muster erstellen muss. KI-basierte Anwendungen sind in der Lage, ähnlich wie der Mensch aus vorhandenen Daten zu lernen und dieses Wissen auf weitere, unbekannte Daten desselben Typs zu übertragen.
Die Transformation von Adressen ist dafür ein idealtypisches Szenario. Denn hier gibt es eine schier endlose Zahl möglicher Varianten von Adressen auf der ganzen Welt. Diese vollständig abzudecken und zu bestimmen wäre ein enormer Aufwand. Mit einer KI hingegen können Beispiel-Fälle trainiert werden. Die Anwendung ist in der Lage, sich daraus Strukturen und Zusammenhänge abzuleiten und die so gewonnenen Erkenntnisse auf weitere Fälle anzuwenden.
Wie genau die KI arbeitet, hängt davon ab, für welche Methode man sich entscheidet. Grundsätzlich sind unterschiedliche Modelle denkbar, etwa neuronale Netze, Support Vector Machines oder Hidden Markow Modelle. Die Auswahl hängt vom jeweiligen Anwendungsfall ab und sollte im Vorfeld gut überlegt sein. Denn einfach „irgendetwas mit KI“ zu machen, ist nicht zielführend. Die Auswahl der KI bestimmt auch über die weiteren Maßnahmen, etwa wie das Training der KI gestaltet wird und welche Daten dafür verwendet werden.
Ein Zaubermittel ist die KI jedoch nicht.
Denn zum einen deckt nicht jeder Basisalgorithmus jede Problemstellung ab. Und zum anderen kommt es für den Erfolg darauf an, wie man die Anwendung trainiert und mit welchen Daten man sie füttert.”
Dafür ist zunächst die Vorbereitung der Daten erforderlich. So enthalten Adressdatenbestände eventuell noch Länderkürzel vor den Postleitzahlen. Dies ist heute nicht mehr Standard und muss daher getrennt werden. Diese Daten lassen sich mit verschiedenen Heuristiken relativ einfach aufbereiten, was die Anzahl der durch die KI-Anwendung zu erkennenden Inhalte einschränkt.
Anschließend geht es darum, die KI durch Trainingsfälle zu verfeinern. Wie viel Daten es braucht und wie viel Training notwendig ist, lässt sich jedoch nicht pauschal abschätzen. Das hängt zum einen vom jeweiligen Modell ab, für das sich eine Bank entscheidet. Zum anderen kommt es auch darauf an, ob ich mich bei der Transformation auf bestimmte Regionen konzentrieren will, weil ich vor allem dort Zahlungsverkehr abwickle, oder eine weltweite Abdeckung notwendig ist. Liegt der Fokus auf Europa, reichen unter Umständen bereits Daten aus zwei Dutzend Ländern aus.
Hier muss jede Bank für sich den Aufwand abschätzen, den sie zugunsten einer höheren Genauigkeit bereit ist zu investieren. Dasselbe gilt für die Anzahl der Beispiel-Daten pro Land, die von der Größe des Landes und der Komplexität der dort vorhandenen Formate abhängt.
Wichtig ist in jedem Fall eine Aufsplittung der Adressen in Trainings- und Testdaten. Denn die Testdaten dienen der Überprüfung, ob das Training der KI-Anwendung erfolgreich war.”
Es kommt also darauf an, ob der Algorithmus in der Lage ist, die auf den Trainingsdaten gewonnenen Erkenntnisse auf neue Anwendungsfälle zu übertragen. Entsprechend dürfen die Testdaten nicht in den Trainingsdaten enthalten sein.
Der Aufwand für die Vorbereitung und das Training der KI lohnt sich. Denn am Ende steht eine leistungsfähige und zuverlässige Lösung für die automatische Transformation unstrukturierter Adressen. Eine Lösung, von der nicht nur die Banken profitieren könnten. Denn auch Firmenkunden werden durch die SEPA-Vorschrift verpflichtet, Adressdaten strukturiert anzuliefern. Eine Bank, die ihren Kunden anbietet, die Transformation für sie zu übernehmen, kann sich einen spürbaren Wettbewerbsvorteil sichern. Das gilt vor allem für Adressen, die in der Domäne der Kunden liegen, auf die die Bank also keinen direkten Zugriff hat. So wird aus der regulatorischen Pflicht eine Kür.Dr.-Ing. Thomas Stuht und Dr. Stefan Rieß, PPI
Sie finden diesen Artikel im Internet auf der Website:
https://itfm.link/149447
Schreiben Sie einen Kommentar