Geheimnisse geheim halten: Wie eine der weltgrößten Banken vertrauliche Dokumente per KI schützt
Vertrauliche Daten und Dokumente identifizieren, um die Privatsphäre ihrer Kunden besser zu schützen – so lautet das ambitionierte Ziel einer der führenden europäischen Banken, die zur weltweiten Top 20 zählt und im Privat- und Firmenkundengeschäft, Investmentbanking, Vermögens- und Anlage-Management in 67 Ländern tätig ist. Doch Daten sind oft unstrukturiert, unmarkiert und verändern sich. Was tun? Der Anwenderbericht von
von Olivier Gaunet, CTO Sinequa
Was die sensiblen Daten so schwierig zu finden macht: Die meisten von ihnen liegen unmarkiert in unstrukturierten Texten, über alle Anwendungen verteilt, in verschiedensten Formaten gespeichert und befinden sich zudem in stetigem Wandel. Sie unterliegen außerdem vielerlei Regularien, speziell öffentlich nicht zugängliche Informationen (Non-Public Informationen = NPI, z.B. Beteiligungen) und identifizierbare personenbezogene Informationen (Personally Identifiable Informationen = PII, etwa Kundenkontonummern, Sozialdaten…).Vertrauliche Daten liegen nicht offensichtlich herum, sondern müssen aus ihrem Umfeld extrahiert werden.”
Wie findet man sensible Daten?
Das Compliance-Team der Bank definierte zunächst mehrere Vertraulichkeitskategorien, die für alle Inhalte in der gesamten Bank gelten. Jeder, der mit der Erstellung oder Änderung von Dokumenten zu tun hat, sollte diese gemäß der Vertraulichkeitskategorie bewerten: Welche sensiblen Informationen befinden sich in meinem Dokument? Problem: Nur wenige kannten und verstanden die Anleitungen zur Kategorisierung überhaupt vollständig.
Compliance-Vorschriften nicht systematisch und widersprüchlich
Die kognitive Herausforderung, jede Information manuell auf möglichen Gehalt sensibler Informationen zu prüfen, war zudem erheblich und hielt die Beschäftigten von ihren eigentlichen Aufgaben ab. Vor allem aber war die Einhaltung der Compliance-Vorschriften nicht systematisch und widersprüchlich. Sicherheitslücken bleiben offen, wenn NPI und PII unentdeckt bleiben, Verstöße gegen die EU-DSGVO sind schnell geschehen.
Techniken, die dafür zum Einsatz kommen:
1. Part-of-Speech-Tagging und Lemmatisierung zur Darstellung der geschriebenen Sprache als eine Reihe von linguistischen Tokens für die maschinelle Verarbeitung.2. Concept Extraction zum Erkennen der wichtigsten Konzepte des Dokuments, wie z.B. Asset-Klassen und Kundenerfordernisse (Renditeziele, Risikotoleranz) und Überprüfung auf potenzielle NPI und PII mittels NLP und Deep Learning.
3. Text-Mining-Agents zur Analyse der Dokumente und Anwendung von Regeln, die komplexe Muster im Text identifizieren wie gemeinsames Auftreten von Begriffen in einem Satz oder einem Text oder Wortfolgen.
Durch NLP ist es der Bank also möglich, Dokumente zu kennzeichnen und vertrauliche Informationen zu identifizieren. Die volle Bedeutung eines Dokuments erschließt sich allerdings erst aus seinem erweiterten Kontext. So versieht die Software beispielsweise eine Investition in eine börsennotierte Aktie mit einer Markierung, unabhängig von der Zielsetzung oder Identität des Kunden. Die Vertraulichkeitskategorie eines Dokuments variiert abhängig davon, ob es im Managed Account des Portfolios eines Privatkunden gehalten wird. Hier kommen KI und maschinelles Lernen ins Spiel, die genau diesen Unterschied erkennen.
Um die Vertraulichkeit von Dokumenten genauer vorherzusagen, erstellte das Team des Softwareentwicklers mit den Risk & Compliance-Experten der Bank im Vorhinein Trainingssets (mit von Experten korrekt markierten Daten), um die Software anzulernen.
Die maschinellen Lernmodelle wurden dann auf Millionen von Dokumenten in mehreren, globalen Geschäftseinheiten angewendet. So lässt sich die Vorhersage von Vertraulichkeitskategorien automatisieren und im weiteren Verlauf immer präziser machen.”
Die Resultate
Die Investition in KI-basierte Suche und Analyse hat sich für die Bank in dreierlei Hinsicht ausgezahlt: zum einen durch höhere Vertraulichkeit und verbesserten Kundendatenschutz. Ein intelligenter, automatisierter Prozess minimiert das Risiko von Datenlecks und regulatorischen Verletzungen der Kundendaten. Damit verbessert sich zugleich die Wettbewerbsfähigkeit in einem stark margengetriebenen Geschäftsumfeld.
Außerdem hat sich die Produktivität der Beschäftigten erhöht. Die bisherigen manuellen Vertraulichkeitsprüfungen hielten die Beschäftigten davon ab, sich auf die Pflege der Kundenbeziehungen zu konzentrieren. Internen Berechnungen zufolge bezifferten sich die Kosten für die Arbeitszeit der Mitarbeiterinnen und Mitarbeiter im Privatkundengeschäft ohne Softwareunterstützung auf zuvor jährlich rund 44 Millionen US-Dollar pro Jahr (Basis: weltweit 2.800 Beschäftigte, die täglich jeweils 45 Prozent ihrer Arbeitszeit für manuelle Tätigkeiten verwenden).
Das erste Projekt im Privatkundenbereich zur Identifizierung sensibler Daten schuf schließlich die Grundlage für ähnlich gelagerte Vorhaben in anderen Abteilungen wie Vermögensverwaltung und Investmentbanking. Sinequa unterstützt heute eine Vielzahl von Anwendungsfällen und wird so zur Plattform für KI-basierte Suche und Analyse in der gesamten Bank.Olivier Gaunet, CTO Sinequa
Sie finden diesen Artikel im Internet auf der Website:
https://itfm.link/97220
Schreiben Sie einen Kommentar