PRODUKTE19. September 2019

Anonymisierung: Aussagekräftige, aber synthetische Testdaten per Machine Learning

GarryKillian/Bigstock.com

Das Berliner Unternehmen Statice (Website) bietet eine Software, die personenbezogene Daten anonymisiert und somit datenschutzkonform nutzbar zu Testdaten macht. Erreicht werden soll dies durch ein Machine-Learning-Verfahren, in dessen Rahmen die anonymisierten Datensätze nicht an Aussagekraft verlieren. Für das Finanz- und Versicherungswesen ergeben sich so völlig neue Möglichkeiten.

Warum Testdaten?
Die Fi­nanz­bran­che steht vor zwei Her­aus­for­de­run­gen, die nur schwer mit­ein­an­der in Ein­klang zu brin­gen sind: Ei­ner­seits gilt es, im Um­gang mit per­so­nen­be­zo­ge­nen Da­ten al­len gül­ti­gen Da­ten­schutz- und Com­p­li­an­ce-Vor­schrif­ten zu ent­spre­chen. Auf der an­de­ren Sei­te se­hen sich Fi­nanz­dienst­leis­ter im Zug­zwang, da­ten­ba­sier­te In­no­va­tio­nen und Ser­vices zu rea­li­sie­ren, um lang­fris­tig wett­be­werbs­fä­hig zu blei­ben.

Spe­zi­ell Ban­ken be­nö­ti­gen zu­dem um­fang­rei­che, mög­lichst rea­li­täts­na­he Testdaten, um neue IT-Sys­te­me zu tes­ten. Um ei­ne ge­eig­ne­te Testdatenba­sis zu schaf­fen, reicht es je­doch nicht aus, ein­zel­ne Fel­der wie IBAN oder Na­men aus Ori­gi­nal-Da­ten­sät­zen zu lö­schen. Die ver­blei­ben­den In­for­ma­tio­nen könn­ten den­noch ei­nen Rück­schluss auf die Iden­ti­tät der Per­son zu­las­sen. Wer­den al­ler­dings zu vie­le Da­ten ge­löscht oder ver­än­dert, sind die In­for­ma­tio­nen sta­tis­tisch kaum noch nutz­bar.

Bei der Sta­ti­ce-Lösung  an­ony­mi­siert eine KI die Da­ten­sät­ze auf ei­ne Wei­se, die kei­ne Re-Iden­ti­fi­ka­ti­on zu­lässt. Der Da­ten­nut­zen und die Da­ten­gra­nu­la­ri­tät blei­ben bei den neuen Testdaten erhalten. Aus technischer Sicht verbirgt sich hinter Statice ein Machine-Learning-Algorithmus, der auf einen bestimmten Datensatz trainiert wird. Er erlernt auf diese Weise die Strukturen und statistischen Informationen der Echtdaten.

Aus diesem Wissen wird per ML dann ein vollständig neuer, synthetischer Datensatz generiert. Er enthält keinerlei originale Einträge mehr, sondern besteht komplett aus künstlichen Datenpunkten. Diese spiegeln die Originaldaten mit ihrem realen Informationsgehalt wider.”

Nach dem Verfahren lassen sich die Testdatensätze ohne die Gefahr von Datenschutzverstößen nutzen. Sogar eine Weitergabe an externe Partner ist bedenkenlos möglich.

Neben System-Tests können die synthetischen Datensätze in der Finanzbranche beispielsweise als reale Trainingsdaten für Machine-Learning-Anwendungen Verwendung finden, wodurch sich die Produktentwicklung intelligenter gestalten lässt.

Testdaten im Vergleich zu den echten Daten - statistisch kein Unterschied
Daten-Histogramm: Der statistische Vergleich zwischen echten und anonymen synthetischen Daten zeigt, dass die Aussagekraft erhalten bleibt.Statice
Ein weiterer Use Case sind flexible Analysen des Kundenverhaltens unter Vermeidung komplexer Compliance-Prozesse. Nicht zuletzt ermöglicht die Anonymisierung eine skalierbare Datenverarbeitung in der Cloud ohne Datenschutzrisiken.

Sebastian Weyer, CEO und Co-Gründer von Statice
Statice

Eine echte Daten-Anonymisierung unter Wahrung der Privatsphäre gestaltet sich in der Finanzbranche schwierig. Sie erfordert Zeit, Ressourcen und umfangreiche Expertise. Herkömmliche Anonymisierungstechnologien haben zudem zwei Probleme. Entweder schützen sie die Daten nicht ausreichend, oder sie verfremden die Daten so weit, dass sie für die meisten Anwendungsfälle nicht mehr verwendbar sind. Deshalb haben wir Statice entwickelt. Unter Einsatz neuester Machine-Learning- und Datenschutztechnologien ermöglichen wir es, wirklich verwertbare Datensätze zu generieren, ohne Risiken beim Datenschutz einzugehen.“

Sebastian Weyer, CEO und Co-Gründer von Staticeaj

Schreiben Sie einen Kommentar

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert