Realdaten konsistent verwürfeln?

**stahli**

Ich glaube es ja nicht, aber kennt jemand evtl. ein Tool für folgende Aufgabenstellung?

Ich habe diverse größere CSV´s in der Form

"KdNr";"Vorname";"Nachname";"KontoNr"
"01";"Klaus";"Müller";"2222"
"09";"Gerhard";"Müller";"3333"
"02";"Klaus";"Meier";"1111"
"03";"Bernd";"Lehmann";"4444"

"KontoNr";"Guthaben"
"1111","999"
"2222","9999"
"3333","99"
"4444","99999"

Jetzt möchte ich die Daten anonymisieren.
Ich könnte z.B. alle oder einige Spalten beider Dateien im Excel jeweils isoliert aufsteigend sortieren. Dann gäbe es keine Bezüge mehr zu den realen Datensätzen.
Lediglich die KontoNr als Bezug der Tabellen untereinander wäre noch vorhanden.

Optimaler Weise würde ich aber gern einen zeitlichen Stapel solcher Dateien "transferieren".
Ich habe diese Dateien nämlich monatlich vorliegen und würde daraus gern konsistente monatliche Testdaten generieren.

Das heisst, die csv´s müssten automatisiert zerlegt, mit Hilfe eines Dictionarys in Demodaten umgeschrieben und wieder in gleicher Form ausgegeben werden.

Dazu müsste pro Datei ein Schlüsselfeld angegeben werden und es müsste für jeden Monat konsistent aus
original
"KdNr";"Vorname";"Nachname";"KontoNr"
"01";"Klaus";"Müller";"2222"
nun
"01";"Gerhard";"Lehmann";"4444"

Erst wenn Klaus Müller wegen Heirat Klaus Maier heisst, sollte auch der Demo-Nachname geändert werden.

Kennt jemand Lösungen für so etwas?
Ich denke ja eher nicht, da das Ganze ja doch recht komplex werden kann.

Andererseits kann es Bedarf für solche "konsistenten" Anonymisierungen ja schon gelegentlich geben.

**Jumpy**

Habe gerade ein ähnliches Problem, aber auf Datenbank ebene, nicht in einer Datei.
Ich plane, z.B. einmalig eine Vornamens-Nachschlage-tabelle zu machen ala:

markieren

SQL-Code:

			Create Table VornamenNachschlageTabelle

Select Distinct Rownum as ID, Vorname From Tabelle

Where Rownum<=500

Das wäre dann sowas wie bei dir das Dictionary.

Dann, um das reproduzierbar zu halten, wird anhand der Personalnummer aus dieser Tabelle ein Name gezogen, ungefähr so:

markieren

SQL-Code:

			Update Personaltabelle P

Set P.Vorname= (Select V.Vorname von VornamenNachschlageTabelle V Where V.ID=MOD(Personalnummer,500))

Analog dann bei Nachname, Strasse usw.

Keine Ahnung ob es da nicht schlauere Lösungen gibt um Testdaten zu generieren. Den Namenswechsel bei Hochzeit, bekommt man so in den Testdaaten nicht mit, aber das ist auch nicht nötig für uns.

**mensch72**

Wir nutzen simpel einen MD5 Hash zur Anonymisierung...

Also würde ich einen MD5 aus ("KdNr";"Vorname";"Nachname") berechnen und dann habe ich im Test/Demo-CSV nur noch "HASH";"KontoNr"

**stahli**

Die Demodaten will ich ggf. weiter geben können.
Es sollen also umfangreiche echte Daten sein, aber ohne realen Personen-Bezug (originale Form der Dateien und innere - auch zeitliche - Konsistenz).

**Mavarik**

Zitat von stahli:

Die Demodaten will ich ggf. weiter geben können.
Es sollen also umfangreiche echte Daten sein, aber ohne realen Personen-Bezug (originale Form der Dateien und innere - auch zeitliche - Konsistenz).

Leg dir einfach eine Liste mit Vornamen und Nachnamen an und stelle diese per Random zu neuen Namen zusammen...

Original

[0] Petra;Putzig;Gartenstraße 7;53111; Bonn
[1] Rudi;Rastlos;Hofgarten 42;52223 Stolberg;

Daraus 5 Listen machen

Dann 5x Random; Randomwerte 1-5 müssen unterschiedlich sein.
Randomwert verbraucht, aus der Liste werfen..

So hast Du n Adressen aber keine ist real...

**bra**

Zitat von Mavarik:

Leg dir einfach eine Liste mit Vornamen und Nachnamen an und stelle diese per Random zu neuen Namen zusammen...

Original

[0] Petra;Putzig;Gartenstraße 7;53111; Bonn
[1] Rudi;Rastlos;Hofgarten 42;52223 Stolberg;

Daraus 5 Listen machen

Dann 5x Random; Randomwerte 1-5 müssen unterschiedlich sein.
Randomwert verbraucht, aus der Liste werfen..

So hast Du n Adressen aber keine ist real...

Das halte ich aber für alles andere als sauber. Man hat immer noch die reellen Namen und Daten, nur in gequirlter Zuordnung. Datentechnisch halte ich das für nicht unbedenklich.

**Jumpy**

Zitat von mensch72:

Wir nutzen simpel einen MD5 Hash zur Anonymisierung...

Also würde ich einen MD5 aus ("KdNr";"Vorname";"Nachname") berechnen und dann habe ich im Test/Demo-CSV nur noch "HASH";"KontoNr"

War auch unser erster Ansatz. Leider wollte der Kunde, das auch bei den Testdaten die Vornamen noch wie Vornamen aussehen usw.

**mensch72**

aus den 16Bytes MD5 kann man auch 2x 8Bytes machen und eine sagen wir CRC16 darüber rechen umd dann diese nochmal per Modulo auf die Anzahl der verfügbaren Records zu begrenzen... dann bekommt man 2x einen "Index", welchen Vornamen und welchen Nachnamen man jeweils kombinieren soll.

Das sollte ausreichend flexibel sein, um genug anonyme Verwürfelung der Klarnamen zu bekommen... vorwärts eindeutig zu bestimmen, aber rückwärts nicht rückrechenbar

**Namenloser**

Zitat von mensch72:

Das sollte ausreichend flexibel sein, um genug anonyme Verwürfelung der Klarnamen zu bekommen... vorwärts eindeutig zu bestimmen, aber rückwärts nicht rückrechenbar

Das kann man sehr leicht mit einer Wörterbuchattacke zurückrechnen. Bitte auf keinen Fall MD5 oder sonstige Hashes zur „Anonymisierung“ verwenden! Außer du verwendest einen zufälligen, ausreichend langen Salt, den du anschließend wegschmeißt.

Realdaten konsistent verwürfeln?

Realdaten konsistent verwürfeln?

AW: Realdaten konsistent verwürfeln?

AW: Realdaten konsistent verwürfeln?

AW: Realdaten konsistent verwürfeln?

AW: Realdaten konsistent verwürfeln?

AW: Realdaten konsistent verwürfeln?

AW: Realdaten konsistent verwürfeln?

AW: Realdaten konsistent verwürfeln?

AW: Realdaten konsistent verwürfeln?

Forumregeln

mensch72 Registriert seit: 6. Feb 2008 838 Beiträge	#3 AW: Realdaten konsistent verwürfeln? 26. Aug 2016, 13:59 Wir nutzen simpel einen MD5 Hash zur Anonymisierung... Also würde ich einen MD5 aus ("KdNr";"Vorname";"Nachname") berechnen und dann habe ich im Test/Demo-CSV nur noch "HASH";"KontoNr"
	Zitat

stahli Registriert seit: 26. Nov 2003 Ort: Halle/Saale 4.365 Beiträge Delphi 11 Alexandria	#4 AW: Realdaten konsistent verwürfeln? 26. Aug 2016, 14:10 Die Demodaten will ich ggf. weiter geben können. Es sollen also umfangreiche echte Daten sein, aber ohne realen Personen-Bezug (originale Form der Dateien und innere - auch zeitliche - Konsistenz). Stahli http://www.StahliSoft.de --- "Jetzt muss ich seh´n, dass ich kein Denkfehler mach...!?" Dittsche (2004)
	Zitat