Einzelnen Beitrag anzeigen

nahpets
(Gast)

n/a Beiträge
 
#28

AW: Realdaten konsistent verwürfeln?

  Alt 29. Aug 2016, 18:38
@nahpets

Vollkommen korrekt, aber etwas einfacher.
Normalerweise sollte für uns jetzt eine einmalige Konvertierung von 600 Testdateien reichen um ein neues Projekt aufzubauen und den Import zu testen.
Und meiner Meinung nach braucht man dazu reproduzierbare Testdaten.
Wenn der Importtest (aus welchen Gründen auch immer) scheitert, "dumme Sachen macht", also nicht perfekt funktioniert, so muss mit den Originaldaten wieder ein Testdatenbestand erstellt werden und der Import erneut getestet werden.
Klar, man kann auch alle "Testdatenzwischenstufen" für immer und wiederholte Nutzung aufheben. Und man muss da dann auch (hoffentlich) den Durchblick behalten.

Klar, die Übersetzungstabelle "muss" erhalten bleiben. Ist sie nicht mehr vorhanden, so kann man neue Daten "würfeln".

Und nach der erstmaligen Befüllung des Projektes mit Testdaten kommt ganz bestimmt sehr bald irgend jemand, der sagt: "Du, stahli, Testdaten kaputt, kannst Du bitte mal eben neu machen?"
Und wenn jemand sagt: "Das brauchen wir garantiert nur einmalig!" Jede Wette, der kommt bald wieder und sagt: "Nochmalhabenwollen"

Für andere Projekte könnte es ggf. interessant sein, dass man nach und nach immer weitere Dateien umwandelt. Das wäre dem Tool dann aber letztlich egal. Man müsste nur die Übersatzungstabelle aufheben.
Sowas würd' ich immer einplanen, wenn ich mir sowieso schon viel Arbeit machen muss, dann ist das sicherlich einfacher sofort integriert, als später (in vier Wochen oder 'nem Jahr) noch nachträglich einzubauen.

Kann aber etwas dauern ...
Wenn das morgen fertig wäre, dann aber Hut ab

@BUG

Für IBANS, Telefonnummern und eMailadressen könnte man zum normalen verwürfeln noch eine Verstümmelung von 0..100% einstellen.
Max Mustermann würde dann die eMail "Weltherrscher@dp.com" zugeordnet und da diese in sich ja noch real ist könnten z.B. 80% der Zeichen noch verändert bzw. gelöscht werden.
Für die Mails würd' ich mir 'ne Domaine aussuchen, die es nicht gibt und (höchstwahrscheinlich) nie geben wird.
Vor die Domaine kommen Vorname.Nachname.KundenID und fertig ist die Laube. Email-Dubletten sind damit dann (hoffentlich) auch ausgeschlossen. Z. B.: Peter.Meier.4711@Projektname.Testdaten.test
Sollte es mehrere Peter Meier geben, was bei 'nem größeren Datenbestand wahrscheinlich ist, so unterscheiden sich die Emailadressen auf jeden fall, ohne dass man mehr oder weniger komplizierte Algorithmen über die Originalemailadressen jagen muss.

Telefonnummern und IBAN würd' ich aus der KundenID (oder sowas) erstellen, indem ich die solange mit sich selbst repliziere, bis die Länge passt. Bei der IBANs könnte man noch die Prüfziffer der Kontonummer berechnen, falls die nachfolgende Software da irgendeine Prüfung drinne hat, die sonst über ungültige IBANs stolpert.
Z.B.: DE47114711471147114711 = DE + KundenID sooft aneinandergehängt, bis mehr als 20 Zeichen entstanden sind und davon dann die ersten 20 Zeichen nehmen.

Bei mir sieht 'ne Test-ISBN so aus: 978-699-2-00000-6.
Wirkt echt, ist sie aber nicht, weil 699 nicht vergeben.

Telefonnummern werden (laut Norm) von rechts nach links zweistellig durch Leerzeichen getrennt. Wir nehmen dann halt die Vorwahl des Ortes + KundenID, ergibt für Peter Meier aus Köln dann "02 21 / 47 11". Naja, wenn wir 'ne Handynummer haben, dann behalten wir die Vorwahl und hängen die Kundennummer dran. Also z. B. "0160 / 47 11". Man könnte auch noch die Auslandsvorwahl davorschreiben, wenn erforderlich ...

Daten so repräsentativ wie nötig mit so wenig Aufwand wie möglich.

Ist eine Abbildung von fehlerhaften Daten (insbesondere in Bezug auf IBAN, Telefonnummern ...) nötig, dann geht's halt nicht so einfach, aber hier würd' ich dann erstmal abklären, ob der "allgemeine Datenerfassungshumbug in den Quelldaten" auch in den Testdaten erforderlich ist.

Also: Muss mit 'nem Peter Meier aus Köln mit der Kundennummer 4711 auch dann noch korrekt umgegangen werden, wenn er auf einmal als Petr Maier aus Cölln mit der Kundennummer 4711 daher kommt. Sind "Besonderheiten" in der Telefonnummer wie z. B. +491604711, +49 0160/4711, 01604711, 00491604711 ... auch "originalgetreu" abzubilden?

Fragen über Fragen ... garantiert etwas mehr Arbeit
  Mit Zitat antworten Zitat