Delphi-PRAXiS - Datenbank Duplicates

Seite 1 von 2

40 Beiträge dieses Themas auf einer Seite anzeigen

Delphi-PRAXiS (https://www.delphipraxis.net/forum.php)

- Datenbanken (https://www.delphipraxis.net/15-datenbanken/)

- - Datenbank Duplicates (https://www.delphipraxis.net/152432-datenbank-duplicates.html)

-187-

22. Jun 2010 18:57

Datenbank: Firebird • Version: - • Zugriff über: Interbase

Datenbank Duplicates

Ich hab nochmal ne Frage zur Datenbank. Und zwar füge ich hin und wieder neue Einträge hinzu. Da ich keine Duplicates haben möchte habe ich auf das betroffene Feld folgendes gemacht:

Delphi-Quellcode:

IBTable1.AddIndex('UNIQUE', 'NAMES', [ixUnique, ixCaseInsensitive]);

Jetzt wollte ich die Einträge mal überprüfen und habe das Feld exportiert und in einem separatem Tool auf Duplicates geprüft. Komischer weise fehlen nach der Überprüfung 60 Einträge. Gesamt waren es rund 9000.

So überprüfe ich die Duplicates:

Delphi-Quellcode:

			procedure TForm1.Button1Click(Sender: TObject);

var

  sl: TStringList;

begin

  sl:=TStringList.Create;

  sl.Duplicates:=dupIgnore;

  sl.Sorted:=True;

  sl.Text:=Memo1.Text;

  Memo1.Text:=sl.Text;

end;

idefix2

22. Jun 2010 19:14

AW: Datenbank Duplicates

????

Wo fehlen Einträge? in der Datenbank? Vom Exportieren einer Spalte können keine Datensätze verschwinden.
Hast Du noch eine Kopie der DB, in der die Sätze da sind?

Wenn Du glaubst, dass es Duplicates gibt, kannst Du das doch direkt in der Datenbank mit einem einfachen SQL Statement feststellen, wozu ein externes Tool?

-187-

22. Jun 2010 20:27

AW: Datenbank Duplicates

Nee nee ich exportiere 9000 Records und lasse die dann durch das Tool laufen. Hinterher habe ich dann noch 8940.

Ist doch egal wie ich es prüfe, für mich war es so die einfachste Variante. Es geht einfach darum das sich Duplicates in der DB befinden und ich mir das nicht erklären kann ? !

Wir würdest du es überprüfen ?

haentschman

22. Jun 2010 21:26

AW: Datenbank Duplicates

sicher, daß der Export wirklich 9000 sind ?

-187-

22. Jun 2010 21:53

AW: Datenbank Duplicates

Ja ich hab jetzt gerade zahlen genommen. In Wirklichkeit sind es 9366 nach dem Export und 9305 nach dem duplicate remove.

idefix2

22. Jun 2010 22:09

AW: Datenbank Duplicates

Wenn feld das zu prüfende Feld in der Tabelle tabelle ist, z.B. so:

SQL-Code:

			select feld from tabelle 

group by feld having (count(*)>1)

Dann bekommst Du auch gleich serviert, welche Feldwerte mehrfach vorkommen.

-187-

22. Jun 2010 22:56

AW: Datenbank Duplicates

Hm okay das Query sagt mir das es keine Duplicates gibt. Seltsam ! Ich schreib mein kleines Tool mal um damit ich dir die vermeintlichen Duplicates ausgeben kann.

idefix2

22. Jun 2010 23:10

AW: Datenbank Duplicates

Was sein könnte, ist, dass Dein Tool vielleicht Daten als Duplicates ansieht, die für Firebird unterschiedlich sind, das hängt bei Firebird vom verwendeten Zeichensatz und von der verwendeten Collation ab (Gross-Kleinschreibung, Umlaute etc.)

Versuch einmal

SQL-Code:

			select feld from tabelle

group by upper(feld) having (count(*)>1)

Namenloser

22. Jun 2010 23:18

AW: Datenbank Duplicates

Enthalten manche der Feldinhalte vielleicht Zeilenumbrüche?

-187-

22. Jun 2010 23:26

AW: Datenbank Duplicates

@idefix, dann bekomm ich "Invalid expression in the select list (not contained in either an aggregate function or the GROUP BY clause)"

@NamenLozer, also ich habe in meiner exportierten list genauso viele zeile wie rows in der db oder worauf möchtest du hinaus ?

idefix2

23. Jun 2010 00:04

AW: Datenbank Duplicates

Ja, Du hast recht, so wie oben geschrieben geht es nicht. aber so:

SQL-Code:

			select upper(ip_name) from musik

group by upper(ip_name) having count(*)>1

Das hab ich in meiner DB probiert, ip_name -> feld, musik -> tabelle

-187-

23. Jun 2010 05:42

AW: Datenbank Duplicates

Hm wie es scheint bist du dem Problem auf die Schliche gekommen. Da ist die genau die Anzahl an Duplicates. Meine SQL Kenntnisse sind minimal. Was genau machen wir jetzt anders ? Wir selektieren alle UPPER CASE records die es öfter als einmal gibt. Wieso wurden die vorher nicht mit überprüft ? Oder macht das DBMS einen unterschied zwischen AAA und aaa ?

mkinzler

23. Jun 2010 06:40

AW: Datenbank Duplicates

Natürlich besteht ein Unterschied zwischen 'AAA', 'aaa' und 'Aaa' usw. Willst das nicht musst du einen Expression-Index auf UPPER() anlegen ( geht ab FB 2.1)

borwin

23. Jun 2010 06:43

AW: Datenbank Duplicates

Bei der Abfrage wird der Inhalt des Feldes genau überprüft. Dabei erflogt die Überprüfung Zeichenweise und ein 'A' ist dann etwas anderes als ein 'a'. Um das zu umgehen werden alle Zeichen auf UPPER gesetzt. Eine weitere Falle beim abfragen von Texten sind die Leerzeichen. Für die Datenbank ist 'MEIER' und 'MEIER ' nicht gleich. Um auch diesen Fall zu umgehen noch ein TRIM um die Felder legen.
Dann sieht das ganze dann so aus

Code:

			SELECT TRIM(UPPER(ip_name)) 

FROM musik

GROUP BY TRIM(UPPER(ip_name)) 

HAVING COUNT(*)>1

Um das Einfügen von doppelten Datensätzen zu verhindern musst Du Deinen Index verändern.
Lege ein sogenantes COMPUTER BY Feld an mit Index an

Zitat:

create index idx_name on musik computed by (trim(upper(ip_name)));

Das verhinder schon doppelte Datensätze. Geht ab FB 2.0

Gruß Borwin

-187-

23. Jun 2010 07:32

AW: Datenbank Duplicates

Hm borwin also doppelte Einträge bekomme ich nicht dank dieser Zeile:

Delphi-Quellcode:

IBTable1.AddIndex('UNIQUE', 'NAMES', [ixUnique, ixCaseInsensitive]);

Ich glaube ich werde die strings bevor ich zu der DB hinzufüge einfach einmal vorbehandeln:

Delphi-Quellcode:

MyStr:= LowerCase(MyStr);

Damit sollte das Problem endlich gelöst sein, Danke ! :)

idefix2

23. Jun 2010 10:13

AW: Datenbank Duplicates

Zitat:

Natürlich besteht ein Unterschied zwischen 'AAA', 'aaa' und 'Aaa' usw.

So natürlich ist es nicht. Wenn eine Collating Sequence für die Spalte angegeben ist, der Case-insensitiv ist, behandelt Firebird nach dem, was ich bis jetzt gelesen hat, unterschiedliche Case-Werte auch im Vergleich als identisch.

Die neusten Versionen von Firebird erlauben eigene Collating Sequences zu erstellen, wenn Du willst, dass Gross und Kleinbuchstaben in dem Feld als gleich behandelt werden, müsstest Du eine entsprechende Collating Sequence erstellen und bei dem Feld angeben.

mkinzler

23. Jun 2010 10:23

AW: Datenbank Duplicates

Da ist aber der Weg über den Expression Index einfacher

-187-

23. Jun 2010 11:03

AW: Datenbank Duplicates

Angenommen ich füge diesen Index im nachhinein ein, werden dann die (jetzt neuen) Duplicates rausgeschmissen oder wie verhält sich das?

mkinzler

23. Jun 2010 11:20

AW: Datenbank Duplicates

Nein, werden sie wohl nicht. was aber geanu passiert, kann ich dir nicht sagen.

idefix2

23. Jun 2010 11:38

AW: Datenbank Duplicates

Zitat:

Da ist aber der Weg über den Expression Index einfacher

Es kommt darauf an. Bei einer kleinen Anwendung mit nur einer derartigen Spalte und einer Abfrage ist das etwas einfacher - wobei ja eine case-insensitive Collation in einem einzeiler von einer case-sensitiven abgeleitet werden kann, also auch nicht sehr kompliziert ist.

Bei einer grösseren Anwendung, wenn man viele Datenbankfelder standardmässig case insentiv haben will, sollte man aber auf jeden Fall besser eine collation erstellen. Sonst muss man bei jeder SQL-Abfrage auf Gleichheit an das Uppercase denken. Prinzipiell sollte man beim Design einer Anwendung eher darauf schauen, möglichst viel Logik in die Datenbank-DLL auszulagern (Trigger, Collations, Calculated Fields, Views). Dann ist die Programmierung der Anwendungen nachher schneller und weniger fehleranfällig.

mkinzler

23. Jun 2010 11:40

AW: Datenbank Duplicates

Bei einem entsprechenden Index sollte das Upper() in der Abfrage nicht notwendig sein

idefix2

23. Jun 2010 11:43

AW: Datenbank Duplicates

Zitat:

Angenommen ich füge diesen Index im nachhinein ein, werden dann die (jetzt neuen) Duplicates rausgeschmissen oder wie verhält sich das?

Ich würde eine neue Tabelle mit geeigneter Collation erstellen und die Werte der alten Tabelle mittels "Update or insert" Statement in die neue Tabelle einfügen, dann die alte Tabelle löschen und die neue Tabelle umbenennen. Dann sind die Duplicates weg.

idefix2

23. Jun 2010 11:48

AW: Datenbank Duplicates

Zitat:

Bei einem entsprechenden Index sollte das Upper() in der Abfrage nicht notwendig sein

Das glaube ich nicht.
Ein Index wird von Firebird ja nur dazu verwendet, Abfragen zu beschleunigen, die zu dem Index passen. Bei der Abfrage selbst gibst Du aber keinen Index an, die Abfrage ist also erst einmal Indexunabhängig defniert. Kommt in der Abfrage kein UPPER vor und Du hast einen Index mit UPPER definiert, dann wird dieser Index für die Abfrage ganz einfach nicht verwendet, weil er ja nicht zur Abfrage passt.

-187-

24. Jun 2010 17:01

AW: Datenbank Duplicates

Hm nachdem ich die Duplicates jetzt gefunden habe müsste ich diese noch löschen :)

Code:

SELECT UPPER(VORNAME) FROM NAMEN1 GROUP BY UPPER(VORNAME) HAVING (COUNT(*)>1)

Mein Anlauf war das SELECT Statement durch das DELETE Statement zu ersetzen aber dann bekomm ich die Fehlermeldung "Unknown token Upper".

Hat jemand einen Ansatz wie man duplicates aus einer DB löscht ?

mkinzler

24. Jun 2010 18:26

AW: Datenbank Duplicates

SQL-Code:

			delete from namen1 where id not in ( SELECT MIN(ID), UPPER(VORNAME) FROM NAMEN1 GROUP BY UPPER(VORNAME));
		

DeddyH

24. Jun 2010 18:28

AW: Datenbank Duplicates

Nur so ein Gedanke (ID soll der PK sein):

SQL-Code:

			DELETE FROM NAMEN1

WHERE ID IN (

  SELECT ID 

  FROM NAMEN1 

  GROUP BY UPPER(VORNAME) 

  HAVING (COUNT(*)>1)

)

[edit] Das von Markus ist besser, meins würde ja alle Datensätze löschen, die doppelt vorgekommen sind. [/edit]

-187-

24. Jun 2010 20:16

AW: Datenbank Duplicates

Hm ich habe kein Feld "id" ... Ist das zwingend notwendig ?

Reicht es nicht wenn ich das zu bearbeitende Feld betrachte ?

mkinzler

24. Jun 2010 20:25

AW: Datenbank Duplicates

Nein, denn du brauchst ja ein Kriterium, um die datensätze zu unterscheiden

-187-

24. Jun 2010 20:31

AW: Datenbank Duplicates

Hm Ok also brauche ich jetzt ein zusätzliches Feld mit einem Index Typ, Richtig?

Code:

ALTER TABLE NEWTABLE ADD CONSTRAINT PKINDEX_IDX PRIMARY KEY (ID);

Wie sieht so ein Index dann aus? Ist das eine vorlaufende Nummer von 0,1,2,3 .. usw?

mkinzler

24. Jun 2010 20:35

AW: Datenbank Duplicates

Eine Tabelle sollte immer einen PK haben ( am Besten einen syntetischen; ist aber Geschmacksache).
In deinem Fall würde ich eine neue Tabelle erzeugen ( mit ID mit autoinc) und dann die Werte von der "alten" in die neue Kopieren:

SQL-Code:

			Insert into Name ( Vorname) select UPPER(VORNAME) FROM NAMEN1 GROUP BY UPPER(VORNAME);
		

-187-

24. Jun 2010 20:42

AW: Datenbank Duplicates

Ich dachte ich brauche einfach nur ein zusätzliches Feld "ID" welches einen Index Wert hat ?

Wieso muss ich denn mein Feld "Vornamen" jetzt einen Index haben ?

fkerber

24. Jun 2010 21:34

AW: Datenbank Duplicates

Davon steht doch nirgendwo was?
Es ging Markus doch nur ums Kopieren in eine neue Tabelle...

Liebe Grüße,
Frederic

mkinzler

24. Jun 2010 21:39

AW: Datenbank Duplicates

Zitat:

Davon steht doch nirgendwo was?

In meinem Beitrag jedenfalls nicht. Durch das Kopieren in eine neue Tabelle kannst du den Datensätzen einfach einen künstlichen Primärschlüssel verpassen und gleichzeitig die doppelten Einträge eliminieren.

-187-

24. Jun 2010 21:46

AW: Datenbank Duplicates

Achso ja ich hatte mich verlesen. Kann ich nicht in meine aktuelle Tabelle einen Primärschlüssel nachträglich einbauen?

mkinzler

24. Jun 2010 21:49

AW: Datenbank Duplicates

Du kannst jedem Eintrag manuell einen Vergeben. Das Kopieren in eine neue Tabelle ercsheint mir aber der bessere Weg ( da so auch noch dein primäres Problem der Dupletten gelöst wird :wink:)

-187-

24. Jun 2010 21:53

AW: Datenbank Duplicates

Wie kann es denn eigentlich sein das da Duplicates drinne sind irgendwie kommt mir das doch noch ein wenig seltsam vor.

Schließlich habe ich dem Feld diese Eigenschaft zugewiesen: IBTable1.AddIndex('UNIQUE', 'NAMES', [ixUnique, ixCaseInsensitive]);

CaseInsensitive bedeutet ja das DER_NAME und der_name gleich sind !

Brauch ich diese Eigenschaften überhaupt noch wenn ich im neuen Table den PK auf das Feld lege ?

mkinzler

24. Jun 2010 21:56

AW: Datenbank Duplicates

Der Unique Index gilt ja auch für das Feld NAMES und nicht VORNAME

-187-

24. Jun 2010 22:29

AW: Datenbank Duplicates

Das Feld Vornamen war nur ein Bsp. Genauso wie das "Namen"

In Wirklichkeit heißen meine Felder anders - Ich bin mir aber sicher das ich den Index auf das richtige Feld gesetzt habe !

-187-

24. Jun 2010 22:43

AW: Datenbank Duplicates

Code:

IBTable1.AddIndex('UNIQUE', 'NAMES', [ixUnique, ixCaseInsensitive]);

Hm eigentlich habe ich doch somit einen Index und zwar Names "UNIQUE" !

Ist es nicht möglich diese für den Duplicate Check zur verwenden ?

fkerber

24. Jun 2010 22:45

AW: Datenbank Duplicates

Hi!

Bitte unterlasse das Pushen innerhalb von 24 Std.

Sollte es einen UNIQUE-Index auf dem Feld geben, wird es sicherlich keine Duplikate enthalten.

Liebe Grüße,
Frederic

Alle Zeitangaben in WEZ +1. Es ist jetzt 08:40 Uhr.

Seite 1 von 2

40 Beiträge dieses Themas auf einer Seite anzeigen

Powered by vBulletin® Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
LinkBacks Enabled by vBSEO © 2011, Crawlability, Inc.
Delphi-PRAXiS (c) 2002 - 2023 by Daniel R. Wolf, 2024-2025 by Thomas Breitkreuz