Kapitel 18. Umgang mit Duplikaten

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

18.0 Einleitung

Tabellen oder Ergebnismengen enthalten manchmal doppelte Zeilen. In manchen Fällen ist dasakzeptabel. Wenn du z. B. eine Webumfrage durchführst, bei der das Datum und die IP-Nummer des Kunden zusammen mit den Stimmen aufgezeichnet werden, können doppelte Zeilen zulässig sein, da es bei einem Internetdienst, der den Datenverkehr seiner Kunden über einen einzigen Proxy-Host leitet, möglich ist, dass eine große Anzahl von Stimmen von der gleichen IP-Nummer zu stammen scheint. In anderen Fällen sind Duplikate inakzeptabel, und du solltest Maßnahmen ergreifen, um sie zu vermeiden. Zu den Vorgängen, die mit doppelten Zeilen zu tun haben, gehören die folgenden:

  • Verhindern, dass Duplikate überhaupt erst erstellt werden. Wenn jede Zeile in einer Tabelle eine einzelne Entität repräsentieren soll (z. B. eine Person, einen Artikel in einem Katalog oder eine bestimmte Beobachtung in einem Experiment), ist es durch das Auftreten von Duplikaten unmöglich, sich eindeutig auf jede Zeile zu beziehen; daher ist es am besten, dafür zu sorgen, dass Duplikate gar nicht erst entstehen.

  • Zählen der Anzahl der Duplikate, um festzustellen, ob und in welchem Umfang sie vorhanden sind.

  • Identifizierung doppelter Werte (oder der Zeilen, die sie enthalten), damit du sehen kannst, wo sie vorkommen.

  • Eliminierung von Duplikaten, um sicherzustellen, ...

Get MySQL Kochbuch, 4. Auflage now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.