 |
Eine Datenbasis zukunftsträchtig so zu
modellieren, dass sie auch Worst-Case-Bedingungen standhält und aktuell
unter verschiedensten Plattformen gehandhabt werden kann sowie nach oben
offen für künftiger Erfordernisse ist, bedeutet ein extrem schwieriges
Unterfangen anzugehen (eigentlich ist es unmöglich - der
Datenbankentwickler müsste wissen, was in Zukunft für Forderungen
gestellt werden).
Zur Abschreckung werden Datenbasen dargestellt, wie sie landläufig
- und natürlich falsch entwickelt werden. Dies wird gekoppelt mit den
entsprechenden Tipps zum korrekten entwickeln von Datenbasen.
Die folgenden Zeilen sowie zugehörige Links beachtet, führen automatisch
zu relationalen Datenbasen in mindestens dritter Normalform.
|
 |

Datenbestand
Pilze
Entity-Type Pilze |
Normalisierung mit Kinderschuhen ist
angewandt worden - Schlüssel gibt es ... Entity-Types zum
Obejekt-Management ...
selbst ein Relationship-Modell ist an Bord ... |
|
 |
... und das unten stehende ergibt sich, wenn man die Mehrheit der deutschen
Bevölkerung auf Datenbanken loslässt (dabei sind Schlüssel schon fast
zwangsläufig) - eine weise Entscheidung von Microsoft, kein
Datenbanksystem standardmäßig in Office an den unbedarften Nutzer zu
verkaufen ;-)
|
 |
Entity-Type "Lebenswerke von Malern"
|
Entity-Type
"Länder der Erde"
|
Entity-Type
"Pferde"
|
Entity-Type
"Saurier"
|
Entity-Type
"Elemente"
|

Datenbestand
Maler |

Datenbestand
Erde |

Datenbestand
Pferde |

Datenbestand
Saurier
|

Datenbestand
Elemente
|
- Entitytyp-Bezeichung klein geschrieben
- falsche Domainbenutzung für die Malepochen
- Umlaute in den Attributbezeichnern
- Verwendung von Abkürzungen in den Attributwerten
- nichtatomare Datenhaltung
- Verletzung des Domainbereichs
- falsche und noch dazu uneinheitliche Datenhaltung in den
NULLWERTEN
- Lösungsansätze aktuell:

verwendet NULL's im ACCESS 2.0-Format

verwendet
Redundanzen im ACCESS 2.0-Format |
- diese Datenbasis schneidet noch vergleichsweise gut ab - Zahlen sind schon Zahlen, aber die Kontinentzuordnung geht voll
ins MINUS
- Entitytyp-Bezeichung klein geschrieben
- falsche Attributbezeichner (Tabellenkopfnamen)
- falsche Domainbenutzung für die Kontinente (Domain ist der
definierte eindeutige Wertevorrat für die Attributwerte)
- Umlaute in den Attributbezeichnern
- Verwendung von Abkürzungen in den Attributwerten
|
- das Grauen bekommt ein Gesicht - hier ist so ziemlich alles
falsch gemacht worden, was immer man falsch machen kann
- Entitytyp-Bezeichung klein geschrieben und länger als 10
Zeichen - Umlaute und Sonderzeichen sind selbstverständlich
enthalten
- falsche Attributbezeichner (Tabellenkopfnamen)
- Verwendung von Bereichsangaben
- verschiedene Maßeinheiten
- nichtatomare Datenhaltung
|
- das Grauen ist vollständig und alle Fehler sind gemacht - wer
jemals eine derart organisierte umfangreiche Datenbasis zur
scharfen Informationsrecherche in die Hände bekommt - dann "Gute
Nacht! ;-)
- ... dumm ist leider: Du bekommst sie, und zwar genau so
geartet - zu toppen ist das schlecht ;-)
- ... wer alle Fehler finden will, vergleicht einfach mit den
zehn Geboten sowie Hinweisen unten
- Entitytyp-Bezeichung klein geschrieben und länger als 10
Zeichen - Umlaute und Sonderzeichen sind immer noch enthalten
- nichtatomare Datenhaltung
- falsche Attributbezeichner (Tabellenkopfnamen) - lang, Umlaute
und Sonderzeichen (Igitt!!!)
- falsche Domainbenutzung für die Ernährung
- Umlaute in den Attributbezeichnern
- Verwendung von Abkürzungen in den Attributwerten (Mio.)
- verschiedene Maßangaben beim Gewicht (kg und Tonnen gemischt)
|
- wir bekommen ein "... Go flight!" - nicht die beste Lösung -
jedoch grundsätzlich möglich
- das liegt aber hier in der Natur der Dinge
|
|
|
|
|
|

Lösungsideen einer Schülergruppe um F. Pfefferkorn im Mai 2021 |

Lösungsideen von L. Prinz im Mai 2021 |

Lösungsideen einer Schülergruppe um
Julia Lesch im Mai 2021 |

... und so sieht das derzeit J. Schrader |

... Lösungsansatz von Nicolas Kunze |
|
 |
Die zehn Gebote der Datenbanktechnik
- Du sollst
als erstes richtige Datenformate wählen und das Dokument speichern!
- Du sollst
die Datenhaltung immer eindeutig, aktuell und korrekt führen!
- Du sollst
zum Datenzellenwechsel nicht die ENTER-Taste benutzen, wohl aber die
Tabulator-Taste.
- Du sollst
nicht mehr als eine Information in jede Datenzelle eintragen, es sei
denn, es gilt eine zulässige Ausnahme!
- Du sollst
nicht gleiche Merkmale mit verschiedenen Merkmalswerten beschreiben!
- Du sollst
keinen beliebigen Eintrag in unbekannte Datenfelder setzen, sondern
sie frei lassen!
- Du sollst
nicht verwenden in Datenbanken Abkürzungen!
- Du sollst
wissen, dass die Anordnung der Datensätze und der Datenfelder für
die Datenbank unerheblich ist!
- Du sollst
in Datenbanken nicht formatieren, es sei denn, es handelt sich um
einen Standard (DM oder %)!
- Du sollst
nicht benutzen den Datentyp Zahl, wenn in das Datenfeld keine Zahlen
eingetragen werden (Telefonnummer, Postleitzahlen)!
|
 |
Eine klare, eindeutige und einheitliche
(homogene) Welt, ohne Ausnahmen würde einfache Datenbasen zulassen - die
Welt ist aber gerade nicht klar, eindeutig und ohne Ausnahmen - im
Gegenteil, wenn wir nur die Steuergesetzgebung hernehmen, sehen wir das
Chaos - und auch dieses soll (bzw. muss) datentechnisch auch noch korrekt
abgebildet werden.
- lernen Sie möglichst schnell, den "Worst-Case"
zu planen und gehen Sie nicht vom "Best-Case" aus, denn es kommt meist
schlimmer, als Sie denken ;-)
- gehen Sie nicht von sich aus, sondern
fragen Sie sich: was wird der DAU mit meiner Datenorganisation machen?
- der DAU wird jede auch noch so kleine
Lücke in Deinem "sicheren" Datenkonzept sehen und nutzen - Dir selbst
ist dieses durch Fachkenntnis selbstverständlich verwehrt - Du wirst
selbst bei Planung des DAU-Falles diese Lücke nicht erkennen (Merke: So
dumm, wie sich manche anstellen, kann man nicht denken)
|
 |
Hinweise zum Umgang mit Datenbasen:
- Datenbanken
dienen dem schnellen Informationszugriff und nicht dem Erfassen von
Informationen!!!
- Datenbanken beruhen auf
absoluter Exaktheit - darum: sei erfolgreich, indem auch Du exakt bist
- lern' dies so schnell wie möglich exakt zu definieren, Ausnahamen zu
erkennen und aufzuführen - Aktuelles, Bewiesenes, Homaogenes und
Eindeutiges sind die Trumpf-Karten der Datentechnik - plane den
Worst-Case
- lerne präzise
mathematische Definitionen schätzen - Datenbanken nutzen eben diese
- Datenbanken sind als
Informationssammlungen nicht neu - sie werden nur seit neuerer Zeit
(seit etwa 40 Jahren) auf Computern eingesetzt
- Datenbanken liefern bei Abfragen
die Genauigkeit, die bei der Dateneingabe, Aktualisierung und
Fehlerbereinigung aufgewandt worden ist (fehlerhafte Datenbanken
liefern falsche Ergebnisse!)
- alle
Objekte mit gleichen Eigenschaften müssen auch durch gleiche
Merkmalswerte beschrieben werden also Volkswagen und nicht VW
miteinander mischen!!! Kläre die eindeutige Schreibweise aller
konkreten Datenmerkmale für gleiche Informationen - also entweder
für die Herkunft der Pferde "England" oder "englische
Abstammung", aber keinesfalls diese Einträge beide in einem
Diskurs verwenden! Siehe dazu auch das Fünfte Gebot der
Datenbanktechnik.
- Die Informationen einer Datenbasis
werden in Attribut- oder Datenfeldern gespeichert! Attributfelder bestehen aus Feldnamen und -inhalt!
Datenfelder besitzen einen
Datentyp, welcher für die korrekte Datenverwaltung von fundamentaler
Bedeutung ist!
- Anordnung der Merkmale und der
Datensätze ist für die Datenbank unerheblich!
- Verwende in Datenbanken niemals
Abkürzungen - durch diese entstehen Interpretationsmöglichkeiten und
verschiedene Schreibweisen von Informationen (Beispiel: der
Datenbankentwickler notiert "Heirich-Heine-Straße" - Sie
suchen nach "Heinrich-Heine-Str." - Sie finden was? -
Richtig! Nix - und dies, obwohl eine sachliche Übereinstimmung
vorliegt!)
- verwenden Sie für
Maßangaben einheitliche Umrechnungsfaktoren - entweder alles in mm
oder alles in km
- verwenden Sie die für Ihre Daten
relevanten Datentypen (Datum vom Typ Datum, Postleitzahlen vom Typ
Text (denn sie sind Text!))
- professionelle Datenbanken fordern
ein minimales Schlüssel-Konzept, welches von Works nicht unterstützt
wird
- Schlüssel sind Datenfelder, die ein eindeutiges
Unterscheidungskriterium schaffen, welches sich damit nicht
wiederholen darf
- Namensfelder sind dazu nicht gut geeignet, da sich
Nachnamen schnell wiederholen können
- günstig ist, jedem Datensatz
eine eindeutige „Schlüsselnummer“ zu vergeben
- atomare Datenhaltung - tragen Sie in jedes Datenfeld genau
eine Information ein (wobei sich wenige sinnvolle Ausnahmen in der
Datenhaltung durchgesetzt haben, z. B. Straße und Hausnummer
gemeinsam zu erfassen, denn diese beiden Informationen stehen in einem
jedermann bekanntem Zusammenhang) - dies muss jedoch bereits bei der
Strukturplanung der Datenbank berücksichtigt werden
Dateneinträge wie „1876 -1934“ für Lebensdaten sind also falsch,
genau wie „2 km“ und „Romantik, Impressionismus, Renaissance“
- Auswege:
- diese Datenfelder sind zu
trennen oder die Maßeinheiten im Datenfeldnamen unterzubringen,
etwa: „Entfernung in km“, „Epoche_1“, „Epoche_2“,
„Epoche_3“ (dies ist zwar nicht die eleganteste, aber eine
richtige Lösung)
- es ist ebenso möglich, die Datenfelder (Attribute) mit den
einzelnen möglichen Beschreibungsmerkmalen (der Fachmann spricht
hier von Attributwerten der Domain) zu benennen (zu bezeichnen)
und in der Folge mit den Kriterien (natürlich auch dem
entsprechenden Datentyp) "WAHR" - "FALSCH" zu
arbeiten
- ebenso ist es möglich, die einzelnen Objekte mehrfach
aufzuführen und ihre mehrfach auftretenden Attributwerte einzeln
zu erfassen (das führt jedoch zu extrem hoher Redundanz und
Inkonsistenz in der Datenpflege)
- dagegen ist der Eintrag „Rose
Marie“ als Vorname richtig, ebenso wie „Äquatorial-Guyana“, da
dies ja zusammengesetzte Namen und damit eine Information sind
- Datenfelder, für die augenblicklich
keine Information existiert, bleiben frei - man spricht von NULLWERTEN
(die aber nicht die Interpretation = 0 erlauben, denn 0 ist eine
konkrete Information. Dagegen bedeutet ein NULLWERT „unbekannt“!)
- NULLWERTE verhalten sich in der
Datenverwaltung immer kritisch - deshalb sind sie möglichst zu
vermeiden
- Sie erhalten völlig falsche
Auswertungen der Daten, wenn Sie in NULLWERTE Informationen, wie z. B.
„unbekannt“, einen Bindestrich oder „leer“ eintragen -
Datenbanken gehen mit NULLWERTEN richtig um - Sie verfremden also mit
solchen Einträgen die Informationen und die Abfragestrategien Ihrer
Datenbasis
- Reihenfolgen in der Anordnung der
Datenfelder und der Datensätze sind völlig beliebig und haben für
die Auswertung der Datenbank keinerlei Bedeutung. Eine Datenbank muss
nur vollständig und aktuell sein!
- definieren Sie genau einzuhaltende
Beschreibungsmerkmale für Ihre Objekte - der Fachmann spricht von
einer Domain (das ist sozusagen der Wertevorrat ihres Objektmerkmals)
- einmal VW und ein anderes mal Volkswagen in Ihre Datenbasis
einzutragen, ist tödlich
- ganz schlimm gestalten sich solche
Einträge wie: "Um 1432" statt exakt "1432" z.B.
für das Geburtsjahr von C. Columbus - wir wissen es nämlich nicht
exakt) - dann lieber einen MULLWERT und Besonderheiten unter
Bemerkungen zur Auswertung abfangen
|
 |
Vermeiden
Sie:
-
falsche
Daten in den Datenfeldern (Tippfehler, falsche Erfassungen (z. B. falsch
abgeschrieben))
-
Dateninkonsistenz
(widersprüchliche Daten,
bedingt durch Korrekturen oder einfach Übertragungsfehler)
-
falsche Schlüsselkonzepte
-
Abkürzungen
in Datenfeldinhalten (Abkürzungen ausschließen!)
-
falsche
Datentypen - Zahlen müssen Zahlen bleiben (Maßeinheiten gehören nicht in
den Datenbestand oder müssen vom System selbst generiert werden)
-
NULLWERTE in
Datenfeldern sind bezüglich der Datenbankauswertung immer kritisch - schon
die Struktur (Datenfelder und Datentypen) muss so aufgebaut sein,
dass möglichst
keine Leerfelder vorhanden sind
-
nicht zu
wissen, wie sich Leerfelder eines Datenbankmanagementsystems bei
statistischer Auswertung verhalten
-
veraltete
Daten
-
ENTER-Tasten
statt TAB-Stop's
-
Leerzeichen
in Datenfeldern
besonders am Anfang
-
Apostroph
statt Akcent (Rene' statt René)
-
mehrere
Information pro Datenfeld
(nicht atomare
Informationsdarstellung)
-
Redundanzen
(Wiederholungen) in den Datensätzen
-
falsche
Datentypen und -relationen - diese zu korrigieren ist im Extremfall ohne
Datenverlust unmöglich
-
für eine
bestimmte Anwendung sollte man sich für ein Datenbanksystem entscheiden -
im Nachhinein zu wechseln kann schwierig werden
(WORKS
z. B. verwendet kein Datentypenmodell - beim Konvertieren in dBASE gehen
Daten verloren) - Anmerkung: WORKS 4.0 setzt mit Datentypen an und kennt aus
Kompatibilitätsgründen immer noch den Datentyp „STANDARD“
|
 |
beachte dazu auch
Datensichheit und Datenintegriät |
 |
In diesem Augenblick betreten wir den Bereich
eines Diskurses, der, wenn er richtig organisiert ist, theoretisch alle
Objekte dieser Welt einschließlich nicht mehr vorhandener, zu einander in
Beziehung setzen könnte. Das will und braucht aber keiner, also bilden wir
einen "Realitätsausschnitt", über den wir wirklich in unserem Zusammenhang
Auskunft benötigen, im Diskurs ab. Das macht die Datenstruktur mit all
ihren Ausnahmeforderungen immer noch kompliziert genug. |
 |
nutzen Sie Erkenntnisse aus der Beschreibung der 1 :1-Beziehung |
|
|
|
|
 |
Richtige Modellierung von Realitätsausschnitten
Eine möglichst präzise Modellierung von Daten stellt eine wichtige
Voraussetzung für die Erstellung einer Datenbank dar. Die Analyse des
Realitätsausschnittes (Diskursbereich) mit der Herauslösung wichtiger Objekte
(Entitäten) und ihrer Beziehungen zueinander bilden den ersten Schritt. Solche
Objekte können Personen, Sachen, Begriffe, Ereignisse sein. Die Beziehungen sind
Verbindungen zwischen ihnen, die im betrachteten Diskursbereich wichtig sind.
Eine Person z. B. kann je nach betrachtetem Realitätsausschnitt ein Mitarbeiter
einer Firma, ein Kunde, ein Patient usw. sein. Die Merkmale, die zur
Charakterisierung einer solchen Person herangezogen werden, können deshalb sehr
unterschiedlich sein.
Um die Grundbegriffe der Modellierung am Beispiel zu erläutern, werden als
Realitätsausschnitt die Mitarbeiter einer Firma betrachtet, die an Projekten
arbeiten. Ein Mitarbeiter (Entität) arbeitet an (Beziehung) einem Projekt
(Entität). Ein Mitarbeiter (Entität) ist Angestellter (Beziehung) der Firma
(Entität).
Bild 1.5 Entitäts-Beziehungs-Diagramm
Hinter der Entität Mitarbeiter verbirgt sich eine (Entitäts-)Menge von
Mitarbeitern (Krause, Sonntag, Müller usw.), die durch gleiche Merkmale
ausgezeichnet sind. Nach dem Erkennen wichtiger Entitäten und ihrer Beziehungen
zueinander besteht der nächste Schritt darin, Entitäten und Beziehungen durch
das Auffinden ihrer charakteristischen Merkmale näher zu bestimmen.
Diese Begriffsbildungen sind bereits Gegenstand der Datenmodelle, die im
folgenden Abschnitt näher betrachtet werden. ' 1.4.4 Datenmodelle
Datenmodelle stellen einen Begriffsapparat zur Verfügung, der es erlaubt, von
den konkreten Objekten und Sachverhalten des Diskursbereiches zu abstrahieren
und mit den Elementen ein wirklichkeitstreues Modell zu konstruieren.
|
 |
Schritte zur Datenerfassung für m : n Beziehungen |
Entity
SCHULER |
Download
Datei |
Vorteile |
Nachteile |

Datenbestand
SCHUELER nicht atomar |
 |
- die Daten wurden widerspruchsfrei erfasst
- ein Schlüsselkonzept ist über die Schülernummer vorhanden
- jedes Objekt ist einmal aufgeführt und eindeutig zu identifizieren
|
- die Datenstruktur ist nicht atomar - im AG-Attribut sind mehrere Informationseinträge
vorgenommen worden
- diese Darstellung ist absolut ungeeignet, da hier nichtatomare
Einträge als Attributwerte zugelassen wurden
|

Datenbestand
SCHUELER atomar |
 |
- die Daten wurden widerspruchsfrei erfasst
- die Datenstruktur ist atomar - jeder möglichen AG wurde ein
Datenfeld zugeordnet und darin die konkrete AG eingetragen
- jedes Objekt ist einmal aufgeführt und eindeutig zu identifizieren
- ein Schlüsselkonzept ist über die Schülernummer vorhanden
|
- alle Attribute, welche beim jeweiligen Objekt nicht zutreffen
bleiben Leerfelder (NULLWERTE)
- kommt eine weitere AG hinzu, muss die gesamte Struktur erweitert
werden (noch mehr NULLWERTE)
|

Datenbestand
SCHUELER atomar |
 |
- dies scheint unter momentanem Betrachtungszeitpunkt gar noch die
beste Lösung - noch ist die Datenbasis nicht relational aufgelöst
- die Daten wurden widerspruchsfrei erfasst
- die Datenstruktur ist atomar - jeder möglichen AG wurde ein
Datenfeld zugeordnet und darin die konkrete AG eingetragen
- jedes Objekt ist einmal aufgeführt und eindeutig zu identifizieren
- ein Schlüsselkonzept ist über die Schülernummer vorhanden
|
|

Datenbestand
SCHUELER atomar |
 |
- die Daten wurden widerspruchsfrei erfasst
- die Datenstruktur ist atomar - jeder möglichen AG wurde ein
Datenfeld zugeordnet und darin die konkrete AG eingetragen
|
- ein Schlüsselkonzept ist über die Schülernummer nicht vorhanden -
die Daten jedes einzelnen Schülers müssen mehrfach aufgeführt
werden
- redundante Daten sorgen für Inkonsistenzen
- schon bei der Erfassung (schnell ist man in der Spalte
verrutscht)
- bei der Datenpflege (wenn der Schüler beispielsweise umzieht,
muss überall fehlerfrei die Adresse geändert werden)
- jede Menge vollkommen überflüssige Arbeit bei entsprechend
vielen Daten
- unnötig große Datenmengen mit absolut identischen
Informationen
- lassen Sie nur bei einem AG-Leiter den Namen ändern (so was soll
ja vorkommen)
|
|