Beurteilung der Datenqualität – Verbesserung vs. laufende Überwachung

April 16, 2010 by · 1 Comment
Filed under: Deutsch 

Für englisch-sprachige Leser: There is an English version of this post.

 

Letzte Woche sprach ich mit einem Kunden über die Messung von Datenqualität. Für eine Weile schien es, als ob wir uns auf nichts einigen konnten, bis wir erkannten, dass wir über verschiedene Arten von DQ-Projekte sprechen:

  • Ein Projekt zur Verbesserung der Datenqualität in einem bestimmten Bereich
  • Laufende Überwachung der Datenqualität, um ein akzeptables Niveau sicherzustellen

image

Sobald wir über diese verschiedenen sprachen, kam Vereinbarung sehr leicht.

Verbesserung der Datenqualität

Bei dieser Art von Projekt, gibt es einen wichtigen Grund zur Verbesserung der Datenqualität. Normalerweise startet man mit einer relativ großen Fehlerzahl und muss sich auf ein akzeptables Niveau verbessern. Oftmals bedeutet dies 0 Fehler, oft ist aber auch eine kleine Fehlerzahl akzeptabel (z.B. 10 Datensätze, die ggf. manuell migriert werden können). Beispiele für diese Art von Projekten ist die Einhaltung regulatorischer Anforderungen oder die Migration auf ein anderes System.

Hierbei handelt es sich um ein Projekt im engeren Sinne: Es gibt einen festen Endtermin. Wie so oft muss das Ziel zunächst genauer definiert werden, nachdem das Projekt gestartet ist. Bei DQ Projekten beinhaltet dies die Identifikation relevanter Datenbereiche, die Erarbeitung Regeln, denen die Daten genügen müssen, und ein Verfahren zur Ermittlung der fehlerhaften Datensätze. Am Ende dieser Phase hat man eine Reihe von DQ Messgrößen (siehe meinen Beitrag zur Definition von DQ Messgrößen) und eine idealerweise automatische Möglichkeit zur Durchführung von Messungen für diese Messgrößen. Ein Erfahrungswert aus meinen Projekten: Nach der anfänglichen Definitionsphase hatte man eine Liste von 20 bis etwa 100 Messgrößen, die für den Rest des Projektes relativ stabil war.

Die wichtigsten Fragen, die in dieser Art von DQ-Projekt beantwortet werden müssen:

  • Welche DQ Probleme wurden aufgeworfen, an welchen müssen wir noch arbeiten und welche sind schon gelöst?
  • Sind wir im Plan, um das gesetzte Zielniveau vor dem End-Termin zu erreichen?

Laufende Überwachung der Datenqualität

Im Gegensatz zu Verbesserungs-Projekten gibt es bei der laufenden Überwachung kein Enddatum, es handelt sich um eine kontinuierliche Maßnahme. (Teilweise gehen auch Verbesserungs-Projekte zum Ende in eine Überwachungs-Phase – die meisten Probleme sind bereits gelöst, es muss aber immer noch sichergestellt werden, dass ein akzeptables Niveau gehalten wird.)

Oft sind viele Vorarbeiten für die laufende Überwachung bereits durch ein Verbesserungs-Projekt geleistet. Da in die laufende Überwachung DQ Messgrößen aus mehreren Projekten eingehen, hat man hier oft eine noch größere Zahl an Messgrößen.

Da die Datenqualität meist schon auf einem akzeptablen Niveau ist, stehen hier andere Fragestellungen im Vordergrund:

  • Gab es Veränderungen, die ein Eingreifen erforderlich machen?
  • Wie gut decken die bestehenden Regeln den gesamten Datenhaushalt ab?

Beurteilung von DQ Messungen in verschiedenen DQ-Projektarten

Eine DQ Messgröße kann unabhängig von der Art des Projekts definiert werden, in dem sie verwendet werden soll. Allerdings ist bei der Beurteilung der Projektkontext zu berücksichtigen, so dass bei der Beurteilung unterschiedliche Fragen beantwortet werden müssen. Im laufenden Projekt arbeiten wir noch daran, wie diese Beurteilung sinnvoll erfolgen kann – aber mit den unterschiedlichen Arten von DQ Projekten haben wir eine gemeinsame Basis für die weitere Arbeit geschaffen.