Datenanalyse- und Data-Mining-Verfahren im Überblick

Definition Datenanalyse

Die Datenanalyse versucht mit Hilfe statistischer Methoden Informationen aus großen Datenmengen zu gewinnen und diese im Anschluss zu visualisieren. Das komplexe Gebiet der Datenanalyse lässt sich in die Bereiche der deskriptiven, der inferenziellen, der explorativen und konfirmatorischen Datenanalyse unterteilen. Bei der deskriptiven Datenanalyse werden die Informationen der Einzeldaten, welche beispielsweise einer Totalerhebung entnommen wurden, so verdichtet und dargestellt, dass das Wesentliche deutlich wird. Liegen lediglich die Daten einer Stichprobenerhebung (Teilerhebung) zu Grunde, so ruht der Schwerpunkt der Datenanalyse auf der Übertragung der Stichprobenbefunde auf die Grundgesamtheit. Dabei wird von einer inferenziellen Datenanalyse gesprochen. Bei der explorativen Datenanalyse geht es darum, die verfügbare Datenmenge so zu verarbeiten, dass Strukturen in den Daten sowie Zusammenhänge ebendieser aufgezeigt und in besonderem Maße hervorgehoben werden können. Im Gegensatz dazu ist das Ziel der konfirmatorischen Datenanalyse die Überprüfung von Zusammenhängen.

Methoden und Verfahren der Datenanalyse im Überblick

Bei der statistischen Datenanalyse wird in der Regel mit den Berechnungen des Mittelwertes und der Standardabweichung (oder Varianz) begonnen. Außerdem erfolgt die Prüfung der Daten auf Normalverteilung.

Hypothesentest

Für die Anwendung des Hypothesentests werden immer zwei Hypothesen formuliert: eine Nullhypothese Ho, die meistens beinhaltet, dass die vermutete Datenstruktur nicht existiert und die Alternativhypothese HI bzw. HA, die meistens beinhaltet, dass die vermutete Datenstruktur existiert. Der Hypothesentest bezieht sich auf die Annahme einer wahren Nullhypothese[1]. Es muss bewiesen werden, dass die Nullhypothese falsch ist. Zuerst werden Werte wie der T-Wert[2] oder der F-Wert berechnet. Diese Werte werden mit einem der Situation angepassten kritischen Wert verglichen. Ist dieser berechnete Wert kleiner als der kritische Wert, gilt die Nullhypothese als wahr. In diesem Fall ist auch der P-Wert, also die Wahrscheinlichkeit, mit der das auf die Nullhypothese bezogene Ergebnis eintritt, nur wenig kleiner als 0,05. Ist der P-Wert hingegen sehr klein, wird die Nullhypothese verworfen. Es gilt als relativ sicher, dass die Nullhypothese falsch ist; jedoch ist nicht bekannt, welche Hypothese richtig ist. Wird die Nullhypothese nicht verworfen, darf im Umkehrschluss nicht auf die Richtigkeit ebendieser geschlossen werden[3]. In diesem Fall kann das Ergebnis nicht interpretiert werden.

Normalverteilung, P-Test, T-Test

Der P-Wert (Signifikanzwert) gibt an, wie extrem der auf der Basis der erhobenen Daten berechnete Wert der Teststatistik ist. Außerdem deutet er an, wie wahrscheinlich es ist, ein solches Stichprobenergebnis oder ein noch extremeres zu erhalten, wenn die Nullhypothese wahr ist. Da der Wert ein Wahrscheinlichkeitswert ist, nimmt er Werte zwischen Null und Eins an. Mit dem P-Wert wird deshalb angedeutet, wie extrem das Ergebnis ist: je kleiner der P-Wert, desto mehr spricht das Ergebnis gegen die Nullhypothese. Üblicherweise wird vor dem Test ein Signifikanzniveau α festgelegt und die Nullhypothese dann verworfen, wenn der P-Wert kleiner oder gleich α ist[4]. Um Entscheidungen treffen zu können, ob die Nullhypothese abgelehnt oder beibehalten werden soll, haben sich feste Grenzen etwa bei 5 %, 1 % oder 0,1 % etabliert. Wenn die Nullhypothese verworfen wird, wird das Resultat als statistisch signifikant bezeichnet. Die Größe des P-Werts gibt keine Aussage über die Größe des wahren Effekts.

Der T-Test bezeichnet eine Gruppe von Hypothesentests mit T-verteilter Testprüfgröße[5], die aber häufig nach Einstichproben-T-Test und Zweistichproben-T-Test unterschieden wird. Voraussetzung für die Durchführung des T-Tests ist die Normalverteilung der zu untersuchenden Grundgesamtheit der Daten. Des Weiteren muss ein genügend großer Stichprobenumfang vorliegen. Sind die Daten nicht normalverteilt, kann der T-Test nicht angewendet werden und es wird nach dem Prinzip des U-Tests verfahren. Beim Einstichproben-T-Test wird mit Hilfe des Mittelwertes einer Stichprobe geprüft, ob sich der Mittelwert der Grundgesamtheit von einem vorgegebenen Sollwert unterscheidet. Der klassische T-Test (Zweistichproben-T-Test) hingegen prüft, ob sich Mittelwerte zweier unabhängiger Stichproben wie die Mittelwerte zweier Grundgesamtheiten zueinander verhalten. Dabei wird vorausgesetzt, dass beide Stichproben aus Grundgesamtheiten gleicher Varianz entstammen. Die Varianz ist das Quadrat der Standardabweichung. Je größer die Varianz ist, desto flacher verläuft die Normalverteilungskurve. Werden zwei Stichprobengrößen miteinander verglichen, muss zusätzlich die gewichtete Varianz ermittelt werden. Dabei hat die größere Stichprobe den entscheidenderen Einfluss auf das Ergebnis.

 ANOVA (analysis of variance)

„Die Varianzanalyse, im Deutschen zumeist ANOVA genannt, sucht primär nach Unterschieden zwischen Gruppen und testet, ob das Aufteilen der Daten in unterschiedliche Gruppen die unerklärte Variabilität reduziert.“[6] Voraussetzungen für die Varianzanalyse sind die normalverteilten Werte in jeder Gruppe, die annähernde Gleichheit der Standardabweichungen sowie die Unabhängigkeit der Messwerte voneinander. Es wird geprüft, ob sich die Mittelwerte mehrerer Gruppen unterscheiden. Im einfachsten Fall lautet die Nullhypothese: Die Mittelwerte aller Gruppen sind gleich. Dann ergibt sich folgende Alternativhypothese: Nicht alle Mittelwerte sind gleich. Mit den Prüfgrößen des Verfahrens wird getestet, ob die Varianz zwischen den Gruppen größer ist als die Varianz innerhalb der Gruppen. Dadurch kann ermittelt werden, ob die Gruppeneinteilung sinnvoll ist oder nicht bzw. ob sich die Gruppen signifikant unterscheiden oder nicht. Die Varianzanalyse ist in ihrer einfachsten Form eine Alternative zum T-Test. Das Ergebnis ist das gleiche wie beim T-Test, „denn die Ergebnisse einer einfaktoriellen Varianzanalyse (one-way ANOVA) und eines T-Tests sind identisch, wenn die beiden Stichproben die gleiche Varianz haben.“[7]

Methoden und Verfahren des Data-Minings im Überblick

„Knowledge Discovery in Databases (KDD) ist ein nichttrivialer mehrstufiger Prozess zur Wissensfindung aus vorhandenen Informationen.“[8] KDD, im Deutschen als Wissensentdeckung in Datenbanken bezeichnet, ergänzt den fälschlicherweise synonym verwendeten Begriff Data-Mining um vorbereitende Untersuchungen und Transformationen der auszuwertenden Daten. Ziel ist es bislang unbekannte fachliche Zusammenhänge aus erhobenen, meist sehr großen Datenbeständen, zu erkennen.

Fayyad, U., Piatetsky-Shapiro, G., Smyth, P., From Data Mining to Knowledge Discovery in Databases, American Association for Artificial Intelligence, 1996, Al Magazine, Vol. 17, No. 3, S. 41, online unter: https://www.aaai.org/ojs/index.php/aimagazine/article/ViewFile/1230/1131

Fayyad, U., Piatetsky-Shapiro, G., Smyth, P., From Data Mining to Knowledge Discovery in Databases, American Association for Artificial Intelligence, 1996, Al Magazine, Vol. 17, No. 3, S. 41, online unter: https://www.aaai.org/ojs/index.php/aimagazine/article/ViewFile/1230/1131

Die obenstehende Abbildung gibt einen Überblick über die Schritte des KDD-Prozesses nach Fayyad et al. Die nachfolgende Aufzählung beschreibt das praktische Vorgehen bei der Anwendung des KDD-Prozesses:[9]

  • Anwendungsdomäne verstehen und Ziele definieren,
  • Daten filtern, Datenauswahl, Datenbereinigung, Vorverarbeitung, Datenreduktion/Transformation,
  • Data-Mining Methoden selektieren,
  • Data Mining durchführen (Clusteranalyse, Korrelationsanalyse, Regressionsanalyse, Anova),
  • Interpretation der gewonnenen Erkenntnisse, Muster erkennen[10],
  • Wissen anwenden.

Data-Mining ist der eigentliche Analyseschritt des KDD-Prozesses. Der Data-Mining-Prozess[11] wiederum wird in die folgenden Schritte gegliedert:

  • Fokussieren: die Datenerhebung und Selektion sowie das Bestimmen bereits vorhandenen Wissens, Datenverwaltung (File/ Datenbank),
  • Vorverarbeitung: die Datenbereinigung, beispielsweise durch Entfernen oder Ergänzen von unvollständigen Datensätzen, Konsistenzprüfung,
  • Transformation: Diskretisierung numerischer Merkmale, Ableitung neuer Merkmale, Selektion relevanter Merkmale,
  • Data-Mining: der eigentliche Analyseschritt, basierend auf Merkmalsvektoren[12], Generierung von Mustern bzw. Modellen,
  • Abschluss: Evaluation sowie Kontrolle der erreichten Ziele, Validierung (Statistische Prüfung der Modelle).

Typische Methoden des Data-Mining sind:

  • Clusteranalyse: Gruppierung von Objekten aufgrund von Ähnlichkeiten,
  • Klassifikation: Elemente werden den bestehenden Klassen zugeordnet,
  • Assoziationsanalyse: Identifizierung von Zusammenhängen und Abhängigkeiten in den Daten,
  • Regressionsanalyse: Identifizierung von Beziehungen zwischen Variablen,
  • Ausreißererkennung: Identifizierung von ungewöhnlichen Datensätzen,
  • Korrelationsanalyse: Untersucht die Beziehung zwischen zwei Variablen,
  • Zusammenfassung: Transformation des Datensatzes in eine kompaktere Beschreibung ohne wesentlichen Informationsverlust.

Dabei zählen die Ausreißererkennung sowie die Clusteranalyse zu den Beobachtungsproblemen; Klassifikation und Regressionsanalyse zählen zu den Prognoseproblemen.

Clusteranalyse & Klassifikation

Mit Hilfe der Clusteranalyse sollen Ähnlichkeitsstrukturen in großen Datenbeständen aufgezeigt werden, mit dem Ziel, neue Gruppen in den Daten zu identifizieren. Die gefundenen Ähnlichkeitsgruppen können graphentheoretisch, hierarchisch, partitionierend oder optimierend sein. Die einem Cluster zugeordneten Objekte sollen dabei möglichst homogen sein, die unterschiedlichen Clustern zugeordneten Objekte sollen sehr stark heterogen sein[13]. Außerdem können bei der Clusterbildung mehrere Merkmale parallel herangezogen werden. Die Clusteranalyse erfolgt in den nachfolgenden Schritten.

Zu Beginn wird jedes Objekt als einzelner Cluster betrachtet. Danach werden die beiden Einzelobjekte, die sich am ähnlichsten sind, miteinander vereinigt. Die Vereinigung reduziert die Clusteranzahl um Eins. Danach werden wiederum alle Distanzen der einzelnen Objekte berechnet und die beiden Objekte mit dem kleinsten Abstand zu einem neuen Cluster zusammengefasst. Dies könnte theoretisch solange wiederholt werden, bis alle Objekte in einem einzigen Cluster, einem sogenannten Megacluster, vereinigt sind. Für die Analyse der Daten ist es jedoch viel bedeutsamer, die am sinnvollsten erscheinende Clusterung zu ermitteln. Die Clusteranzahl wird durch die Betrachtung der Varianz innerhalb und zwischen den Gruppen bestimmt. Es wird festgelegt, welche Clusterung am sinnvollsten erscheint, da für die Funktion selbst keine Abbruchbedingung vorgegeben ist. In der Regel sind verschiedene Clustereinteilungen von Vorteil.

Voraussetzungen für die Anwendung der Clusteranalyse sind die metrisch skalierten Merkmale, welche einfach in die Analyse einfließen können; ordinal und nominal skalierte Merkmale müssen als Dummy-Variablen[14] skaliert werden. Merkmale, die in unterschiedlichen Dimensionen skaliert sind, können zu einer Ergebnisverzerrung führen. Diese Werte müssen vor der Durchführung einer Clusteranalyse, zum Beispiel durch eine Z-Transformation[15], standardisiert werden. Des Weiteren sollten die Merkmale nicht untereinander korrelieren.

Die Distanz zwischen zwei Einzelobjekten wird durch das Distanzmaß bestimmt. Je größer das Maß, desto unähnlicher sind sich die Objekte. Die verschiedenen Clustermethoden[16] dienen der Bestimmung der Distanz zwischen zwei Clustern oder einem Cluster und einem Einzelobjekt. Bei der Klassifikation hingegen werden die Daten bereits bestehenden Gruppen zugeordnet.

Assoziationsanalyse & Regressionsanalyse

„Durch eine Assoziationsanalyse werden Regeln generiert, welche die Beziehungen zwischen den in den Datensätzen eines Datenbestandes vorkommenden Elementen (Items) beschreiben.“[17] Diese Abhängigkeiten werden in der Form Wenn Item A, dann Item B bzw. A → B dargestellt. Ein Item ist dabei die Ausprägung eines Attributwertes eines Datensatzes. Ein Beispiel für eine einfache Regel wäre: Wenn ein Kunde Bier kauft, dann kauft er in 70 Prozent der Fälle auch Chips. Diese Beziehungen werden nicht als Hypothesen angenommen, sondern sollen mit der Assoziationsanalyse aus den Daten entdeckt werden. Erst nachdem ein auffälliges Muster gefunden wurde, wird untersucht, ob es sich wirklich um eine Abhängigkeit handelt und falls ja, werden Assoziationsregeln dazu aufgestellt. Kenngrößen von Assoziationsregeln sind Support, Konfidenz und Lift. „Je größer der Supportwert ist, desto relevanter ist die Regel.“[18]

Die Regressionsanalyse ist das Analyseverfahren zur Errechnung einer Regression in Form einer Regressionsgeraden bzw. -funktion. Die Regression gibt an, welcher gerichtete lineare Zusammenhang zwischen zwei oder mehreren Variablen besteht[19]. Das Bestimmtheitsmaß (R²) drückt dabei aus, wie gut die Regressionsgerade den Zusammenhang zwischen unabhängiger und abhängiger Variable wiedergibt. R² liegt zwischen 0 und 1, wobei der Wert R² = 1 bedeuten würde, dass jeder beobachtete Datenpunkt direkt auf der Regressionsgeraden liegt. Durch die Ermittlung einer Regressionsfunktion kann noch keine Aussage über die Signifikanz eines Zusammenhangs getroffen werden. Die Signifikanz der Regression wird durch den F-Test ermittelt.

Zu Beginn der Regressionsanalyse steht die Aufbereitung der Daten. Fehlende Daten werden weggelassen bzw. aufgefüllt, Daten werden transformiert und die Interaktionen (bei linearer Regression) werden berücksichtigt. Mittels mathematischer Verfahren wird eine Funktion f ermittelt, so dass die Residuen[20] e minimal werden. Die Modellvalidierung, also die Überprüfung ob das Modell eine gute Beschreibung des Zusammenhangs ist, umfasst die

  • Residuenanalyse,
  • Überanpassung,
  • Untersuchung der Daten auf Ausreißer und einflussreiche Datenpunkte und
  • Multikollinearität der unabhängigen Variablen.

Das validierte Modell kann zur Prognose von Werten von y bei gegebenen Werten von x herangezogen werden. Zur Abschätzung der Unsicherheit der Prognose wird neben dem prognostizierten y-Wert häufig auch ein Konfidenzintervall angegeben.

Ausreißererkennung

Ausreißer sind Messwerte oder Befunde, die inkonsistent zu dem Rest der Daten sind, beispielsweise indem sie ungewöhnliche Attributwerte haben oder nicht den Erwartungen entsprechen. Die Erwartung ist meistens der Streuungsbereich um den Erwartungswert herum, in dem sich die meisten Messwerte befinden. „Robuste Grenzen für die Erkennung von Ausreißern für viele Verteilungstypen können auch auf der Grundlage der Quartile und der Quartildistanz abgeleitet werden.“[21] Werte explorativer Studien, die weiter als das 1,5-fache des Quartilabstandes außerhalb dieses Intervalls liegen, werden als Ausreißer bezeichnet. Im Boxplot werden besonders hohe Ausreißer gesondert dargestellt.

Das Verfahren Local Outlier Factor sucht beispielsweise Objekte, die eine von ihren Nachbarn deutlich abweichende Dichte aufweisen, dann wird an dieser Stelle von dichtebasierter Ausreißerkennung gesprochen. Identifizierte Ausreißer werden anschließend meist manuell verifiziert und aus dem Datensatz ausgeblendet, da sie die Ergebnisse anderer Verfahren verschlechtern können. Vor einer Entscheidung zugunsten der Entfernung von Werten ist daher in jedem Fall noch zu überprüfen, welcher Datenverlust bei der Löschung oder Kennzeichnung der fehlenden Werte entsteht. Sinkt die Zahl der verfügbaren Datensätze unter das zum Fortfahren notwendige Niveau, so ist das Entfernen der Ausreißer zu vermeiden.

Korrelationsanalyse

Eine wichtige Aufgabe der Datenanalyse ist die Analyse des Zusammenhangs zwischen einzelnen Merkmalen. Die Stärke des Zusammenhangs von zwei quantitativen Merkmalen wird in der deskriptiven Statistik und Inferenzstatistik als Korrelation bezeichnet und kann in lineare und nichtlineare Korrelation unterschieden werden. Bei multivariaten Datensätzen wird zusätzlich für jedes Paar von Variablen der Korrelationskoeffizient berechnet.[22] „Zur Korrelationsanalyse werden vornehmlich Verfahren der klassischen, multivariaten, robusten und explorativen Statistik eingesetzt, aber auch verschiedenste nichtlineare Regressionsverfahren, deren Approximationsfehler als Korrelationsmaß verwendet werden können.“[23] Voraussetzung für die Durchführung der Korrelationsanalyse ist die Normalverteilung der untersuchten Daten.

Zusammenfassung als Methode des Data-Minings

Durch die Transformation eines Datensatzes in eine kompaktere Beschreibung seiner Informationen, gewährleistet die Zusammenfassung eine verlustfreie Darstellung wesentlicher Information. Die Zusammenfassung erfolgt textuell, visuell oder kombiniert.

[1] Vgl. Akremi, L., Baur, N., Fromm, S. (Hrsg.), Datenanalyse mit SPSS für Fortgeschrittene 1 – Datenaufbereitung und uni- und bivariate Statistik, 3., überarbeitete und erweiterte Auflage, Springer Fachmedien, Wiesbaden, 2011, S. 247.

[2] „Der T-Wert ergibt sich aus dem Quotienten des arithmetischen Mittels der Differenzen zwischen zwei zu vergleichenden Variablen und dem Schätzwert des Standardfehlers für dieses Mittel in der Grundgesamtheit.“ Zitiert aus Akremi, L., Baur, N., Fromm, S. (Hrsg.), 2011, S. 267.

[3] Vgl. Akremi, L., Baur, N., Fromm, S. (Hrsg.), Datenanalyse mit SPSS für Fortgeschrittene 1 – Datenaufbereitung und uni- und bivariate Statistik, 3., überarbeitete und erweiterte Auflage, Springer Fachmedien, Wiesbaden, 2011, S. 200.

[4] Vgl. Akremi, L., Baur, N., Fromm, S. (Hrsg.), Datenanalyse mit SPSS für Fortgeschrittene 1 – Datenaufbereitung und uni- und bivariate Statistik, 3., überarbeitete und erweiterte Auflage, Springer Fachmedien, Wiesbaden, 2011, S. 203.

[5] Vgl. Akremi, L., Baur, N., Fromm, S. (Hrsg.), Datenanalyse mit SPSS für Fortgeschrittene 1 – Datenaufbereitung und uni- und bivariate Statistik, 3., überarbeitete und erweiterte Auflage, Springer Fachmedien, Wiesbaden, 2011, S. 257.

[6] Zitiert aus Dormann, C., Parametrische Statistik – Verteilungen, miximum likelihood und GLM in R, 2., überarbeitete und erweiterte Auflage, Springer-Verlag, Berlin, 2013, S. 199.

[7] Zitiert aus Dormann, C., Parametrische Statistik – Verteilungen, miximum likelihood und GLM in R, 2., überarbeitete und erweiterte Auflage, Springer-Verlag, Berlin, 2013, S. 202.

[8] Zitiert aus Hung, P. T., Data-Mining und KDD – ein Überblick, TU Dresden, 2009, S. 3.

[9] Vgl. Hung, P. T., Data-Mining und KDD – ein Überblick, TU Dresden, 2009, S. 9.

[10] Vgl. Queckbörner, S., Was ist Data Mining?, Technische Universität Kaiserslautern, o. J., S. 7.

[11] Vgl. Böhm, Chr., Vorlesung „Knowledge Discovery in Databases“, Ludwig Maximilians Universität München, Institut für Informatik, Lehr- und Forschungseinheit für Datenbanksysteme, München, 2003, S. 7.

[12] Vgl. Böhm, Chr., Vorlesung „Knowledge Discovery in Databases“, Ludwig Maximilians Universität München, Institut für Informatik, Lehr- und Forschungseinheit für Datenbanksysteme, München, 2003, S. 15.

[13] Vgl. Janssen, J., Laatz, W., Statistische Datenanalyse mit SPSS für Windows, 6., neu bearbeitete und erweiterte Auflage, Springer-Verlag, Berlin, Heidelberg, 2007, S. 487.

[14] Vgl. Janssen, J., Laatz, W., Statistische Datenanalyse mit SPSS für Windows, 6., neu bearbeitete und erweiterte Auflage, Springer-Verlag, Berlin, Heidelberg, 2007, S. 448.

[15] Vgl. Janssen, J., Laatz, W., Statistische Datenanalyse mit SPSS für Windows, 6., neu bearbeitete und erweiterte Auflage, Springer-Verlag, Berlin, Heidelberg, 2007, S. 226.

[16] Vgl. Janssen, J., Laatz, W., Statistische Datenanalyse mit SPSS für Windows, 6., neu bearbeitete und erweiterte Auflage, Springer-Verlag, Berlin, Heidelberg, 2007, S. 489.

[17] Zitiert aus Gluchowski, P., F., Chamoni, P., Analytische Informationssysteme: Business Intelligence-Technologien und -Anwendungen 3., vollst. überarb. Auflage, 2006, S. 276.

[18] Zitiert aus Gluchowski, P., Chamoni, P., Gluchowski, P., F., Chamoni, P., Analytische Informationssysteme: Business Intelligence-Technologien und -Anwendungen 3., vollst. überarb. Auflage, 2006, S. 277.

[19] Vgl. Gluchowski, P., Chamoni, P., Gluchowski, P., F., Chamoni, P., Analytische Informationssysteme: Business Intelligence-Technologien und -Anwendungen 3., vollst. überarb. Auflage, 2006, S. 276.

[20] Residuen: Differenz zwischen einer Regressionsgeraden und den Messwerten, vgl. Kähler, W.-M., 2011, S. 139.

[21] Zitiert aus Sachs, L., Hedderich, J., Angewandte Statistik – Methodensammlung mit R, 12., vollständig neu bearbeitete Auflage, Springer-Verlag, Berlin, Heidelberg, 2006, S. 344.

[22] Vgl. o.A., Uni Göttingen, Kapitel 3: Erste Schritte der Datenanalyse, Göttingen, o. J., S. 23.

[23] Zitiert aus Runkler, T. A., Data Mining – Modelle und Algorithmen intelligenter Datenanalyse, 2., aktualisierte Auflage, Springer Fachmedien, Wiesbaden, 2015, S. 59.