PREDICTIVE ANALYTICS Methoden

Auf der Basis von historischen Daten Voraussagen für die Zukunft treffen, wie beispielsweise das Kaufverhalten eines Kunden zu prognostizieren, ist Gegenstand der sogenannten Predictive Analytics. Man könnte diesen Ausdruck mit „Prognoseanalyse“ übersetzen. Das Prinzip, auf welchem diese Form der Datenanalyse basiert, ist das Aufdecken von wiederkehrenden Mustern der Eingangsvariablen und-daten und unter Zuhilfenahme von verschiedenen Modellen, das Aufstellen von Prognosen zum Verhalten der Reaktions- beziehungsweise Zielvariablen. Für Predictive Analytics gibt es eine Vielzahl verschiedener Werkzeuge, die sich in ihrer Herangehensweise und zugrundeliegenden Algorithmen unterscheiden. In diesem Artikel sollen einige dieser Methoden betrachtet werden.

Datenanalyse mit Hilfe prädiktiver Methoden

Lineare Modelle

Die lineare Modellierung ist das wohl bekannteste und am weitesten verbreitete Werkzeug der Predictive Analytics. Dabei wird die Beziehung zwischen den Eingangs- und den Reaktionsgrößen modelliert. Die Auswirkung jedes Wertes einer Eingangsvariablen auf das gesamte Modell wird berechnet, indem er mit seinem Gewicht multipliziert wird. Dieses ist ein Faktor für jede Eingangsgröße, welcher das Verhältnis zur Reaktionsgröße beschreibt. Das Endergebnis der Methode entsteht durch die Addition der Auswirkungen aller Eingangsvariablen.

Die Lineare Regression ist die am meisten bekannteste und am meisten genutzte Form der linearen Modelle für Predictive Analytics. Der zugrundeliegende Algorithmus findet den Anstieg der Reaktionsgröße in Abhängigkeit von der Eingangsvariablen. In die Menge der zahlreichen einzelnen Werte der Einflussvariablen wird eine lineare Gerade eingefügt, die diese optimal repräsentiert. Es entsteht ein linearer Zusammenhang: Je größer die Einflussgröße, desto größer die Reaktionsgröße

Die Gerade ist beschrieben durch eine lineare Gleichung. Die Reaktionsgröße steht den Eingangsvariablen, die mit ihren jeweiligen Gewichten als Koeffizienten multipliziert werden gegenüber.

Die linearen Modelle können für lineare, oder zumindest nahezu lineare Zusammenhänge zwischen der Ergebnisvariablen und den Eingangsvariablen angewendet werden. Ist diese Bedingung allerdings nicht gegeben, können keine genauen Prognosen erstellt werden. [1]

 

Entscheidungsbaum

Das nach der linearen Modellierung am meisten bekannteste und angewendete Werkzeug der Predictive Analytics ist der Entscheidungsbaum. Dabei handelt es sich um die Darstellungsform eines Baumdiagramms, welches durch die schrittweise immer kleiner werdende Aufteilung der Ausgangsgesamtheit gekennzeichnet ist. Dieser Prozess zur Klassifikation von Daten wird durch einen Algorithmus gesteuert.

Der Entscheidungsbaum besteht aus mehreren „Knoten“, die die eingehenden Daten in zwei oder mehr Untergruppen aufteilen. Jeder dieser Knoten ist eine Entscheidungsregel in Form einer wenn-Bedingung, durch die die Eingangsdaten geprüft und unterschieden werden. Der erste Knoten in einem Entscheidungsbaum wird als Wurzelknoten bezeichnet und stellt den wichtigsten Knoten dar, da er sozusagen die grundlegende Richtung der Wege, die die Daten im Baumdiagramm durchlaufen, vorgibt. Am Ende eines Entscheidungsbaumes müssen alle Datensätze in einem der Endknoten (dem letzten Knoten vor dem Ende des Baumes) enden, das heißt sie müssen durch die wenn-Regeln an den Knoten klar zuordenbar sein.

Vorteilhaft an diesem Predictive Analytics Tool ist, dass es leicht verständlich, erklärbar und vielseitig einsetzbar ist. Es handelt sich nicht um komplizierte mathematische Modelle, sondern um logisch nachvollziehbare Abläufe, die auch für nicht technisch ausgebildete Nutzer nachvollziehbar und anwendbar sind. Im Vergleich zu den linearen Verfahren können auch nicht lineare Zusammenhänge mit Entscheidungsbäumen betrachtet werden. [2]

 

Neuronale Netzwerke

Ein neuronales Netzwerk besteht aus mehreren Neuronen, die untereinander verbunden sind. Jedes Neuron führt einen zweistufigen Prozess aus. Auf der ersten Stufe wird jede Eingangsvariable mit ihrer Gewichtung multipliziert und alle Werte werden zu einem Endergebnis aufaddiert. Die zweite Stufe besteht darin, dass mit Hilfe einer sogenannten Aktivierungsfunktion das Ergebnis umgewandelt wird (häufig zu 0,1 oder -1).

Ein Neuron ist eine einfache lineare Gleichung, wie bei der linearen Regression. Nach dieser linearen Funktion enthält das Neuron eine weitere Komponente, die das lineare Ergebnis in eine Zahl zwischen null und eins umwandelt.

Bei einem neuronalen Netzwerk sind die Ergebnisse von einer Stufe gleichzeitig die Eingabewerte der nächsten Stufe. Die einzelnen Neuronen sind in mehreren Schichten eines vollständig verknüpften, aufgeschalteten Netzwerks organisiert.

Mit den neuronalen Netzwerken lässt sich bestimmen, welche der Eingangsvariablen die Prognosen am meisten beeinflusst. Eine Stärke dieses Tools ist die Fähigkeit, nichtlineare Zusammenhänge zu beherrschen. Obwohl neuronale Netzwerke eine wesentlich höhere Komplexität, beispielsweise gegenüber der linearen Regression oder den Entscheidungsbäumen aufweisen. So übertreffen sie diese Werkzeuge jedoch leistungsmäßig, sofern sie richtig erstellt wurden. [3]

 

 Support Vector Machine

Die Support Vector Machine (=SVM) ist ein Werkzeug der Predictive Analytics, welches zur Klassifikation und Regression von Daten dient und eine Anwendung des maschinellen Lernens bildet. Den Begriff Support Vector Machine könnte man mit „Stützvektormaschine“ ins Deutsche übersetzen.

Das SVM Modell besteht aus einer Menge an Objekten in einem Raum, die gruppiert werden und so angeordnet sind, dass die gebildeten Gruppen durch eine Lücke klar voneinander abgetrennt sind. Außerdem ist es das Ziel des Algorithmus, dass sie einen möglichst großen Abstand zueinander aufweisen. Neu dazu kommende Objekte werden in das Modell eingeordnet, indem bestimmt wird, auf welche Seite der Lücke sie zugeordnet werden können. Support Vector Maschinen sind, wie auch neuronale Netzwerke eine nichtlineare Methode zur Datenanalyse, die die unterschiedlichen Gruppen durch eine Linie trennt, deren Gleichung durch das Modell gefunden wird.

Besonderheit dieses Predictive Analytics Tools ist, dass in den Modellierungsprozess lediglich die Objekte, die nahe der Trennlinie liegen, einbezogen werden. Diese werden als Support Vectors, sogenannte Stützungsvektoren bezeichnet. Die Objekte, die entfernt von der Linie liegen, werden nicht betrachtet, da sie keinen Einfluss auf die Lage derer haben. Daraus ergibt sich eine Kernaufgabe des SVM Algorithmus: das Bestimmen der Objekte im Entwicklungsmuster, die die Stützungsvektoren sind, die dann wiederum die Grundlage des SVM Modells bilden. [4]

 

Clustering

Man kann das englische Verb „cluster“ mit zusammenballen übersetzen, was den Inhalt des Clustering ziemlich genau trifft. Dieses Werkzeug ist eine verbreitete Methode zur Auswertung großer Datenmengen, bei der aus Erscheinungen mit gleichen Eigenschaften Gruppen gebildet werden.

Für Predictive Analytics wird ein Clustering Algorithmus gewählt, der „K-Nearest Neighbor“ genannt wird, was sinngemäß bedeutet, dass versucht wird, das dem betrachteten Fall ähnlichste Verhalten zu finden und so eine Prognose aufzustellen.

Zu Beginn des Algorithmus wählt der Entwickler einen Wert für K. Ist eine Prognose für einen neuen Fall gefordert, so findet der Algorithmus im Entwicklungsmuster des Clusteringmodells die Fälle, die dem betrachteten Fall nahekommen. Das Ergebnis, also die Prognose ist letztendlich ein Verhältnis der dem K-Fall ähnlichsten Fälle. [5]

 

Expertensysteme

Expertensysteme sind ein Computerprogramm und ein Teilbereich der künstlichen Intelligenz, deren Ziel es ist, einen Laien zu befähigen, mit Hilfe des Systems Entscheidungen zu treffen, als kämen sie von einem Fachkundigen. Dabei wird der Entscheidungsprozess von Experten durch das Expertensystem nachgebildet und dem Anwender eine Hilfe bei der Lösung komplexer Probleme angeboten.

Dieses Predictive Analytics Tool besteht aus drei Komponenten. Die Wissensbasis beinhaltet die Entscheidungslogik eines Experten, der oftmals „wenn-dann“-Regeln zugrunde liegen. Sie wird in eine Form gebracht, die von der Wissensbasis dargestellt werden kann. Mit der Inferenzmaschine wird die Wissensbasis auf Grundlage der bereits erfassten Daten befragt. Kernaufgabe der Maschine ist es, gezielt Fragen in der optimalen Reihenfolge zu stellen, die auf Basis der bereits vorhandenen Daten aufgestellt wird. Zusätzlich prüft die Maschine Anhaltspunkte, die beim Verarbeiten der Regeln und dem Umgang mit Widersprüchen zwischen den Regeln auftreten und präsentiert dem Nutzer eine Schlussfolgerung daraus. Die Schnittstelle, als dritte Komponente dient dazu, mit den Nutzern zu interagieren, um benötigte Informationen zu sammeln. [6]

 

Naϊve Bayes

Naïve Bayes ist eine Technologie zur Erstellung von Klassifikatoren, die Attributwerten Klassen zuordnen, zu denen sie mit der größten Wahrscheinlichkeit zugehören. Um die Klassifikatoren zu trainieren, gibt es verschiedene Algorithmen. Jedoch beruhen alle auf einem gemeinsamen Prinzip: die Grundannahme besteht darin, dass jeder Wert eines bestimmten Attributs lediglich von genau diesem Attribut abhängig ist. Anders gesagt wird angenommen, dass die Attribute untereinander unabhängig sind.

Obwohl die Annahmen der naiven Bayes Klassifikatoren sehr vereinfacht sind, funktionieren sie in viel komplexeren realen Situationen verhältnismäßig gut. Vorteilhaft ist, dass für den Modellierungsprozess lediglich eine geringe Menge an Trainingsdaten notwendig ist, um die Klassifikationsparameter einzuschätzen. [7]

 

WO DIESE WERKZEUGE ANWENDUNG FINDEN

Predictive Analytics Tools werden in den verschiedensten Bereichen angewendet. Ob im Bankensektor, in der Fertigung oder in der Logistik – die Beispiele sind zahlreich. Eine weitere Einsatzmöglichkeit bietet der Onlinehandel. Durch Aktivitäten, wie die Suchanfragen oder Downloads, die getätigt werden, gibt jeder Kunde viele Auskünfte über sich selbst. Diese Daten finden bei Predictive Analytics Verwendung, indem daraus Schlussfolgerungen, beispielsweise für die Erstellung neuer  Marketingkampagnen gezogen werden. In der heutigen Gesellschaft gibt es enorme Datenmengen – Predictive Analytics bietet die Chance, das Potential dieser Daten bestmöglich zu nutzen und datengestützte Entscheidungen treffen zu können.

Quellenangaben

[1] Vgl. Perlea Barea, Cecilia; Euba Álvarez, Iñigo; Cogollo Huete, Alfonso: From predictive to prescriptive: Transforming business decisions with analytics. S. 20-39

[2] Vgl. ebd.

[3] Vgl. ebd.

[4] Vgl. ebd.

[5] Vgl. ebd.

[6] Vgl. ebd.

[7] Vgl. ebd.