Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Web Mining Kundenpotentiale nutzen… Marko Lepage.

Ähnliche Präsentationen


Präsentation zum Thema: "Web Mining Kundenpotentiale nutzen… Marko Lepage."—  Präsentation transkript:

1 Web Mining Kundenpotentiale nutzen… Marko Lepage

2 Web Mining im E – CRM Betreiber von Online – Angeboten besitzen eine umfangreiche Datenbasis, die Informationen über Verhaltensmuster und Interessen der Online Kunden liefern kann.  diese Informationen beinhalten ein gewaltiges Potential zur Anpassung des Internetauftrittes an individuelle Kundenbedürfnisse und damit zur Umsetzung eines individualisierten CRM im Internet.  insbesondere mit Hilfe von Data – Mining – Verfahren lassen sich hier wertvolle Erkenntnisse gewinnen.

3 Datenerhebung  Bewegungen der Besucher auf den Seiten des Internetangebots werden automatisch aufgezeichnet  Web Server protokollieren jeden Seitenaufruf jeden Benutzers in Logfiles.  diese geben Auskunft darüber welche Seiten, in welcher Reihenfolge, wie lange betrachtet werden und welche Inhalte besonders häufig abgefragt werden.  die anfallenden Datenmengen sind im Rohzustand jedoch wenig aussagefähig und bedürfen daher einer geeigneten Aufbereitung und Analyse…

4 Auswertung der Datenbasis  deskriptive Logfile Statistiken geben erste Anhaltspunkte zur Nutzung einer Site und können Hinweise zur Verbesserung der Seitenstruktur oder zur Positionierung wichtiger Inhalte geben.  insbesondere sind sie jedoch nicht in der Lage, selbständig Muster in den Nutzungsdaten aufzufinden.  daher bietet es sich an, automatische Mustererkennungsverfahren auf Internetdaten anzuwenden, um tiefergehende Informationen über die Besucher einer Website aufzuspüren.

5 Ausprägungsformen des Web Mining Die Anwendung von Verfahren des Data Mining auf Datenstrukturen des Internet wird allgemein als Web Mining bezeichnet.  Web Content Mining  Analyse von Seiteninhalten  Web Structure Mining  Analyse von Seitenstrukturen  Web Usage Mining  Untersuchung des Nutzerverhaltens

6 Der Web Mining Prozess

7 Datenauswahl  Primäre Datenquelle zur Untersuchung des Nutzerverhaltens sind die Web – Logfiles.  Logfiles geben Auskunft darüber, von welchem Rechner auf bestimmte Inhalte zugegriffen wurde, welcher Browser benutzt wurde und welche Fehler bei der Übertragung aufgetreten sind.  Über die Auswertung der Logfiles lässt sich auch der Weg eines Besuchers beim Navigieren durch die Website, der sogenannte Clickstream nachvollziehen. Das Standardformat, nach dem Zugriffe auf einen Webserver aufgezeichnet werden, ist das Common – Logfile Format (CLF).

8 Felder des Common Logfile Format

9 Beispielhafter Eintrag im Expanded Common Logfile Format  Dieser Eintrag zeigt die Anfrage eines Besuchers, der über die IP - Adresse am auf die Seite B.html zugriff. Die Seitenübertragung verlief erfolgreich (Statuscode 200), und es wurden 2050 Bytes übertragen. Der Besucher verfolgte einen Link auf der Seite A.html und benutzte den Microsoft Internet Explorer in Verbindung mit Windows 95.

10 Datenbereinigung: Identifikation von Seitenaufrufen  Die Anzahl der Logfile-Einträge lässt nur indirekt auf die Anzahl der angeforderten Seiten schließen:  jede Datei, also auch jede einzelne Graphik, die für den Aufbau einer Webseite benötigt wird, führt zu einem eigenen Logfile-Eintrag.  daher muss ein charakteristische Element identifiziert werden (meist gifs bzw. jpgs) – alle anderen Elemente werden aus der Logdatei gestrichen.

11 Cache-Mechanismen  Internet-Serviceprovider verwenden Proxy-Server als Zwischenspeicher für häufig angeforderte Informationen und Browser legen Daten von Webseiten direkt auf der Festplatte des Benutzers in einem Cache ab.  Fordert ein Nutzer eine Webseite an, welche lokal vorliegt, wird diese Seite direkt an den Nutzer weitergegeben, und der Server des Seitenanbieters erhält keine erneute Anforderung.  Cache-Mechanismen führen daher zu einem verringerten Ausweis von Seitenaufrufen. Durch die Möglichkeit, eine regelmäßige Aktualisierung der Seiten zu erzwingen, kann der Einfluss von Cache- Mechanismen jedoch begrenzt werden.

12 Datenbereinigung: Identifikation von Benutzern  Grundsätzlich erfolgt die Identifikation einzelner Besucher anhand der gespeicherten IP- Adresse. IP-Adressen sind jedoch nicht immer eindeutig.  Internet-Service-Provider müssen in der Regel eine große Anzahl Teilnehmer mit einer beschränkten Menge an IP-Adressen versorgen.  daher weisen sie ihre Adressen dynamisch zu, so dass einem Nutzer zu verschiedenen Zeitpunkten verschiedene Adressen zugeordnet werden.

13 Ansätze zur Unterscheidung verschiedener Nutzer mit gleicher IP – Adresse  Mögliche Ansätze zur Unterscheidung verschiedene Nutzer mit gleicher IP – Adresse:  die Verknüpfung der IP Adresse mit dem verwendeten Browser  Möglichkeit aus unterschiedlichen Browsern unter der gleichen IP-Nummer auf verschiedene Nutzer zu schließen.  durch das Anzeigen des Browsers, ob eine Anfrage von Robots oder Spidern stammt, können entsprechende Logfile Einträge für die weitere Analyse ebenfalls ausgeschlossen werden.

14 Cookies  Eine Möglichkeit, um unabhängig von der IP – Adresse festzustellen, ob sich hinter zwei verschiedenen Kontakten derselbe anonyme Nutzer verbirgt, besteht in der Verwendung von Cookies.  Cookies sind Textdateien, die auf den Rechner des Besuchers einer Website geschrieben werden, um diesen bei nachfolgenden Transaktionen zu identifizieren.  In diesem Fall erhalten Logfiles ein zusätzliches Feld, in dem der nutzerspezifische Cookie-Name festgehalten wird.  Jedoch: Selbst Cookies identifizieren lediglich einen bestimmten Rechner.  Daher: Die Zuordnung von Zugriffen zu einzelnen Personen kann nur über eine Registrierung erreicht werden.

15 Verfälschende Elemente in Logfile-Datensätzen

16 Identifikation von Sitzungen  Besonders wertvolle Informationen lassen sich gewinnen, wenn aus den erfassten Seitenaufrufen die vollständigen Bewegungspfade der Nutzer rekonstruiert werden. Voraussetzung dafür ist die verlässliche Nutzeridentifizierung, da die einzelnen Seitenaufrufe eines Besuchers in den Logfiles zunächst als unabhängige Vorgänge festgehalten werden.  Die entstehende Einheit verschiedener Seitenaufrufe eines Individuums wird als Sitzung oder Session bezeichnet.  Erst wenn die Daten zu Sessions gebündelt vorliegen, können beispielsweise die Verweildauer auf einer Seite, die Anzahl der betrachteten Seiten pro Sitzung sowie die häufigsten Ausstiegsseiten ermittelt werden.

17 Datenintegration – zusätzliche Datenquellen  Benutzerdaten zu persönlichen Eigenschaften und Präferenzen werden bei Anmelde- und Registrierungsvorgängen über Formulare erhoben. Mit Hilfe von Cookies lassen sich die gewonnenen Informationen mit den Logfile- Daten zusammenführen.  Dieses Vorgehen ist in Deutschland aufgrund strenger Datenschutzbestimmungen jedoch nicht unproblematisch und sollte daher immer die Einwilligung des Nutzers zur Erhebung und Nutzung seiner Daten voraussetzen.

18 Datenschutz  Da im Rahmen des Web Log Mining potenziell personenbezogene Daten genutzt werden, sind die entsprechenden Gesetze des Datenschutzes zu berücksichtigen. Grundsätzlich unterliegt die Verarbeitung personenbezogener Daten in Deutschland dem Bundesdatenschutzgesetz (BDSG) [1, S. 431]. In Bezug auf das Internet ist zusätzlich das Teledienstedatenschutzgesetz (TDDSG) zu beachten. Demnach ist für die Erhebung personalisierter Daten zu Marktforschungszwecken die Einwilligung des Nutzers erforderlich.  Die Verwendung anonymer Nutzungsprofile ist zulässig; diese dürfen jedoch nicht ohne Einwilligung mit eventuell vorhandenen personenbezogenen Daten zusammengeführt werden [12]. So ist es aus rechtlichen, aber auch aus ethischen Gründen unbedingt notwendig, Besucher im Internet über die Erhebung ihrer Daten zu informieren und gegebenenfalls das Einverständnis zur Nutzung der Daten einzuholen.

19 Mögliche Datenquellen des Web Usage Mining Die Berücksichtigung der Transaktionsdaten ermöglicht die Suche nach Kriterien, anhand derer Erfolg versprechende Besucher (z. B. Käufer) identifiziert werden können. Daneben können Kundenstammdaten oder soziodemographische Daten herangezogen werden.

20 Data Mining Verfahren  Nachdem die Datenbasis entsprechend aufbereitet wurde, können die klassischen Verfahren des Data Mining eingesetzt werden. Für das Spezialgebiet des Web Usage Mining bieten sich insbesondere die folgenden Verfahren an…

21 Clusteranalyse  Clusteranalytische Verfahren ermöglichen eine Segmentierung der Internetbesucher.  Mögliche Dimension der Segmentierung sind die Herkunft des Nutzers, eingegebene Suchbegriffe oder angeforderte Seiten. Anhand dieser Dimensionen kann versucht werden, zum Beispiel auf Berufstätigkeit (Zugriff von beispielsweise Firmen­ bzw. Universitätsrechnern, Uhrzeit des Zugriffs), oder die Informationsbedürfnisse (eingegebene Suchbegriffe, angeforderte Seiten) der identifizierten Nutzergruppen zu schließen.  Ziel ist die Schaffung personalisierter oder zielgruppenspezifischer Informationsangebote.

22 Assoziationsanalyse  Die Assoziationsanalyse eignet sich im Web Mining insbesondere dazu, Seiten zu identifizieren, die häufig gemeinsam innerhalb einer Sitzung aufgerufen werden. Eine Verknüpfung dieser Seitenkombinationen durch entsprechende Links kann dazu beitragen, die Benutzerfreundlichkeit der Site zu verbessern.

23 Sequenzanalyse  Mit Hilfe der Sequenzanalyse lassen sich typische Bewegungspfade der Besucher im Netz, das sogenannte Clickstreambehavior, analysieren.  Gesucht werden Pfade, auf denen Besucher sich häufig bewegen. Unter der Voraussetzung einer Transaktionsübergreifenden Nutzeridentifikation kann auch die Abfolge verschiedener Besuche eines Nutzers analysiert werden. In diesem Fall können zusätzlich Aussagen über die zeitliche Entwicklung des Konsumentenverhaltens getroffen werden.  es lässt sich ermitteln, nach welcher Anzahl von Besuchen durchschnittlich eine Bestellung erfolgt oder in welchem zeitlichen Abstand Wiederholungskäufe getätigt werden.

24 Klassifikationsverfahren  Klassifikationsverfahren wie Entscheidungsbäume oder Künstliche Neuronale Netze ermöglichen eine Einordnung der Internet-Besucher in vorgegebene Klassen. Oftmals ist es von Interesse, Besucher zu identifizieren, die ein konkretes Ziel einer Website (z.B. Produktkauf) unterstützen. Zu diesem Zweck suchen Klassifikationsverfahren bestimmte Seitenaufrufe, Seitenfolgen oder Nutzermerkmale, anhand derer Besucher beispielsweise in die Klassen »Käufer« und »Nicht-Käufer« eingeordnet werden können.  Jeder Klasse wird ein spezifisches Nutzerprofil zugeordnet.  einem neuen Besucher kann in Abhängigkeit von seinem Profil bestimmte Inhalte dargeboten werden.

25 Potenzial zur Entscheidungsunterstützung  Mit Hilfe von Web Usage Mining lässt sich das Verhalten der Online-Besucher detailliert dokumentieren und analysieren.  Kunden können segmentiert, klassifiziert und nach ihrer Kaufwahrscheinlichkeit bewertet werden.  die Seitenstruktur sollte an häufigen Bewegungspfaden ausgerichtet sein, um die Navigation zu erleichtern.  es bietet sich an Werbung auf diesen Pfaden zu platzieren.  zielgruppenspezifische Marketingkampagnen und  personalisierte Seiteninhalte sind möglich.

26 Einsatzmöglichkeiten des Web Mining

27 Schätzung des Kundenwertes bei bestehenden Kunden  Eine der wichtigsten Aufgaben des CRM ist die Analyse des Wertes bzw. der Profitabilität eines Kunden, um nutzenstiftende Beziehungen fortzuführen und unvorteilhafte Beziehungen zu beenden.  Erster Schritt zur Bestimmung der Charakteristika profitabler Kunden ist die Bestimmung eines Profitabilitätsmaßes. Dieses kann sinnvollerweise in Form des CLTV aufgestellt werden.

28 Beispiel des CLTV einer Gaststätte

29 Customer Livetime Value  Die Menge der Kunden mit errechnetem CLTV dient als Trainingsmenge für ein Modell zur Schätzung des CLTV der anderen Kunden.  Zunächst kann eine Analyse der zur Schätzung des CLTV relevanten Kundenattribute erfolgen. Dies geschieht am besten mit Hilfe eines Entscheidungsbaumes, da dieser sehr viele Variablen effizient verarbeiten kann. Als abhängige Variable dient der CLTV, als unabhängige Variablen können alle soziodemographischen in das Modell aufgenommen werden, von denen erwartet wird, dass sie einen Einfluss auf den CLTV haben könnten, z. B. Alter, Ausbildung, Einkommen, Lifestyle, Interessen. Durch die Entscheidungsbauminduktion können aus den unabhängigen Variablen diejenigen bestimmt werden, die einen entscheidenden Beitrag dazu leisten, den CLTV zu schätzen.

30 Entscheidungsbaum zur Bestimmung relevanter Kundenmerkmale zur Schätzung des Customer Lifetime Value

31 Entscheidungsbaum  Der Entscheidungsbaum verdeutlicht den hohen differenzierenden Anteil der Kundenmerkmale Alter und Einkommen auf die Klasse des CLTV, da diese im Entscheidungsbaum nahe an der Wurzel stehen.  Im nächsten Schritt können die bestimmten relevantesten Merkmale als unabhängige Variablen für ein Backpropagation-Netz eingesetzt werden, mit Hilfe dessen der CLTV geschätzt werden kann.

32 Backpropagation-Netz zur Schätzung des Customer Lifetime Value

33 Neuronales Netz zur Vorhersage des CLTV  Als unabhängige Variablen und damit bestimmende Merkmale für den CLTV wurden die Kundenmerkmale Alter, Einkommen, Lifestyle und Ausbildung identifiziert. Die Menge der Kunden mit errechnetem CLTV dient als Trainingsmenge für das KNN.  Das trainierte Netz kann zur Vorhersage des CLTV eines bestehenden Kunden verwendet werden, bei dem die unabhängigen Variablen bekannt sind.

34 Marktkorbanalyse  Bei der Marktkorbanalyse werden Assoziationen zwischen Produkten gesucht, die die Kunden gleichzeitig erwerben. Die gefundenen Assoziationen beziehen sich jedoch nicht auf das Verhalten einzelner Kunden, sondern sind häufig beobachtete Muster in den Transaktionen aller betrachteten Kunden. Ein Beispiel für eine durch die Warenkorbanalyse gefundene Assoziationsregel ist:  Wurst ? Senf ? Kohle ? Streichhölzer;

35 Marktkorbanalyse  Eine ähnliche Anwendung ist die Suche nach Assoziationen zwischen Webseiten, die in einer Sitzung zusammen besucht werden.  Ein Beispiel für eine durch eine solche Analyse gefundene Assoziationsregel ist A.html ? B.html ? C.html 0,9;0,2, die besagt, dass in 90% der Sitzungen, in denen die Dokumente A.html und B.html von einem Benutzer abgerufen werden, auch das Dokument C.html abgerufen wird. Diese Regeln trifft bei 20% der untersuchten Sitzungen zu.

36 Marktkorbanalyse  Eine solche Regeln kann erst ökonomisch sinnvoll interpretiert werden, wenn ein Bezug zum Inhalt der Webseiten hergestellt werden kann. Dies kann durch eine Analyse der Metadaten der entsprechenden HTML- Dokumente erreicht werden.  Handelt es sich beispielsweise um Seiten, die bestimmte Produkte beschreiben, so könnte die um den inhaltlichen Aspekt angereicherte Regel die Folgende sein: Produkt1 ? Produkt2? Produkt3 0,9;0,2.

37 Vorhersage des Kundenverhaltens durch Sequenzanalysen  Sie wird hauptsächlich dazu verwendet, häufige Navigationspfade und Gruppen von Webseiten, die häufig zusammen besucht werden, zu identifizieren.

38 Sequenzanalyse  Das Web-Log enthält nur diejenigen Web-Seiten und vorher aufgerufene Seiten (Referrer), die explizit vom Browser angefordert wurden.  Drückt der Benutzer den ‚Back’- Knopf seines Browsers, um die vorher aufgerufene Web-Seite zu betrachten, so wird die Seite nicht noch einmal beim Web-Server angefordert, sondern aus dem Zwischenspeicher des Browsers dargestellt.  Erster Schritt der Pfadanalyse ist es also, aus dem Web- Log den tatsächlichen Navigationspfad des Benutzers zu rekonstruieren, falls dies nicht schon vorher im Rahmen der Data preparation Phase erfolgt ist.

39 Sequenzanalyse  Darauf folgend werden Navigationspfade ermittelt, die einen signifikanten Support aufweisen. Durch die Zuordnung von Inhalten zu den einzelnen Web-Seiten wie bei der Induktion von Assoziationsregeln können die Navigationspfade dann ökonomisch interpretiert werden. Die Pfadanalyse ist eine für das Web Mining spezifische Methode, da sie explizit Gebrauch von der Hyperlink- Struktur einer Web-Site macht.  Zur Analyse individuellen Benutzerverhaltens ist sie jedoch nur bedingt tauglich, da meist die Gesamtheit der Benutzer als Analyseobjekt dient, ohne zwischen einzelnen Benutzern zu differenzieren.

40 Sequenzanalyse  Unter der Vorraussetzung, dass alle bei der Interaktion mit den Kunden angefallenen Daten integriert wurden, liegen umfangreiche Verhaltensdaten für jeden Kunden vor.  Dazu zählen sowohl die Navigationspfade einzelner www-Sitzungen, die einem konkreten Kunden zugeordnet werden können, als auch getätigte Käufe, E- Mail-Anfragen etc. Da diese Interaktionen ohne Schwierigkeiten in eine geordnete zeitliche Reihenfolge gebracht werden können, können einfache Techniken der Sequenzanalyse angewendet werden, um zeitliche Muster zu identifizieren.

41 Sequenzanalyse

42 Sequenzanalyse  Ein Beispiel eines durch die Sequenzanalyse identifizierten häufigen sequenziellen Musters. Die Benutzer betrachten zunächst die Web-Seite a, deren Inhalt mit dem Produkt A in Verbindung stehe. Darauf folgend werden die Web-Seiten b und c in beliebiger Reihenfolge betrachtet, dann wieder die Seite a. Anschließend erfolgt der Kauf des Produktes A. Abschließend betrachten die Benutzer die Seite b, die in Verbindung mit dem Produkt B stehe und es erfolgt der Kauf des Produktes B. Dabei können zwischen den einzelnen Elementen des Musters beliebige andere Interaktionen stattgefunden haben.

43 Ergebnis – Sequenzanalyse  Defizite der Web-Site können aufgedeckt werden  Weiterhin kann ein Muster zur Vorhersage des Benutzerverhaltens festgehalten werden.  Ist z. B. die erste Hälfte des Musters durch die Interaktion mit einem Kunden ‚eingetreten’, so kann mit einer bestimmten Wahrscheinlichkeit davon ausgegangen werden, dass die zweite Hälfte innerhalb einer bestimmten Zeit auch noch eintritt.  Darauf aufbauend können z. B. Maßnahmen zur Erhöhung dieser Wahrscheinlichkeit getroffen werden, indem dynamisch Web-Seiten erzeugt werden, die die vorhergesagte Interaktion vereinfachen.

44 Customer Touch Points – Kosten beachten !  Anschließend sollte der Blick der Marketingverantwortlichen auf die Kosten für Neukundenaquise, Kundenbindung und –rückgewinnung gelenkt werden.  Es gilt von den unterschiedlichen Ansprache- und Betreuungswegen (Customer Touch Points) denjenigen zu wählen der in der jeweiligen Situation die beste Kunden/Nutzen Relation aufweist.

45 Customer-Touch-Points im (E-)CRM

46 Marketingmaßnahmen  Es kommt hierbei entscheidend darauf an, den potenziellen Besucher einer Website vor der Registrierung vom persönlichen Nutzen einer derartigen Registrierung zu überzeugen, anderenfalls wird eine Registrierung unterbleiben oder verfälscht.  Online wäre hierbei z.B. an die kostenlose Zurverfügungstellung individualisierter Informationen mittels E- Mail-Newsletter, die Teilnahme an einem Online-Gewinnspiel, der verbilligte Direktbezug von Software-Upgrades, das kostenlose Versenden von SMS oder auch an das Herunterladen von Klingeltönen zu denken.

47 Registrierung online

48 Web Mining und Data Mining  Das größte Potential liegt für Unternehmen in der Zusammenführung von Data Mining und Web Mining, da sich hieraus die aussichtsreichsten Ansatzpunkte für eine nutzensteigernde Individualisierung aller Marketing-Mix- Instrumente ergeben.

49 Web Mining und Data Mining  Web Mining und Data-Mining-Analysen auf Grundlage anderer Datenquellen (z.B. Kundendatenbank, Interessentendatenbank, Zufriedenheitsanalysen etc.) ergänzen sich und erhöhen die gesamte Aussagekraft der durchgeführten Analysen deutlich.  Idealerweise gibt der Website-Besucher sich zu erkennen (z.B. mittels Registrierung). Dann entfaltet sich das Potenzial des Web Minings in hervorragender Weise, weil so eine personenindividuelle Nutzungsanalyse des Customer-Touch-Points unter Berücksichtigung einschlägiger Datenschutz- bestimmungen (insbesondere Teledienstdatenschutz- Gesetz TDDSG) quasi mühelos mitzuleisten ist.

50 Web Mining und Data Mining


Herunterladen ppt "Web Mining Kundenpotentiale nutzen… Marko Lepage."

Ähnliche Präsentationen


Google-Anzeigen