Web Mining.

Slides:



Advertisements
Ähnliche Präsentationen
DI Christian Donner cd (at) donners.com
Advertisements

Anzahl der ausgefüllten und eingesandten Fragebögen: 211
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil3.
Die Projektgruppe heißt Sie herzlichst willkommen
LS 2 / Informatik Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)
Telefonnummer.
Modelle und Methoden der Linearen und Nichtlinearen Optimierung (Ausgewählte Methoden und Fallstudien) U N I V E R S I T Ä T H A M B U R G November 2011.
Datenbankzugriff im WWW (Kommerzielle Systeme)
1 JIM-Studie 2010 Jugend, Information, (Multi-)Media Landesanstalt für Kommunikation Baden-Württemberg (LFK) Landeszentrale für Medien und Kommunikation.
= = = = 47 = 47 = 48 = =
Statistiken und Tabellen
Wissensmanagement mit semantischen Netzen – Analyse und Vergleich verschiedener Softwarelösungen Autor: Holger Wilhelm Referentin: Prof. Dr. Uta Störl.
Rechneraufbau & Rechnerstrukturen, Folie 2.1 © W. Oberschelp, G. Vossen W. Oberschelp G. Vossen Kapitel 2.
Gottfried Vossen 5. Auflage 2008 Datenmodelle, Datenbanksprachen und Datenbankmanagementsysteme Kapitel 16: Grundlagen des Data Mining.
Internet facts 2006-I Graphiken zu dem Berichtsband AGOF e.V. September 2006.
Internet facts 2009-IV Grafiken zu dem Berichtsband AGOF e.V. März 2010.
Internet facts 2006-III Graphiken zum Berichtsband AGOF e.V. März 2007.
Internet facts 2008-II Graphiken zu dem Berichtsband AGOF e.V. September 2008.
Internet facts 2006-II Graphiken zu dem Berichtsband AGOF e.V. November 2006.
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil2.
Differentielles Paar UIN rds gm UIN
Prof. Dr. Bernhard Wasmayr
Studienverlauf im Ausländerstudium
Wolfgang Schmidt Data-Mining im Internet.
Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)
Die Bank von morgen - eine neue Welt für IT und Kunden? 23. Oktober 2001.
Grundschutztools
Prof. Dr. Bernhard Wasmayr VWL 2. Semester
AWA 2007 Natur und Umwelt Natürlich Leben
Prof. Dr. Günter Gerhardinger Soziale Arbeit mit Einzelnen und Familien Übersicht über die Lehrveranstaltung Grundlegende Bestimmungsfaktoren der Praxis.
R und MS Excel Datenaustausch zwischen R und Excel auf Basis des XLConnect-Pakets Günter Faes.
20:00.
Im Zuge unserer Befragung gaben uns 260 Personen über ihr Leseverhalten Auskunft.
So kannst du beide schnell berechnen.
Zusatzfolien zu B-Bäumen
WARUM IST DAS NEUE ADR PROGRAMM BESSER? 153%Mehrwert 228%Mehrwert Es ist einfach noch RENTABLER für Sie! Wenn Sie derzeit einen ADP Rabatt von 10% erhalten,
TWS/Graph HORIZONT Produkt-Präsentation Software für Rechenzentren
Eine Einführung in die CD-ROM
GBI Genios Wiso wiso bietet Ihnen das umfassendste Angebot deutsch- und englischsprachiger Literatur für die Wirtschafts- und Sozialwissenschaften. Wir.
Dokumentation der Umfrage
für Weihnachten oder als Tischdekoration für das ganze Jahr
HORIZONT 1 XINFO ® Das IT - Informationssystem Java Scanner HORIZONT Software für Rechenzentren Garmischer Str. 8 D München Tel ++49(0)89 / 540.
Kinder- und Jugenddorf Klinge Qualitätsentwicklung Januar 2005 Auswertung der Fragebögen für die Fachkräfte in den Jugendämtern.
Wir üben die Malsätzchen
Syntaxanalyse Bottom-Up und LR(0)
Addieren und Subtrahieren von Dezimalzahlen
CGI (Common Gateway Interface)
HORIZONT 1 XINFO ® Das IT - Informationssystem PL/1 Scanner HORIZONT Software für Rechenzentren Garmischer Str. 8 D München Tel ++49(0)89 / 540.
Der Ablauf eines Clear Rex Klärzyklus
PROCAM Score Alter (Jahre)
Ertragsteuern, 5. Auflage Christiana Djanani, Gernot Brähler, Christian Lösel, Andreas Krenzin © UVK Verlagsgesellschaft mbH, Konstanz und München 2012.
Ebusiness WS 2007 Hilfestellungen zur Klausurvorbereitung
Geometrische Aufgaben
Eine lllustration der Herausforderungen des Stromsystems der Zukunft
Symmetrische Blockchiffren DES – der Data Encryption Standard
Szenisches Lernen Wie Theaterelemente den Unterricht bereichern
Zahlentheorie und Zahlenspiele Hartmut Menzer, Ingo Althöfer ISBN: © 2014 Oldenbourg Wissenschaftsverlag GmbH Abbildungsübersicht / List.
MINDREADER Ein magisch - interaktives Erlebnis mit ENZO PAOLO
1 (C)2006, Hermann Knoll, HTW Chur, FHO Quadratische Reste Definitionen: Quadratischer Rest Quadratwurzel Anwendungen.
Parkplatz-Orga Diese Version ist vom finale Version!
Folie Beispiel für eine Einzelauswertung der Gemeindedaten (fiktive Daten)
Dokumentation der Umfrage BR P2.t Ergebnisse in Prozent n= 502 telefonische CATI-Interviews, repräsentativ für die Linzer Bevölkerung ab 18 Jahre;
Unternehmensbewertung Thomas Hering ISBN: © 2014 Oldenbourg Wissenschaftsverlag GmbH Abbildungsübersicht / List of Figures Tabellenübersicht.
Forschungsprojekt Statistik 2013 „Jugend zählt“ – Folie 1 Statistik 2013 „Jugend zählt“: Daten zur Arbeit mit Kindern und Jugendlichen.
AGOF facts & figures: Branchenpotenziale im Internet Q2 2014: Parfum & Kosmetik Basis: internet facts / mobile facts 2014-I.
Folie Einzelauswertung der Gemeindedaten
Datum:17. Dezember 2014 Thema:IFRS Update zum Jahresende – die Neuerungen im Überblick Referent:Eberhard Grötzner, EMA ® Anlass:12. Arbeitskreis Internationale.
Auswertung von Web- Server-Zugriffen: Mechanismen und Vergleich von Lösungen Alexander Maier.
1 Medienpädagogischer Forschungsverbund Südwest KIM-Studie 2014 Landesanstalt für Kommunikation Baden-Württemberg (LFK) Landeszentrale für Medien und Kommunikation.
Datenbanken im Web 1.
 Präsentation transkript:

Web Mining

Inhaltsverzeichnis Was ist Web Mining – Theoretische Einführung Tools Anwendungsbeispiele

Was ist Web Mining – Theoretische Einführung Einleitung Web Mining Strategien Informationsbedarf im E-Business Informationsgewinnung durch Web Mining Richtungen des Web Mining Web Mining Methoden Web Mining-Prozess

Einleitung Web = Datenbank Leider versteht das Internet kein SQL Structure Content Logs Leider versteht das Internet kein SQL

Einleitung (1) Web Mining ist Anwendung von Data Mining Methoden auf Datenstrukturen des Internet Analyse von Online-Kundeninformationen hat wichtige Bedeutung Wissen über Kunden und deren Bedürfnisse Erkenntnisse über Gestaltung von Internetauftritten Personalisierung von Seiteninhalten Kaufwahrscheinlichkeiten Identifizierung von Bewegungspfaden und Kaufmuster

Einleitung (2)

Web Mining Strategien Verstehen, was die Besucher wollen Vorhersagen, wie sie sich verhalten sollen In Echtzeit anwenden, was man über die Kunden weiss

Informationsbedarf im E-Business (1) Trotz riesigen Investitionen wurden Erwartungen nicht erfüllt Viele gescheiterte Online Projekte Zahl der Internetteilnehmer steigt noch immer an, aber nur der Traffic bedeutet kein Erfolg  massgebend ist eher die Intensität der Kundenbeziehung Nur Bruchteil der Kunden sind Wiederholungskäufer Grosse Kosten für Neugewinnung von Kunden (150 – 300$)

Informationsbedarf im E-Business (2) Unternehmen versuchen Kundenbeziehungen im Internet zu intensivieren  CRM (Customer Relationship Management) Grundlage für erfolgreiches Management der Kundenbeziehung ist das Wissen über die Kunden und ihre Bedürfnisse Grundsätzlich haben Betreiber von Internetangeboten nur wenige Informationen über Online Besucher und die Wirkung ihres Internetauftrittes Es stellen sich aus diesen Gründen interessante Fragen:

Informationsbedarf im E-Business (3) Fragen über Fragen Zusammensetzung der Besucher Wie viele Besucher erhält meine Seite? Woher kommen sie? Wie lange bleiben sie? Wie sehen die typischen Bewegungspfade aus? Wie lassen sich diese Verbessern? An welcher Stelle verlassen die Besucher meine Seite und warum? Welche Profile haben meine wichtigsten Kundensegmente Wirkung von Online Werbung Welche Werbebanner erwecken das meiste Interesse bzw. führen zu Käufen? An welche Stelle sollen die Banner platziert werden? Welche Partner generieren die meisten Besucher? Wie lange bleiben die Besucher und wie viele kaufen etwas?

Informationsbedarf im E-Business (4) Fragen über Fragen Bewertung der Seiteninhalte Für welche Inhalte interessieren sich die einzelne Kundensegmente? Welche Inhalte werden weniger beachtet und warum? Wie lässt sich eine Personalisierung der Inhalte erreichen/verbessern? Online-Kaufverhalten der Besucher Wie unterscheiden sich Besucher von Käufern? Was machen die Besucher bevor sie etwas einkaufen? Welches Verhalten auf der Site lässt auf Wiederholungskäufe schliessen?

Informationsgewinnung durch Web Mining (1) Es gibt verschiedene Möglichkeiten Wissen über die Nutzung und die Nutzer der Webseiten zu generieren In erster Linie werden deskriptive Statistiken (Logfile-Analyse) erstellt. Diese liefern erste wichtige Anhaltspunkte zur Nutzung der Site – liefern aber keine Informationen zur individuellen Verhaltensweise und Interessen der Online-Nutzer. Insbesondere sind diese nicht in der Lage Muster in den Nutzungsdaten aufzufinden Aber gerade die Muster sind von hoher Bedeutung für die Informationsgewinnung!

Informationsgewinnung durch Web Mining (2) Es müssen automatische Mustererkennungsverfahren (Data Mining) angewendet werden um aus den Daten Informationen über die Besucher einer Web Site zu gewinnen Zur Unterstützung derartiger Analysen gibt es verschiedenartige Softwarelösungen. Anfänglich waren diese nur für die deskriptive Analyse von Logdateien geeignet Heute existieren Datamining Toos die spezielle Funktionalitäten für Web-Mining besitzten.

Richtungen des Web Mining (1) Web Mining bezeichnet die allgemeine Anwendung von Verfahren des Data Mining auf Datenstrukturen des Internet

Richtungen des Web Mining (2) Web Content Mining Befasst sich mit der Analyse des Inhaltes von Webseiten und kann diese klassifizieren Seiten können damit für die weitere Analyse zu Gruppen zusammengefasst werden Zielsetzung: Erleichterung der Suche nach Informationen im Netz Aufgabe: Klassifizierung und Gruppierung von Online-Dokumenten Auffindung von Dokumenten nach bestimmten Suchbegriffe Kommen insbesondere Verfahren des Text Mining zum Einsatz

Richtungen des Web Mining (3) Web Structure Mining Untersucht die Anordnung einzelner Elemente innerhalb einer Webseite Untersucht die Anordnung verschiedener Seiten zueinander Interessant sind Verweise von einer Webseite auf andere, häufig inhaltlich verwandte Webseiten, mit Hilfe von Hyperlinks Hilft Überblick über Sitestruktur und die Anordnung der einzelnen Seiten zueinander zu gewinnen, um auf dieser Basis das Bewegungsverhalten der Nutzer im Netz nachvollziehen zu können

Richtungen des Web Mining (4) Web Usage Mining Beschäftigt sich mit dem Verhalten von Internet-Nutzern Es werden Data Mining Methoden auf die Logfiles des Webservers angewendet. Ergibt Aufschlüsse über Verhaltensmuster und Interessen von Online Kunden Web Log Mining  Analyse beschränkt sich auf Analyse des Logfiles Integrated Web Usage Mining  es werden noch weitere Daten wie Registrierungsdaten, Kaufhistorie etc. verwendet

Richtungen des Web Mining (5) Probleme mit Web Server Logs / Ereignisse Aktionen des Servers und nicht des Besuchers IP Adressen sind (noch) nicht einzigartig Seite besteht oft aus mehreren Objekten  mehrere Zugriffe  Logs müssen bearbeitet werden Wichtige Ereignisse die für Web Mining wichtig sind: Erstbesuch Anschauen von Produktinformationen Registrierungen  müssen clever gemacht sein Downloads Suchabfragen Sachen in Einkaufswagen legen Seite verlassen

Webminig Techniken (1) Clustern / Segmentierung Warenkorbanalyse Unterschiedliche Gruppe von Kunden und Besuchern Warenkorbanalyse Assoziationen zwischen Produkten und Dienstleistungen Sequenzanalysen Pfade, Muster über Zeit, Bestellung Klassifikation und Vorhersage Spezielle Verhaltensmuster, Profile

Webminig Techniken (2) Clustern / Segmentierung Identifikation grundlegender Kundenbedürfnisse Clusteranalyse, Neuronale Netze Identifikaton von Kunden mit ähnlichem Verhalten Modellierung der besten Kunden nach Lifetime, Value, Profitabilität und Kaufverhalten Wer kündigt bzw. kauft nicht mehr und warum Entwicklung von Key-Content Effektivere Positionierung des Contents

Webminig Techniken (3) Warenkorbanalyse Effektiveres Cross-Selling Analyse spezieller Zusammenhänge zwischen Produkten und Dienstleistungen (zB. Notebook und Garantieverlängerung) Aufdecken von Trends und Beziehungen zwischen Webseiten und Produkten Empfehlung der Produkte, die am wahrscheinlichsten gekauft werden (zB. Bei Amazon)

Webminig Techniken (4) Sequenzanalysen Den richtigen Content zur richtigen Zeit anbieten Eine der häufigsten Frage im Web Mining: Welche Seiten werden in welcher Reihenfolge besucht? Modellieren, in welche Produkte und Dienstleistungen in einer Sequenz erworben werden. Welche Sequenzen führen zum Kaufabbruch? Welche Sequenzen sind typisch für Hacker oder für betrügerisches Verhalten (Schwachstellen erkennen)

Webminig Techniken (5) Klassifikation und Vorhersage Profitabilität durch Personalisierung Entscheidungsbaum, künstliche Neuronale Netze Erforschen komplexes Kaufverhalten Wie wahrscheinlich ist es, dass eine Person: Antwortet Kauft Mehr ausgibt Nicht mehr kauft Voraussagen von Verhalten  proaktives Handeln!

Web Mining-Prozess (1) Aufgaben- definition Daten- Auswahl Daten- Aufbereitung Daten- Integration Muster- Suche Interpretation und Umsetzung

Web Mining-Prozess (2) Aufgabendefinition Datenauswahl Wichtig ist, dass zuerst genau spezifiziert wird Datenauswahl Erhebung der Internetnutzungsdaten Ev. weitere Kundendaten zB. Logfiles, Cookies, Server-, Networkmonitor/Sniffer Datenschutz Datenaufbereitung Preprocessing Identifikation von Seitenaufrufen (Frames) Identifikation von Besuchern Identifikation von Sessions

Web Mining-Prozess (3) Datenintegration Mustersuche Einbeziehen von Zusatzinformationen zB. Benutzerdaten, Kundenstammdaten, Transaktionsdaten etc. Datenschutz! Mustersuche Anwendung der Data Mining Methoden Interpretation und Umsetzung Webcontrolling  Verschiedene Kennzahlen Website Optimierung Personalisierung von Webseiten

Web Mining Software und Dienstleistungen im Vergleich Typische Fragestellungen der Betreiber Produktekategorien Analog SAS WebHound Enterprise Miner Data Warehousing SPSS Clementine Tools im Einsatz Bewertung

Arten des Web Mining Web Mining Web Content Mining Web Structure Mining Web Usage Mining Web Log Mining Integrated Web Usage Mining Web Usage Mining ist der Teil von Web Mining, welcher am meisten Einfluss auf das Marketing hat. Dieser Vergleich behandelt das Web Usage Mining. Also das Auswerten von Web Server Log Files, um Bewegungen der Benutzer, auf einer Web Site, zu analysieren.

Typische Fragestellungen der Web-Site Betreiber Log File Statistik Erweiterung um einfache Analyse Genaue Analyse der Benutzer

Log File Statistik · Welche Seiten sind besonders beliebt/attraktiv? · Woher kommen die User (Länder/Regionen)? · Wann kommen die User? · Welcher Browser, welches Betriebssystem wird verwendet? · Von welcher Web-Site kommen die User auf die Site (Suchmaschine, Werbung, Konkurrenz)? · Wie gut ist die Performance meines Web-Servers? · Welche Suchwörter führen, über welche Suchmaschinen, auf meine Seite?

Erweiterung um einfache Analyse · Welche Seiten haben welche Verweildauer (stickiness)? · Welche Seiten führen zum Verlassen der Site (Exit-Pages)? · Welche Seiten sind beliebt, welche sollten entfernt werden? · Wer kommt auf meine Seite? · Wie ist die Wirtschaftlichkeit der Seite? · Welche meiner Banner sind die profitabelsten? · Wie wirken meine Kampagnen? (Z.B. Banner-Werbung bei einem Web-Portal) · Wie wirken sich Veränderungen der Web-Site aus?

Genaue Analyse der Benutzer · Was für ein Profil haben User die bei mir einkaufen? · Welchen Pfad durch die Seiten nehmen Besucher, die zum Kauf kommen? · Haben die Kunden Probleme beim Abschluss des Kaufs?

Produktkategorien Unter dem Begriff Web Mining Software werden eine Reihe verschiedenartiger Produkte angeboten. Grob lassen sie sich wie folgt unterteilen: · Web-Traffic Analyse-Programme · Programme mit zusätzlicher Data Mining Funktionalität

Produkteübersicht

Analog Analog gehört zu den ältesten Log File Analysern. Das Programm erzeugt keine Besucher und Session Statistiken. Bedienung und Installation lassen sich mit guten IT Kenntnissen problemlos meistern. Analog ist frei erhältlich.

Analog

SAS Besteht aus mehreren Komponenten: WebHound Enterprise Miner Data Warehousing

SAS WebHound Der SAS WebHound ist der neueste Bestandteil von SAS eIntelligence. WebHound ist für das Einlesen von Web Log Files ins Data Warehouse verantwortlich. Er stellt außerdem eine umfangreiche Reporting-Funktion zur Verfügung. Für das eigentliche Data Mining wird der SAS Enterprise Miner benötigt. Der WebHound ist auch als stand alone Produkt erhältlich (mit SAS Base und anderen nötigen Paketen). Angesichts des Preises, ist er allerdings wohl nur in einer SAS Umgebung sinnvoll.

SAS WebHound Einlese Prozess der Log Dateien kann parallelisiert werden. Explizit für grosse Datenmengen ausgelegt. Auf Wunsch können nur relevante Daten aus den Log Dateien extrahiert werden. Verwendet ein spezielles Verfahren, bei dem der Einleseprozess parallelisiert auf mehreren CPUs durchgeführt werden kann. Er ist explizit für sehr grosse Datenmengen ausgelegt. Auf Wunsch extrahiert Web Hound nur relevante Daten aus den Log-Dateien.

SAS Enterprise Miner Enterprise Miner ist das eigentliche Data Mining Tool der SAS Beinhaltet: SEMMA, eigenes verfahren für die Data Mining Anwendung Nahtlose Integration von Data Warehousing und Reporting Funktionalitäten Daten Visualisierung, Untersuchung und Bearbeitung.

SAS Data Warehousing Data Warehousing bietet: Daten Gewinnung Transparenter Zugriff mittels ERP Systemen, hierarchischen oder relationalen Datenbanken. Daten Zugriff Zugriff auf alle Funktionen per Programmiersprache möglich (Java/C++) Daten Aufbewahrung SAS Tabellen Scalable Performance Data Server (SPDS) hierarchische oder relationale Datenbanken.

Enterprise Miner

Clementine von SPSS Clementine stammt ursprünglich von der Firma ISL. Diese wurde 1998 von SPSS aufgekauft. Clementine ist neben SAS sicherlich eines der großen Standard Tools für Data Mining. Beide wurden um Web Mining Funktionen erweitert. Die Web Mining Funktionen werden durch das „Application Template Web Mining“ (WebCAT) zur Verfügung gestellt.

Clementine von SPSS Die Version 6 bedient sich immer noch der bewährten X-Window Umgebung unter Exceed  kein Windows Client Bedienung geht nach einem Workflow Prinzip, ähnlich wie bei SAS

Clementine

Bewertung (Stand Ende 2001)

Web Mining Tools im Einsatz

Web Mining mit WUM Was ist WUM? Einsatz von WUM Demo

Web Utilization Mining - WUM Analyse der Web-Nutzung: Aufbereitung des Web-Server-Logs Einsetzen der Data-Mining-Software Eine Methodik der Analyse Erfolgskontrolle für kommerzielle Web-Sites die mit WUM angewendet wird, um den Erfolg einer Web-Site zu messen und zu erhöhen

Web Utilization Mining Die Muster des Nutzerverhaltens werden anhand einer informationsreichen Graphstruktur dargestellt, die konventionelle Sequenzen generalisiert, aber nicht durch Sequenz-Mining zu ermitteln ist. Eine ausdrucksstarke Mining-Anfragesprache unterstützt die Spezifizierung von statistischen und strukturellen Einschränkungen, um den Prozess der Musterentdeckung zu steuern.

Was ist WUM? (1) WUM : A Web Utilization Miner „sequence miner“ analysiert das Verhalten von Besuchern einer Website durch Sequenzanalyse Analyse des Surfverhaltens anhand der Reihenfolge der angegangenen Seiten auch für Sequence Pattern Discovery in jeglicher Art von Logfiles

Was ist WUM? (2) Web Mining Tool zur Entdeckung von Navigationsmustern Report-Funktionalität Mining Sprache MINT V1.2

WUM Architektur Datenaufbereitung Aggregated Log „Sequence Miner“ Visualiser

Einsatzgebiet von WUM Einsatzgebiet von WUM: Web Usage Mining Web Web Content Mining Web Structure Mining Web Usage Mining Web Log Mining Integrated Web Usage Mining Einsatzgebiet von WUM: Web Usage Mining

Einsatz von WUM (1) Datenaufbereitung Analyse: Log-Analyse Session-Analyse Analyse: Verhaltensmuster („behaviour patterns“) bestimmen durch Analyse von Sequenzdaten Ad-hoc Analyse: Query Analyzer Datenintegration und -Darstellung Aggregate Log, tree Resultatsausgabe Auswertungen

Einsatz von WUM (2) Ausgangslage: Website z.B. ein e-Shop Aufgaben- definition Ausgangslage: Website z.B. ein e-Shop

Einsatz von WUM (3) Access Log wird eingelesen Daten- Auswahl Eine Seite der Web-Site besteht aus mehreren Objekten, darunter Navigationsleisten zur Unterstützung der Orientierung, Skriptaufrufe und Bilder. Somit entspricht der Aufruf einer Seite mehreren Objekten im Web-Server-Log. Während der Datenaufbereitung müssen diese Objekte eindeutig einer Sitzung zugeordnet werden (Säuberlich, in diesem Band). Neben der IP-Adresse wurde der Agent des jeweiligen Besuchers berücksichtigt, nicht aber der Referrer jedes Aufrufs, da dieser häufig zu fehlerhaften Fragmentierungen von Sitzungen führt.

Einsatz von WUM (4) Daten- Aufbereitung Sessions werden definiert, innerhalb welcher das Surfverhalten nachvollziehbar sein soll

Einsatz von WUM (5) Daten- Integration Das Log wird mit dem „Aggregated Log“ in zusammenhängender Form gebracht.

Einsatz von WUM (6) Daten- Integration

Einsatz von WUM (7) Daten- Integration

Einsatz von WUM (8) Muster- Suche Besucherverhalten identifizieren und veranschaulichen H.html = Homepage P.html = Products X.html = Product X Y.html = Product Y G.html = Game D.html = Discount S.html = Search C.html = Contact O.html = Order

Einsatz von WUM (9) Muster- Suche WUM benutzt die Mining Sprache MINT (Mining Query Language) SQL-ähnliche Sprache es können auch direkte Queries eingegeben werden: select t from node as a b, template a * b as t where a.url = "X.html" and b.url = "Y.html"

Einsatz von WUM (10) Muster- Suche - Eingabe von eigenen Queries, die man verifizieren möchte

Einsatz von WUM (11) Analyse + Visualisierung der Query-Resultate Muster- Suche Analyse + Visualisierung der Query-Resultate

Einsatz von WUM (12) Reports: Datenauswertung Interpretation und Umsetzung Reports: Datenauswertung Comprehensive Report Web Site Pages Report

Einsatz von WUM (13) Interpretation und Umsetzung Datenauswertung

Demo It‘s showtime !!!

Quellen Handbuch Web Mining von Hajo Hippner, Melanie Merzenich, Klaus D. Wilde Scripts Prof. Dr. Nouri, FH Solothurn Präsentation Dr. Daniel Schloeth SPSS (Schweiz) AG Vorträge Prof. Dr. Quafafou, IAAI Unterlagen der Firma SPSS und SAS Script der Universität Karlsruhe (TH) WUM-Website http://wum.wiwi.hu-berlin.de

Theoretisches Konzept Praktische Anwendung Diskussion 2 Version Web Mining Theoretisches Konzept Praktische Anwendung Diskussion

Interview Interview mit einem Vertreter von Provantis

Theorethisches Konzept Was ist Web-Mining? Wofür braucht es Web-Mining? Wie sieht Web-Mining für Surfer aus? Wie sieht Web-Mining technisch aus? Welche Strategien gibt es? Welche Infos sammelt Web-Mining?

Was ist Web-Mining? Sammeln von Kunden-Infos via WWW Erfassen der Gewohnheiten und Bedürfnisse der potenziellen Kunden Ermittlen der Bewegungspfade der Kunden Erfassen der Interessen / Kaufbedürfnisse des Kunden

Wofür braucht es Web-Mining? Personifizierung des Auftritts Begrüssung mit Namen Speichern der letzten Einstellung usw. Angebot auf Kundenbedürfnisse ausrichten Kaufwahrscheinlichkeiten berechnen Marketing-Anaylsen günstig durchführen

Wie sieht Web-Mining für Surfer aus? Begrüssung mit persönlicher Anrede Letzter Besuch Anzahl Beträge im Forum usw.

Wie sieht Web-Mining technisch aus? 1000 ungefragte Küchlein

Wie sieht Web-Mining technisch aus? Web-Mining sammelt Informationen über den Surfer In ein Cookie kann man schreiben was man will !! Niemand weiss was hier gespeichert wird

Web-Mining Strategien Welche Vorlieben hat der Surfer? Den Kunden optimal durch die Webseiten der Firma führen Dem Kunden genau das Anbieten was er möchte

Welche Infos sammelt Web-Mining? (1) Der Besucher Wie viele Besucher erhält meine Seite? Woher kommen sie? Wie lange bleiben sie? Wie sehen die typischen Bewegungspfade aus? Wie lassen sich die Bewegungspfade verbessern?

Welche Infos sammelt Web-Mining? (2) Der Besucher An welcher Stelle verlassen die Besucher meine Seite? Warum verlässt der Surfer meine Seite? Welche Profile haben meine wichtigsten Kundensegmente

Welche Infos sammelt Web-Mining? (3) Online Werbung Welche Werbebanner erwecken das meiste Interesse? Welche Werbung führt zu Käufen? An welche Stelle sollen die Banner platziert werden? Wieviele Besucher kaufen etwas?

Welche Infos sammelt Web-Mining? (4) Der Seiteninhalt Für welche Inhalte interessiert sich der Kunde? Welche Inhalte werden weniger beachtet und warum? Wie lässt sich eine Personalisierung der Inhalte erreichen/verbessern?

Welche Infos sammelt Web-Mining? (5) Das Kaufverhalten Wie unterscheiden sich Besucher von Käufern? Was machen die Besucher bevor sie etwas einkaufen? Welches Verhalten auf der Seite lässt auf Wiederholungskäufe schliessen?

Web-Content-Mining Web-Structure-Mining Web-Usage-Mining Web Mining Web-Content-Mining Web-Structure-Mining Web-Usage-Mining

Übersicht der Methoden

Web-Content-Mining Analysiert den Inhalt von Webseiten Klassifiert diese Inhalte Extrahiert die Dokumente und fügt diese in neue Knowledge-Kataloge ein Ermöglicht automatischen Tranfer / Transformation von bestehender Information

Web-Content-Mining Beispiel: Redaktionell gepflegte Datenbanken können mit Web-Content-Mining automatisch erweitert werden Datenbanken können automatisch auf dem neuesten Stand gehalten werden

Web-Content-Mining

Web-Structure-Mining Es werden die Zusammenhänge innerhalb der Seiten eines Web-Auftritts untersucht Es werden die Zusammenhänge innerhalb der Elemente einer Seite untersucht

Web-Structure-Mining Beispiele für Web-Structure-Mining: websom.hut.fi www.kartoo.com smartmoney.com www.webbrain.com Technische Details von Web-Structure-Mining

Web-Structure-Mining websom.hut.fi Die Worte charakterisieren bestimmte Bereiche Die Fraben bezeichnen die Clusters Die Blauen Punkte geben die gefundenen Dokumente an

Web-Structure-Mining websom.hut.fi Graphische Übersicht über die gefundene Web-Seiten Zeigt Grün die Zusammen-hänge an

Web-Structure-Mining smartmoney.com Börsen-Daten von über 500 Firmen Die Grösse zeigt den Markanteil Die Farbe den Gewinn/ Verlust des Titels

Web-Structure-Mining www.webbrain.com Zeigt eine nach Kategorien geordnete Übersicht des Suchresultats an

Technische Details von Web-Structure-Mining (1) Untersuchungsgegenstand ist Struktur des Webs Hierarchien und Verknüpfungen Struktur bzw.Schema eines Dokuments das links enthält und auf das links verweisen das aus mehreren links besteht Ähnlichkeiten und Relationen helfen bei der

Technische Details von Web-Structure-Mining (2) Das Web ist ein gerichteter Graph Seiten und links entsprechen Knoten In-Degree =Anzahl der links auf ein Dokument Out-Degree =Anzahl der links aus einem Dokument Diameter =maximaler Wert des minimalen Wegs von einem Dokument A zu einem Dokument B

Web-Usage-Mining Untersucht das Verhalten von Surfern Anwenden von Data-Mining-Methoden auf das Server-Logfile Daten können einem User zugeordnet sein oder nicht

Web-Usage-Mining Web Usage Mining Anonym Personalisiert Nutzeraktivitäten Inhalt einer Site Andere Daten Anonym Personalisiert Personenbezogene Daten Nutzerprofile

Web-Usage-Mining Grundlegende Vorgehensweise Sammlung der Daten Daten-aufbereitung Modellierung Auswertung

Web-Usage-Mining Verfügbare Daten Host Datum / Uhrzeit URL Anzahl gelesener Bytes Browser Referer-URL Name und Passwort des Nutzers

Web Mining (allgemein) Datenaufbereitung Logfile-Analyse Infomation Tracking Fallbeispiel für WebMining

Datenaufbereitung

Datenaufbereitung Das Logfile wird bereinigt Die Daten werden mit den Benutzerdaten zusammengeführt Die Daten werden formatiert Die Daten werden nach Data-Mining-Methoden ausgewertet

Auswertung der Logfiles

Logfile-Analyse Probleme Alle Benutzer welche von einer Firma aus Surfen haben die gleiche IP-Adresse Aufwendiges Preprozessing – Nicht alle Informationen sind relevant Beim Caching werden Seiten zwischengespeichert und erscheinen danach nicht mehr im Logfile

Infomation Tracking

Fallbeispiel für WebMining

Web Mining Methoden Clustering / Segmentierung Warenkorbanalyse Sequenzanalysen Klassifikation Vorhersage

Clustering / Segmentierung Angewandte Techniken Clusteranalyse Neuronale Netze Indentifikation von Kunden mit ähnlichem Verhalten

Warenkorbanalyse Ziel der Warenkorb-Analyse Analyse der Zusammenhänge zwischen Produkt und Dienstleistung Erkennen von Trends Empfehlungen abgeben – z.B. Most popular product etc.

Sequenzanalysen (1) Ziel der Sequenzanalyse Reihenfolge der besuchten Seiten bestimmen Produkte bestimme welche in EINER Sequenz erworben wurden Welche Sequenzen führen zum Kauf

Sequenzanalysen (2) Ziel der Sequenzanalyse Welche Sequenzen führen zum Kauf-Abbruch Welche Sequenzen beinhalten Schwachstellen

Klassifikation Klassifizierung durch Entscheidungsbäume Neuronale Netze Erforschen von komplexem Kaufverhalten

Vorhersage Verhalten des Kunden voraussagen = proaktives Handeln Wie wahrscheinlich ist es, dass eine Person: Antwortet Kauft Mehr ausgibt Nicht mehr kauft

Quellen Skript Dr. Nouri Präsentation Web-Mining (Vorgänger-Jahrgang) Internet http://www.cometrics.de/know-web-mining.html http://www.aifb.uni-karlsruhe.de/WBS/gst/diplomarbeiten/SemanticWeb_Structure_Mining.pdf http://www.information-networking.net/Personalisierung_im_Internet_31-05-2001.pdf http://www.uni-hildesheim.de/~rschneid/WebMiningSession2.pdf notesweb.uni-wh.de/.../Web_Usage_Mining.ppt

Vielen Dank für Eure Aufmerksamkeit Fragen? Vielen Dank für Eure Aufmerksamkeit