Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

27. Februar 2001 Data Mining in Weblog Files Dr. Christoph Schommer IBM Entwicklung GmbH Schönaicher Str. 220 D-71032 Böblingen Tel./Fax: 07031/16-{4628/4890}

Ähnliche Präsentationen


Präsentation zum Thema: "27. Februar 2001 Data Mining in Weblog Files Dr. Christoph Schommer IBM Entwicklung GmbH Schönaicher Str. 220 D-71032 Böblingen Tel./Fax: 07031/16-{4628/4890}"—  Präsentation transkript:

1 27. Februar 2001 Data Mining in Weblog Files Dr. Christoph Schommer IBM Entwicklung GmbH Schönaicher Str. 220 D-71032 Böblingen Tel./Fax: 07031/16-{4628/4890} Email: schommer@de.ibm.com Internet: http://www.ibm.com/de/entwicklung/biwizards/

2 27. Februar 2001 Agenda 1.Positionierungen 2.Begriffsklärungen 3.Am Anfang sind Daten (Beispiel) 4.Evaluierungen (Beispiele) 5.Plädoyer für Mining

3 27. Februar 2001 1. Positionierung – Domäne Chat Login als Premium User Login als Premium User Werden Sie Premium User! Werden Sie Premium User! Kaufen Sie ein! Kaufen Sie ein!

4 27. Februar 2001 1. Positionierung – Domäne Premium User OnLine Shopping Premium User OnLine Shopping

5 27. Februar 2001 User: Suche nach gewünschten Artikeln wird zunehmend einfacher User: bessere Vergleichsmöglichkeiten User: bequemeres Bestellen, schnelleres Liefern User: Datenschutz muss vorhanden sein User: sicherer Datentransfer muss vorhanden sein Anbieter: Angebot an Produkten, Services, etc. Anbieter: Verbesserung der Servicequalität Anbieter: Reduktion von Kosten für bekannte User 1. Positionierung – Interessen durch OnLine Shop z.B. durch Marketing Kampagnen

6 27. Februar 2001 Agenda 1.Positionierungen 2.Begriffsklärungen 3.Am Anfang sind Daten (Beispiel) 4.Evaluierungen (Beispiele) 5.Plädoyer für Mining

7 27. Februar 2001 2. Begriffsklärungen – Data Mining Definition: Data Mining ist die effiziente Suche nach verborgenen, aber nützlichen Informationen in grossen Datenbanken, deren Visualisierung und Interpretation

8 27. Februar 2001 2. Begriffsklärungen – Data Mining Verification- Driven SQL, OnLine Analytical Processing (OLAP) data-driven Data Mining + Bekannte Informationen Bekannte + unbekannte Informationen

9 27. Februar 2001 2. Begriffsklärungen – Data Mining Banken Versicherungen Medizin Handel Kreditkarten Versand Chemie Sport Manufacturing Call Center Internet Biologie … und viele mehr Lotterie Börse

10 27. Februar 2001 2. Begriffsklärungen – Data Mining Workflow: Selektieren VisualisierenInterpretieren Trans- formieren Schürfen

11 27. Februar 2001 2. Begriffsklärungen – Data Mining Link Structure Design Cross Selling Activities Click Stream Analysis

12 27. Februar 2001 2. Begriffsklärungen – Aufgaben Customer Profiling Scoring Modeling

13 27. Februar 2001 2. Begriffsklärungen – Data Mining Warehouse Data Data Collecting Aufbau von Data Marts Data Cleaning Missing values Behandlung Data Coding... Selektieren Transformieren

14 27. Februar 2001 2. Begriffsklärungen – Data Mining Descriptive Verfahren, z.B.: Prädiktive Verfahren, z.B.: Schürfen Clustering Assoziationsanalyse Sequentielle Mustersuche Zeitreihenanalyse Classification Tree Radial Basis Functions

15 27. Februar 2001 2. Begriffsklärungen – Data Mining kategorisch numerisch Visualisieren Interpretieren

16 27. Februar 2001 2. Begriffsklärungen – Internet TCP = Transmission Control Protocol: erlaubt den Austausch von Daten über Netzwerke hinweg IP = Internet Protocol, z.B. 9.164.181.132 9.164.181.132 = goldmine 141.2.1.1 = hera Router

17 27. Februar 2001 2. Begriffsklärungen - Internet Cookie: serverseitiger Dienst, der beim WWW-Client Informationen hinterlegt. Jede Seite in excite.com kann diesen cookie zugreifen/nutzen Domäne des Cookie Verfallszeitpunkt - Zeitraum in Sekunden seit dem 1. Jan 1970 GMT Name des Cookie # Netscape HTTP Cookie File.excite.comTRUE/ FALSE 946641600U_ID_1 867CE396354734CB.preferences.comTRUE /FALSE 1182140421... Cookie ist verschlüsselt/nicht verschlüsselt Cookie wurde durch einen HTTP-header oder JavaScript gesetzt

18 27. Februar 2001 2. Begriffsklärungen - Internet Log File: client IP 9.164.181.132 delimiter - var.auth-user - SYSDATE [15/Sep/1998:13:59:06 +0200] Req->reqb.clf-request "Get /cgi-bin/areas/area.cgi? aid=2348347295&siid=142&filialid=0 HTTP/1.0" srvhdrs.clf-status 200 srvhdrs.content-length 7114 Req->headers.referrer "http://www.--.--/cgi-bin/bereiche/area.cgi?siid=142" headers.user-agent "Mozilla/4.0[de]C-DT (Win95;I)" headers.cookie visitor=guest980915235405061176; 200 = Success 300 = Redirect 400 = Failure 500 = Server Errors HTTP Request Zugriffsdatum und –zeit IP-Adresse des Users Übertragene Bytes Weblog Mining: + Marketing Daten + Web Meta Daten

19 27. Februar 2001 2. Begriffsklärung – Weblog Mining Weblog Mining Transaktionsbasierte Analyse Kundenspezifierte Analyse

20 27. Februar 2001 Agenda 1.Positionierungen 2.Begriffsklärungen 3.Am Anfang sind Daten (Beispiel) 4.Evaluierungen (Beispiele) 5.Plädoyer für Mining

21 27. Februar 2001 3. Am Anfang sind Daten music.html ?siid=150 &aid=111 music.html ?siid=150 &aid=122 living.html ?siid=112 &aid=97 living.html ?siid=100 &aid=97 Problem: u.U. viele WWW-Seiten

22 27. Februar 2001 3. Am Anfang sind Daten music.html ?siid=150 &aid=111 music.html ?siid=150 &aid=122 living.html living.html ?siid=112 &aid=97 living.html ?siid=100 &aid=97... Taxonomie I Lösung: Reduktion durch Generalisierung (1)

23 27. Februar 2001 3. Am Anfang sind Daten email.html Eine Email senden chat.html mit anderen Premium User chatten competition.html Am PREMIUM USER GAME teilnehmen postcards.html Virtuelle Postkarten versenden info.html Infos über das Sortiment anfordern womens-fashion.html Kleider für Frauen/Mädchen living.html Sortiment: Bad travel.html Reiseseite für Premium User travel2.html Reiseseite für Normale User...

24 27. Februar 2001 3. Am Anfang sind Daten COMMUNICATION email.html, chat.html. FUN competition.html, postcards.html, INFO info.html, help.html. SHOPPING womens-fashion.html, living-html,...... COMMUNICATION email.html chat.html Taxonomie II Lösung: Reduktion durch Generalisierung (2)

25 27. Februar 2001 3. Am Anfang sind Daten client IP 9.164.181.132 delimiter - var.auth-user - SYSDATE [15/Sep/1998:13:59:06 +0200] Req->reqb.clf-request "Get /cgi-bin/areas/area.cgi? aid=2348347295&siid=142&filialid=0 HTTP/1.0" srvhdrs.clf-status 200 srvhdrs.content-length 7114 Req->headers.referrer "http://www.--.--/cgi-bin/bereiche/area.cgi?siid=142" headers.user-agent "Mozilla/4.0[de]C-DT (Win95;I)" headers.cookie visitor=guest980915235405061176; Transactional Data Mart Jeder Record = Aktion des Users

26 27. Februar 2001 3. Am Anfang sind Daten client IP 9.164.181.132 delimiter - var.auth-user - SYSDATE [15/Sep/1998:13:59:06 +0200] Req->reqb.clf-request "Get /cgi-bin/areas/area.cgi? aid=2348347295&siid=142&filialid=0 HTTP/1.0" srvhdrs.clf-status 200 srvhdrs.content-length 7114 Req->headers.referrer "http://www.--.--/cgi-bin/bereiche/area.cgi?siid=142" headers.user-agent "Mozilla/4.0[de]C-DT (Win95;I)" headers.cookie visitor=guest980915235405061176; Customer Data Mart (Premium User) Jeder Record = Auf User aggregiert

27 27. Februar 2001 Agenda 1.Positionierungen 2.Begriffsklärungen 3.Am Anfang sind Daten (Beispiel) 4.Evaluierungen (Beispiele) 5.Plädoyer für Mining

28 27. Februar 2001 4. Evaluierungsbeispiele Konfirmatives Beispiel (1)

29 27. Februar 2001 4. Evaluierungsbeispiele Konfirmatives Beispiel (2)

30 27. Februar 2001 4. Evaluierungsbeispiele Exploratives Beispiel (1) Relative Häufigkeit (Quantität) Bedingte Wsk (Qualität) Relative Abweichung

31 27. Februar 2001 4. Evaluierungsbeispiele Exploratives (Konfirmativ) Beispiel (2)

32 27. Februar 2001 4. Evaluierungsbeispiele Exploratives Beispiel (3) 37.931% aller User besuchen zuerst [FUN], dann [COMMUNICATION], dann [SHOPPING], dann [COMMUNICATION]

33 27. Februar 2001 Exploratives Beispiel (4) Anzahl in % der Kunden Im Cluster Cluster Shopping Ist gering Shopping Ist hoch

34 27. Februar 2001 Eher männlich Hoher Umsatz Wenig Kommunikation Viel Shopping Wenig Fun Eher älter Von Region 4 oder 6 Umsatzcluster

35 27. Februar 2001 Viel Kommunikation Viel Fun Eher jünger Eher weiblich Geringer Umsatz Wenig Shopping Von Region 5 oder 8 Unterhaltungs- cluster

36 27. Februar 2001 Exploratives Beispiel (5) = hat nicht gekauft = hat gekauft

37 27. Februar 2001 Agenda 1.Positionierungen 2.Begriffsklärungen 3.Das Problem mit den Daten (Beispiel) 4.Evaluierungen (Beispiele) 5.Plädoyer für Mining

38 27. Februar 2001 5. Plädoyer Werden Sie jetzt (noch) in OnLine Shops einkaufen?

39 27. Februar 2001 5. Plädoyer Gezielte Beratung... Erhöhung des Umsatzes... Für den Kunden Für das Unternehmen

40 27. Februar 2001 5. Plädoyer Schaffung zusätzlicher Kapazitäten am WE Erhöhung des Angebots während der Woche... Für das Unternehmen Schnellere Verfügbarkeit... Für den Kunden

41 27. Februar 2001 5. Plädoyer Unterhaltungs- cluster Reduktion der Werbekosten durch spezielleres Marketing Stärkere Personalisierung von Web-seiten... Umsatzcluster Für das Unternehmen Für den Kunden Stärkere Berücksichtigung eigener Interessen...

42 27. Februar 2001 5. Plädoyer Für das Unternehmen Schnellere Reaktionszeit, falls Kunde wechselt...

43 27. Februar 2001 Vielen Dank für Ihre Aufmersamkeit!


Herunterladen ppt "27. Februar 2001 Data Mining in Weblog Files Dr. Christoph Schommer IBM Entwicklung GmbH Schönaicher Str. 220 D-71032 Böblingen Tel./Fax: 07031/16-{4628/4890}"

Ähnliche Präsentationen


Google-Anzeigen