Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Auswertung von Web- Server-Zugriffen: Mechanismen und Vergleich von Lösungen Alexander Maier.

Ähnliche Präsentationen


Präsentation zum Thema: "Auswertung von Web- Server-Zugriffen: Mechanismen und Vergleich von Lösungen Alexander Maier."—  Präsentation transkript:

1 Auswertung von Web- Server-Zugriffen: Mechanismen und Vergleich von Lösungen Alexander Maier

2 Inhalt Web Analyse allgemein und Begriffsabgrenzung Web Content Mining Web Usage Mining Die sieben Phasen des Web log Mining Fazit und Ausblick Beispielprogramm

3 Web Mining allgemein besteht aus Ansätzen des Data Minings befasst sich mit der Auswertung von Daten die sich im und durch das WWW angesammelt haben Lässt sich in Web Usage Mining und Web Content Mining unterteilen

4 Begriffsabgrenzung

5 Web Content Mining Analyse von im Netz befindichen Daten (Text- und Mutimedia-Daten) Ziel: Einteilung der Daten in thematisch zusammengehörige Bereiche Algorithmen zur automatischen Klassifikation (z.B. Clusteranalyse) Einsatz besonders bei Crawler/Spider Suchmaschinen

6 Web Usage Mining Web Log Mining Analyse von Protokolldaten eines WWW-Server Integrated Web Usage Mining Konsumentenbezogene Daten werden mit Protokolldaten zusammengeführt Durch TDDSG sind enge Grenzen gesetzt Web Analyse

7 Die sieben Phasen der Web Analyse

8 1. Phase - Datengenerierung spezielle Protokolldaten des WWW-Servers Daten sind vom verwendeten WWW-Server abhängig kein Eingreifen auf die Datenerstellung von Seiten des Anwenders Protokolldaten von mehreren Servern sind möglich (MSWLM)

9 2. Phase – Selektion und Extraktion Einträge und Attribute der Protokolldatei werden in einen Zieldatenbestand überführt irrelevante Einträge sind zu filtern z.B Bilddateien z.B fehlende Seiten z.B Post - Einträge

10 2. Phase – Extraktion Zusammengesetzte Attribute im Logfile müssen extrahiert werden Beispiel eines Common Log File Format (CLF-Format)

11 3. Phase - Vorbereitung &Transformation Bereinigung: Anmelde- und Authentifizierungskennung können in Protokolldaten fehlen Datenbestände mit fehlenden Werten sollten nicht gelöscht werden  Verfälschung des Datenbestandes Ersetzungsstrategien für die fehlenden Daten sind nicht sinnvoll Datenbestand kann noch zur Mustererkennung verwendet werden

12 3. Phase - Vorbereitung &Transformation Transaktionsableitung: Http ist ein verbindungsloses Protokoll Keine Identifikation von Benutzersitzungen ein virtueller Kundenbesuch muss simuliert werden Mögliche Alternativen Cookies  kann aber gelöscht oder abgelehnt werden Anmeldung  wird von vielen als zu lästig empfunden

13 Transaktionsableitung 2: Transaktionsabgrenzung auf der Basis der Browserdaten und der zeitlichen Abgrenzung durch Δt krit 30 Min 3. Phase - Vorbereitung &Transformation

14 Transaktionsableitung 3: Pfadanalytische Transaktionsabgrenzung: mit Hilfe des Referenten 3. Phase - Vorbereitung &Transformation

15 4. Phase - Mustererkennung Assoziationsanalyse Verbundbeziehungen zw. html-Seiten z.B. A.html  B.html 0,9;0,2 sagt aber nichts über die Reihenfolge der Seitenaufrufe Sequenzanalyse / Pfadanalyse Erfassung von Navigationspfaden: A.html  B.html  C.html  B.html  E.html Clusteranalyse Zuordnung von ungeordneten Transaktionen zu möglichst homogenen Gruppen. (Strategisches Marketing  Meffert) Entscheidungsbauminduktion Klassifikation von Transaktionen nach einem bestimmten Kriterium z.B der Verweildauer (abgeleitete Interaktionsdaten)

16 4. Phase - Mustererkennung Assoziationsanalyse Welche Seiten wurden in einer Session zusammen besucht? Assoziationsanalye Erzeugt Regeln der Form Die gefundenen Regeln geben Aufschluß darüber, wie sich die jeweiligen Seiten ergänzen Umgestaltung der Website denkbar, so dass von Seite A auf Seite B und umgekehrt verwiesen wird...

17 4. Phase - Mustererkennung Sequenzanalyse Clickstreams der Besucher Die Assoziationsanalye sagt nichts über die Reihenfolge der Seitenabrufe aus, dazu die: Sequenzanalyse (hier Pfadanalyse) Finden von Regeln für nacheinander besuchte Seiten mit Häufigkeit Gewinnen von Erkenntnissen über die Reihenfolge der Informationssuche von Besuchern (  Siteoptimierung!) A.html  D.html  F.html  B.html 0,05 A E B F C D G

18 4. Phase - Mustererkennung Clusteranalyse: Reine Logdaten bieten nur Pfade, Verweildauer und technische Details (wie Browsertyp) als Merkmale an Sinnvoll daher bei Logdaten von registrierten Benutzern mit Personeninformationen Anreicherung durch Personendaten Mit Hilfe der Clusteranalyse und angereicherten Logdaten lassen sich also Angaben über die Art der Besucher der Website machen Denkbar: „Automatische Personalisierung“, um Besuchern des gleichen Clusters ähnliche Informationen anzubieten!

19 4. Phase - Mustererkennung Entscheidungsbäume Online-Shop: Unterscheidung zwischen Käufern und Nichtkäufern? Entscheidungsbäume Hier Segmentierung der um Personen-daten angereicherten Logdaten, um Käufer von Nicht- Käufern zu unterscheiden Ableiten von Regeln zur Vorhersage des Kaufverhaltens von Besuchern

20 5. Phase - Evaluation Abgleich der entdeckten Muster und der Hypothesenbank mit Hilfe der Objektähnlichkeitssuche Mögliche Muster sind: Assoziations- und Pfadregeln Entscheidungsbäume Clusteranalysen

21 6. Phase - Präsentation A.html D.htmlF.htmlE.html C.htmlB.html 0,4 0,6 z.B. grafische Darstellung von Pfadmustern Assoziationsregeln können dargestellt werden als: Balkendiagramm Gerichtete Grafen Pfadmuster

22 7. Phase - Interpretation Voraussetzung ist ein hohes Domänenwissen über Inhalt und Struktur der Marktapplikation Ohne Wissen ist eine sinnvolle Interpretation von Mustern nicht möglich

23 Fazit „Web Log Mining“ ist kein Modewort sondern ein aus wirtschaftlichen Erfordernissen entstandenes Verfahren zur Analyse von Verbindungsdaten, das Anwendung findet und immer mehr finden wird.

24 Ausblick Für große Sites ist Web Log Mining unerläßlich, um Bannerwerbung optimal zu platzieren Personalisierung zu ermöglichen und so vermutlich den Umsatz zu steigern

25 Das war´s – Noch Fragen ?


Herunterladen ppt "Auswertung von Web- Server-Zugriffen: Mechanismen und Vergleich von Lösungen Alexander Maier."

Ähnliche Präsentationen


Google-Anzeigen