Auswertung von Web- Server-Zugriffen: Mechanismen und Vergleich von Lösungen Alexander Maier.

Slides:



Advertisements
Ähnliche Präsentationen
DI Christian Donner cd (at) donners.com
Advertisements

Seminar „WWW und Datenbanken“ - SS2001
Rechnernetze und verteilte Systeme (BSRvS II)
Data Mining Anwendungen und Techniken
JDataSet & Persistenz Layer
Vorgehensweise Website Besprechung am 11. Februar 2008 Gründung und Partnerunternehmen der Wirtschaftsuniversität Wien.
Basis-Architekturen für Web-Anwendungen
25. April 2003Dr. Eduard Heindl Kennziffern der Logfileanalyse Dr. Eduard Heindl, Lehrbeauftragter an der FH-Nürtingen/Geislingen Logfileanalyse.
Inhaltlich orientierter Zugriff auf unstrukturierte Daten
8 Behandlung von Begriffen 8.1 Grundlagen aus Logik und Psychologie
Harmonisierung von Ontologien Martin Zobel. Was versteht man in der Informatik unter einer Ontologie? Wikipedia: Unter Ontologie versteht man in der Informatik.
Usability - Kriterien für Web -Anwendungen
Konzeption und Realisierung eines Text- Analysesystems zur Automatisierung der Bewerberauswahl von diesem Datenformat jede beliebige Anwendung adaptieren.
Effizienz: Indexstrukturen
WIRTSCHAFTSINFORMATIK Westfälische Wilhelms-Universität Münster WIRTSCHAFTS INFORMATIK Seminar Software Agenten Agenten als Informationsfilter Referent.
Der Umgang mit qualitativ erhobenen Daten: Strategien der Datenanalyse
Gottfried Vossen 5. Auflage 2008 Datenmodelle, Datenbanksprachen und Datenbankmanagementsysteme Kapitel 16: Grundlagen des Data Mining.
Einführungsvortrag zur Diplomarbeit
Rigi und Web2Rsf vorgestellt von Tobias Weigand. Inhalt Ziel von Web2Rsf und Rigi Vorstellung des Parsers Web2Rsf Vorstellung des Werkzeugs Rigi Analyse.
Medizinische Statistik und Informationsverarbeitung Quade Institut für Medizinische Statistik, Dokumentation und Datenverarbeitung.
Herzlich willkommen beim 1. Workshop der AG Methodik
Was sind Histogramme? (1)
Sicherheit von mobilem Code Hauptseminar: Sicherheit in vernetzten Systemen Sicherheit von mobilem Code Oliver Grassow.
Narratives Interview und Biographieforschung
Barrierefreiheit ( Accessibility ).
1 Grundlagen und Anwendung der Extensible Markup Language (XML ) Peter Buxmann Institut für Wirtschaftsinformatik Johann Wolfgang Goethe-Universität Frankfurt.
Die Bank von morgen - eine neue Welt für IT und Kunden? 23. Oktober 2001.
Kann man im Netz Geld verdienen? Proseminar 2: Medienlehre Dozentin: Maria Löhblich, M.A. Denka Stancheva
Folie 1 Reengineering-Werkzeugen für Webseiten Johannes Martin, University of Victoria Ludger Martin, Technische Universität Darmstadt WSR 2001 Bad Honnef,
FH-Hof HTML - Einführung Richard Göbel. FH-Hof Komponenten des World Wide Webs WWW Browser HyperText Transfer Protocol (HTTP) via Internet WWW Server.
Entitäten Extraktion Einführung
Entitäten Extraktion Wichtige Schritte Petra Maier WS 05/06.
Welche Funktion hat die php.ini? -Beinhaltet wichtige Einstellungen für PHP. Genannt seien hier u.a. der Speicherort von Cookies, Parameter der Kompilierung,
Christian Schulz, Marc Thielbeer, Sebastian Boldt
Entwurf und Realisierung einer digitalen Bibliothek zur Verwaltung von Notenhandschriften Dipl.-Ing. Temenushka Ignatova Datenbank- und Informationssysteme,
Zur Arbeit mit Suchmaschinen
Dawn (direction anticipation in web-navigation) sebastian stober - direction anticipation in web-navigation2 Motivation Suchmaschinen & Verzeichnisse.
Web Mining.
Herzlich Willkommen! Schön, dass Sie da sind!.
Erstellen einer Webseitenstatistik mithilfe eines OLAP-Servers
Erstellen einer Webseitenstatistik mithilfe eines OLAP-Servers
Problemstellung Heterogene DV-Strukturen Mangelnde Kapazität in der EDV-Abteilung Historische Daten nicht verfügbar Analysen belasten die vorhandene Infrastruktur.
Data und Web Mining KFK Semantic Web: Knowledge Management
Maja Pivec; WebCT Tagung The Virtual Reality Experiences Shape Our Worldview Maja Pivec FH JOANNEUM, Informations-Design.
CRM TimeLog… TimeLog … Wie gross ist der Anteil der Lohnkosten in Ihrem Unternehmen?
Fragen und Einwände hinsichtlich der Möglichkeit einer Schöpfungsforschung Thomas Waschke
Avatare, Bannerwerbung, Interaktive Plakate und Marketing
Pki Informationssysteme für Marktforschung präsentiert...
Adserver Funktionsweise eines Adservers und die daraus entstehenden Möglichkeiten des Zielgruppentargetings.
Aufzeichnung von Usability-Daten im www. Client-Side Log : automatisch (maschinell) generiertes Protokoll Client : Rechner mit dem Browser des Users Server:
Analytisches CRM Phonnet Gruppe 1 (Loher, Meier, Rehhorn, Piasini)
Klassen und Klassenstruktur
Das Interenet als Recherchemedium nutzen!
ULG Library and Information Studies 2010/11, I2 Johanna Dusek.
Oracle Portal think fast. think simple. think smart. Dieter Lorenz, Christian Witt.
1 Wolfgang Wiese, Regionales RechenZentrum Erlangen WCMS 3. August 2000 Wolfgang Wiese RRZE / Lehrstuhl für Informatik VII
XML Schema Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung WS2011/2012 Hist.-kult.wiss. Informationsverarbeitung (Teil.
1 Zahlreiche Transformationen - Achtung Hochspannung Meike Klettke.
Kundenpotentiale nutzen…
Herzlich Willkommen! Es freut uns, dass Sie da sind!
Komponenten und Phasen des Data Warehousing
Gestaltungsprinzipien für PowerPoint
Integrated Product Development
Trendthema Bewerbermanagementsysteme
DOAG DWH-SIG/Ralf BrüggemannFolie 1/ Data Mining-Verfahren: Theorie und Anwendungsgebiete Ralf Brüggemann PROMATIS AG.
Oracle Text bei sehr großen Datenmengen Referent Martin Augst Senior Project / Account Manager Semantec GmbH Benzstr.
Information Retrieval mit Oracle Text Erfahrungsbericht.
Clusteranalyse Wege und Arten Entstanden im Rahmen der Seminararbeit für WS09/10 Betreuer: Prof. Jobst Hoffmann Dr. Tim Hiddemann Aachen, Januar 2010.
TRACKING Quelle: Fotolia by Adobe.
 Präsentation transkript:

Auswertung von Web- Server-Zugriffen: Mechanismen und Vergleich von Lösungen Alexander Maier

Inhalt Web Analyse allgemein und Begriffsabgrenzung Web Content Mining Web Usage Mining Die sieben Phasen des Web log Mining Fazit und Ausblick Beispielprogramm

Web Mining allgemein besteht aus Ansätzen des Data Minings befasst sich mit der Auswertung von Daten die sich im und durch das WWW angesammelt haben Lässt sich in Web Usage Mining und Web Content Mining unterteilen

Begriffsabgrenzung

Web Content Mining Analyse von im Netz befindichen Daten (Text- und Mutimedia-Daten) Ziel: Einteilung der Daten in thematisch zusammengehörige Bereiche Algorithmen zur automatischen Klassifikation (z.B. Clusteranalyse) Einsatz besonders bei Crawler/Spider Suchmaschinen

Web Usage Mining Web Log Mining Analyse von Protokolldaten eines WWW-Server Integrated Web Usage Mining Konsumentenbezogene Daten werden mit Protokolldaten zusammengeführt Durch TDDSG sind enge Grenzen gesetzt Web Analyse

Die sieben Phasen der Web Analyse

1. Phase - Datengenerierung spezielle Protokolldaten des WWW-Servers Daten sind vom verwendeten WWW-Server abhängig kein Eingreifen auf die Datenerstellung von Seiten des Anwenders Protokolldaten von mehreren Servern sind möglich (MSWLM)

2. Phase – Selektion und Extraktion Einträge und Attribute der Protokolldatei werden in einen Zieldatenbestand überführt irrelevante Einträge sind zu filtern z.B Bilddateien z.B fehlende Seiten z.B Post - Einträge

2. Phase – Extraktion Zusammengesetzte Attribute im Logfile müssen extrahiert werden Beispiel eines Common Log File Format (CLF-Format)

3. Phase - Vorbereitung &Transformation Bereinigung: Anmelde- und Authentifizierungskennung können in Protokolldaten fehlen Datenbestände mit fehlenden Werten sollten nicht gelöscht werden  Verfälschung des Datenbestandes Ersetzungsstrategien für die fehlenden Daten sind nicht sinnvoll Datenbestand kann noch zur Mustererkennung verwendet werden

3. Phase - Vorbereitung &Transformation Transaktionsableitung: Http ist ein verbindungsloses Protokoll Keine Identifikation von Benutzersitzungen ein virtueller Kundenbesuch muss simuliert werden Mögliche Alternativen Cookies  kann aber gelöscht oder abgelehnt werden Anmeldung  wird von vielen als zu lästig empfunden

Transaktionsableitung 2: Transaktionsabgrenzung auf der Basis der Browserdaten und der zeitlichen Abgrenzung durch Δt krit 30 Min 3. Phase - Vorbereitung &Transformation

Transaktionsableitung 3: Pfadanalytische Transaktionsabgrenzung: mit Hilfe des Referenten 3. Phase - Vorbereitung &Transformation

4. Phase - Mustererkennung Assoziationsanalyse Verbundbeziehungen zw. html-Seiten z.B. A.html  B.html 0,9;0,2 sagt aber nichts über die Reihenfolge der Seitenaufrufe Sequenzanalyse / Pfadanalyse Erfassung von Navigationspfaden: A.html  B.html  C.html  B.html  E.html Clusteranalyse Zuordnung von ungeordneten Transaktionen zu möglichst homogenen Gruppen. (Strategisches Marketing  Meffert) Entscheidungsbauminduktion Klassifikation von Transaktionen nach einem bestimmten Kriterium z.B der Verweildauer (abgeleitete Interaktionsdaten)

4. Phase - Mustererkennung Assoziationsanalyse Welche Seiten wurden in einer Session zusammen besucht? Assoziationsanalye Erzeugt Regeln der Form Die gefundenen Regeln geben Aufschluß darüber, wie sich die jeweiligen Seiten ergänzen Umgestaltung der Website denkbar, so dass von Seite A auf Seite B und umgekehrt verwiesen wird...

4. Phase - Mustererkennung Sequenzanalyse Clickstreams der Besucher Die Assoziationsanalye sagt nichts über die Reihenfolge der Seitenabrufe aus, dazu die: Sequenzanalyse (hier Pfadanalyse) Finden von Regeln für nacheinander besuchte Seiten mit Häufigkeit Gewinnen von Erkenntnissen über die Reihenfolge der Informationssuche von Besuchern (  Siteoptimierung!) A.html  D.html  F.html  B.html 0,05 A E B F C D G

4. Phase - Mustererkennung Clusteranalyse: Reine Logdaten bieten nur Pfade, Verweildauer und technische Details (wie Browsertyp) als Merkmale an Sinnvoll daher bei Logdaten von registrierten Benutzern mit Personeninformationen Anreicherung durch Personendaten Mit Hilfe der Clusteranalyse und angereicherten Logdaten lassen sich also Angaben über die Art der Besucher der Website machen Denkbar: „Automatische Personalisierung“, um Besuchern des gleichen Clusters ähnliche Informationen anzubieten!

4. Phase - Mustererkennung Entscheidungsbäume Online-Shop: Unterscheidung zwischen Käufern und Nichtkäufern? Entscheidungsbäume Hier Segmentierung der um Personen-daten angereicherten Logdaten, um Käufer von Nicht- Käufern zu unterscheiden Ableiten von Regeln zur Vorhersage des Kaufverhaltens von Besuchern

5. Phase - Evaluation Abgleich der entdeckten Muster und der Hypothesenbank mit Hilfe der Objektähnlichkeitssuche Mögliche Muster sind: Assoziations- und Pfadregeln Entscheidungsbäume Clusteranalysen

6. Phase - Präsentation A.html D.htmlF.htmlE.html C.htmlB.html 0,4 0,6 z.B. grafische Darstellung von Pfadmustern Assoziationsregeln können dargestellt werden als: Balkendiagramm Gerichtete Grafen Pfadmuster

7. Phase - Interpretation Voraussetzung ist ein hohes Domänenwissen über Inhalt und Struktur der Marktapplikation Ohne Wissen ist eine sinnvolle Interpretation von Mustern nicht möglich

Fazit „Web Log Mining“ ist kein Modewort sondern ein aus wirtschaftlichen Erfordernissen entstandenes Verfahren zur Analyse von Verbindungsdaten, das Anwendung findet und immer mehr finden wird.

Ausblick Für große Sites ist Web Log Mining unerläßlich, um Bannerwerbung optimal zu platzieren Personalisierung zu ermöglichen und so vermutlich den Umsatz zu steigern

Das war´s – Noch Fragen ?