Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining Logfile-Analyse mit dem Web Utilization Miner WUMWUM.

Slides:



Advertisements
Ähnliche Präsentationen
DI Christian Donner cd (at) donners.com
Advertisements

Copyright © The OWASP Foundation Permission is granted to copy, distribute and/or modify this document under the terms of the OWASP License. The OWASP.
PHP Extension und Application Repository
Herzlich willkommen … K.-Ulrich LOUIS Inhaber LOUIS INTERNET
Seite 1 Find Economic Literature Stand
Willkommen auf der neuen Electrical Power Website Überblick über die neuen Features und die erweiterte Funktionalität unserer Website.
Webinar für [Name der Gruppe] [Name des Institutes]
Firmenprofil i2s - einige Facts
BSC & Report
Webportale mit Typo3 Eine Einführung 29. März 2008
„Suchmaschinen – Prinzipien und Allgorithmen“ Fallstudie
Daten- und Informationsdienste
Web-Entwicklung mit ASP.NET 2.0 und Visual Studio 2005 Uwe Baumann Marketing Manager Developer Tools Microsoft Deutschland GmbH Oliver Scheer Developer.
Webseiten, die gefunden werden Dr. Eduard Heindl, Heindl Internet AG Tübingen.
Web-CMS der Universität Ulm
HTML - Einführung Richard Göbel.
Navigieren / Suchen 12.Oktober Kann ein Browser das? 12.Oktober Bei findet man für das Wort browsehttp://dict.leo.org.
Suchmaschine vs. Katalog Such-Robots i.d.R. werden alle Seiten erfasst täglich werden mehrere Mio. Seiten besucht Redaktion relativ wenig Seiten erfasst.
Erstellen einer Webseite Fortbildung am FPGZ Stephan Best.
Präsentation zum Seminarprojekt Statistik mit R Name WS 2011/12.
Beispielrelation Buchbestellungen H = Menge der bedeutenden Ziele = {a, d} Schwelle T = 4 Stichprobe S = {a, b, a, a, a, a} mit s = |S| = 6 N = Anzahl.
Vortragender Messung des Erfolgs einer Website Subjektive Attraktivität Besuchsintensität Produktivität Finanzielle Maße
OSZ-Handel--Forum.
Jetzt lernen wir.
FH-Hof HTML - Einführung Richard Göbel. FH-Hof Komponenten des World Wide Webs WWW Browser HyperText Transfer Protocol (HTTP) via Internet WWW Server.
Entitäten Extraktion Einführung
Templates. © beas2009 / Page 2 This documentation and training is provided to you by beas group AG. The documents are neither approved nor in any way.
Welche Funktion hat die php.ini? -Beinhaltet wichtige Einstellungen für PHP. Genannt seien hier u.a. der Speicherort von Cookies, Parameter der Kompilierung,
Seniorkom.at vernetzt Jung & Alt Das Internet ist reif
Eine Produktion von der Firma Presentations GmbH
© VMware Inc. Alle Rechte vorbehalten. My VMware Einfacheres Management von Produktlizenzen und Support Neueinführung 2012.
W w w. s a f e r i n t e r n e t. a t Die Welt zu Hause Informationen suchen und finden.
eine Idee der Partizipation am Museumsgeschehen
des elektrischen Stroms
Suchen im Internet Eine Einführung. Suchen im Internet Wer bietet Informationen an? è Privatpersonen è Kommerzielle Organisationen, Firmen è Universitäten,
„Einführung ins Internet für Unkundige“
Online-Systematiken im Netz
TWS/Graph HORIZONT Produkt-Präsentation Software für Rechenzentren
Fehlerlösungen für Installateure per Handy oder Internet.
Kapitel - Thema letzte Aktualisierung © Accor Hospitaliy Germany Notizen BLANKO 0 X – XXXXXXX XXXXXXXXXXXXXXXXXXX Anmerkung XXXXXXXX Headline.
Autor: Peter Pfeiffer Seite: Peter Pfeiffer Memeler Str Bad Oeynhausen Hilfe und Tipps Zu dem Eingabemodul und den Exceldateien Bitte.
Präsentation von Sonja Pathe
Was macht eigentlich dieses ExsoForm? Ein Beispiel für eine Dokumentendefinition in Screenshots.
1 CeBIT 2008 Knowledge Management 2.0 Ulrich Kampffmeyer PROJECT CONSULT Unternehmensberatung Dr. Ulrich Kampffmeyer GmbH Breitenfelder Straße
Von wegen nur Männer sind chauvinistisch....
Univ.-Lektor Dipl.-Ing. Dr. Markus Schranz staatlich befugter und beeideter Ingenieurkonsulent für Informatik Web Application Engineering & Content Management.
Präsentation zu TOP 6 Infoseiten zu MOOCs und Suche nach MOOCs TOP 7 Stand Wiki-Projekt DBS/WBDB Baden-Württemberg IWWB-Partnersitzung BMBF, Bonn, 19.
Neubau Feuerwehrmagazin Riedenberg Dokumentation der einzelnen Bauabschnitte –
Seite 1 Find Economic Literature Stand
Ihr Weg ins Internet Die entscheidenden Faktoren für eine erfolgreiche Internetstrategie.
Dynamische Webseiten-Generierung
Mag. Andreas Starzer weloveIT – EDV Dienstleistungen
Die Publikations- datenbank des AIT Karl Riedling.
Page Seminar IM EIN Thema auswählen Zumindest 3 Artikel (fast sicher englischsprachig) aus guten Journals dazu heraus suchen.
Die Ganze Welt im Computer? Informationsbeschaffung im Internet
DNS DNS Das Domain Name System ist der Dienst im Internet, der DNS Namen in entsprechenden IP Adressen umsetzt und umgekehrt auch IPAdressen Namen zuordnen.
Die Management-Tools von Z&H COACH beinhalten zentrale Hilfsmittel für ein Management-System. Sorgfältig angewendet führen diese Tools Ihr Unternehmen.
Einführung CoP Koordination. Schlüssel CoP – Thematische CoPs – Mitglieder - Netzwerk.
Google (Web-Suchmaschine) Google Books Google Scholar
Informationsrecherche & Analyse im Netz
26. Oktober 2005Autor: Walter Leuenberger Computeria Urdorf Treff vom 26. Oktober 2005 Suchmaschinen im Internet Google & Co.
Page Seminar IM - Ablauf EIN Thema auswählen Zumindest 3 Artikel (fast sicher englischsprachig) aus guten Journals heraus suchen.
Oracle Portal think fast. think simple. think smart. Dieter Lorenz, Christian Witt.
Von wegen nur Männer sind chauvinistisch:
Page Seminar IM - Ablauf EIN Thema auswählen Zumindest 3 wissenschaftlichen Artikel (fast sicher englischsprachig) aus guten.
Tutorial Full Text Finder Publication Finder Übersicht support.ebsco.com.
Software Configuration Manager (f/m)
Wie verwende ich Suchmaschinen richtig?
Suchen und Finden Wie verwende ich Suchmaschinen richtig?
Integrating Knowledge Discovery into Knowledge Management
 Präsentation transkript:

Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining Logfile-Analyse mit dem Web Utilization Miner WUMWUM Wissensextraktion aus „large databases“ an Hand des Logfiles eines themenbezogenen Webportals: community-of- knowledgecommunity-of- knowledge

Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining 2 c-o-k: Ziele und Aufbau unabhängige Internet-Plattform zur „Bündelung und Präsentation von praxisorientiertem und qualifiziertem Wissen zum Thema Knowledge Management in Unternehmen.“ Webbasierte Knowledge Base zur Thematik `Einsatz und Leistungsfähigkeit aktueller Methoden, Techniken und Tools im Bereich Knowledge Management´.

Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining 3 C-o-k Aufbau

Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining 4 Mein Hauptinteresse: Content-Abruf  Concept Hierarchy für `Artikel´ Index.htm Kontexte WerkzeugeFallstudienMethoden Rollen Organisations - entwickler Qualitäts- manager IT- Leiter Personalent- wickler WM- Koordinator /artikel_id=137 (meiner über KDD/Data Mining)

Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining 5 Content Pool Jedem Artikel werden bei der Eingabe ein Kontext und max. 4 Rollen zugeordnet Kontexte und Rollen enthalten oft die gleichen Artikel Welche Rollen würdet ihr einem Artikel über KDD zuordnen ?

Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining 6 Content-Suche über Navigationshilfen Die einzige weitere Möglichkeit des Content- Abrufs geht über die Navigationshilfen: Keywords (s_index), interne Suchmaschine (s_suche), Autoren (s_autoren) und Sitemap, die zwar nur auf die anderen Möglichkeiten verweist, deren häufiger Abruf aber einen näheren Blick nahelegt.

Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining 7 Content-Abruf über Navigation (an Hand von Analog-Reports April 01- Mai 02)

Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining 8 Content-Abruf über Kontext/Rollen/Keywords

Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining 9 Fragen: Ergeben sich signifikante Unterschiede im Navigationsverhalten bei der Suche über Kontexte bzw. Rollen? Ergeben sich signifikante Unterschiede im Content-Abruf über Navigationshilfen gegenüber Kontext/Rollen? Lesen HR-Leute andere Artikel als IT-Leiter? Oder führt die fast identische Content- Präsentation für die 4 Rollen zu ebenso identischen Artikel-Abrufen?

Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining 10 Knowledge Discovery Queries mit Mint Der Umgang mit WUM erfordert Expertenwissen -> kein Expertensystem Man muss Vorannahmen treffen, die man mit Hilfe von Mint veri-/falsifizieren kann Definition Spiliopoulou: „a belief is a rule of the form A  B, which is expected to be true“

Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining 11 Preprocessing via „find“ Gefiltert wurde aus Performancegründen manuell: gif/jpg, alle parametrisierten Scriptaufrufe (außer cgi [?]), Kontakt, Messen, die meisten Serviceseiten, bekannte Robots Logfile von 15MB auf 2,4 MB Das in WUM implementierte Weka (Assoziationsregeln) verkraftet keine %, bzw. &- Zeichen. Man ersetze sie via Weka sed –f sedscr filename >xyz Download UnixUtils für Win32  filter1.bat filter17.b at Sicherheitswarnung: Fremder Leute batch- files vor dem Ausführen in einem Texteditor anschauen‼! sedscr

Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining 12 Website Pages, Association Rules, Mint Queries Association Rules und Mint Queries an unterschiedlichen Mining Bases! (Log Entry mit exakt 2 Abrufen von Suchwörtern in s_index pro Minute legt robot 1 nahe. Später gab es nach dem gleichen Schema Abrufe von s_index und cp_artikel: einem typisch menschlichen Navigationsverhalten also. Abgesehen vom time stamp hat man hier keine Möglichkeit, auf Robot zu schließen  ein Musterbeispiel für einen „unethical robot 1 AssociationR ules Website 1 cf. Tan, Kumar, WebRobots

Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining 13 Robot Detection mit WUMprepWUMprep WUMprep ist eine Sammlung von Perl-Scripts zum Logfile-Preprocessing. Scripts detectRobots.pl & removeRobots.pl mit den Heuristiken `Namen´ (ethische Robots) und `maxViewTime´ (nicht ethische) Output `nobots´ und `robot_hosts´ mit Angabe des Hosts und der Heuristik, die zur Identifizierung führte wurde nicht identifiziert. robot_hosts.txt awk-script zum Anhängen von Visitor- & SessionID (Extended Cookie Format von detectRobots.pl benötigt)

Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining 14 Association Rules Mit Robot Entry. Interessant sind Rule 2 und 4 (leider offensichtlich von Robot generiert. Ein Blick in das Logfile bestätigt die Regeln: (der Robot)- - [03/Jun/2002:16:18: ] "GET /s_index.htm?ansicht=1_wort_id=205_wort=Workflowmanagement_update=2 "GET /cp_artikel.htm?artikel_id=82 Nach Rauswurf von (kein result eines dns lookup bei Hunter.com) gab es mit den Schwellwerten Support=0.05; Confidence =30% keine Regeln mehr

Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining 15 Mint Queries Erste Abfrage nach /cp_.htm?fall=1 (Werkzeuge) und artikel_id=122 (Open EIS). Verm.: Er kam nicht an das pdf

Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining Abfrage START select t from node as a b c, template a * c as t where a.url = "/cp_.htm?fall=1" and b.url != "/cp_.htm?fall=3" and c.url contains "artikel_id=“ Die Ergebnisse bringen Aufrufe nach „Werkzeuge“; „Fallstudien“ und „Methoden“ durcheinander --> Besucher suchen nicht nach bestimmten Inhalten. Auffällig viele Abrufe gibt es für id=122, Open EIS, einem typischen Artikel der Kategorie „Werkzeuge“ –> Einige suchen gezielt.

Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining Abfrage select t from node as a b, template a [1;3] b as t where a.url = "/cp_.htm?fall=1" and b.url contains "artikel_id=“ ID1-4 zeigen alle zielgerichteten Contentabruf: die erste wird man über “Rollen” wiederfinden, die zweite interessiert sich nicht für Werkzeuge und geht sofort auf Methoden, 3 und 4 sind bei Werkzeuge richtig und rufen nach Durchsicht der Vorschläge (=sortieren) 2 Folgen der Serie “SW-Unterstützung im WM” ab

Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining Abfrage: Rolle WM- Koordinator select t from node as a b, template a [1;3] b as t where a.url = "/cp_.htm?fall=8" and b.url contains "artikel_id=“ Pattern ID=2 stützt meine These, dass User Product Placements von Inxight/Hummingbird zusammen mit Tool- relevantem Content abrufen. ID=6 klickt sich durch alle Kontexte->Blick ins Logfile; DNS-Lookup (von Fall=1 kommt man nicht auf id=84)

Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining Abfrage: Alle Folgeaufrufe von `Werkzeuge´ (fall=1) Von „Werkzeuge“ über Hummingbird/Inxight-Produktpräsentationen geht es über „Werkzeug“-Wdh. zu „Lebendiges WM“, i.e. Einsatz von Portalen im WM. Der zweite Pfad geht über „Methoden“ zu „KM-Bewertungsstrategien“, anschließend von „Werkzeuge“ gleichfalls zu Portalen im WM Die Kategorien (Werkzeuge / Methoden) korrelieren in beiden Fällen mit den Folgeaufrufen

Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining Abfrage: Alle Folgeaufrufe von `Hummingbird´ (id=125) select t from node as a b, template a * b as t where a.url contains "artikel_id=125" and b.support >= 2 Von 6 Abrufen id=125 schaut a) die Stichworte des Artikels unter s_index nach und ruft 1. den ersten und 2. den dritten Treffer des jew. Suchworts ab - eine geradezu idealtypische Form der Suche mit Ausgangspunkt „Kontexte“.

Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining 21 Zwischenbetrachtung Die Suche über Kontexte läßt in obigen Abfragen mit hinreichender Anzahl auf zielgerichteten Content- Abruf schließen. Eine Erklärung für „Start bei Werkzeuge“ – „Ziel bei Artikeln anderer Kategorien“ ist die stets vorzufindende Suche nach weiterem Content über die Keywords eines Ausgangsartikels. Die These, dass Produktpräsentationen weniger als Werbung denn als Information wahrgenommen wird, muss weiter verfolgt werden (unter Einbeziehung der Tool-Seiten)  Erweiterung der Konzept-Hierarchie. Abfragen, in denen die statistische Relevanz über Support-/Konfidenz-Regeln erhöht werden sollte, brachte keine Ergebnisse  2 Wochen Logfile- Ausschnitt sind zu kurz. Allerdings liegt der Mittelwert von Content-Abruf der Kategorie Werkzeuge auch nur bei 3,3/d

Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining 22 To be continued Danke für´s Zuhören