Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining Logfile-Analyse mit dem Web Utilization Miner WUMWUM Wissensextraktion aus „large databases“ an Hand des Logfiles eines themenbezogenen Webportals: community-of- knowledgecommunity-of- knowledge
Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining 2 c-o-k: Ziele und Aufbau unabhängige Internet-Plattform zur „Bündelung und Präsentation von praxisorientiertem und qualifiziertem Wissen zum Thema Knowledge Management in Unternehmen.“ Webbasierte Knowledge Base zur Thematik `Einsatz und Leistungsfähigkeit aktueller Methoden, Techniken und Tools im Bereich Knowledge Management´.
Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining 3 C-o-k Aufbau
Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining 4 Mein Hauptinteresse: Content-Abruf Concept Hierarchy für `Artikel´ Index.htm Kontexte WerkzeugeFallstudienMethoden Rollen Organisations - entwickler Qualitäts- manager IT- Leiter Personalent- wickler WM- Koordinator /artikel_id=137 (meiner über KDD/Data Mining)
Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining 5 Content Pool Jedem Artikel werden bei der Eingabe ein Kontext und max. 4 Rollen zugeordnet Kontexte und Rollen enthalten oft die gleichen Artikel Welche Rollen würdet ihr einem Artikel über KDD zuordnen ?
Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining 6 Content-Suche über Navigationshilfen Die einzige weitere Möglichkeit des Content- Abrufs geht über die Navigationshilfen: Keywords (s_index), interne Suchmaschine (s_suche), Autoren (s_autoren) und Sitemap, die zwar nur auf die anderen Möglichkeiten verweist, deren häufiger Abruf aber einen näheren Blick nahelegt.
Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining 7 Content-Abruf über Navigation (an Hand von Analog-Reports April 01- Mai 02)
Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining 8 Content-Abruf über Kontext/Rollen/Keywords
Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining 9 Fragen: Ergeben sich signifikante Unterschiede im Navigationsverhalten bei der Suche über Kontexte bzw. Rollen? Ergeben sich signifikante Unterschiede im Content-Abruf über Navigationshilfen gegenüber Kontext/Rollen? Lesen HR-Leute andere Artikel als IT-Leiter? Oder führt die fast identische Content- Präsentation für die 4 Rollen zu ebenso identischen Artikel-Abrufen?
Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining 10 Knowledge Discovery Queries mit Mint Der Umgang mit WUM erfordert Expertenwissen -> kein Expertensystem Man muss Vorannahmen treffen, die man mit Hilfe von Mint veri-/falsifizieren kann Definition Spiliopoulou: „a belief is a rule of the form A B, which is expected to be true“
Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining 11 Preprocessing via „find“ Gefiltert wurde aus Performancegründen manuell: gif/jpg, alle parametrisierten Scriptaufrufe (außer cgi [?]), Kontakt, Messen, die meisten Serviceseiten, bekannte Robots Logfile von 15MB auf 2,4 MB Das in WUM implementierte Weka (Assoziationsregeln) verkraftet keine %, bzw. &- Zeichen. Man ersetze sie via Weka sed –f sedscr filename >xyz Download UnixUtils für Win32 filter1.bat filter17.b at Sicherheitswarnung: Fremder Leute batch- files vor dem Ausführen in einem Texteditor anschauen‼! sedscr
Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining 12 Website Pages, Association Rules, Mint Queries Association Rules und Mint Queries an unterschiedlichen Mining Bases! (Log Entry mit exakt 2 Abrufen von Suchwörtern in s_index pro Minute legt robot 1 nahe. Später gab es nach dem gleichen Schema Abrufe von s_index und cp_artikel: einem typisch menschlichen Navigationsverhalten also. Abgesehen vom time stamp hat man hier keine Möglichkeit, auf Robot zu schließen ein Musterbeispiel für einen „unethical robot 1 AssociationR ules Website 1 cf. Tan, Kumar, WebRobots
Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining 13 Robot Detection mit WUMprepWUMprep WUMprep ist eine Sammlung von Perl-Scripts zum Logfile-Preprocessing. Scripts detectRobots.pl & removeRobots.pl mit den Heuristiken `Namen´ (ethische Robots) und `maxViewTime´ (nicht ethische) Output `nobots´ und `robot_hosts´ mit Angabe des Hosts und der Heuristik, die zur Identifizierung führte wurde nicht identifiziert. robot_hosts.txt awk-script zum Anhängen von Visitor- & SessionID (Extended Cookie Format von detectRobots.pl benötigt)
Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining 14 Association Rules Mit Robot Entry. Interessant sind Rule 2 und 4 (leider offensichtlich von Robot generiert. Ein Blick in das Logfile bestätigt die Regeln: (der Robot)- - [03/Jun/2002:16:18: ] "GET /s_index.htm?ansicht=1_wort_id=205_wort=Workflowmanagement_update=2 "GET /cp_artikel.htm?artikel_id=82 Nach Rauswurf von (kein result eines dns lookup bei Hunter.com) gab es mit den Schwellwerten Support=0.05; Confidence =30% keine Regeln mehr
Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining 15 Mint Queries Erste Abfrage nach /cp_.htm?fall=1 (Werkzeuge) und artikel_id=122 (Open EIS). Verm.: Er kam nicht an das pdf
Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining Abfrage START select t from node as a b c, template a * c as t where a.url = "/cp_.htm?fall=1" and b.url != "/cp_.htm?fall=3" and c.url contains "artikel_id=“ Die Ergebnisse bringen Aufrufe nach „Werkzeuge“; „Fallstudien“ und „Methoden“ durcheinander --> Besucher suchen nicht nach bestimmten Inhalten. Auffällig viele Abrufe gibt es für id=122, Open EIS, einem typischen Artikel der Kategorie „Werkzeuge“ –> Einige suchen gezielt.
Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining Abfrage select t from node as a b, template a [1;3] b as t where a.url = "/cp_.htm?fall=1" and b.url contains "artikel_id=“ ID1-4 zeigen alle zielgerichteten Contentabruf: die erste wird man über “Rollen” wiederfinden, die zweite interessiert sich nicht für Werkzeuge und geht sofort auf Methoden, 3 und 4 sind bei Werkzeuge richtig und rufen nach Durchsicht der Vorschläge (=sortieren) 2 Folgen der Serie “SW-Unterstützung im WM” ab
Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining Abfrage: Rolle WM- Koordinator select t from node as a b, template a [1;3] b as t where a.url = "/cp_.htm?fall=8" and b.url contains "artikel_id=“ Pattern ID=2 stützt meine These, dass User Product Placements von Inxight/Hummingbird zusammen mit Tool- relevantem Content abrufen. ID=6 klickt sich durch alle Kontexte->Blick ins Logfile; DNS-Lookup (von Fall=1 kommt man nicht auf id=84)
Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining Abfrage: Alle Folgeaufrufe von `Werkzeuge´ (fall=1) Von „Werkzeuge“ über Hummingbird/Inxight-Produktpräsentationen geht es über „Werkzeug“-Wdh. zu „Lebendiges WM“, i.e. Einsatz von Portalen im WM. Der zweite Pfad geht über „Methoden“ zu „KM-Bewertungsstrategien“, anschließend von „Werkzeuge“ gleichfalls zu Portalen im WM Die Kategorien (Werkzeuge / Methoden) korrelieren in beiden Fällen mit den Folgeaufrufen
Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining Abfrage: Alle Folgeaufrufe von `Hummingbird´ (id=125) select t from node as a b, template a * b as t where a.url contains "artikel_id=125" and b.support >= 2 Von 6 Abrufen id=125 schaut a) die Stichworte des Artikels unter s_index nach und ruft 1. den ersten und 2. den dritten Treffer des jew. Suchworts ab - eine geradezu idealtypische Form der Suche mit Ausgangspunkt „Kontexte“.
Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining 21 Zwischenbetrachtung Die Suche über Kontexte läßt in obigen Abfragen mit hinreichender Anzahl auf zielgerichteten Content- Abruf schließen. Eine Erklärung für „Start bei Werkzeuge“ – „Ziel bei Artikeln anderer Kategorien“ ist die stets vorzufindende Suche nach weiterem Content über die Keywords eines Ausgangsartikels. Die These, dass Produktpräsentationen weniger als Werbung denn als Information wahrgenommen wird, muss weiter verfolgt werden (unter Einbeziehung der Tool-Seiten) Erweiterung der Konzept-Hierarchie. Abfragen, in denen die statistische Relevanz über Support-/Konfidenz-Regeln erhöht werden sollte, brachte keine Ergebnisse 2 Wochen Logfile- Ausschnitt sind zu kurz. Allerdings liegt der Mittelwert von Content-Abruf der Kategorie Werkzeuge auch nur bei 3,3/d
Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining 22 To be continued Danke für´s Zuhören