Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining Logfile-Analyse mit dem Web Utilization Miner WUMWUM.

Ähnliche Präsentationen


Präsentation zum Thema: "Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining Logfile-Analyse mit dem Web Utilization Miner WUMWUM."—  Präsentation transkript:

1 Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining Logfile-Analyse mit dem Web Utilization Miner WUMWUM Wissensextraktion aus „large databases“ an Hand des Logfiles eines themenbezogenen Webportals: community-of- knowledgecommunity-of- knowledge

2 Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining 2 c-o-k: Ziele und Aufbau unabhängige Internet-Plattform zur „Bündelung und Präsentation von praxisorientiertem und qualifiziertem Wissen zum Thema Knowledge Management in Unternehmen.“ Webbasierte Knowledge Base zur Thematik `Einsatz und Leistungsfähigkeit aktueller Methoden, Techniken und Tools im Bereich Knowledge Management´.

3 Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining 3 C-o-k Aufbau

4 Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining 4 Mein Hauptinteresse: Content-Abruf  Concept Hierarchy für `Artikel´ Index.htm Kontexte WerkzeugeFallstudienMethoden Rollen Organisations - entwickler Qualitäts- manager IT- Leiter Personalent- wickler WM- Koordinator /artikel_id=137 (meiner über KDD/Data Mining)

5 Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining 5 Content Pool Jedem Artikel werden bei der Eingabe ein Kontext und max. 4 Rollen zugeordnet Kontexte und Rollen enthalten oft die gleichen Artikel Welche Rollen würdet ihr einem Artikel über KDD zuordnen ?

6 Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining 6 Content-Suche über Navigationshilfen Die einzige weitere Möglichkeit des Content- Abrufs geht über die Navigationshilfen: Keywords (s_index), interne Suchmaschine (s_suche), Autoren (s_autoren) und Sitemap, die zwar nur auf die anderen Möglichkeiten verweist, deren häufiger Abruf aber einen näheren Blick nahelegt.

7 Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining 7 Content-Abruf über Navigation (an Hand von Analog-Reports April 01- Mai 02)

8 Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining 8 Content-Abruf über Kontext/Rollen/Keywords

9 Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining 9 Fragen: Ergeben sich signifikante Unterschiede im Navigationsverhalten bei der Suche über Kontexte bzw. Rollen? Ergeben sich signifikante Unterschiede im Content-Abruf über Navigationshilfen gegenüber Kontext/Rollen? Lesen HR-Leute andere Artikel als IT-Leiter? Oder führt die fast identische Content- Präsentation für die 4 Rollen zu ebenso identischen Artikel-Abrufen?

10 Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining 10 Knowledge Discovery Queries mit Mint Der Umgang mit WUM erfordert Expertenwissen -> kein Expertensystem Man muss Vorannahmen treffen, die man mit Hilfe von Mint veri-/falsifizieren kann Definition Spiliopoulou: „a belief is a rule of the form A  B, which is expected to be true“

11 Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining 11 Preprocessing via „find“ Gefiltert wurde aus Performancegründen manuell: gif/jpg, alle parametrisierten Scriptaufrufe (außer cgi [?]), Kontakt, Messen, die meisten Serviceseiten, bekannte Robots Logfile 03.06.02-17.06.02 von 15MB auf 2,4 MB Das in WUM implementierte Weka (Assoziationsregeln) verkraftet keine %, bzw. &- Zeichen. Man ersetze sie via Weka sed –f sedscr filename >xyz Download UnixUtils für Win32  http://unxutils.sourceforge.net/ http://unxutils.sourceforge.net/ filter1.bat filter17.b at Sicherheitswarnung: Fremder Leute batch- files vor dem Ausführen in einem Texteditor anschauen‼! sedscr

12 Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining 12 Website Pages, Association Rules, Mint Queries Association Rules und Mint Queries an unterschiedlichen Mining Bases! (Log Entry mit exakt 2 Abrufen von Suchwörtern in s_index pro Minute legt robot 1 nahe. Später gab es nach dem gleichen Schema Abrufe von s_index und cp_artikel: einem typisch menschlichen Navigationsverhalten also. Abgesehen vom time stamp hat man hier keine Möglichkeit, auf Robot zu schließen  ein Musterbeispiel für einen „unethical robot 1 AssociationR ules Website 1 cf. Tan, Kumar, WebRobots

13 Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining 13 Robot Detection mit WUMprepWUMprep WUMprep ist eine Sammlung von Perl-Scripts zum Logfile-Preprocessing. Scripts detectRobots.pl & removeRobots.pl mit den Heuristiken `Namen´ (ethische Robots) und `maxViewTime´ (nicht ethische) Output `nobots´ und `robot_hosts´ mit Angabe des Hosts und der Heuristik, die zur Identifizierung führte. 195.71.139.174 wurde nicht identifiziert. robot_hosts.txt awk-script zum Anhängen von Visitor- & SessionID (Extended Cookie Format von detectRobots.pl benötigt)

14 Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining 14 Association Rules Mit Robot Entry. Interessant sind Rule 2 und 4 (leider offensichtlich von Robot generiert. Ein Blick in das Logfile bestätigt die Regeln: 195.71.139.174 (der Robot)- - [03/Jun/2002:16:18:18 -0600] "GET /s_index.htm?ansicht=1_wort_id=205_wort=Workflowmanagement_update=2 "GET /cp_artikel.htm?artikel_id=82 Nach Rauswurf von 195.71.139.174 (kein result eines dns lookup bei Hunter.com) gab es mit den Schwellwerten Support=0.05; Confidence =30% keine Regeln mehr

15 Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining 15 Mint Queries Erste Abfrage nach /cp_.htm?fall=1 (Werkzeuge) und artikel_id=122 (Open EIS). Verm.: Er kam nicht an das pdf

16 Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining 16 2. Abfrage START select t from node as a b c, template a * c as t where a.url = "/cp_.htm?fall=1" and b.url != "/cp_.htm?fall=3" and c.url contains "artikel_id=“ Die Ergebnisse bringen Aufrufe nach „Werkzeuge“; „Fallstudien“ und „Methoden“ durcheinander --> Besucher suchen nicht nach bestimmten Inhalten. Auffällig viele Abrufe gibt es für id=122, Open EIS, einem typischen Artikel der Kategorie „Werkzeuge“ –> Einige suchen gezielt.

17 Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining 17 3. Abfrage select t from node as a b, template a [1;3] b as t where a.url = "/cp_.htm?fall=1" and b.url contains "artikel_id=“ ID1-4 zeigen alle zielgerichteten Contentabruf: die erste wird man über “Rollen” wiederfinden, die zweite interessiert sich nicht für Werkzeuge und geht sofort auf Methoden, 3 und 4 sind bei Werkzeuge richtig und rufen nach Durchsicht der Vorschläge (=sortieren) 2 Folgen der Serie “SW-Unterstützung im WM” ab

18 Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining 18 4. Abfrage: Rolle WM- Koordinator select t from node as a b, template a [1;3] b as t where a.url = "/cp_.htm?fall=8" and b.url contains "artikel_id=“ Pattern ID=2 stützt meine These, dass User Product Placements von Inxight/Hummingbird zusammen mit Tool- relevantem Content abrufen. ID=6 klickt sich durch alle Kontexte->Blick ins Logfile; DNS-Lookup (von Fall=1 kommt man nicht auf id=84)

19 Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining 19 5. Abfrage: Alle Folgeaufrufe von `Werkzeuge´ (fall=1) Von „Werkzeuge“ über Hummingbird/Inxight-Produktpräsentationen geht es über „Werkzeug“-Wdh. zu „Lebendiges WM“, i.e. Einsatz von Portalen im WM. Der zweite Pfad geht über „Methoden“ zu „KM-Bewertungsstrategien“, anschließend von „Werkzeuge“ gleichfalls zu Portalen im WM Die Kategorien (Werkzeuge / Methoden) korrelieren in beiden Fällen mit den Folgeaufrufen

20 Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining 20 6. Abfrage: Alle Folgeaufrufe von `Hummingbird´ (id=125) select t from node as a b, template a * b as t where a.url contains "artikel_id=125" and b.support >= 2 Von 6 Abrufen id=125 schaut a) die Stichworte des Artikels unter s_index nach und ruft 1. den ersten und 2. den dritten Treffer des jew. Suchworts ab - eine geradezu idealtypische Form der Suche mit Ausgangspunkt „Kontexte“.

21 Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining 21 Zwischenbetrachtung Die Suche über Kontexte läßt in obigen Abfragen mit hinreichender Anzahl auf zielgerichteten Content- Abruf schließen. Eine Erklärung für „Start bei Werkzeuge“ – „Ziel bei Artikeln anderer Kategorien“ ist die stets vorzufindende Suche nach weiterem Content über die Keywords eines Ausgangsartikels. Die These, dass Produktpräsentationen weniger als Werbung denn als Information wahrgenommen wird, muss weiter verfolgt werden (unter Einbeziehung der Tool-Seiten)  Erweiterung der Konzept-Hierarchie. Abfragen, in denen die statistische Relevanz über Support-/Konfidenz-Regeln erhöht werden sollte, brachte keine Ergebnisse  2 Wochen Logfile- Ausschnitt sind zu kurz. Allerdings liegt der Mittelwert von Content-Abruf der Kategorie Werkzeuge auch nur bei 3,3/d

22 Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining 22 To be continued Danke für´s Zuhören


Herunterladen ppt "Gebhard DettmarGebhard DettmarLogfile Analyse mit WUM am c-o-k.logHS Web MiningWUMc-o-kWeb Mining Logfile-Analyse mit dem Web Utilization Miner WUMWUM."

Ähnliche Präsentationen


Google-Anzeigen