Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Wissen im Web: Semantic Web Mining und die Motivation Freiwilliger Bettina Berendt Humboldt University Berlin, Institute of Information Systems www.wiwi.hu-berlin.de/~berendt.

Ähnliche Präsentationen


Präsentation zum Thema: "Wissen im Web: Semantic Web Mining und die Motivation Freiwilliger Bettina Berendt Humboldt University Berlin, Institute of Information Systems www.wiwi.hu-berlin.de/~berendt."—  Präsentation transkript:

1 Wissen im Web: Semantic Web Mining und die Motivation Freiwilliger Bettina Berendt Humboldt University Berlin, Institute of Information Systems

2 Dank an... meine KoautorInnen (die auf den folgenden Folien gewürdigt sind) und die Seminargruppen, die am EDOC-Projekt mitgearbeitet haben und mitarbeiten: Hanna Brekenfeld, Noppawan Bunyongasena, Thomas Dammeier, Gebhard Dettmar, Kai Dingel, Michael Ferber, Christoph Hanser, Oleg Ishenko, Beate Krause, Altug Kul, Toni Lohde, Egor Nikitin, Thomas Posner, Derya Saki, Mert Sengüner, Daniel Trümper

3 Semantic Web Mining = Semantic Web Mining = Semantic Web Mining

4 Agenda Makrokosmos Begriffe Semantic Web Mining Semantic Web Mining Semantic Web Mining Mikrokosmos Beispiele Semantics Mining Semantics Mining

5 Makrokosmos World Wide Web

6 Das Potenzial

7 Sehr viel Wissen, für Menschen zugänglich.

8 Die Probleme

9 Sehr viel Wissen, für Menschen zugänglich.

10 Web Mining

11 Formen Knowledge discovery (aka Data mining): the non-trivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns in data. 1 Web Mining: die Anwendung von Data- Mining-Techniken auf Inhalt, (Hyperlink-) Struktur und Nutzung von Webressourcen. Webmining-Gebiete: Web content mining Web structure mining Web usage mining 1 Fayyad, U.M., Piatetsky-Shapiro, G., Smyth, P., & Uthurusamy, R. (Eds.) (1996). Advances in Knowledge Discovery and Data Mining. Boston, MA: AAAI/MIT Press

12 Webmining-Gebiete: Web content mining Web structure mining Web usage mining Web Mining: Beispiele

13 Das Hauptproblem des Web Mining

14 Common phrases of selected components00 1.process; water; air; pressure; gas; body of water; natural gas; high pressure; hot water; fresh water;11 2.Mark; Gospel; Matthew; Luke; Rose; Virgin; Virgin Mary; Gospel of John; Gospel of Mark; Gospel of Luke;22 3.part; text; Britannica; entry; Encyclopedia Britannica; Encyclop~¦dia Britannica; Encyclopaedia Britannica; domain Encyclop~¦dia Britannica; public domain Encyclop~¦dia Britannica; public domain text;33 4.property; theorem; elements; proof; subset; axioms; proposition; natural numbers; fundamental theorem; mathematical logic;44 5.Dove; AMD; Dove Streptopelia; imperial crown; Imperial army; imperial court; imperial family; Collared Dove Streptopelia; Imperial Russia;55 6.side; feet; long time; long period; right side; left side; long distances; different types; short distance; opposite side;66 7.David; bill; Bob; Jim; Allen; Dave; Current stars; former members; Bill Clinton; former President;77 8.magazine; newspaper; political parties; public domain text; public opinion; political career; public schools; own right; political life; public service;88 9.way; things; boy; cat; long time; same way; same thing; only way; different ways; good thing; problems; zero; sum; digits; ~~; natural numbers; positive integer; mathematical analysis; decimal digits; natural logarithm; population density; couples; races; total area; makeup; Demographics; median age; income; density; housing units; 175.Torres; Iraqi KASUMI KHAZAD Khufu; Granada; Spa; Fra; General information; General Public License; General Bernardo; New Granada; Torres Strait; 176.love; Me; Rolling Stones; love songs; Rolling Stone magazine; Love Me; Fall in Love; Meet Me; love story; professional wrestler; Das Wikipedia 300 Component Model, generiert mit diskreter PCA Zusammenfassend – Schwächen rein statistischer Ansätze: Interpretation der Resultate? Existenz von Resultaten? Korrektheit? Inferenzen? Zusammenfassend – Schwächen rein statistischer Ansätze: Interpretation der Resultate? Existenz von Resultaten? Korrektheit? Inferenzen?

15 Semantic Web

16 Das Semantic Web The Semantic Web is an extension of the current web in which information is given well-defined meaning, better enabling computers and people to work in co-operation. 1 The Semantic Web provides a common framework that allows data to be shared and reused across application, enterprise, and community boundaries. It is a collaborative effort led by W3C with participation from a large number of researchers and industrial partners. It is based on the Resource Description Framework (RDF), which integrates a variety of applications using XML for syntax and URIs for naming. 2 1 Berners-Lee, T., Hendler, J., & Lassila, O. (2001). The Semantic Web. Sci. American, May Berners-Lee, T. (2000). Semantic Web XML2000.

17 Category structure: Top.... Arts... .... Category structure: Top.... Arts... .... Resources: ... Arts John phillips Blown glass A small display of glass by John Phillips Computers Resources: ... Arts John phillips Blown glass A small display of glass by John Phillips Computers Semantic Web: Beispiel

18 Warum Semantic Web? Bsp. strukturierte Suche (1) – Metadaten gemäß DC

19 Semantische Suche: Bsp. 2 – Metadaten gem. DC + Domänenontologie

20 Was ist eine Ontologie? An ontology is an explicit specification of a shared conceptualisation. (Gruber, 1993) Gruber, T.R. (1993). Towards principles for the design of ontologies used for knowledge sharing. In N. Guarino & R. Poli (Eds.), Formal Ontologies in Conceptual Analysis and Knowledge Representation Deventer, NL: Kluwer. Bozsak, Ehrig, Handschuh, Hotho, Maedche, Motik, Oberle, Schmitz, Staab, Stojanovic, Stojanovic, Studer, Stumme, Sure,Tane, Volz, & Zacharias (2002). KAON - Towards a Large Scale Semantic Web. In Kurt Bauknecht, A. Min Tjoa, & Gerald Quirchmayr (Eds.), E-Commerce and Web Technologies, Third International Conference, EC-Web 2002, Aix-en-Provence, France, September 2-6, 2002, Proceedings (pp ). Springer: LNCS 2455

21 Relational Metadata DAMLPROJ COOPERATES- WITH URI-GST URI-SWMining COOPERATES- WITH WORKS-IN PROJECT RESEARCHER PERSON OBJECT COOPERATES-- WITH TITLE NAME RESEARCHER PERSON Ontology COOPERATES-- WITH Semantic Web Mining WWW - URI-AHO Andreas Hotho cooperateswith (X,Y) cooperateswith (Y,X) WORKS-IN Ontologie-basierte Website-Modellierung

22 Das Hauptproblem des Semantic Web "> Wer soll das alles machen?

23 Strategien zur Schaffung des Semantic Web institutionell: Zwang / extrinsische Motivation sozial: Verteilte Autorenschaft à la Open Source (example: dmoz.org) / intrinsische Motivation informatisch / HCI: Tool-Support informatisch / Informationsverarbeitung …

24 ... Semantic Web Mining

25 Semantic Web Mining: Eine Definition (1) Mining of the Semantic Web (2) Mining for the Semantic Web (3)The iterative process of (1) and (2), in which the semantics obtained by mining are re-used for mining again. Berendt, Stumme, & Hotho, Proc. ISWC 2002; Stumme, G., Hotho, A., & Berendt, B. (submitted). Semantic Web Mining – State of the Art and Future Directions.

26 Mikrokosmos EDOC

27 Wissensbeiträge: Daten und Metadaten 136 Literaturverzeichnis... [2] Albrecht, T. F.; Bott, K.; Meier, T.; Schulze, A.; Koch, M.; Cundiff, S. T.; Feldmann, J.; Stolz, W.; Thomas, P.; Koch, S. W.; Göbel; E. O. Disorder mediated biexcitonic beats in semiconductor quantum wells, Phys. Rev. B, 1996, 54, 4436, Literaturverzeichnis... [2] Albrecht, T. F.; Bott, K.; Meier, T.; Schulze, A.; Koch, M.; Cundiff, S. T.; Feldmann, J.; Stolz, W.; Thomas, P.; Koch, S. W.; Göbel; E. O. Disorder mediated biexcitonic beats in semiconductor quantum wells, Phys. Rev. B, 1996, 54, 4436,...

28 Dissertation Markup Language DiML ... ...

29 Das Potenzial

30 Wenn es diese Daten und Metadaten einmal gibt dann unterstützen sie leistungsfähige Suchen in verteilten Archiven (z.B.) elektr. Abschlussarbeiten u. Dissertationen (ETDs) i.d.R. mit OAI-Metadaten-Harvesting Beispiele: owww.ndltd.org z.Z. 154 Mitglieder / Repositorien ohttp://www.cybertesis.net z.Z. 27 Mitglieder / Repositorien Vorteile für die Autoren: oKostenfreie Publikation, hochwertige Archivierung oGarantie der langfristigen Lesbarkeit (50 Jahre) oAuthentizität & Integrität oSemantische Durchsuchbarkeit

31 ... aber wie bekommt man die (Meta)Daten?

32 Die Probleme

33 Befragung

34 Problem 1: Es ist nicht einfach (und es macht keinen Spaß) Seit Beginn von EDOC (1997): Anteil der Online- Diss. ~20% (13% incl. Medizinische Fakultät) Befragung aller DoktorandInnen und HabilitandInnen (knapp 2500 Personen, 12-14% antworteten) Hauptergebnisse bzgl. Bekanntheit und Nutzung von EDOC-Diensten: oProbleme im Informationsfluss Marketing und Service oDie Erstellung der Metadaten wird als mühselig und schwierig empfunden – insbesondere die I.d.R. nachträglich vorgenommene Literatur-Formatierung [Berendt, Brenstein, Li, & Wendland, Proc. ETD 2003; Berendt, Proc. AAAI Spring Symposium KCVC, 2005]

35 … und das hat Folgen 136 Literaturverzeichnis [1] Agarwal, R.; Krueger, B. P.; Scholes, G. D.; Yang, M.; Yom, J.; Mets, L.; Fleming, G. R. U ltrafast energy transfer in LHC-II revealed by three-pulse photon echo peak shift measurements, J. Phys. Chem. B, 2000, 104, 2908,...

36 Warum ist das ein Problem? Cardona, M., & Marx, W. (2004).Verwechselt,vergessen,wiedergefunden. Referenzen–das fehlerhafte Gedächtnis[...] Physik Journal, 3 (11),

37 Semantics Mining / usage mining

38 Ein 3. Hauptergebnis der Befragung: oweitgehend unbekannt und ungenutzt sind strukturiertes Schreiben strukturierte Suche Frage: Macht die Site Leser zu Autoren? Daten aus dem Webserver-Log 10,992 Sessions (210,655 Seiten) aus einer Woche 2003 (gegen Ende der ersten Befragung) Methoden: semantische Anreicherung, Assoziationsregel- und Sequenzmining (Tools: WEKA, WUM); Clustering, Klassifikation Q: Wissensbereitstellung als Nebeneffekt anderer Aktivitäten? (hier: Websuche)

39 Non-semantic Web Usage Mining [29/Mar/2003:00:02: ] "GET /favicon.ico HTTP/1.1" "-" "Mozilla/5.0 (Windows; U; Win 9x 4.90; de-DE; rv:1.0.1) Gecko/ Netscape/7.0" [29/Mar/2003:00:02: ] "GET /dissertationen/style/did.css HTTP/1.1" "http://edoc.hu-berlin.de/conferences/conf2/Kuehne-Hartmut /HTML/kuehne-ch1.html" "Mozilla/5.0 (Windows; U; Win 9x 4.90; de-DE; rv:1.0.1) Gecko/ Netscape/7.0" [29/Mar/2003:00:02: ] "GET /../projekte/epdiss/kolloqu/schu/slide4.html HTTP/1.0" "-" "Mozilla/5.0 (Slurp/cat; [29/Mar/2003:00:03: ] "GET /humboldt-vl/hofmann- hasso/PDF/Hofmann.pdf HTTP/1.1" "-" "Mozilla/4.0 (compatible; MSIE 6.0; Windows 98; Q312461)" [29/Mar/2003:00:04: ] "GET /dissertationen/biologie/kernekewisch- michaela/HTML/kernekewisch-vita.html HTTP/1.0" "-" "Mozilla/5.0 (Slurp/cat; [29/Mar/2003:00:04: ] "GET /download/kume/r-lailach-hesse.PDF HTTP/1.0" "-" "Googlebot/2.1 +http://www.googlebot.com/bot.html)" [29/Mar/2003:00:07: ] "GET /dissertationen/radspieler-alexander /HTML/radspieler-ch2.html HTTP/1.1" "-" "Firefly/1.0 (compatible; Mozilla 4.0; MSIE 5.5)" Problem: URLs sind nicht semantisch. Eine Analyse der Daten in dieser Form bringt keine Erkenntnis!

40 Ontologie-basierte Verhaltensmodellierung: URLs und Anwendungsereignisse URL Webseite mit Inhalt Gewünschter Dienst Berendt, B., Stumme, G., & Hotho, A. (2004). Usage mining for and on the Semantic Web. In H. Kargupta, A. Joshi, K. Sivakumar, & Y. Yesha (Eds.), Data Mining: Next Generation Challenges and Future Directions. Menlo Park, CA: AAAI/MIT Press. Erhaltener Inhalt

41 Datenvorbereitung: Semantische Anreicherung TOP AUTHORSEARCH DOC OTHER OAIOTHERDISSFULLTEXT LIST DNB AUTHOR KEYWORD META PROJECT OTHER DOC MASTER ABSTRACT ADVICE TEMPLATE FAQ LATEX HINWEISE DIML README … … … … … … ACCESS CONFERENCE PUBLIC READ STUDY CMS ABSTRACT ACCESS RESULT … … … … … … regexpr.txt: mapping from URLs to concepts HOME edoc\.hu-berlin\.de\/$ AUTHOR-START \/e_autoren_en\/$ DISS-ABSTRACT \/abstract\.php3\/habilitationen\/ AUTHOR-ADVICE \/e_autoren\/hinweise\.php\?nav=.* AUTHOR-ADVICE \/e_rzm\/hinweise\.php.*... regexpr.txt: mapping from URLs to concepts HOME edoc\.hu-berlin\.de\/$ AUTHOR-START \/e_autoren_en\/$ DISS-ABSTRACT \/abstract\.php3\/habilitationen\/ AUTHOR-ADVICE \/e_autoren\/hinweise\.php\?nav=.* AUTHOR-ADVICE \/e_rzm\/hinweise\.php.*... HOME

42 1.Ein Zugriff (request) entspricht [dem Interesse an] a)einem Konzept b)einer (Multi-)Menge von Konzepten c)einer strukturierten Menge von Konzepten 2.Ein Merkmalsträger ist i.eine Session, betrachtet als eine (Multi-)Menge von Zugriffen ii.eine Session, betrachtet als eine Sequenz von Zugriffen iii.eine Session, betrachtet als ein Graph von Zugriffen iv.ein Nutzer, modelliert durch –(ggf. aggregierte) Attribute seiner Session(s) + ggf. –andere Attribute (z.B. Wohnort, Einkommen, Transaktionshistorie) Resultat der Datenvorbereitung: Datenmodellierung ABA A B C A BC C ABC

43 Semantic Web Usage Mining – Schritt 2: Musterentdeckung – Bsp. Sequenzmining Find out pages that are usually visited together and inspect the navigation paths between them. Sequence miner WUM (http://www.hypknowsys.de) select t from node as a b, template # _ a * b as t where a.accesses > 100 and a.support > 100 and b.accesses > 50 and b.support > 50 and ( b.support / a.support ) > 0.5 and a.url startswith AUTHOR - only paths starting from author-relevant content

44 Beliebte Eintrittspunkte und 1. Schritte Leser gehen direkt zu Dissertationen u. bleiben dort.

45 Pfade zur Formatvorlage Autoren bleiben bei Autoren-Inhalten.

46 Leser und Autoren sind unterschiedliche Gruppen; Leser werden nicht zu Autoren (jedenfalls nicht in einer Session) Nur wenige Besucher nutzen die interne Suchmaschine, und sie erfahren die strukturierte Suche nicht als effektive oder effiziente Suchoption. Eine separate Fragebogenstudie unterstützt diesen Befund. Die Nutzung externer Suchmaschinen macht den Zugang zu Dissertations-Volltexten wahrscheinlicher. Problem 2: Wissensbereitstellung ergibt sich nicht als Nebeneffekt anderer Aktivitäten (hier: Websuche)

47 Exkurs: Analyse bei gegebener Domänen-Ontologie: ka2portal.aifb.uni-karlsruhe.de ka2portal.aifb.uni-karlsruhe.de Gibt es verschiedene Suchtypen in diesem Onlinekatalog? Welche (Kombinationen von) Suchoptionen sind populär? Was signalisiert dieses über das inhaltliche Interesse der Nutzer?

48 Semantics of requests Step 1: Domain ontology [Oberle, Berendt, Hotho, & Gonzalez, Proc. AWIC 2003] community portal ka2portal.aifb.uni-karlsruhe.de ontology-based: Knowledge base in F-Logic Static pages: annotations Dynamic pages: generated from queries Queries also in F-Logic Logs contain these queries affiliation

49 RESEARCHER PERSON PROJECT PUBLICATION RESEARCHTOPIC EVENT ORGANIZATION RESEARCHINTEREST LASTNAME TITLE ISABOUT EVENTS EVENTTITLE WORKSATPROJECT AUTHOR AFFILIATION ISWORKEDONBY PROGRAMCOMMITTE E EMPLOYS NAME RESEARCHGROUPS An example query with concepts and relations: FORALL N,PEOPLE <-PEOPLE: Employee[affiliation->> "http://www.anInstitute.org"] and PEOPLE:Person[lastName->>N]. Query = feature vector of concepts + relations Session = feature vector of concepts + relations, summed over all queries in the session Semantics of requests Step 2: Modelling requests and sessions-as-sets Clustering, Association rules, Classification,...

50 Der Lösungsansatz

51 Mach es einfacher

52 Semantics Mining / content mining

53 Welche Art von Programmen und Nutzungsschnittstellen unterstützen Autoren und motivieren sie zur Mitarbeit?... Und wie können weitere Daten gesammelt werden, um den Schreibprozess zu verstehen und zu unterstützen? Ein intelligentes Autorentool zur Schaffung von Semantik Prototyp: Fokus auf Bibliographie-Annotation oKern & fehleranfälligster Teil der Formatvorlagen-Benutzung in EDOC Basierend auf Informationsextraktion [Berendt, Proc. AAAI Spring Symposium KCVC, 2005]

54 System-Architektur Web service citeseer paratools TTT other WS and info. sources VBA macro

55 Nutzungsschnittstelle corrected, XML annotated, and formatted

56 Informationsextraktion: Referenz-Parsing in 3 Tools

57 Paratools-Zitations-Parsing Eine Datenbank von Templates der Form '_AUTHORS_ (_YEAR_). _TITLE_. _PUBLICATION_,_VOLUME_(_ISSUE_):_PAGES_' jedes _XXX_ ist assoziiert mit einem regulären Ausdruck oBsp.: _YEAR_ ([[:digit:]]{4}) 2 Gewichtungsfaktoren oreliability: syntaktische Festgelegtheit eines regulären Ausdrucks Ex.: _URL_ > _TITLE_ oconcreteness = Anzahl fixierter Symbole Ex.: '_AUTHORS_,_PUBLICATION_, in press' > '_AUTHORS_, _PUBLICATION_' Templates werden gegen die Referenz gematcht. Wähle das Template mit der höchsten reliability, oder (wenn diese gleich sind) mit der höchsten concreteness.

58 Mach es lohnender

59 Semantics Mining / content + structure mining: RDI – Rosetta Bradshaw, S. (2003). Reference Directed Indexing: Redeeming Relevance for Subject Search in Citation Indexes. In Proceedings of the 7th European Conference on Research and Advanced Technology for Digital Libraries. Bradshaw, S., & Hammond, K. (2000). Guiding people to information: Providing an interface to a digital library using Reference as a basis for indexing. In Proceedings of the Fifth International ACM Conference on Intelligent User Interfaces.

60

61 Versteh es richtig

62 Semantics Mining / content + structure mining: SSI R. Navigli & P. Velardi. Structural Semantic Interconnections: a knowledge-based approach to word sense disambiguation. IEEE Transactions on Pattern Analysis and Machine Intelligence (27-7), July, 2005.

63

64

65 Basic idea: graphs of meanings induced by WordNet Using SSI for word sense disambiguation (The driver turned on his heel and went back to the truck.) Using SSI for word sense disambiguation (The driver turned on his heel and went back to the truck.)

66

67 Zusammenfassung und Ausblick Um Freiwillige zu motivieren, müssen informatische, motivationale und institutionelle Aspekte berücksichtigt werden! Erweiterung des Intelligenten Autoren-Tools: oErweiterung der Leistungsfähigkeit (Zitationsstile,...) oIntegration weiterer Information-Retrieval- und Mining- Verfahren oLaborstudien zur ersten Evaluation oUsage-Mining zur fortlaufenden Evaluation oVerstärkung des Community-Elements!

68 Ausblick 1: Stärkere Einbeziehung der Community

69 bibster.semanticweb.org Recommendations based on items semantics and their... similarity to the users expertise measured by previous externalisations (content of personal database)... similarity to relevant items measured by previous internalisations (answers to a query) and combinations (addition to the personal database) Haase, Ehrig, Hotho, & Schnizler, 2004

70

71 Ausblick 2: Spaß!

72

73

74

75 Danke für die Aufmerksamkeit!


Herunterladen ppt "Wissen im Web: Semantic Web Mining und die Motivation Freiwilliger Bettina Berendt Humboldt University Berlin, Institute of Information Systems www.wiwi.hu-berlin.de/~berendt."

Ähnliche Präsentationen


Google-Anzeigen