Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

1 Data Mining und Digitale Bibliotheken Bettina Berendt Institut für Wirtschaftsinformatik, HU Berlin www.berendt.de.

Ähnliche Präsentationen


Präsentation zum Thema: "1 Data Mining und Digitale Bibliotheken Bettina Berendt Institut für Wirtschaftsinformatik, HU Berlin www.berendt.de."—  Präsentation transkript:

1 1 Data Mining und Digitale Bibliotheken Bettina Berendt Institut für Wirtschaftsinformatik, HU Berlin www.berendt.de

2 2 Fragen

3 3 1. Was tun die Leute da?

4 4 2. Was muss ein Informationssystem anbieten, um wirklich weltweit nutzbar zu sein?

5 5 3. Stell dir vor, es ist Wissensgesellschaft, und keiner geht hin.

6 6 Begriffe

7 7 Digitale Bibliotheken A digital library n comprises digital collections, services and infrastructure to support lifelong learning, research, scholarly communication and preservation. l en.wikipedia.org/wiki/Digital_library en.wikipedia.org/wiki/Digital_library n is... available on the Internet or on CD-ROM l www.cesa8.k12.wi.us/media/digital_dictionary.htm www.cesa8.k12.wi.us/media/digital_dictionary.htm n is an integrated set of services for capturing, cataloging, storing, searching, protecting, and retrieving information l www.wtec.org/loyola/digilibs/d_01.htm www.wtec.org/loyola/digilibs/d_01.htm

8 8 Web Mining Knowledge discovery (aka Data mining): “the non-trivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns in data.” 1 Web Mining: the application of data mining techniques on the content, (hyperlink) structure, and usage of Web resources. Web mining areas: Web content mining Web structure mining Web usage mining 1 Fayyad, U.M., Piatetsky-Shapiro, G., Smyth, P., & Uthurusamy, R. (Eds.) (1996). Advances in Knowledge Discovery and Data Mining. Boston, MA: AAAI/MIT Press

9 9 Wohlbekannt... Web Structure Mining Ranking aufgrund von Zahl + Bedeutung der eingehenden Hyperlinks

10 10 Wohlbekannt... Web Content Mining Treffer aufgrund von Text, Metadaten oder Ankertexten in verweisenden Seiten

11 11 Wohlbekannt... Web Usage Mining

12 12... und noch ein Beispiel (Google goes Pinski/Narin...)

13 13 Zu 1. Was tun die Leute da?

14 14 Rohdaten: Webserver-Logs - - 203.30.5.145 - - [01/Jun/1999:03:09:21 -0600] "GET /Calls/OWOM.html HTTP/1.0" 200 3942 "http://www.lycos.com/cgi-bin/pursuit?query=advertising+psychology- &maxhits=20&cat=dir" "Mozilla/4.5 [en] (Win98; I)" 203.30.5.145 - - [01/Jun/1999:03:09:23 -0600] "GET /Calls/Images/earthani.gif HTTP/1.0" 200 10689 "http://www.acr-news.org/Calls/OWOM.html" "Mozilla/4.5 [en] (Win98; I)" 203.30.5.145 - - [01/Jun/1999:03:09:24 -0600] "GET /Calls/Images/line.gif HTTP/1.0" 200 190 "http://www.acr-news.org/Calls/OWOM.html" "Mozilla/4.5 [en] (Win98; I)" 203.252.234.33 - - [01/Jun/1999:03:12:31 -0600] "GET / HTTP/1.0" 200 4980 "" "Mozilla/4.06 [en] (Win95; I)" 203.252.234.33 - - [01/Jun/1999:03:12:35 -0600] "GET /Images/line.gif HTTP/1.0" 200 190 "http://www.acr-news.org/" "Mozilla/4.06 [en] (Win95; I)" 203.252.234.33 - - [01/Jun/1999:03:12:35 -0600] "GET /Images/red.gif HTTP/1.0" 200 104 "http://www.acr-news.org/" "Mozilla/4.06 [en] (Win95; I)" 203.252.234.33 - - [01/Jun/1999:03:12:35 -0600] "GET /Images/earthani.gif HTTP/1.0" 200 10689 "http://www.acr-news.org/" "Mozilla/4.06 [en] (Win95; I)" 203.252.234.33 - - [01/Jun/1999:03:13:11 -0600] "GET /CP.html HTTP/1.0" 200 3218 "http://www.acr-news.org/" "Mozilla/4.06 [en] (Win95; I)“ 203.30.5.145 - - [01/Jun/1999:03:13:25 -0600] "GET /Calls/AWAC.html HTTP/1.0" 200 104 "http://www.acr-news.org/Calls/OWOM.html" "Mozilla/4.5 [en] (Win98; I)"

15 15 Navigationsspuren einzelner Benutzer: „Individualisierte Sitemaps“ Berendt & Brenstein (BRMIC 2001), Berendt & Kralisch (Proc. GOR 2005), Berendt (Neues Handbuch Hochschullehre, in press) 1. Aprilwoche 2003: 239370 Anfragen 16777 Visits

16 16 Datenvorbereitung: Semantische Anreicherung TOP AUTHORSEARCH DOC OTHER OAIOTHERDISSFULLTEXT LIST DNB AUTHOR KEYWORD META PROJECT OTHER DOC MASTER ABSTRACT ADVICE TEMPLATE FAQ LATEX HINWEISE DIML README … … … … … … ACCESS CONFERENCE PUBLIC READ STUDY CMS ABSTRACT ACCESS RESULT … … … … … … regexpr.txt: mapping from URLs to concepts HOME edoc\.hu-berlin\.de\/$ AUTHOR-START \/e_autoren_en\/$ DISS-ABSTRACT \/abstract\.php3\/habilitationen\/ AUTHOR-ADVICE \/e_autoren\/hinweise\.php\?nav=.* AUTHOR-ADVICE \/e_rzm\/hinweise\.php.*... regexpr.txt: mapping from URLs to concepts HOME edoc\.hu-berlin\.de\/$ AUTHOR-START \/e_autoren_en\/$ DISS-ABSTRACT \/abstract\.php3\/habilitationen\/ AUTHOR-ADVICE \/e_autoren\/hinweise\.php\?nav=.* AUTHOR-ADVICE \/e_rzm\/hinweise\.php.*... HOME

17 17 Die von diesem Besucher betrachteten Konzepte

18 18 Verhaltensmuster (1): Metadatensuche  Dissertation in max. 5 Schritten select t from node as a b, template a [0;4] b as t where a.url = “SEARCH-METADATA" and b.url = "DISS-ACCESS" and a.occurrence = 1 and b.occurrence = 1

19 19 Verhaltensmuster (2): Google  Dissertation in max. 5 Schritten

20 20 Die häufigsten ersten 3 Schritte bei Besuchen von Google aus

21 21 Google  Abstract  Volltext (jeweils in max. 3 Schritten)

22 22 Zu 2. Weltweite Informationssysteme

23 23 Anwendung: Suche in Informationsportalen; e-Health  Fragen: Wie suchen Nutzer? Gibt es unterschiedliche Suchtypen? Führen unterschiedliche Suchoptionen zu unterschiedlichen Arten der Exploration? Zusammenh ä nge zwischen Verhalten u. Sprache, Kultur, Dom ä nenwissen?  Fragen: Wie suchen Nutzer? Gibt es unterschiedliche Suchtypen? Führen unterschiedliche Suchoptionen zu unterschiedlichen Arten der Exploration? Zusammenh ä nge zwischen Verhalten u. Sprache, Kultur, Dom ä nenwissen?

24 24 Semantik: Dienst-Ontologie Alphabetic al search Diagnosis 21002 Diagnosis info TOP Search

25 25 [Berendt, Proc. WebKDD 2005] Mining: Häufige Subgraphen, Visualisierung mit Detail & Kontext

26 26 Suchverhalten: häufige abstrakte Muster Diagnosen sind “Hubs" für die Navigation (5.3%, 4%) Alphabetische Suche: hub-and-spoke → nur linguistische Relationen (6.4%) Lokalisationssuche: linear / Tiefensuche → Suchverfeinerung & medizinisches Wissen (5%) 2 Studien (Webserverlog: 277K Sessions aus 188 Ländern; Webserverlog + Fragebogen: 165 Personen aus 34 Ländern): l Suchmaschine, alphabetische Suche: v.a. Muttersprachler, Ärzte l Lokalisationssuche: nicht-muttersprachliche Patienten  Domänenwissen kompensiert geringe Sprachkenntnisse. [Berendt, Proc. WebKDD 2005] [Kralisch & Berendt, New Review of Hypermedia and Multimedia 2005]

27 27 Zu 3. Wissensgesellschaft / Open Access

28 28 Wissensbeiträge in einer Dig. Bibliothek: Daten & Metadaten 136 Literaturverzeichnis... [2] Albrecht, T. F.; Bott, K.; Meier, T.; Schulze, A.; Koch, M.; Cundiff, S. T.; Feldmann, J.; Stolz, W.; Thomas, P.; Koch, S. W.; Göbel; E. O. Disorder mediated biexcitonic beats in semiconductor quantum wells, Phys. Rev. B, 1996, 54, 4436,... ( http://edoc.hu-berlin.de/diml/dtd/xdiml.dtd) 136 Literaturverzeichnis... [2] Albrecht, T. F.; Bott, K.; Meier, T.; Schulze, A.; Koch, M.; Cundiff, S. T.; Feldmann, J.; Stolz, W.; Thomas, P.; Koch, S. W.; Göbel; E. O. Disorder mediated biexcitonic beats in semiconductor quantum wells, Phys. Rev. B, 1996, 54, 4436,... ( http://edoc.hu-berlin.de/diml/dtd/xdiml.dtd)

29 29 EDOC non-/not-yet-authors Don’t publish online because they  don’t wish to?  do not feel capable / perceive barriers?  are unaware of the possibility? EDOC authors (contributors)  Publication on EDOC is a fast & easy way to satisfy the German university publication requirements.  I have learned about EDOC (too) late.  The formatting requirements are difficult. Motivation: Knowns and unknowns

30 30 Methode Date: Tue, 11 Mar 2003 From: Yunfan Li To: the edoc survey mailing list Subject: Digital Dissertation Questionnaire for HU Doctoral Students and Doctors Dear doctoral student, dear doctor, Would you please take about 5 minutes to complete the HU Digital Dissertation Questionnaire. The goal of this investigation is to find out how the Digital publishing opportunity is known and used by HU doctoral students and doctors. With your help, we aim to continue to improve the service of the Document and Publication Server (http://edoc.hu-berlin.de)....

31 31 Problem 1: Es ist nicht einfach (und es macht keinen Spaß) Befragung aller DoktorandInnen und HabilitandInnen (knapp 2500 Personen, 12-14% antworteten) Hauptergebnisse bzgl. Bekanntheit und Nutzung von EDOC- Diensten: n Probleme im Informationsfluss  Marketing und Service n Die Erstellung der Metadaten wird als mühselig und schwierig empfunden – insbesondere die I.d.R. nachträglich vorgenommene Literatur-Formatierung [Berendt, Brenstein, Li, & Wendland, Proc. ETD 2003; Berendt, Proc. AAAI Spring Symposium KCVC, 2005]

32 32 … und das hat Folgen 136 Literaturverzeichnis [1] Agarwal, R.; Krueger, B. P.; Scholes, G. D.; Yang, M.; Yom, J.; Mets, L.; Fleming, G. R. U ltrafast energy transfer in LHC-II revealed by three-pulse photon echo peak shift measurements, J. Phys. Chem. B, 2000, 104, 2908,...

33 33 Warum ist das ein Problem? Cardona, M., & Marx, W. (2004).Verwechselt,vergessen,wiedergefunden. Referenzen–das fehlerhafte Gedächtnis[...] Physik Journal, 3 (11), 27-29.

34 34 Leser und Autoren sind unterschiedliche Gruppen; Leser werden nicht zu Autoren (jedenfalls nicht in einer Session) Nur wenige Besucher nutzen die interne Suchmaschine, und sie erfahren die strukturierte Suche nicht als effektive oder effiziente Suchoption. Strukturiertes Schreiben ist weitgehend unbekannt. Eine separate Fragebogenstudie unterstützt diesen Befund. Die Nutzung externer Suchmaschinen macht den Zugang zu Dissertations-Volltexten wahrscheinlicher.  Problem 2: Wissensbereitstellung ergibt sich nicht als Nebeneffekt anderer Aktivitäten (hier: Websuche)

35 35... viele Fehler auch beim autonomen Zitations-Indexing

36 36 Ansatz: Autoren- und Leserwerkzeuge

37 37 Web services IR-THESIS – Systemarchitektur Web services Text mining / Information Extraction tools Text mining / Information Extraction tools Databases (local a/o mirrored) Databases (local a/o mirrored) other WS and info. sources VBA macro Berendt, Dingel, & Hanser (Proc. ECDL 2006) / www.wiwi.hu-berlin.de/~berendt/DLwww.wiwi.hu-berlin.de/~berendt/DL

38 38 Komponenten wissenschaftlicher Arbeit n Informationssuche und –retrieval n Schreiben n Veröffentlichen n Wissen teilen n Diskussion

39 39 Co-citationBibliographic coupling Citation analysis – linkage patterns Direct citation AB C AB C AB Bibliographic coupling Co-citation “composite judgement of hundreds of citers” dynamically changing

40 40 Literature search and bibliography construction

41 41 Publishing and sharing the results

42 42 Schreiben: Nutzungsschnittstelle corrected, XML annotated, and formatted

43 43 Informationsextraktion: Referenz-Parsing in 3 Tools

44 44 Mining (Bsp.): Zitations-Parsing in den Paratools http://paracite.eprints.org Eine Datenbank von Templates der Form '_AUTHORS_ (_YEAR_). _TITLE_. _PUBLICATION_,_VOLUME_(_ISSUE_):_PAGES_' jedes _XXX_ ist assoziiert mit einem regulären Ausdruck n Bsp.: _YEAR_  ([[:digit:]]{4}) 2 Gewichtungsfaktoren n reliability: „syntaktische Festgelegtheit“ eines regulären Ausdrucks l Ex.: _URL_ > _TITLE_ n concreteness = Anzahl fixierter Symbole l Ex.: '_AUTHORS_,_PUBLICATION_, in press' > '_AUTHORS_, _PUBLICATION_' Templates werden gegen die Referenz gematcht. Wähle das Template mit der höchsten reliability, oder (wenn diese gleich sind) mit der höchsten concreteness.

45 45 Ausblick: Was Data Mining noch kann... und wofür es sensibilisiert

46 46 Data Mining wider Vorurteile Problembereiche des Open Acces: n Mangelnde Qualitätskontrolle n Überschussangebot n Geringere Reputation n Neues unsicheres Verfahren n Marketing n Urheberrecht l Lösungsansatz aus dem Elektronischen Publizieren: neue detaillierte Lizenzmodelle, z.B. Creative Commons l Aber:  Lösungsansatz aus dem Data Mining: Plagiats-Suchdienste

47 47

48 48 Open Access – quo vadis? Nach der Bibliothekskrise... Reiche lesen Fähige schreiben Reiche zahlen (fürs Lesen) Reiche lesen alles Arme lesen vieles Fähige schreiben Reiche zahlen (fürs Lesen) Durch green road self-archiving... Mit lückenlosen golden road OA und IPR... Alle lesen alles Reiche zahlen (fürs Schreiben: pay-per-publication) Reiche schreiben Alle lesen alles Reiche zahlen („Steuer“) Fähige schreiben ?

49 49 Zusammenfassung und Ausblick Data Mining / Web Mining kann helfen, n die Benutzung digitaler Bibliotheken zu verstehen und zu unterstützen n Eine digitale Bibliothek „ubiquitär“ nutzbar zu machen n Menschen zu aktiven Mitgestaltern der in digitalen Bibliotheken manifestierten Wissensgesellschaft zu machen Viele offene Fragen, z.B. n Was wollen Autoren und Leser? n Welche Maße sind (besser) geeignet, um Aktivität, Qualität etc. zu messen? n Was bedeutet Access?

50 50 … für Ihre Aufmerksamkeit! Danke …

51 51 Bildnachweis... mit herzlichem Dank an die Internet-Gemeinde! S. 1: http://www.iath.virginia.edu/~jmu2m/SDL_files/image023.gifhttp://www.iath.virginia.edu/~jmu2m/SDL_files/image023.gif S. 3: http://www.britishcouncil.org/arts-literature-330x220library.jpghttp://www.britishcouncil.org/arts-literature-330x220library.jpg S. 4: http://www.mitretek.org/gbc/images/pic_doctor.jpg und http://thecia.com.au/reviews/b/images/brokeback-mountain-3.jpghttp://www.mitretek.org/gbc/images/pic_doctor.jpg http://thecia.com.au/reviews/b/images/brokeback-mountain-3.jpg S. 5: http://www.bl.uk/services/learning/curriculum/medrealms/images/t2i magesource3depisan.jpg http://www.bl.uk/services/learning/curriculum/medrealms/images/t2i magesource3depisan.jpg Weitere Abbildungen wurden den zitierten Quellen entnommen bzw. sind Screenshots der untersuchten Websites.


Herunterladen ppt "1 Data Mining und Digitale Bibliotheken Bettina Berendt Institut für Wirtschaftsinformatik, HU Berlin www.berendt.de."

Ähnliche Präsentationen


Google-Anzeigen