1 Data Mining und Digitale Bibliotheken Bettina Berendt Institut für Wirtschaftsinformatik, HU Berlin www.berendt.de.

Slides:



Advertisements
Ähnliche Präsentationen
Cadastre for the 21st Century – The German Way
Advertisements

Vernetzung von Repositorien : DRIVER Guidelines Dr Dale Peters, SUB Goettingen 4. Helmholtz Open Access Workshop Potsdam, 17 Juni 2008.
Developing your Business to Success We are looking for business partners. Enterprise Content Management with OS|ECM Version 6.
E-Solutions mySchoeller.com for Felix Schoeller Imaging
DNS-Resolver-Mechanismus
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil3.
Einführung in die Informatik: Programmierung und Software-Entwicklung
Wissen im Web: Semantic Web Mining und die Motivation Freiwilliger
Die ZBW ist Mitglied der Leibniz-Gemeinschaft Copyright © ZBW 2010 Seite 1 Potenziale semantischer Technologien für die Bibliothek der Zukunft Klaus Tochtermann.
© 2006 Open Grid Forum OGF26 - Chapel Hill, May 2009 Addressing Metadata Challenges OGF Digital Repositories RG.
CPCP Institute of Clinical Pharmacology AGAH Annual Meeting, 29. Februar 2004, Berlin, Praktischer Umgang mit den Genehmigungsanträgen gemäß 12. AMG Novelle.
Modelle und Methoden der Linearen und Nichtlinearen Optimierung (Ausgewählte Methoden und Fallstudien) U N I V E R S I T Ä T H A M B U R G November 2011.
Modelle und Methoden der Linearen und Nichtlinearen Optimierung (Ausgewählte Methoden und Fallstudien) U N I V E R S I T Ä T H A M B U R G November 2011.
Eberhard R. Hilf, Kerstin Zimmermann Institute for Science Networking Fachbereich Physik Carl-von-Ossietzky Universität Oldenburg
DissOnline / Digitale Dissertationen Dr. P. Schirmbacher Offene Standards und internationale / nationale Abstimmung Gliederung: 1.Open Archive.
1 JIM-Studie 2010 Jugend, Information, (Multi-)Media Landesanstalt für Kommunikation Baden-Württemberg (LFK) Landeszentrale für Medien und Kommunikation.
Personalisierte Benutzeroberflächen BFD WS 12/13 Übung 6 Producing an end-user experience that is uniquely appropriate for each individual. [Sears]
= = = = 47 = 47 = 48 = =
study of medicine no obligatory training content in almost all medical schools (universities) in Germany elective subject for medical students during.
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil2.
Hochschulteam der Agentur für Arbeit Trier Preventing the Brainware Crisis Workshop Schloss Dagstuhl Student Enrollment in Computer Science.
Introduction to the topic. Goals: Improving the students essay style in general Finding special words and expressions that can be used in essay writing.
virtPresenter „lecture recording framework“
1. 2 Schreibprojekt Zeitung 3 Überblick 1. Vorstellung ComputerLernWerkstatt 2. Schreibprojekt: Zeitung 2.1 Konzeption des Kurses 2.2 Projektverlauf.
20:00.
Die Geschichte von Rudi
Zu + Infinitiv : eine Erklärung
Case Study Session in 9th GCSM: NEGA-Resources-Approach
Machen Sie sich schlau am Beispiel Schizophrenie.
Institut AIFB, Universität Karlsruhe (TH) Forschungsuniversität gegründet 1825 Towards Automatic Composition of Processes based on Semantic.
Eine Einführung in die CD-ROM
| DC-IAP/SVC3 | © Bosch Rexroth Pneumatics GmbH This document, as well as the data, specifications and other information set forth in.
Centre for Public Administration Research E-Government for European Cities Thomas Prorok
1 Ein kurzer Sprung in die tiefe Vergangenheit der Erde.
The free XML Editor for Windows COOKTOP Semistrukturierte Daten 1 Vortrag Semistrukturierte Daten 1 COOKTOP The free XML-Editor for Windows
Deutsch 1 G Stunde. Donnerstag, der 18. Oktober 2012 Deutsch 1, G Stunde Heute ist ein E- Tag Unit: Family & homeFamilie & Zuhause Objectives: Phrases.
G Stunde DEUTSCH 1. Unit: Family & homeFamilie & Zuhause Objectives: Phrases about date, weather and time-telling Alphabet – pronunciation and words The.
Deutsch 1 G Stunde. Donnerstag, der 18. Oktober 2012 Deutsch 1, G Stunde Heute ist ein D- Tag Unit: Family & homeFamilie & Zuhause Objectives: Phrases.
RateMe Slides. Ablauf Präsentation des Konzepts (5-10 min) Demonstration der laufenden Software (5-10 min) Fazit der gesammelten Erkenntnisse.
Your name Bedeutung von Internet- Technologien Gruppe 1 Andreas Feuerstein Philipp Hochratner Christian Weinzinger.
Frank Fischer + Bernhard Frank Microsoft Deutschland GmbH.
XML IV: Cocoon 2.
DEUTSCHLAND UND DIE MEDIEN
Guten Morgen!.
Verben Wiederholung Deutsch III Notizen.
Template v5 October 12, Copyright © Infor. All Rights Reserved.
Aktivitäten seit 2001 (Beispiele) Projekt mit Japan (Universität Nagoya) seit 2006 Projekte Syrien (DAAD) und Jordanien (GTZ) 2000 – 2004 Keynote.
Staatsballett Berlin Ein Verbesserungskonzept für den Social- Media Auftritt Your picture here.
PROCAM Score Alter (Jahre)
Criteria for Authorship
Ein Projekt des Technischen Jugendfreizeit- und Bildungsvereins (tjfbv) e.V. kommunizieren.de Blended Learning for people with disabilities.
Symmetrische Blockchiffren DES – der Data Encryption Standard
Digital Dashboard Toolkit 2001 SharePoint Portal Server released targeting portal market SharePoint Team Services (STS) released as free add-
Talking about yourself
MINDREADER Ein magisch - interaktives Erlebnis mit ENZO PAOLO
Heute ist Montag, der 17. September 2012: Lernziel: 1.Diskussion: Sprechen 2.Wie kommst du zur Schule? 3.Leseverständnis (Reading Comprehension) 4.Quiz.
1 (C)2006, Hermann Knoll, HTW Chur, FHO Quadratische Reste Definitionen: Quadratischer Rest Quadratwurzel Anwendungen.
3rd Review, Vienna, 16th of April 1999 SIT-MOON ESPRIT Project Nr Siemens AG Österreich Robotiker Technische Universität Wien Politecnico di Milano.
Wind Energy in Germany 2004 Ralf Christmann, BMU Joachim Kutscher, PTJ
Schutzvermerk nach DIN 34 beachten 20/05/14 Seite 1 Grundlagen XSoft Lösung :Logische Grundschaltung IEC-Grundlagen und logische Verknüpfungen.
Lehrstuhl für Waldbau, Technische Universität MünchenBudapest, 10./11. December 2006 WP 1 Status (TUM) Bernhard Felbermeier.
Essential Vocabulary for Traveling in Deutschland
1 Mathematical Programming Nichtlineare Programmierung.
Proposal for a unified XML-file of the avalanche report... © Patrick NAIRZ, Avalanche Warning Center Tyrol - Why do we need a unified XML-file? - Integration.
1 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt Modalverben.
Numbers Greetings and Good-byes All about Me Verbs and Pronouns
1 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt Wie.
1 Medienpädagogischer Forschungsverbund Südwest KIM-Studie 2014 Landesanstalt für Kommunikation Baden-Württemberg (LFK) Landeszentrale für Medien und Kommunikation.
Monatsbericht Ausgleichsenergiemarkt Gas – Oktober
 Präsentation transkript:

1 Data Mining und Digitale Bibliotheken Bettina Berendt Institut für Wirtschaftsinformatik, HU Berlin

2 Fragen

3 1. Was tun die Leute da?

4 2. Was muss ein Informationssystem anbieten, um wirklich weltweit nutzbar zu sein?

5 3. Stell dir vor, es ist Wissensgesellschaft, und keiner geht hin.

6 Begriffe

7 Digitale Bibliotheken A digital library n comprises digital collections, services and infrastructure to support lifelong learning, research, scholarly communication and preservation. l en.wikipedia.org/wiki/Digital_library en.wikipedia.org/wiki/Digital_library n is... available on the Internet or on CD-ROM l n is an integrated set of services for capturing, cataloging, storing, searching, protecting, and retrieving information l

8 Web Mining Knowledge discovery (aka Data mining): “the non-trivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns in data.” 1 Web Mining: the application of data mining techniques on the content, (hyperlink) structure, and usage of Web resources. Web mining areas: Web content mining Web structure mining Web usage mining 1 Fayyad, U.M., Piatetsky-Shapiro, G., Smyth, P., & Uthurusamy, R. (Eds.) (1996). Advances in Knowledge Discovery and Data Mining. Boston, MA: AAAI/MIT Press

9 Wohlbekannt... Web Structure Mining Ranking aufgrund von Zahl + Bedeutung der eingehenden Hyperlinks

10 Wohlbekannt... Web Content Mining Treffer aufgrund von Text, Metadaten oder Ankertexten in verweisenden Seiten

11 Wohlbekannt... Web Usage Mining

12... und noch ein Beispiel (Google goes Pinski/Narin...)

13 Zu 1. Was tun die Leute da?

14 Rohdaten: Webserver-Logs [01/Jun/1999:03:09: ] "GET /Calls/OWOM.html HTTP/1.0" " &maxhits=20&cat=dir" "Mozilla/4.5 [en] (Win98; I)" [01/Jun/1999:03:09: ] "GET /Calls/Images/earthani.gif HTTP/1.0" " "Mozilla/4.5 [en] (Win98; I)" [01/Jun/1999:03:09: ] "GET /Calls/Images/line.gif HTTP/1.0" " "Mozilla/4.5 [en] (Win98; I)" [01/Jun/1999:03:12: ] "GET / HTTP/1.0" "" "Mozilla/4.06 [en] (Win95; I)" [01/Jun/1999:03:12: ] "GET /Images/line.gif HTTP/1.0" " "Mozilla/4.06 [en] (Win95; I)" [01/Jun/1999:03:12: ] "GET /Images/red.gif HTTP/1.0" " "Mozilla/4.06 [en] (Win95; I)" [01/Jun/1999:03:12: ] "GET /Images/earthani.gif HTTP/1.0" " "Mozilla/4.06 [en] (Win95; I)" [01/Jun/1999:03:13: ] "GET /CP.html HTTP/1.0" " "Mozilla/4.06 [en] (Win95; I)“ [01/Jun/1999:03:13: ] "GET /Calls/AWAC.html HTTP/1.0" " "Mozilla/4.5 [en] (Win98; I)"

15 Navigationsspuren einzelner Benutzer: „Individualisierte Sitemaps“ Berendt & Brenstein (BRMIC 2001), Berendt & Kralisch (Proc. GOR 2005), Berendt (Neues Handbuch Hochschullehre, in press) 1. Aprilwoche 2003: Anfragen Visits

16 Datenvorbereitung: Semantische Anreicherung TOP AUTHORSEARCH DOC OTHER OAIOTHERDISSFULLTEXT LIST DNB AUTHOR KEYWORD META PROJECT OTHER DOC MASTER ABSTRACT ADVICE TEMPLATE FAQ LATEX HINWEISE DIML README … … … … … … ACCESS CONFERENCE PUBLIC READ STUDY CMS ABSTRACT ACCESS RESULT … … … … … … regexpr.txt: mapping from URLs to concepts HOME edoc\.hu-berlin\.de\/$ AUTHOR-START \/e_autoren_en\/$ DISS-ABSTRACT \/abstract\.php3\/habilitationen\/ AUTHOR-ADVICE \/e_autoren\/hinweise\.php\?nav=.* AUTHOR-ADVICE \/e_rzm\/hinweise\.php.*... regexpr.txt: mapping from URLs to concepts HOME edoc\.hu-berlin\.de\/$ AUTHOR-START \/e_autoren_en\/$ DISS-ABSTRACT \/abstract\.php3\/habilitationen\/ AUTHOR-ADVICE \/e_autoren\/hinweise\.php\?nav=.* AUTHOR-ADVICE \/e_rzm\/hinweise\.php.*... HOME

17 Die von diesem Besucher betrachteten Konzepte

18 Verhaltensmuster (1): Metadatensuche  Dissertation in max. 5 Schritten select t from node as a b, template a [0;4] b as t where a.url = “SEARCH-METADATA" and b.url = "DISS-ACCESS" and a.occurrence = 1 and b.occurrence = 1

19 Verhaltensmuster (2): Google  Dissertation in max. 5 Schritten

20 Die häufigsten ersten 3 Schritte bei Besuchen von Google aus

21 Google  Abstract  Volltext (jeweils in max. 3 Schritten)

22 Zu 2. Weltweite Informationssysteme

23 Anwendung: Suche in Informationsportalen; e-Health  Fragen: Wie suchen Nutzer? Gibt es unterschiedliche Suchtypen? Führen unterschiedliche Suchoptionen zu unterschiedlichen Arten der Exploration? Zusammenh ä nge zwischen Verhalten u. Sprache, Kultur, Dom ä nenwissen?  Fragen: Wie suchen Nutzer? Gibt es unterschiedliche Suchtypen? Führen unterschiedliche Suchoptionen zu unterschiedlichen Arten der Exploration? Zusammenh ä nge zwischen Verhalten u. Sprache, Kultur, Dom ä nenwissen?

24 Semantik: Dienst-Ontologie Alphabetic al search Diagnosis Diagnosis info TOP Search

25 [Berendt, Proc. WebKDD 2005] Mining: Häufige Subgraphen, Visualisierung mit Detail & Kontext

26 Suchverhalten: häufige abstrakte Muster Diagnosen sind “Hubs" für die Navigation (5.3%, 4%) Alphabetische Suche: hub-and-spoke → nur linguistische Relationen (6.4%) Lokalisationssuche: linear / Tiefensuche → Suchverfeinerung & medizinisches Wissen (5%) 2 Studien (Webserverlog: 277K Sessions aus 188 Ländern; Webserverlog + Fragebogen: 165 Personen aus 34 Ländern): l Suchmaschine, alphabetische Suche: v.a. Muttersprachler, Ärzte l Lokalisationssuche: nicht-muttersprachliche Patienten  Domänenwissen kompensiert geringe Sprachkenntnisse. [Berendt, Proc. WebKDD 2005] [Kralisch & Berendt, New Review of Hypermedia and Multimedia 2005]

27 Zu 3. Wissensgesellschaft / Open Access

28 Wissensbeiträge in einer Dig. Bibliothek: Daten & Metadaten 136 Literaturverzeichnis... [2] Albrecht, T. F.; Bott, K.; Meier, T.; Schulze, A.; Koch, M.; Cundiff, S. T.; Feldmann, J.; Stolz, W.; Thomas, P.; Koch, S. W.; Göbel; E. O. Disorder mediated biexcitonic beats in semiconductor quantum wells, Phys. Rev. B, 1996, 54, 4436,... ( Literaturverzeichnis... [2] Albrecht, T. F.; Bott, K.; Meier, T.; Schulze, A.; Koch, M.; Cundiff, S. T.; Feldmann, J.; Stolz, W.; Thomas, P.; Koch, S. W.; Göbel; E. O. Disorder mediated biexcitonic beats in semiconductor quantum wells, Phys. Rev. B, 1996, 54, 4436,... (

29 EDOC non-/not-yet-authors Don’t publish online because they  don’t wish to?  do not feel capable / perceive barriers?  are unaware of the possibility? EDOC authors (contributors)  Publication on EDOC is a fast & easy way to satisfy the German university publication requirements.  I have learned about EDOC (too) late.  The formatting requirements are difficult. Motivation: Knowns and unknowns

30 Methode Date: Tue, 11 Mar 2003 From: Yunfan Li To: the edoc survey mailing list Subject: Digital Dissertation Questionnaire for HU Doctoral Students and Doctors Dear doctoral student, dear doctor, Would you please take about 5 minutes to complete the HU Digital Dissertation Questionnaire. The goal of this investigation is to find out how the Digital publishing opportunity is known and used by HU doctoral students and doctors. With your help, we aim to continue to improve the service of the Document and Publication Server (

31 Problem 1: Es ist nicht einfach (und es macht keinen Spaß) Befragung aller DoktorandInnen und HabilitandInnen (knapp 2500 Personen, 12-14% antworteten) Hauptergebnisse bzgl. Bekanntheit und Nutzung von EDOC- Diensten: n Probleme im Informationsfluss  Marketing und Service n Die Erstellung der Metadaten wird als mühselig und schwierig empfunden – insbesondere die I.d.R. nachträglich vorgenommene Literatur-Formatierung [Berendt, Brenstein, Li, & Wendland, Proc. ETD 2003; Berendt, Proc. AAAI Spring Symposium KCVC, 2005]

32 … und das hat Folgen 136 Literaturverzeichnis [1] Agarwal, R.; Krueger, B. P.; Scholes, G. D.; Yang, M.; Yom, J.; Mets, L.; Fleming, G. R. U ltrafast energy transfer in LHC-II revealed by three-pulse photon echo peak shift measurements, J. Phys. Chem. B, 2000, 104, 2908,...

33 Warum ist das ein Problem? Cardona, M., & Marx, W. (2004).Verwechselt,vergessen,wiedergefunden. Referenzen–das fehlerhafte Gedächtnis[...] Physik Journal, 3 (11),

34 Leser und Autoren sind unterschiedliche Gruppen; Leser werden nicht zu Autoren (jedenfalls nicht in einer Session) Nur wenige Besucher nutzen die interne Suchmaschine, und sie erfahren die strukturierte Suche nicht als effektive oder effiziente Suchoption. Strukturiertes Schreiben ist weitgehend unbekannt. Eine separate Fragebogenstudie unterstützt diesen Befund. Die Nutzung externer Suchmaschinen macht den Zugang zu Dissertations-Volltexten wahrscheinlicher.  Problem 2: Wissensbereitstellung ergibt sich nicht als Nebeneffekt anderer Aktivitäten (hier: Websuche)

35... viele Fehler auch beim autonomen Zitations-Indexing

36 Ansatz: Autoren- und Leserwerkzeuge

37 Web services IR-THESIS – Systemarchitektur Web services Text mining / Information Extraction tools Text mining / Information Extraction tools Databases (local a/o mirrored) Databases (local a/o mirrored) other WS and info. sources VBA macro Berendt, Dingel, & Hanser (Proc. ECDL 2006) /

38 Komponenten wissenschaftlicher Arbeit n Informationssuche und –retrieval n Schreiben n Veröffentlichen n Wissen teilen n Diskussion

39 Co-citationBibliographic coupling Citation analysis – linkage patterns Direct citation AB C AB C AB Bibliographic coupling Co-citation “composite judgement of hundreds of citers” dynamically changing

40 Literature search and bibliography construction

41 Publishing and sharing the results

42 Schreiben: Nutzungsschnittstelle corrected, XML annotated, and formatted

43 Informationsextraktion: Referenz-Parsing in 3 Tools

44 Mining (Bsp.): Zitations-Parsing in den Paratools Eine Datenbank von Templates der Form '_AUTHORS_ (_YEAR_). _TITLE_. _PUBLICATION_,_VOLUME_(_ISSUE_):_PAGES_' jedes _XXX_ ist assoziiert mit einem regulären Ausdruck n Bsp.: _YEAR_  ([[:digit:]]{4}) 2 Gewichtungsfaktoren n reliability: „syntaktische Festgelegtheit“ eines regulären Ausdrucks l Ex.: _URL_ > _TITLE_ n concreteness = Anzahl fixierter Symbole l Ex.: '_AUTHORS_,_PUBLICATION_, in press' > '_AUTHORS_, _PUBLICATION_' Templates werden gegen die Referenz gematcht. Wähle das Template mit der höchsten reliability, oder (wenn diese gleich sind) mit der höchsten concreteness.

45 Ausblick: Was Data Mining noch kann... und wofür es sensibilisiert

46 Data Mining wider Vorurteile Problembereiche des Open Acces: n Mangelnde Qualitätskontrolle n Überschussangebot n Geringere Reputation n Neues unsicheres Verfahren n Marketing n Urheberrecht l Lösungsansatz aus dem Elektronischen Publizieren: neue detaillierte Lizenzmodelle, z.B. Creative Commons l Aber:  Lösungsansatz aus dem Data Mining: Plagiats-Suchdienste

47

48 Open Access – quo vadis? Nach der Bibliothekskrise... Reiche lesen Fähige schreiben Reiche zahlen (fürs Lesen) Reiche lesen alles Arme lesen vieles Fähige schreiben Reiche zahlen (fürs Lesen) Durch green road self-archiving... Mit lückenlosen golden road OA und IPR... Alle lesen alles Reiche zahlen (fürs Schreiben: pay-per-publication) Reiche schreiben Alle lesen alles Reiche zahlen („Steuer“) Fähige schreiben ?

49 Zusammenfassung und Ausblick Data Mining / Web Mining kann helfen, n die Benutzung digitaler Bibliotheken zu verstehen und zu unterstützen n Eine digitale Bibliothek „ubiquitär“ nutzbar zu machen n Menschen zu aktiven Mitgestaltern der in digitalen Bibliotheken manifestierten Wissensgesellschaft zu machen Viele offene Fragen, z.B. n Was wollen Autoren und Leser? n Welche Maße sind (besser) geeignet, um Aktivität, Qualität etc. zu messen? n Was bedeutet Access?

50 … für Ihre Aufmerksamkeit! Danke …

51 Bildnachweis... mit herzlichem Dank an die Internet-Gemeinde! S. 1: S. 3: S. 4: und S. 5: magesource3depisan.jpg magesource3depisan.jpg Weitere Abbildungen wurden den zitierten Quellen entnommen bzw. sind Screenshots der untersuchten Websites.