Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

MathNet a network for mathematicians Judith Plümer Universität Osnabrück Judith Plümer Universität Osnabrück

Ähnliche Präsentationen


Präsentation zum Thema: "MathNet a network for mathematicians Judith Plümer Universität Osnabrück Judith Plümer Universität Osnabrück"—  Präsentation transkript:

1 MathNet a network for mathematicians Judith Plümer Universität Osnabrück Judith Plümer Universität Osnabrück

2 Oldenburg2 Inhalt  Problemstellung  Math-Net  Preprints  organizing WWW servers (the MathNet Page)  personal homepages  weiterführende Projekte  CARMEN  Replication of Services

3 Oldenburg3 Probleme... im Bereich elektronischer Information und Kommunikation  jeder Fachbereich bietet Informationen an:  Liste von Mitarbeitern  Publikationen  Vorlesungsmaterial  Mensaplan  wie findet man gezielt Information? (Alta Vista)

4 erster Lösungsansatz (1994) Sensitive map der mathematischen Fachbereiche in Deutschland

5 Oldenburg5 Sensitive map  geographische Strukturierung  sinnvoller wäre eine Strukturierung nach Dokumenttypen oder Themengebieten

6 Oldenburg6 Ein Lösungsansatz (1997) Aus der Sicht eines Mathematikers:  Math-Net  von Nutzern betrieben  Strukturierung mathematischer Information  Komplettierung elektronischer Information  Angebot von Retrieval Mechanismen  Angebot von Navigationswerkzeugen  nationales Projekt / weltweite Initiative

7 Oldenburg7 MPRESS ein Beispiel für einen Math-Net Dienst Topology Atlas Preprints von WWW Servern Deutschlands Frankreich Österreich Fachbereiche in Europa LANL Brasilien

8 The Mathematics PREprint Search System MPRESS MathNet.preprints

9 Oldenburg9 Technische Basis  Software Harvest  Broker Komponente  Replicator Komponente  Gatherer Komponente  lauffähig unter UNIX / Linux  (Variante: Netscape Compass Server)

10 GET Doc 1 http – protocol Gatherer Doc 1 HRef Homepage einer Serie Doc 2 HRef Titelseite eines Artikels Doc 3 HRef Volltext eines Artikels Essence Docs Broker SOIFs

11

12 Volltextsuche liefert unscharfe Ergebnisse

13 Oldenburg13 Suche in festen Datenfeldern bzw. Suche in Metadaten:  Autor  Titel  Keywords  Klassifikation (MSC)  Datum

14 Oldenburg14

15 Oldenburg15

16

17

18

19 Oldenburg19 Wer erstellt die Metadaten?  Traditionell werden Metadaten von Bibliothekaren oder Dokumentaren erstellt:  braucht Zeit  kostet Geld  verlangt hohe, spezifische Fachkompetenz  ist also unrealistisch  bleibt der Autor des Artikels selbst

20 Autoren kennen sich häufig nicht mit Datenformaten aus

21

22 19D10

23

24 Oldenburg24 Kodierung der Metadaten Metadaten werden im Header einer HTML-Datei gespeichert. Erwin Mustermann Theorems on Potatoes DC.Creator.Personalname DC.Title DC.Identifier CONTENT=„“> CONTENT=„“>

25 Oldenburg25 Speicherung durch Harvest (SOIF). Erwin Mustermann DC.Creator.Personalname CONTENT=„“> Theorems on Potatoes DC.Title CONTENT=„“> dc.creator.personalname{16}: Erwin Mustermann dc.title{20}: Theorems on Potatoes

26 Oldenburg26 Dublin Core  Weltweite Initiative von Bibliothekaren und Wissenschaftlern, die 1994 bei OCLC, Dublin Ohio gegründet wurde  Ziel ist es eine Klassifikation zu definieren, die  inhaltsbezogen ist  nutzbar ist, sowohl für Bibliotheken, als auch für Internetdokumente  brauchbar für Internet Search Engines  unabhängig von einer speziellen Kodierung

27 Weitere Anwendungen und Dienste in Math-Net

28 Oldenburg28

29 Oldenburg29

30 Oldenburg30

31 Oldenburg31

32 Oldenburg32...soweit die Geschichte  All diese Aktivitäten wurden betrieben vom Fachbereich Mathematik/Informatik der Universität Osnabrück.  Gründung des Instituts für wissenschaftliche Information (iwi)  Studiengang Information Engineering

33 Oldenburg33 iwi  Mitglieder:  persönliche Mitglieder  institutionelle Mitglieder Informationszentrum Sozialwissenschaften, Bonn Konrad-Zuse-Zentrum Berlin Staats- und Universitätsbibliothek Göttingen European Mathematical Union  Zusammenarbeit mit Die Deutsche Bibliothek Frankfurt International Mathematical Union

34 Oldenburg34 iwi  Ziele des gemeinnützigen Vereins:  Konzeption von nutzerzentrierten Systemen für Information und Kommunikation (IuK) in den Wissenschaften, Entwicklung geeigneter Werkzeuge  ausgewählte Informationsdienste zu entwickeln und zu betreiben auch in Zusammenarbeit mit Bibliotheken etc.  sich als stabiler und zuverlässiger Partner in die internationale, wissenschaftliche Entwicklung im IuK- Bereich einzubringen  International Mathematical Union hat mit iwi den Betrieb des Math-Net Dienstes MPRESS vereinbart.

35 Oldenburg35 Master Studiengang  Information Engineering  Beginn im WS 2001/2002 mit U Twente  Inhalte: Applications and tools in Cryptography and Coding, Applied information representation, Organizational aspects of the information chain, Mathematical foundations of Cryptography and Coding, Knowledge representation,Methodology, Methods and theory of Clustering, Formal methods of information representation,Neural Networks, Information Retrieval

36 Zurück zu den MetaDaten...

37 Oldenburg37 RDF - What’s that?  W3C: “The Resource Description Framework (RDF) integrates a variety of web-based metadata activities including sitemaps, content ratings, stream channel definitions, search engine data collection (web crawling), digital library collections, and distributed authoring, using XML as an interchange syntax.”

38 Oldenburg38 RDF - What’s that?  Problem: Alles im Netz ist Maschinen-lesbar aber nicht Maschinen-verstehbar.  Ziele von RDF: Definition zur Dokumentenbeschreibung, die  keine Voraussetzungen an Anwendungen stellt.  Domänen neutral ist.  geeignet is in verschiedenen Bereichen Ressourcen zu beschreiben.

39 Oldenburg39 Metadaten im HTML Header von Dateien  Die Nutzung des HTML META-tag:  Die Nutzung des HTML META-tag: HTML META ist kommutativ und assoziativ

40 Oldenburg40 RDF - erster Eindruck Document dc.creatorrdf:type rdf:bag rdf:_1 rdf:_2 Dokument mit zwei Autoren

41 Oldenburg41 RDF - erster Eindruck rdf:type dct:Person vCard:FN vCard: Marie Person hat den Namen “Marie” hat als adresse

42 Oldenburg42 RDF - erster Eindruck Document dc.creatorrdf:type rdf:bag rdf:_1 rdf:_2 rdf:type dct:Person vCard:FN vCard: rdf:type dct:Person vCard:FN vCard: Marie

43 Oldenburg43 HTML Meta  RDF  HTML Meta besteht aus Paaren (Attribut,Wert)  RDF besteht aus Tripeln (Prädikat, Subjekt, Objekt)  RDF kodiert Sätze (Statements)

44 Oldenburg44 RDF ein Beispiel Die Seite hat Paul als Autor. (Autor, Paul) dc:creator Paul

45 Oldenburg45 Darstellungsformen von RDF  Tripel Darstellung (nicht eindeutig)  Graphendarstellung  XML-Darstellung (nicht eindeutig) Einführung einer Äquivalenzrelation um Eindeutigkeit eines RDF Datensatzes zu gewinnen!

46 Weiterführende Projekte

47 Oldenburg47 Replication  DFG Projekt gemeinsam mit Cellule Math Doc in Grenoble, Frankreich  Verbesserung des bestehenden Replica- Systems der Harvest Software weg von der Master-Slave Architektur  Aufbau eines Systems von Replica des Dienstes MPRESS in der ganzen Welt, basierend auf RDF

48 Oldenburg48 Ziele von CARMEN  Verbesserung (automatischer) Methoden zur Inhaltserschließung unter Nutzung neuer Techniken mit enger Verbindung zum Retrieval  3 Schwerpunkte Dokumente Heterogenität Metadaten Retrieval

49 Oldenburg49 CARMEN AP7 Ein integriertes Hypertext- und Retrievalsystem für Digitale Bibliotheken  Entwicklung eines Retrievalsystems auf der Basis der Harvest Software und mit der gleichen Funktionalität  Der Gatherer generiert wohl strukturiertes RDF an Stelle der flachen SOIF Datensätze  Retrievalkomponente designed für XML Retrieval mit der Sprache XIRQL (XQL+)

50 Oldenburg50 Architektur

51 Oldenburg51 Transformation RDF  XML  RDF ist ein Graph, XML baumförmig  Keine eindeutige Abbildung RDF  XML  RDF ist offen bzgl. Struktur und Namensraum  XML-Retrieval sollte auf vorgegebener DTD basieren (valid XML) Ziel: benutzerfreundliches Retrieval  übersichtliche Informationsstrukturen

52 XQL-Anfragen //chapter/heading heading

53 Oldenburg53 XQL  Bedingungen bzgl. Dokumentstruktur  Ergebnis: Teilbäume der XML-Dokumente

54 Oldenburg54 XIRQL: XML IR query language  Gewichtung für unsichere Dokumentrepräsentationen  Datentypen mit vagen Prädikaten  Relativismus bezüglich Struktur

55 Oldenburg55 XIRQL: Datentypen mit vagen Prädikaten  Erweiterbare Typhierarchie Personennamen, Klassifikation, Text - Englisch/Deutsch  Menge vager Prädikate für jeden Datentyp  Datentypen definiert in erweiterter DTD

56 Oldenburg56 XIRQL- Anfragen  chapter, in denen das Wort „extensible“ im heading vorkommt //chapter[heading $contains$ „extensible“]  document mit class ähnlich „H.3.3“ und author phonetisch ähnlich zu „Maier“ $approx$ „H.3.3“ $and$ author $sounds$ „Maier“]

57 Oldenburg57 Die Wirklichkeit Datensätze in MPRESS  mit wohlstrukturierten Metadaten  mit MSC Klassifikation heterogenes Material in einem Datenpool. Was tun mit Datensätzen ohne Metadaten?

58 Oldenburg58 AP11: Heterogenitätsbehandlung  Entwicklung von Heuristiken zur Extraktion von Metadaten aus unstrukturierten Textformaten und schlecht strukturiertem HTML.  Thematisch begrenzt auf Mathematik und Sozialwissenschaften.  Generierung von Relationen zwischen Keywords und kontrolliertem Vokabular.  Module, die mit CAP 7 zusammenarbeiten können.

59 Oldenburg59 Einige Probleme automatischer Metadatengenerierung  Fehlende oder uneinheitliche Verwendung von Meta-Tags (author, keywords, DC-Tags)  Inkonsistente Verwendung inhaltsbeschreibender HTML-Tags (title, h1, h2, address etc.)  Uneinheitliche Formatierungen inhaltsrelevanter Angaben (Schriftgrad, Fett, zentriert etc.)  Fehlende Kontextinformationen (Datum, Autor, Institution u.ä.)

60 Beispiel HTML-Heuristiken : Titel If ( -Tag vorhanden && -Tag vorhanden) If ( -Tag== -Tag höchst. Ord.) { Titel[3]= -Tag } elsif ( -Tag enthält -Tag höchst. Ord.) { Titel[2]= -Tag } elsif ( -Tag höchst. Ord. enthält -Tag) { Titel[2]= -Tag höchst. Ord. } sonst { Titel[2]= -Tag + -Tag } } elsif ( -Tag vorhanden) { Titel[2]= -Tag } elsif ( -Tag vorhanden) { Titel[1]= -Tag höchst. Ord. } elsif (Paragraph mit / umschlossen vorhanden) { Titel[0]= letzter Paragraph mit / umschlossen } elsif [...]

61 Oldenburg61 Erste Ergebnisse im Bereich Mathematik unstrukturierte PostScript Dokumente Extraktor Heuristiken dc:creator Schmid, Werner preprints/... Math. Subject Classification 65N55 rdf:value rdfs:label Multigrid methods; domain decomposition rdf:type Classifi- cation further MSC dc:subject (Keywords ) Multirid Methods, Eigenvalue Problems, Multigroup Diffusion Equations dcq:abstract Safety analysis of nuclear reactors strongly relies on numerical simultation of the reactor core....

62 Oldenburg62 Weitere Schritte: Metadaten  Ständige Weiterentwicklung der Heuristiken zur Metadaten-Extraktion  Versuch der Übertragung mathematischer Extraktionsregeln über unstrukturierte Dokumente auf sozialwissenschaftliche Regeln über strukturierte Internet-Quellen und umgekehrt

63 Oldenburg63 Mögliche Transferverfahren  Intellektuell erstellte Crosskonkordanzen (AP12)  Deduktive Verfahren  Quantitativ-statistische Verfahren  Neuronale Verfahren  Kookurrenzanalyse

64 Oldenburg64 Statistische Transferverfahren  Nicht intellektuell / qualitatives, sondern  Quantitatives Vorgehen (Basiert auf Kookurenzen)  Wesentlich feinere Abstufung der Relationen  Findet intellektuell nicht erfassbare Relationen 

65 Oldenburg65 Beispiel (VibSoz)  "Gysi, Jutta: Familienleben in der DDR, zum Alltag von Familien mit Kindern, Akademie Verlag Berlin, 1989, ISBN " Corpus USB Köln  IZ  USB Köln 'Deutschland ', 'Familie'  IZ-Sozialwissenschaften 'Arbeitsteilung', 'Ehe', 'Familie', 'DDR', 'Partnerschaft'

66 Parallelkorpus Bestand 1 a c d b Thesaurus bzw. Klassifikation dokument x y z a Abgeleitete Zuordnung von Termen dokument Bestand 2 Bekannte Zuordnung von Dokumenten

67 Ausgangslage Volltexte aus dem Internet a c d b Terme des Volltext Indexierers dokument Thesaurus bzw. Klassifikation 2,3 dokument x y z a 6,1 3,2 1,5 5,1 4,2 2,3 Bildung eines echten Parallelkorpus nicht möglich

68 Parallelkorpus Erstellung Volltexte aus dem Internet a c d b Terme des Volltext Indexierers dokument 2,3 dokument Thesaurus bzw. Klassifikation x y z a 6,1 3,2 1,5 5,1 4,2 2,3 4,7 1,8 6,3 2,7 3,4 5,2 5,3 probabilistische Suche

69 Simuliertes Parallelkorpus Volltexte aus dem Internet a c d b Terme des Volltext Indexierers dokument 2,3 dokument Thesaurus bzw. Klassifikation x y z a 6,1 3,2 1,5 5,1 4,2 2,3 4,7 1,8 6,3 2,7 3,4 5,2 5,3 Abgeleitete Zuordnung von Termen

70 Statistische Analyse - Werkzeug: Jester Java Enviroment for Statistical TransfERs

71 Oldenburg71 AP9: Interdisziplinäre Informationssysteme  Verknüpfung von Math-Net und PhysNet unter Nutzung der Software CAP7 mit einer zusätzlichen Komponente zur verteilten Suche.  Nutzung und Evaluation der intellektuell erstellten Crosskonkordanz MSC  PACS)  Automatische Erstellung einer Crosskonkordanz zwischen MSC und PACS (zu Verbesserungszwecken)

72 Oldenburg72 MSC  PACS  Quantitative Analyse zur Erstellung einer Krosskonkordanz  Ausgangsmaterial Datensätze aus der Datenbank MATH bzw. INSPEC  Aufbereitung  Anwendung von Jester  Ergebnis  AP12 AP12


Herunterladen ppt "MathNet a network for mathematicians Judith Plümer Universität Osnabrück Judith Plümer Universität Osnabrück"

Ähnliche Präsentationen


Google-Anzeigen