MathNet a network for mathematicians Judith Plümer Universität Osnabrück Judith Plümer Universität Osnabrück

Slides:



Advertisements
Ähnliche Präsentationen
MathNet / PhysNet Kerstin Zimmermann Institute for Science Networking
Advertisements

Stefan Lohrum Konrad-Zuse-Zentrum für Informationstechnik Berlin (ZIB)
Information Retrieval in XML-Dokumenten
XIRQL: Eine Anfragesprache für Information Retrieval in XML-Dokumenten
Übung Datenbanksysteme WS 2003/ Übung Datenbanksysteme Entwurf eines Bibliothekssystems
Idee und Realisierung des Internet der Zukunft
Library of Labs Co-funded by the Community programme eContentplus Library of Labs WP 4: Metadaten Definition Universitätsbibliothek Stuttgart (UBS)
Dublin Core Antje Schregel, Dublin Core Was ist DC? Architektur von DC (Elements, Qualifiers) Anwendung Aktuelle Situation Projekte.
Texteingabe Überschrift
Natascha Schumann TU Darmstadt IuK-Konferenz, März 2003
GESIS Bernd Hermes, Heiko Hellweg, Dr. Maximilian Stempfhuber Informationszentrum Sozialwissenschaften, Bonn Unterstützung kooperativer Verfahren beim.
Forum Information and Communication in Mathematics Jahrestagung der ÖMG/DMV Graz.
Inhaltlich orientierter Zugriff auf unstrukturierte Daten
Projekt von Rechenzentrum und Universitätsbibliothek Erste Inhalte: Linguistik-Server Essen (LINSE), Semesterapparate Physik Ziel: Bereitstellung einer.
HyREX: Eine Hypermedia- Retrievalengine für XML- Dokumente Norbert Fuhr Universität Dortmund
Math-Net ein Netzwerk für die Mathematik
XINDICE The Apache XML Project Name: Jacqueline Langhorst
S.I.N.N. Suchmaschinennetzwerk im Internationalen Naturwissenschaftlichen Netz Ein Vortrag von Fabian A. Stehn
Cross-Search in Renardus Göttingen State and University Library, Germany (SUB) Dr. Heike Neuroth The Academic Subject.
Hauptseminar XML-Technologie: Resource Description Framework (RDF) Michael Kranz Betreuer: Roland Haratsch.
Praxis der Metadatenerfassung Markus Enders Goettingen State and University Library
Dublin Core Metadata Thea Spiridonidou Institut für Informatik Humboldt Universität zu Berlin SE: Grundlegende Aspekte des Semantic Web WS 02/03.
Vernetzung von verteilten Informationssystemen Michael Hohlfeld Institute for Science Networking Oldenburg GmbH an der C.V.O. Universität Oldenburg
Physiker Tagung Fachvortrag AKI Leipzig, 22. März 2002 Verteilte Experten-Datenbank Viele Wege – auch ein Ziel? Thomas Severiens.
Überlegungen zur Architektur eines Fachinformations-Netzwerkes am Beispiel des CeGIM Mehrwert ist es nicht nur, Daten von ihren Quellen zu den Nutzern.
1 Grundlagen und Anwendung der Extensible Markup Language (XML ) Peter Buxmann Institut für Wirtschaftsinformatik Johann Wolfgang Goethe-Universität Frankfurt.
Data Documentation Initiative (DDI)
Wissenschaftliche Übung Metadatenformate und -standards
Der Supermarkt: Eine beispielhafte Erklärung für die fünf untersten Schichten des Semantic Web Protocol Stack Nicola Henze.
Der Supermarkt: Eine beispielhafte Erklärung für die fünf untersten Schichten des Semantic Web Protocol Stack Nicola Henze.
RDF Resource Description Framework
1. Metadaten-Workshop der AfS / META-LIB-Abschluss-Workskop, 21./22. Oktober 2002 Metadaten an Der Deutschen Bibliothek: Ergebnisse des DFG-Projekts META-LIB.
Entwurf und Realisierung einer digitalen Bibliothek zur Verwaltung von Notenhandschriften Dipl.-Ing. Temenushka Ignatova Datenbank- und Informationssysteme,
Sesame Florian Mayrhuber
XML-Query. Übersicht Was ist XML-Query? Vergleich RDB XML-Dokument Syntaktisches und Use-Cases Kritik und Diskussion.
XML (Extensible Markup Language)
Dublin Core IT-Zertifikat Daten- und Metadatenstandards.
Eike Schallehn, Martin Endig
Eike Schallehn, Martin Endig
Der Supermarkt: Eine beispielhafte Erklärung für die fünf untersten Schichten des Semantic Web Protocol Stack Nicola Henze.
MareNet Ein neuer elektronischer Informationsdienst für die Meeresforschung IuK Trier, 12. März 2001 Michael Hohlfeld Institute for Science Networking.
Datenbanken im Web 1.
MareNet Marine Research Institutions & Documents Worldwide Ein elektronischer Informationsdienst für die Meeresforschung Michael Hohlfeld, Institute for.
1 Wolfgang Wiese, Regionales RechenZentrum Erlangen WCMS 3. August 2000 Wolfgang Wiese RRZE / Lehrstuhl für Informatik VII
Text Encoding Initiative Universität zu Köln Daten- und Metadatenstandards Seminarleitung: Patrick Sahle Seminarleitung: Patrick Sahle Referentin: Anna.
Internet - Grundbegriffe Unterlagen zum Kurs "Wie erstelle ich eine Homepage?"
OAISter wichtigste Verbundkatalog für digitale Ressourcen Open Access wissenschaftliche Literatur und Materialien im Internet frei zugänglich zu machen.
Institut für Informatik Betriebliche Informationssysteme Fußzeile...1 Semantic Web Services and Interfaces Semantic Web, Resource Description Framework,
Internetseiten prima selbstgemacht. Überblick Meta-Tags –Warum Meta-Tags? Funktionsweise, Anwendung –Katalogisierung nach Dublin Core –Zeichensätze.
JaGo Ja va Framework for G e o graphical Information Systems Prof. Dr. Klaus Greve Dr. Andreas Poth TZ GIS i.G.
Key-Value Paare (KVP) - Metadaten für Kanäle speichern und nach MDF4 exportieren PM (V1.0)
Patrick Richterich Lattwein GmbH Web Services Softwareentwicklung mit SOAP.
WebServices Vortrag zur Diplomarbeit WebServices Analyse und Einsatz von Thomas Graf FH Regensburg
Internet Universität zu Köln WS 2011/12 Dozent: Prof. Dr. Manfred Thaller AM 2: Digitale Langzeitarchivierung Referentin: Rasa Sommer.
MathNet / PhysNet Kerstin Zimmermann Institute for Science Networking
Technische und soziale forschungsinfrastrukturen für die humanities das beispiel dagaare – english – cantonese dictionary eveline wandl-vogt1, adams bodomo2,
Titel der Diplomarbeit
Informationswirtschaft Wirtschaftsinformatik (Bachelor, 6. Semester)
OAI Protocol for Metadata Harvesting
Prof. Dr.-Ing. Franz-Josef Behr Geodaten und Datenmodell
AURIS-MM Spezifikation
Der nationale CULTIVATE-Knoten Österreich
Friederike Kleinfercher Abteilung Forschung und Entwicklung
Seminarphase PG 402 Thema: Semantic Web Autor: Phillip Look
Michigan State University
PI Infrastruktur in der Max-Planck-Gesellschaft
Zusatzfeatures für herkömmliche OPACs
Da·ten·bank /Dátenbank/ Substantiv, feminin [die]
Von Wietlisbach, Lenzin und Winter
 Präsentation transkript:

MathNet a network for mathematicians Judith Plümer Universität Osnabrück Judith Plümer Universität Osnabrück

Oldenburg2 Inhalt  Problemstellung  Math-Net  Preprints  organizing WWW servers (the MathNet Page)  personal homepages  weiterführende Projekte  CARMEN  Replication of Services

Oldenburg3 Probleme... im Bereich elektronischer Information und Kommunikation  jeder Fachbereich bietet Informationen an:  Liste von Mitarbeitern  Publikationen  Vorlesungsmaterial  Mensaplan  wie findet man gezielt Information? (Alta Vista)

erster Lösungsansatz (1994) Sensitive map der mathematischen Fachbereiche in Deutschland

Oldenburg5 Sensitive map  geographische Strukturierung  sinnvoller wäre eine Strukturierung nach Dokumenttypen oder Themengebieten

Oldenburg6 Ein Lösungsansatz (1997) Aus der Sicht eines Mathematikers:  Math-Net  von Nutzern betrieben  Strukturierung mathematischer Information  Komplettierung elektronischer Information  Angebot von Retrieval Mechanismen  Angebot von Navigationswerkzeugen  nationales Projekt / weltweite Initiative

Oldenburg7 MPRESS ein Beispiel für einen Math-Net Dienst Topology Atlas Preprints von WWW Servern Deutschlands Frankreich Österreich Fachbereiche in Europa LANL Brasilien

The Mathematics PREprint Search System MPRESS MathNet.preprints

Oldenburg9 Technische Basis  Software Harvest  Broker Komponente  Replicator Komponente  Gatherer Komponente  lauffähig unter UNIX / Linux  (Variante: Netscape Compass Server)

GET Doc 1 http – protocol Gatherer Doc 1 HRef Homepage einer Serie Doc 2 HRef Titelseite eines Artikels Doc 3 HRef Volltext eines Artikels Essence Docs Broker SOIFs

Volltextsuche liefert unscharfe Ergebnisse

Oldenburg13 Suche in festen Datenfeldern bzw. Suche in Metadaten:  Autor  Titel  Keywords  Klassifikation (MSC)  Datum

Oldenburg14

Oldenburg15

Oldenburg19 Wer erstellt die Metadaten?  Traditionell werden Metadaten von Bibliothekaren oder Dokumentaren erstellt:  braucht Zeit  kostet Geld  verlangt hohe, spezifische Fachkompetenz  ist also unrealistisch  bleibt der Autor des Artikels selbst

Autoren kennen sich häufig nicht mit Datenformaten aus

19D10

Oldenburg24 Kodierung der Metadaten Metadaten werden im Header einer HTML-Datei gespeichert. Erwin Mustermann Theorems on Potatoes DC.Creator.Personalname DC.Title DC.Identifier <META NAME=„ “> CONTENT=„“> <META NAME=„“> CONTENT=„“> <META NAME=„ CONTENT=„ “>

Oldenburg25 Speicherung durch Harvest (SOIF). Erwin Mustermann DC.Creator.Personalname <META NAME=„ “> CONTENT=„“> Theorems on Potatoes DC.Title <META NAME=„“> CONTENT=„“> dc.creator.personalname{16}: Erwin Mustermann dc.title{20}: Theorems on Potatoes

Oldenburg26 Dublin Core  Weltweite Initiative von Bibliothekaren und Wissenschaftlern, die 1994 bei OCLC, Dublin Ohio gegründet wurde  Ziel ist es eine Klassifikation zu definieren, die  inhaltsbezogen ist  nutzbar ist, sowohl für Bibliotheken, als auch für Internetdokumente  brauchbar für Internet Search Engines  unabhängig von einer speziellen Kodierung

Weitere Anwendungen und Dienste in Math-Net

Oldenburg28

Oldenburg29

Oldenburg30

Oldenburg31

Oldenburg32...soweit die Geschichte  All diese Aktivitäten wurden betrieben vom Fachbereich Mathematik/Informatik der Universität Osnabrück.  Gründung des Instituts für wissenschaftliche Information (iwi)  Studiengang Information Engineering

Oldenburg33 iwi  Mitglieder:  persönliche Mitglieder  institutionelle Mitglieder Informationszentrum Sozialwissenschaften, Bonn Konrad-Zuse-Zentrum Berlin Staats- und Universitätsbibliothek Göttingen European Mathematical Union  Zusammenarbeit mit Die Deutsche Bibliothek Frankfurt International Mathematical Union

Oldenburg34 iwi  Ziele des gemeinnützigen Vereins:  Konzeption von nutzerzentrierten Systemen für Information und Kommunikation (IuK) in den Wissenschaften, Entwicklung geeigneter Werkzeuge  ausgewählte Informationsdienste zu entwickeln und zu betreiben auch in Zusammenarbeit mit Bibliotheken etc.  sich als stabiler und zuverlässiger Partner in die internationale, wissenschaftliche Entwicklung im IuK- Bereich einzubringen  International Mathematical Union hat mit iwi den Betrieb des Math-Net Dienstes MPRESS vereinbart.

Oldenburg35 Master Studiengang  Information Engineering  Beginn im WS 2001/2002 mit U Twente  Inhalte: Applications and tools in Cryptography and Coding, Applied information representation, Organizational aspects of the information chain, Mathematical foundations of Cryptography and Coding, Knowledge representation,Methodology, Methods and theory of Clustering, Formal methods of information representation,Neural Networks, Information Retrieval

Zurück zu den MetaDaten...

Oldenburg37 RDF - What’s that?  W3C: “The Resource Description Framework (RDF) integrates a variety of web-based metadata activities including sitemaps, content ratings, stream channel definitions, search engine data collection (web crawling), digital library collections, and distributed authoring, using XML as an interchange syntax.”

Oldenburg38 RDF - What’s that?  Problem: Alles im Netz ist Maschinen-lesbar aber nicht Maschinen-verstehbar.  Ziele von RDF: Definition zur Dokumentenbeschreibung, die  keine Voraussetzungen an Anwendungen stellt.  Domänen neutral ist.  geeignet is in verschiedenen Bereichen Ressourcen zu beschreiben.

Oldenburg39 Metadaten im HTML Header von Dateien  Die Nutzung des HTML META-tag:  Die Nutzung des HTML META-tag: HTML META ist kommutativ und assoziativ

Oldenburg40 RDF - erster Eindruck Document dc.creatorrdf:type rdf:bag rdf:_1 rdf:_2 Dokument mit zwei Autoren

Oldenburg41 RDF - erster Eindruck rdf:type dct:Person vCard:FN vCard: Marie Person hat den Namen “Marie” hat als adresse

Oldenburg42 RDF - erster Eindruck Document dc.creatorrdf:type rdf:bag rdf:_1 rdf:_2 rdf:type dct:Person vCard:FN vCard: rdf:type dct:Person vCard:FN vCard: Marie

Oldenburg43 HTML Meta  RDF  HTML Meta besteht aus Paaren (Attribut,Wert)  RDF besteht aus Tripeln (Prädikat, Subjekt, Objekt)  RDF kodiert Sätze (Statements)

Oldenburg44 RDF ein Beispiel Die Seite hat Paul als Autor. (Autor, Paul) dc:creator Paul

Oldenburg45 Darstellungsformen von RDF  Tripel Darstellung (nicht eindeutig)  Graphendarstellung  XML-Darstellung (nicht eindeutig) Einführung einer Äquivalenzrelation um Eindeutigkeit eines RDF Datensatzes zu gewinnen!

Weiterführende Projekte

Oldenburg47 Replication  DFG Projekt gemeinsam mit Cellule Math Doc in Grenoble, Frankreich  Verbesserung des bestehenden Replica- Systems der Harvest Software weg von der Master-Slave Architektur  Aufbau eines Systems von Replica des Dienstes MPRESS in der ganzen Welt, basierend auf RDF

Oldenburg48 Ziele von CARMEN  Verbesserung (automatischer) Methoden zur Inhaltserschließung unter Nutzung neuer Techniken mit enger Verbindung zum Retrieval  3 Schwerpunkte Dokumente Heterogenität Metadaten Retrieval

Oldenburg49 CARMEN AP7 Ein integriertes Hypertext- und Retrievalsystem für Digitale Bibliotheken  Entwicklung eines Retrievalsystems auf der Basis der Harvest Software und mit der gleichen Funktionalität  Der Gatherer generiert wohl strukturiertes RDF an Stelle der flachen SOIF Datensätze  Retrievalkomponente designed für XML Retrieval mit der Sprache XIRQL (XQL+)

Oldenburg50 Architektur

Oldenburg51 Transformation RDF  XML  RDF ist ein Graph, XML baumförmig  Keine eindeutige Abbildung RDF  XML  RDF ist offen bzgl. Struktur und Namensraum  XML-Retrieval sollte auf vorgegebener DTD basieren (valid XML) Ziel: benutzerfreundliches Retrieval  übersichtliche Informationsstrukturen

XQL-Anfragen //chapter/heading heading

Oldenburg53 XQL  Bedingungen bzgl. Dokumentstruktur  Ergebnis: Teilbäume der XML-Dokumente

Oldenburg54 XIRQL: XML IR query language  Gewichtung für unsichere Dokumentrepräsentationen  Datentypen mit vagen Prädikaten  Relativismus bezüglich Struktur

Oldenburg55 XIRQL: Datentypen mit vagen Prädikaten  Erweiterbare Typhierarchie Personennamen, Klassifikation, Text - Englisch/Deutsch  Menge vager Prädikate für jeden Datentyp  Datentypen definiert in erweiterter DTD

Oldenburg56 XIRQL- Anfragen  chapter, in denen das Wort „extensible“ im heading vorkommt //chapter[heading $contains$ „extensible“]  document mit class ähnlich „H.3.3“ und author phonetisch ähnlich zu „Maier“ $approx$ „H.3.3“ $and$ author $sounds$ „Maier“]

Oldenburg57 Die Wirklichkeit Datensätze in MPRESS  mit wohlstrukturierten Metadaten  mit MSC Klassifikation heterogenes Material in einem Datenpool. Was tun mit Datensätzen ohne Metadaten?

Oldenburg58 AP11: Heterogenitätsbehandlung  Entwicklung von Heuristiken zur Extraktion von Metadaten aus unstrukturierten Textformaten und schlecht strukturiertem HTML.  Thematisch begrenzt auf Mathematik und Sozialwissenschaften.  Generierung von Relationen zwischen Keywords und kontrolliertem Vokabular.  Module, die mit CAP 7 zusammenarbeiten können.

Oldenburg59 Einige Probleme automatischer Metadatengenerierung  Fehlende oder uneinheitliche Verwendung von Meta-Tags (author, keywords, DC-Tags)  Inkonsistente Verwendung inhaltsbeschreibender HTML-Tags (title, h1, h2, address etc.)  Uneinheitliche Formatierungen inhaltsrelevanter Angaben (Schriftgrad, Fett, zentriert etc.)  Fehlende Kontextinformationen (Datum, Autor, Institution u.ä.)

Beispiel HTML-Heuristiken : Titel If ( -Tag vorhanden && -Tag vorhanden) If ( -Tag== -Tag höchst. Ord.) { Titel[3]= -Tag } elsif ( -Tag enthält -Tag höchst. Ord.) { Titel[2]= -Tag } elsif ( -Tag höchst. Ord. enthält -Tag) { Titel[2]= -Tag höchst. Ord. } sonst { Titel[2]= -Tag + -Tag } } elsif ( -Tag vorhanden) { Titel[2]= -Tag } elsif ( -Tag vorhanden) { Titel[1]= -Tag höchst. Ord. } elsif (Paragraph mit / umschlossen vorhanden) { Titel[0]= letzter Paragraph mit / umschlossen } elsif [...]

Oldenburg61 Erste Ergebnisse im Bereich Mathematik unstrukturierte PostScript Dokumente Extraktor Heuristiken dc:creator Schmid, Werner preprints/... Math. Subject Classification 65N55 rdf:value rdfs:label Multigrid methods; domain decomposition rdf:type Classifi- cation further MSC dc:subject (Keywords ) Multirid Methods, Eigenvalue Problems, Multigroup Diffusion Equations dcq:abstract Safety analysis of nuclear reactors strongly relies on numerical simultation of the reactor core....

Oldenburg62 Weitere Schritte: Metadaten  Ständige Weiterentwicklung der Heuristiken zur Metadaten-Extraktion  Versuch der Übertragung mathematischer Extraktionsregeln über unstrukturierte Dokumente auf sozialwissenschaftliche Regeln über strukturierte Internet-Quellen und umgekehrt

Oldenburg63 Mögliche Transferverfahren  Intellektuell erstellte Crosskonkordanzen (AP12)  Deduktive Verfahren  Quantitativ-statistische Verfahren  Neuronale Verfahren  Kookurrenzanalyse

Oldenburg64 Statistische Transferverfahren  Nicht intellektuell / qualitatives, sondern  Quantitatives Vorgehen (Basiert auf Kookurenzen)  Wesentlich feinere Abstufung der Relationen  Findet intellektuell nicht erfassbare Relationen 

Oldenburg65 Beispiel (VibSoz)  "Gysi, Jutta: Familienleben in der DDR, zum Alltag von Familien mit Kindern, Akademie Verlag Berlin, 1989, ISBN " Corpus USB Köln  IZ  USB Köln 'Deutschland ', 'Familie'  IZ-Sozialwissenschaften 'Arbeitsteilung', 'Ehe', 'Familie', 'DDR', 'Partnerschaft'

Parallelkorpus Bestand 1 a c d b Thesaurus bzw. Klassifikation dokument x y z a Abgeleitete Zuordnung von Termen dokument Bestand 2 Bekannte Zuordnung von Dokumenten

Ausgangslage Volltexte aus dem Internet a c d b Terme des Volltext Indexierers dokument Thesaurus bzw. Klassifikation 2,3 dokument x y z a 6,1 3,2 1,5 5,1 4,2 2,3 Bildung eines echten Parallelkorpus nicht möglich

Parallelkorpus Erstellung Volltexte aus dem Internet a c d b Terme des Volltext Indexierers dokument 2,3 dokument Thesaurus bzw. Klassifikation x y z a 6,1 3,2 1,5 5,1 4,2 2,3 4,7 1,8 6,3 2,7 3,4 5,2 5,3 probabilistische Suche

Simuliertes Parallelkorpus Volltexte aus dem Internet a c d b Terme des Volltext Indexierers dokument 2,3 dokument Thesaurus bzw. Klassifikation x y z a 6,1 3,2 1,5 5,1 4,2 2,3 4,7 1,8 6,3 2,7 3,4 5,2 5,3 Abgeleitete Zuordnung von Termen

Statistische Analyse - Werkzeug: Jester Java Enviroment for Statistical TransfERs

Oldenburg71 AP9: Interdisziplinäre Informationssysteme  Verknüpfung von Math-Net und PhysNet unter Nutzung der Software CAP7 mit einer zusätzlichen Komponente zur verteilten Suche.  Nutzung und Evaluation der intellektuell erstellten Crosskonkordanz MSC  PACS)  Automatische Erstellung einer Crosskonkordanz zwischen MSC und PACS (zu Verbesserungszwecken)

Oldenburg72 MSC  PACS  Quantitative Analyse zur Erstellung einer Krosskonkordanz  Ausgangsmaterial Datensätze aus der Datenbank MATH bzw. INSPEC  Aufbereitung  Anwendung von Jester  Ergebnis  AP12 AP12