Einsatz eines Thesaurus
Fachdaten des BIS Alle Daten haben Raumbezug ! Punktdaten (derzeit ca. 150.000 Einzelobjekte) Bohrungen, bodenkundliche Profile, geologische Aufschlüsse … Schichtenverzeichnisse Proben- und Labordaten Flächendaten (31 Fachebenen mit ca. 270.000 Objekten) Geologische und Bodenkundliche Grundlagenkarten Hydrogeologische Spezialkarten Rohstoffkarten Orientierungsdaten (13 Fachebenen) Topographische Karten verschiedener Maßstäbe Verwaltungsgrenzen Naturräumliche Gliederung Alle Daten haben Raumbezug !
BIS-Clients Behördennetz Client Internet Client (GeoFachdatenAtlas) Java Swing basiert Zugang über Behördennetz Datenrecherche Datenpflege Datenexport Kompletter Datenumfang Objektzugriff nach Berechtigungsprüfung Exakte Lageinformation Internet Client (GeoFachdatenAtlas) HTML basiert Zugang über Internet Keine Zugriffsbeschränkung Alle Objekte Wenig Objekt-Details Ungenaue Lageinformation
System-Architektur (einfach) Schichtenarchitektur BIS-Client Applikations-Server Datenbank HTML-Client Web-Server CORBA JDBC HTTP TCP/IP Firewall Behörden Öffentlichkeit Datenpool Datengenerierung
Metadatenmodell (vereinfacht) Zukunft ? Objekt Fachklasse Tabelle Attributgruppe OODB XML-DB Attribut Feld
Modellierung mit Metadaten Fachliches Modell Metadaten-Repository in Oracle DB Vorgehen, um von einem Fachlichen Modell zu den operablen Metadaten im MD-Repository zu kommen. Im Objekt-Modellierungstool, bei uns zZ. Together – werden die Fachlichen Modelle erfasst. Über einen Import im Metadaten-Tool können diese Daten dann - in Teilen - importiert werden.
Metadaten-Pflegewerkzeug Fachklasse Metadaten-Pflegewerkzeug Attributgruppe Attribut
Abstraktes Metamodell Model Builder (Serverstart) Objektfabrik (Laufzeit) Abstraktes, statisches Metamodell Dynamische Klassen im Speicher Objekte Fachklasse generiert Bohrung instantiiert 7322BG000002 aus Metadaten Attributgruppe Allgemeine Stammdaten R-Wert: 44 50600 H-Wert 35 20400 Beziehung Probe Proben-ID 7322BG0001G Probenart: Gesteinsprobe
Schlüssellisten im BIS Applikationsdaten Schlüssellisten & Schlüssel Fachthesaurus Daten referenzieren Schlüssel 300 Schlüssellisten 60.000 Fachbegriffe
Schlüssellisten Vorteile der „terminologischen Kontrolle“ Eindeutigkeit bei der „Beschlagwortung“ Erleichterung bei Formulierung von Recherchen Vorgabe von zielführenden Recherchebegriffen Generierung von Suchkriterien unter Zuhilfenahme von Hierarchischen Strukturen
Zugänge zu den Inhalten des BIS Experten mit guten internen Kenntnissen über Datenmodell und internen Aufbau Interessierte „Laien“ ohne Datenmodellkenntniss u.U. lange Suchzeiten Im schlechtesten Fall erfolglose Recherche ISPU / UOK + Verweise zu den gesuchten Objekten
Felder im BIS Schlüssellisten Thesaurus, z.B. UOK-Thesaurus, UMTHES, GEMET,SNS Schlüssellisten Recherche und Beschlagwortung über Schlüssellisten Verbesserte, inhaltliche Erschließung durch Einsatz von Thesauri
Eingesetzte Thesauri GEMET (General Multilingual Environmental Thesaurus) UOK Thesaurus SNS Semantischer Netzwerk Service UMTHES (Thesaurus des UDK)
Datenmodell CONCEPT CONCEPT_PROPERTY TERM RELATION RELATION_PROPERTY concept_id name base_cc concept property_type property_value language TERM term_id concept cc term_type class cc_term_id RELATION RELATION_PROPERTY relation_id term_source term_target relation_type weight relation property_type property_value language
Crosskonkordanzbildung zwischen Thesaurus und BIS
Gewichtung der gefundenen Crosskonkordanzen 2 * nEqualStems weight= ___________________________________ nStemsThesaurus + nStemsDataSource nEqualStems = Anzahl gleicher Wortstämme zwischen Thesaurus und Datenquelle NStemsThesaurus = Anzahl aller Wortstämme im Thesaurusbegriff NStemsDataSource = Anzahl aller Stämme im BIS-Begriff
TheVi XML <?xml version="1.0" encoding="ISO-8859-1"?> <thevi_document xmlns:xi="http://www.w3.org/2001/XInclude"> <head> … </head> <concept_collection top="TheVi"> </concept_collection> <concept_collection top=„BIS_SL3451"> <concept_collection top=„Gemet"> </thevi_document> Dokumentbeschreibung Begriffssammlung Metamodell Begriffssammlung BIS Schlüsselliste Begriffssammlung Gemet
TheVi XML – Concept Collection <concept_collection top="..."> <languages> … </languages> <representations> <node_representation> … </node_representation> … <edge_representation> … </edge_representation> </representations> <terms> <term> … </term> </terms> <relations> <relation> … </relation> </relations> </concept_collection> Sprachen (Default, Alternativen) Darstellungsvorschriften Terme Relationen
TheVi XML und Transformationen Webbrowser (Javascript enabled, Java Plugin) TheVi Applikation TheVi Applet z.B. Omnigator z.B. Protégé … … export RDF XTM GIRG (Webserver mit CGI-Perl-Skripten) XSLT TheVi XML DB (Oracle 10g)
Arten von Verbindungen BIS Thesaurus, z.B. Gemet Vom Thesaurus zu BIS Klassendaten Thesaurus -> Fachklasse Thesaurus -> Attributgruppe Thesaurus -> Attribut Vom Thesaurus zu BIS Instanzdaten Thesaurus -> Instanz Stammdaten Thesaurus -> Instanz Schichtdaten Thesaurus -> Instanz Probendaten
Art des Mappings zwischen Thesaurus und BIS ~ BIS Proxies Thesaurus
Thevi Darstellung der gefundenen Beziehungen Einschränkung auf ein TK-Blatt Eine TheviXML Datei mit drei Concept Collections: 1. GEMET Thesaurus Concept Collection mit den BIS Stellvertreterobjekten des TK Blattes 7435 Pfaffenhofen a.d. Ilm 3. Eine ConceptCollection mit den zwischen GEMET und den BIS-Objekten des Blattes 7435 gefundenen Crosskonkordanzen
BIS Objekte auf Blatt 7435 Pfaffenhofen 1517 Bohrungen BG 53 Aufschluss Bodenkunde AB 25 Quellen QU 71 Einzelfundpunkt EF 43 Geologisches Profil GP 196 Aufschluss Geologie AG 1905 BIS Objekte auf Blatt Pfaffenhofen
Thevi Daten im Touchgraph
Thevi Metamodell
Thevi Instanzverweise
Erste Ergebnisse Allein zwischen GEMET Terms und BIS ergeben sich über die gewählte Methode > 16.000.000 Crosskonkordanzen Den größten Anteil an den gefundenen Konkordanzen hatten die BIS Schlüssellisten mit 82 % Das Datenmodell hat sich zur Verwaltung der Thesauri sowie der Crosskonkordanzen bewährt
Ausblick Weitere Thesauri sollen zur Crosskonkordanzbildung herangezogen werden Dazu soll auch versucht werden, die angebotenen Web-Services zu nutzen und nicht mit redundanten Offline-Beständen zu arbeiten
Vielen Dank fürs Zuhören www.bis.bayern.de