Präsentation herunterladen
Die Präsentation wird geladen. Bitte warten
Veröffentlicht von:Leander Kaufer Geändert vor über 10 Jahren
1
XML und Datenbanken Textbasierte Abbildung von XML auf Datenbanken Sebastian Roolant
2
Gliederung 1.Einleitung 2.Die Textbasierte Abbildung 2.1 Speicherung 2.2 Indexbildung 2.3 Umsetzung in Produkten 3. Zusammenfassung
3
Einleitung Warum Abbildung von XML auf Datenbanken? XML nicht nur als temporäres Austauschformat sondern dauerhafte Speicherung von XML- Dokumenten keine zusätzliches XML-Datenbanbanksysteme sondern Speicherung in vorhandenen relationalen Datenbanksystemen
4
Einleitung Unterschiede, die überwunden werden müssen: Relational WeltXML Die Daten sind in mehreren flachen Tabellen gespeichert. In manchen Systemen sind verschachtelte Tabellen erlaubt, aber nicht in beliebiger Tiefe. Daten liegen in einer hierarchischen, beliebig tiefen Struktur vor Spalten haben einen einzelnen Wert.Elemente mit Werten können mehrfach auftreten. keine Ordnung der TabellenzeilenElemente sind geordnet. Schema ist verpflichtend und vollständig.Schema ist optional und kann offen sein. Nur im Schema beschriebene Information kann gespeichert werden. Kommentare und Verarbeitungsanweisungen sind überall im Dokument erlaubt, ohne dass sie im Schema deklariert werden müssen. eindeutige Struktur der Datenkomplexe Inhaltsmodelle wie Auswahl (choice) und gemischter Inhalt
5
Einleitung Klassifikation der Verfahren:
6
Einleitung Dokumentencharakter spielt beim Einsatz der Verfahren eine wichtige Rolle Datenzentrierte XML-DokumenteDokumentzentrierte XML-Dokumente In erster Linie Daten von InteresseBeinhalten Daten und Struktur der Informationen Daten sind häufig aus anderen Informationen generiert worden Daten sind häufig bereits ursprünglich im XML-Format erstellt worden Bsp.: elektronische Kataloge, Bestellungen … Bsp.: wissenschaftl. Artikel, Buchinhalte Für Anfragen ist das Erstellen von Ergebnisdokumenten notwendig XML-Dokumente sollen bei der Speicherung als Ganzes erhalten bleiben oder originalgetreu wiedergegeben werden können
7
Gliederung 1.Einleitung 2.Die textbasierte Abbildung 2.1 Speicherung 2.2 Indexbildung 2.3 Umsetzung in Produkten 3. Zusammenfassung
8
Die textbasierte Abbildung eignet sich für dokumentzentrierte XML-Dokumente XML-Dokumente werden als Ganzes gespeichert auch opake Speicherung genannt keine Umwandlungsoperationen notwendig zwei Möglichkeiten der Speicherung: als Dateien im Dateisystem als CLOBs innerhalb von Datenbanksystemen
9
Speicherung XML-Dokumente als Dateien im Dateisystem DBS XML Anwendung DBS hat Zugriff über Zeiger Zugriff auch direkt von Außen möglich
10
Speicherung XML-Dokumente als CLOBs in DBS DBS Anwendung DBS kann direkt auf XML-Daten zugreifen Zugriff von Außen nur über DBS möglich CLOB
11
Speicherung Anfragen durchsuchen die XML-Dokumente sequenziell bei großen Dokumentkollektionen sehr ineffizient Anlegen eines Indexes notwendig Effizienzsteigerung Verringerung der Antwortzeiten
12
Gliederung 1.Einleitung 2.Die textbasierte Abbildung 2.1 Speicherung 2.2 Indexbildung 2.3 Umsetzung in Produkten 3. Zusammenfassung
13
Indexbildung Klassifikation der Indexbildung
14
Volltextindex bekannt aus dem Information Retrieval (Bsp. Suchmaschinen) 3 Teilaufgaben des Information Retrieval: A B C D E F StichworteDokumente 1 2 1 2 3 1 3 3 3 2 IndexBenutzerschnittstelle Deskribierung Recherche Ergebnis- präsentation
15
Volltextindex Deskribierung: Aufbereitung von Dokumenten statisch wortbasierte Verfahren Stoppworte Streichen seltener Begriffe linguistische Verfahren Stammwortreduktion Wortnormalisierung Erkennen von Satzzusammenhängen wissensbasierte Verfahren Klassifikation Thesaurus Ontologien
16
Volltextindex Index wird so erstellt, dass ein schneller Zugriff auf die Informationen möglich ist häufig mehrere Indizes für verschiedene Anfragearten Realisierung der Indizes als invertierte Listen
17
Volltextindex Indexbildung A B C D E F StichworteDokumente 1 2 1 2 3 1 3 3 3 2 2 1 3 Stichworte AD B F CD ACD E Bestimmung der Stichworte in den Dokumenten Speicherung der Stichworte und der zugehörigen Dokumente
18
Volltextindex Hotel Hübner 18119 Warnemünde Seestraße 12 Aus Richtung Rostock kommend… BegriffVerweis hotel Warnemünde Rostock ort anreisebeschreibung
19
Volltextindex Verfahren zur Recherche: boolesche Retrieval Vektorraummodell prohabilistische Modell
20
Volltextindex Ranking A B C D E F StichworteDokumente 3 2 2 3 3 1 1 1 2 32 1 3 Stichworte AD B F CD ACDE Bestimmung der Stichworte der Dokumente und der Häufigkeit ihres Auftretens Speicherung der Stichworte und der zugehörigen Dokumente, sortiert nach Häufigkeit des Auftretens
21
Volltextindex Anfragen des booleschen Retrievals sind möglich AND, OR und NOT über Index realisierbar Information Retrieval Anfragen Wortstammreduktion, Ähnlichkeitssuche, Phrasensuche… Ranking der Ergebnismengen Auftretenshäufigkeit, Position
22
Volltext- und Strukturindex nur Volltextindex: keine Berücksichtigung der XML- Strukur bei vielen Anfragen ist die Struktur aber notwendig daher: Index wird erweitert um die hierarchische Struktur der XML-Dokumente
23
Hotel Hübner 18119 Warnemünde Seestraße 12 Aus Richtung Rostock kommend… TermVerweis Warnemünde Seestraße Rostock Element Verweis hotel adresse ort OrdnungVorgänger strasse anreisebeschreibung 1 2 2 3 3 Volltext-Index XML-Index
24
Volltext- und Strukturindex Anfragen des booleschen Retrievals sind möglich AND, OR und NOT über Index realisierbar Information Retrieval Anfragen Wortstammreduktion, Ähnlichkeitssuche, Phrasensuche… Auswertung der XML-Tagstruktur XML-Anfragesprachen einsetzbar, um die im Index gespeicherten Informationen auszuwerten
25
Volltext- und Strukturindex XML‘ XPath Anfrageauswertung XPath Funktionsaufruf XML‘ DBS XML Index Einsatz von Anfragesprachen
26
Gliederung 1.Einleitung 2.Die textbasierte Abbildung 2.1 Speicherung 2.2 Indexbildung 2.3 Umsetzung in Produkten 3. Zusammenfassung
27
Umsetzung in Produkten alle Hersteller großer kommerzieller relationaler Datenbanksysteme unterstützen die Speicherung von XML Lösungen variieren zwischen den Systemen ein neuer Teil des SQL-Standards als Teil 14 wird XML-Funktionalität in SQL standardisiert Name: SQL/XML definiert u.a. einen eigenen Typ zur Speicherung von XML
28
Umsetzung in Produkten DB2 UDB XML-Extender Speicherung als „XML Column“ (ADT), d.h. XML- Dokument als Wert einer Spalte Typen dieser Spalte: XMLVarchar für kürzere Dokumente XMLCLOB für größere Dokumente XMLFILE, um Dokumente außerhalb der Datenbank zu speichern Kontrolle durch Datenbank
29
Umsetzung in Produkten DB2 UDB Beispiel für Tabellendefinition: CREATE TABLE Hoteluebersicht (id INTEGER NOT NULL PRIMARY KEY, Hotels db2xml.xmlclob);
30
Umsetzung in Produkten Oracle Database mit Oracle 9i wurde eine neuer systemdefinierter Objekttyp eingeführt: XMLType es kann zwischen zwei Realisierungen gewählt werden In einer Realisierung entspricht XMLType dem CLOB
31
Umsetzung in Produkten Oracle Database Tabelle mit einer Spalte vom Type XMLType: CREATE TABLE Hoteluebersicht (Hotels SYS.XMLType); elegantere Möglichkeit (keine benannten Spalten): CREATE TABLE Hoteluebersicht OF XMLTYPE; Fkt. value(Hoteluebersicht) um Zeilen anzusprechen
32
Gliederung 1.Einleitung 2.Die textbasierte Abbildung 2.1 Speicherung 2.2 Indexbildung 2.3 Umsetzung in Produkten 3. Zusammenfassung
33
Zusammenfassung Methode der opaken Speicherung ermöglicht, Dokumente im Original zu erhalten keine Umformung und somit keine Rekonstruktion der Dokumente notwendig Index wird außerhalb der Dokumentenkollektion gespeichert, verändert die Dokumente also nicht
34
Zusammenfassung Anfragen, die das gesamte Dokument liefern, lassen sich gut ausführen anders bei Anfragen, bei denen nur ein Ausschnitt aus einem Dokument ausgegeben werden sollen gesamte Dokument muss geparst werden geeignet für dokumentzentrierte XML-Anwendungen
Ähnliche Präsentationen
© 2025 SlidePlayer.org Inc.
All rights reserved.