Präsentation herunterladen
Die Präsentation wird geladen. Bitte warten
Veröffentlicht von:Gerrit Straut Geändert vor über 9 Jahren
1
Semistructured Data Autor: Stefan Josten 21. Juli 1999 Seminar: Intelligenz im Intranet Intelligenz im Intranet Thema:
2
Semistructured Data Gliederung: 1. Einleitung 2. Ein Modell für semistrukturierte Daten 3. Query Languages 4. Struktur in unstrukturierten Daten 5. Ausblick 6. Zusammenfassung
3
Begriffsbildung Semistructured Data Der Begriff “Semistructured Data” wurde für Daten eingeführt, die weder auf einem festen Schema beruhen noch völlig chaotisch sind. Da die Struktur in die Daten eingebettet ist (selbstbeschreibend), liegen sie irgendwo dazwischen. Wie kommt es zu semistrukturierten Daten ? Einleitung Zusammen-fassung Ausblick QueryLanguages Modell Struktur in unstr. Daten
4
3 Hauptgründe: Unterschiedliche Struktur der Daten Datenintegration Zugriff (Browsing)... Motivation Beobachtung: Viele der heutigen Daten sind nicht konform mit den traditionellen objektorientierten oder relationalen Verfahren Semistructured Data Einleitung Zusammen-fassung Ausblick QueryLanguages Modell Struktur in unstr. Daten
5
Unterschiedliche Struktur der Daten: Verschiedene Applikationen speichern Daten in verschiedenen Formaten Kein existierendes Datenmodell ist allumfassend Neue Datenformate 3 Hauptgründe (1) Semistructured Data Einleitung Zusammen-fassung Ausblick QueryLanguages Modell Struktur in unstr. Daten
6
Es kommt immer öfter vor, daß neue Datenarten in existierenden Datenbanken mit fester Struktur erfaßt werden müssen Heterogene Datenquellen mit unbekannter Struktur (Fusion, Partner,..) Neuentwicklung oft zu teuer, riskant, langwierig, ineffizient... Datenintegration: 3 Hauptgründe (2) Semistructured Data Einleitung Zusammen-fassung Ausblick QueryLanguages Modell Struktur in unstr. Daten
7
3 Hauptgründe (3) Anfragen müssen auch ohne genaue Kenntnis des Schemas möglich sein Anfrage auf Schemakomponenten wie z.B.: Wo kann... gefunden werden Anfragen auf das WWW Zugriff (Browsing): Semistructured Data Einleitung Zusammen-fassung Ausblick QueryLanguages Modell Struktur in unstr. Daten
8
Heutige Daten sind nicht konform mit den traditionellen Datenmodellen Informationen sind auch in der Struktur der Daten enthalten: HTML, SGML... Heterogene, teilweise undokumentierte Datenbanken, z.B. durch Partner, Fusionen,... Erhöhte Anforderungen an Zugriff Neue Verfahren nötig Zusammenfassung Semistructured Data Einleitung Zusammen-fassung Ausblick QueryLanguages Modell Struktur in unstr. Daten
9
Modell für semistrukturierte Daten Das verbreitetste Modell ist das Object Exchange Modell (OEM): Daten als Sammlung von Objekten repräsentiert Objekte können atomar oder komplex sein atomare Objekte haben als Werte Basistypen (int,string,..) komplexe Objekte haben als Werte (Attribut,Objekt) - Paare Semistructured Data Einleitung Zusammen-fassung Ausblick QueryLanguages Modell Struktur in unstr. Daten
10
OEM- Modell als Graph OEM- Daten werden durch einen Graphen modelliert: Die Knoten sind die Objekte Die Kanten sind mit den Attributen beschriftet Die Blätter enthalten die atomaren Objekte Es gibt eine Wurzel, von der alle anderen Objekte erreichbar sind Semistructured Data Einleitung Zusammen-fassung Ausblick QueryLanguages Modell Struktur in unstr. Daten
11
OEM- Modell Formale Definition Semistrukturierte Daten sind ein Tupel G=(V,E,r,v) V: Menge von Knoten; V ist Vereinigung von V c und V a E: Menge von Kanten; E ist Teilmenge von V c x A x V A: Menge von Attributen (int, string, symbol,...) r ist die Wurzel (Element von V) v: V a -> D bildet die atomaren Objekte auf die Menge der atomaren Werte D (int, string,...) ab Semistructured Data Einleitung Zusammen-fassung Ausblick QueryLanguages Modell Struktur in unstr. Daten
12
Graphische Repräsentation: Beispiel Veranstaltung Vorlesung Übung Dozent Titel Termin Übung_zu_VL Vorname Nachname Dozent Termin Raum Computerspielen 1999 Hans Müller Maier 1997 48-226 Semistructured Data Einleitung Zusammen-fassung Ausblick QueryLanguages Modell Struktur in unstr. Daten
13
Textuelle Repräsentation Beispiel Veranstaltung: &o1 { Vorlesung: &o5 { Dozent: &o7 {Vorname: &o20 "Hans", Nachname: &o25 "Müller"}, Titel: &o31 "Computerspielen", Termin: &o45 1999, Übung_zu_VL: &o9} Übung: &o9 { Dozent: &o21 "Maier", Termin: &o42 1999, Raum: &o45 "48 - 226"} } Semistructured Data Einleitung Zusammen-fassung Ausblick QueryLanguages Modell Struktur in unstr. Daten
14
Bezug zum objektorientierten Modell Semistructured Data Einleitung Zusammen-fassung Ausblick QueryLanguages Modell Struktur in unstr. Daten KlassePerson Name : String Tel : Int Klaus 3184 Holger 5674 OOM: OEM: Holger5674Klaus3184 Element Name Tel Mayer Nachname io
15
Query Languages Es existiert eine ganze Reihe unterschiedlicher Query Languages, um auf semistrukturierte Daten zuzugreifen. 2 davon werden vorgestellt: Lorel (Lightweight Repository Language) UnQL (Unstructured Query Language) Semistructured Data Einleitung Zusammen-fassung Ausblick QueryLanguages Modell Struktur in unstr. Daten
16
Lorel Beispiel select x.Dozent from Veranstaltung.(Vorlesung) | (Übung) x where x.Termin < 1998 Veranstaltung Vorlesung Übung Dozent Titel Termin Übung_zu_VL Vorname Nachname Dozent Termin Raum Computerspielen 1999 Hans Müller Maier 1997 48-226 Semistructured Data Einleitung Zusammen-fassung Ausblick QueryLanguages Modell Struktur in unstr. Daten
17
Lorel Ein Vorteil von Lorel ist die Fähigkeit reguläre Ausdrücke auszuwerten: ( ) ? : Option ( ) | ( ): Alternative ( ). ( ) : Konkatenation ( ) + : Mehrfach (mind. 1) ( ) * : Mehrfach (mind. 0) Semistructured Data Einleitung Zusammen-fassung Ausblick QueryLanguages Modell Struktur in unstr. Daten
18
UnQL Die Unstructured Query Language wurde aus der strukturellen Rekursion hergeleitet Vorteil: Anfragen und Transformation mit demselben Formalismus möglich Semistructured Data Einleitung Zusammen-fassung Ausblick QueryLanguages Modell Struktur in unstr. Daten
19
Strukturelle Rekursion besteht aus mindestens einer rekursiven Funktion, die mit Hilfe von Regeln definiert wurde. Beispiel: (1)f({ })={ } (2)f(t1 U t2) = f(t1) U f(t2) (3) f(v) = if isInt(v) then {result : v} else { } (4) f({s : t}) = f(t) UnQL: strukturelle Rekursion Semistructured Data Einleitung Zusammen-fassung Ausblick QueryLanguages Modell Struktur in unstr. Daten
20
UnQL: Beispiel 1 (1) f({ }) = { } (2) f(t1 U t2) = f(t1) U f(t2) (3) f(v)=if isInt(v) then {result : v} else { } (4) f({s : t}) = f(t) Veranstaltung Vorlesung Übung Dozent Titel Termin Übung_zu_VL Vorname Nachname Dozent Termin Raum Computerspielen 1999 Hans Müller Maier 1997 48-226 Semistructured Data Einleitung Zusammen-fassung Ausblick QueryLanguages Modell Struktur in unstr. Daten
21
f ({Veranstaltung : &o1}) = f (&o1) (4) = f ({Vorlesung: &o5, Übung: &o9}) = f ({Vorlesung: &o5} U {Übung: &o9}) = f ({Vorlesung: &o5}) U f({Übung: &o9}) (2) = f (&o5) U f (&o9)(4) f(&o5) = f ({Dozent: &o7, Titel: &o31, Termin: &o45}) = f({&o7, &o31, &o45})(4). = f (1999) U f(1997) = {result : 1999} U {result : 1997}(3) = {result : 1999, result : 1997}
22
UnQL Beispiel 2 Anfrage und Transformation: (1) f({ }) = { } (2) f(t1 U t2) = f(t1) U f(t2) (3) f(v) = v (4) f({s : t}) = if s = Termin then {Termin : g(t)} else {s : f(t)} (1) g({ }) = { } (2) g(t1 U t2) = g(t1) U g(t2) (3) g(v) = if isInt(v) then Int2String(v) else v (4) g({s : t}) = {s : g(t)} Semistructured Data Einleitung Zusammen-fassung Ausblick QueryLanguages Modell Struktur in unstr. Daten
23
Struktur in unstrukturierten Daten Die Eigenschaft selbstbeschreibend bedeutet, daß das Schema in den Daten eingebettet ist und nicht endgültig vorliegt. Vorteil: hohe Flexibilität bei Änderung der Daten Nachteil: Einfügen ist ineffizient Auswerten der Anfragen kann ineffizient sein Anfragen sind schwer zu formulieren Semistructured Data Einleitung Zusammen-fassung Ausblick QueryLanguages Modell Struktur in unstr. Daten
24
Struktur in unstrukturierten Daten Hauptvorteil der semistrukturierten Daten ist, daß sie nicht in Schemas gezwängt wurden. Trotzdem ist es manchmal sinnvoll, eine Art Schema einzuführen. Semistructured Data Einleitung Zusammen-fassung Ausblick QueryLanguages Modell Struktur in unstr. Daten
25
2 Ansätze: Schemas werden getrennt von den Daten beschrieben. Das Schema wird automatisch von den Daten abgeleitet. Wissenschaftler suchen nach Wegen, Regelmäßigkeiten in der Struktur der Daten zu finden, ohne ein konkretes Schema zu früh festzulegen Finden von Schemas Semistructured Data Einleitung Zusammen-fassung Ausblick QueryLanguages Modell Struktur in unstr. Daten
26
Probleme Da semistrukturierte Daten unabhängig von einem Schema existieren können, ergeben sich neue Arten von Problemen: Bei gegebenen Schema S und Daten D ist es schwer zu entscheiden, ob D mit S übereinstimmt. Existiert ein Schema S, das die Schemas S1 und S2 umfaßt ? Semistructured Data Einleitung Zusammen-fassung Ausblick QueryLanguages Modell Struktur in unstr. Daten
27
WWW und Semistructured Data (1) Extensible Markup Language (XML) gewinnt immer mehr an Bedeutung Eine neue Klasse von Datenmanagement- Problemen entsteht. Zentrale Anwendung von XML ist der elektronische Datenaustausch Das Datenaufkommen steigt. Semistructured Data Einleitung Zusammen-fassung Ausblick QueryLanguages Modell Struktur in unstr. Daten
28
WWW und Semistructured Data (2) Extensible Markup Language XML Objekte (Elements) Attribute (Tags) Das Schema ist auch in die Daten eingebettet Auffallende Ähnlichkeiten zu Semistructured Data Semistructured Data Einleitung Zusammen-fassung Ausblick QueryLanguages Modell Struktur in unstr. Daten
29
Semistructured Data: neues Datenbankenparadigma Schema in den Daten enthalten vereinfacht Datenaustausch OEM Modell am bekanntesten traditionelle Ansätze als Teilmenge enthalten Geeignet um mit strukturierten Dokumenten (z.B HTML) umzugehen Zusammenfassung Semistructured Data Einleitung Zusammen-fassung Ausblick QueryLanguages Modell Struktur in unstr. Daten
30
Beispiel: The internet movie database. http://us.imdb.com Semistructured Data in der Praxis Semistructured Data Einleitung Zusammen-fassung Ausblick QueryLanguages Modell Struktur in unstr. Daten
31
Literaturverzeichnis Dan Suciu: An Overview of Semistructured Data, Peter Buneman: Semistructured Data, 1997 Peter Buneman, Susan Davidson, Mary Fernandez, Dan Suciu: Adding Structure to Unstructured Data,1997 Peter Buneman, Alin Deutsch, Wang-Chiew Tan: A deterministic model for semi-structured data Peter Buneman, Benjamin Pierce: Union Types for Semistructured Data Hartmut Liefke:Horizontal Query Optimization on Ordered Semistructured Data Stefan Braß:Querying Semistructured Data and the WWW Semistructured Data
32
ENDEENDE
Ähnliche Präsentationen
© 2024 SlidePlayer.org Inc.
All rights reserved.