WWW-Anfragesprachen Seminar Datenbanken Vortrag von Jörg Sorg
Einleitung - aktueller Stand zWeb-Dokumente liegen häufig als semistrukturierte Daten vor zSuchmaschinen, ermöglichen die inhalts- basierende Suche nach Informationen zNavigation basiert auf Verfolgung von Links eines Dokuments
Einleitung - Anforderungen zAufgaben: yModellierung des Web yInhalts- und Strukturanfragen an das Web zWWW-Anfragesprachen: y1. Generation (Anfragesprachen): W3QL, WebLog, WebSQL y2. Generation (Datenmanipulationssprachen): WebOQL, STRUQL, FLORID
WebSQL - Datenmodell zFehlendes Datenbankschema, deshalb virtuelle Relationen zWeb-Objekte: yDocument[url, title, text, type, length, modif] zVerbindungen: yAnchor[base, href, label] zAnfragen: abgeändertes SQL erweitert um reguläre Ausdrücke
WebSQL - Inhaltsanfragen zFinde alle HTML-Dokumente zum Thema Hypertext: SELECT d.url, d.title, d.length, d.modif FROM Document d SUCH THAT d MENTIONS Hypertext WHERE d.type = text/html; zFinde alle Links auf Applets, ausgehend von Dokumenten über Java: SELECT y.label, y.href FROM Document x SUCH THAT x MENTIONS Java, Anchor y SUCH THAT base = x WHERE y.label CONTAINS applet;
WebSQL - Pfadausdrücke zintern ( ) zlokal ( ) zglobal ( ) zleerer Pfad (=), Alternative (|), Wiederholung (*) und Verknüpfung (.) zZiel: Bildung regulärer Pfadausdrücke für die Nutzung der Hypertext-Struktur in Anfragen
WebSQL - Strukturanfrage SELECT d.url, d.title FROM Document d SUCH THAT =. d WHERE d.title CONTAINS Praktische Informatik; z... und die Kombination von Inhalts- und Strukturanfrage: SELECT x.url, x.title, y.url, y.title FROMDocument x SUCH THAT x MENTIONS Computer Science, Document y SUCH THAT x =. y;
WebOQL - Datenmodell zHypertree ymit Records beschrifteter, geordneter Baum mit internen und externen Kanten zWeb (t, F) ymit Hypertree t als Schema yund Funktion F als Browsing-Funktion zString als einziger atomarer Datentyp
WebOQL - Beispiel [Group: Card Punching][Group: Databases] [Title: Recent Advances in Card Punching, Autors: Peter Smith, John Brown, Publication: Technical Report TR015] [Label: Full version, Url: [Label: Abstract, Url: [Label: Full version, Url: [Title: Are Magnetic Media Better?, Authors:Peter Smith, John Brown, Tom Wood, Publication:AC TOCP Vol.3 No.(1942) pp 23-37] [Label: Full version, Url: Z] [Label: Abstract, Url: [Label: Abstract, Url: l] [Label: Full version, Url:http.//.../paper17.ps.Z] [Title: Cobol in AI, Authors: Sam James, John Brown] [Title: Assembly for the Masses, Authors: John Brown, Tom Wood, Publication: ACM 2 POPL Proceedings (1943)]...
WebOQL - Anfragen [ Title: Recent Advances in Card Punching, Url: [ Title: Are Magnetic Media Better?, Url: [ Title: Recent Advances in Card Punching, Url: [ Title: Recent Advances in Card Punching, Url: [ Title: Are Magnetic Media Better?, Url: [ Title: Are Magnetic Media Better?, Url:
WebOQL - Restrukturierung zRestrukturierung von Dokumenten, Datenbanken und Webs yHTML strukturierte Dokumente yHTML HTML zRestrukturierung von Webs
FLORID - Datenmodell zAnsatz: Kombination aus Objektorientierung und deduktiven Regeln zF-logic erweitert um Pfadausdrücke
FLORID - Strukturanfragen ymengenwertige Methode für die Navigation durch die Hyperlink-Struktur zWeb-Skelett yTrennung des strukturellen Aspekts vom inhaltlichen
FLORID - Strukturanfragen zPfadausdrücke für Informationsgewinnung ?- meteo..L..Ozonschicht..M. zAggregationen, um die wichtigsten Einträge zu finden yBsp. count
FLORID - Inhaltsanfragen zIntegrierte Prädikate für die Datenextraktion und -analyse zBeispiel: pmatch(Str, RegEx, Fmt, Res) Ermittlung von Schemainformationen ?- _:country[M _].
Zusammenfassung zDatenmodelle basieren auf Graphen zNavigation mittels regulärer Pfadausdrücke zDatenmanipulation bei WWW- Anfragesprachen der 2. Generation
Ausblick zAnfrageoptimierung zIntegration von Metadaten über Datenquellen yXML des W3C