Vorstellung des Streamkonzepts

Slides:



Advertisements
Ähnliche Präsentationen
interaktiver Web Service Workflows
Advertisements

Heterogene Informationssysteme
Sortieren I - Bubblesort -
TelegraphCQ Manuel Hertlein.
T-XPath Ein zeitliches Modell für XML-DBS M. Kalb, G. SpechtK. Schneider Universität Ulm EML Heidelberg.
Systemüberblick Beispiele: Microsoft Access Oracle Ingres Informix
FH-Hof Effizienz - Grundlagen Richard Göbel. FH-Hof Inhalt Einführung Aufwand für Anfragen ohne Indexierung Indexstrukturen für Anfragen an eine Tabelle.
DOM (Document Object Model)
ATHOS Benutzertreffen 27.September Report of the Lab Glashütten, 27.September 2007 HighQSoft GmbH, Karst Schaap
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (27 – Kürzeste Wege) Prof. Th. Ottmann.
1 Vorlesung Informatik 2 Algorithmen und Datenstrukturen (21 – Kürzeste Wege) T. Lauer.
XINDICE The Apache XML Project Name: Jacqueline Langhorst
© 2002 Prof. Dr. G. Hellberg 1 XML-Seminar XML-Technologie: XML in Theorie und Praxis Prof. Dr. G. Hellberg XML-Technologie: XML in Theorie und Praxis.
XML Standardisierungen und Abfragesprachen
Speicherung von XML- Dokumenten als Large Objects.
Einführung XML XML Einführung Andreas Leicht.
Text-Retrieval mit Oracle Vortrag von Andreas Mück & David Diestel.
MMQL – Multimedia Query Language Eine Anfragesprache für Multimedia-Ähnlichkeitsanfragen Christian Mantei.
Technik Gestaltung Navigation Daten. Übersicht Client Webbrowser InternetServer.
XML-Algebren Martin Winkler.
Thema: Operatoren auf Data Streams
Katharina Bellon Technische Universität Kaiserslautern Fachbereich Informatik Lehrgebiet Datenverwaltungssysteme Verarbeitung von XML-Strömen.
Seminar: Verteilte Datenbanken
Einführung Dateisystem <-> Datenbanksystem
Datenmanagement in Sensornetzen PRESTO - Feedback gesteuertes Datenmanagement - SS 2007 Sören Wenzlaff.
Abfragen – Tipps und Tricks Buch S102ff (Informatik I, Oldenbourg-Verlag) Nach einer Vorlage von Dieter Bergmann.
XQuery-Anfragen Spezifikations- und Selektionsmethoden für Daten und Dienste Markus Mauch.
RDF-S3 und eRQL: RDF-Technologien für Informationsportale Karsten Tolle und Fabian Wleklinski.
1 Seminar 2004/2005 von Auszeichnungssprache XPath Ein Referat von Wei CAI
Gottfried Vossen 5. Auflage 2008 Datenmodelle, Datenbanksprachen und Datenbankmanagementsysteme Kapitel 24: Ausblicke.
ODBC (Open Database Connectivity)
Quilt: Eine XML Anfragesprache für heterogene Datenquellen
Entwurf und Realisierung einer digitalen Bibliothek zur Verwaltung von Notenhandschriften Dipl.-Ing. Temenushka Ignatova Datenbank- und Informationssysteme,
Telecooperation/RBG Technische Universität Darmstadt Copyrighted material; for TUD student use only Grundlagen der Informatik I Thema 14: Schrittweise.
ProFM Helpdesk Effective Web Based Maintenance Management System.
Systeme 1 Kapitel 4 Prozesse WS 2009/10.
Datenbanktechnologie Daniel Ebner SS Mai Ulrike Lohner.
Proseminar: „Webtechnologien für Ecommerce“
Java für Fortgeschrittene
Windows Presentation Foundation, Vorlesung Wintersemester 2013/14 Prof. Dr. Herrad Schmidt WS 13/14 Kapitel 9 Folie 2 ADO.NET (1) Klassen für Zugriffe.
Sesame Florian Mayrhuber
XML-Query. Übersicht Was ist XML-Query? Vergleich RDB XML-Dokument Syntaktisches und Use-Cases Kritik und Diskussion.
Datenbanken und Datenmodellierung
SS 2004 Datenbanken 4W Mi 13:30 – 15:00 G 2.30 Vorlesung #7 SQL (Teil 2)
WS 2011/12 Datenbanksysteme Mi 15:15 – 16:45 R Vorlesung #9 Physische Datenorganisation.
WS 2013/14 Datenbanksysteme D0 15:15 – 16:45 R Vorlesung #5 SQL (Teil 2)
Allgemeines zu Datenbanken
Einführung in Datenbankmodellierung und SQL
Von Isabelle Spörl und Simon Schausberger
Vorlesung #10 Physische Datenorganisation
XML und Datenbanken © 2006 Markus Röder
XML (Extensible Markup Language)
Trust and context using the RDF- Source related Storage System (RDF‑S3) and easy RQL (eRQL) Karsten Tolle und Fabian Wleklinski.
SQL - Structured Query Language AIFB SS (1/9) Join-Operationen in SQL-92(1/9) Syntax einer Join-Operation: join-op := CROSS JOIN | [NATURAL]
SQLite und XML in PHP 5.
XSL in der Praxis Anwendungsbeispiele für die eXtensible Stylesheet Language Andreas Kühne XML One 2000.
Eike Schallehn, Martin Endig
Eike Schallehn, Martin Endig
© 2001 Sven Dammann1 Aufbau Integrierter Informationssysteme XML Bearbeitung und relationale Abbildung Sven Dammann Martin-Luther-Universität Halle-Wittenberg.
XML-Datenbanken Weiterentwicklung eines Prototypen zur nativen Speicherung von XML-Dokumenten Georg Kiekel
->Prinzip ->Systeme ->Peer – to – Peer
Einführung Dateisystem <-> Datenbanksystem
WS 2014/15 Datenbanksysteme D0 15:15 – 16:45 R Vorlesung #6 SQL (Teil 3)
Peter Brezany Institut für Softwarewissenschaften Universität Wien
1 6.4 Verwaltung semistrukturierter Daten - was ist das? Datenverwaltung für XML-Dokumente - Daten in XML-Gewand - eigentlich XML-Dokumente - Abbildung.
Prolog: Datenbanken Inhalt - Überblick - Erstellen einer Datenbank
Vortrag für Seminar „Maschinelles Lernen“ von Nikos Vormwald.
1 Java und XML Stephan Baldes Warum XML? In welchem Format wurden die Daten gespeichert? Bernd;Thomas;3;5;1987;Freiburg;Karlsruhe Peter;Maier;7;9;1980;Karlsruhe;Freiburg.
XML-Erweiterungen in ORDBMS Seminar: DBMS für spezielle Anwendungen Florian Brieler.
Stream-Verwaltung mit konventionellen Datenbanksystemen
 Präsentation transkript:

Vorstellung des Streamkonzepts Datenbanken und Informationssysteme Technische Universität Kaiserslautern Lehrgebiet Datenverwaltungssysteme Sommersemester 2005 Benjamin Mock

Inhalt Anwendungsgebiete von Datenströmen Eigenschaften von Datenströmen Anfragen an Datenströme Sliding Windows Datenstrom-Management-Systeme (DSMS) STREAM, AURORA, SPEX Load Shedding 2

Anwendungsgebiete Nachrichtenüberwachung Multimediaströme Presse Börse Meteorologie Multimediaströme Netzwerkverwaltung Verkehrsüberwachung 3

Datenströme potentiell unendlich Ankunftsraten unvorhersagbar unbeeinflussbar benötigen Echtzeit-Verarbeitung Unterscheidung zwischen Punkt- / Tupelströme XML-Ströme Speicherung nur eingeschränkt möglich! 4

Datenströme II push-Kommunikation Daten durch mehrere externe Quellen (Sensoren, …) Ergebnisse ebenfalls als Datenstrom Information des Benutzers zu bestimmten Zeitpunkten bei anormalen Werten bei jedem Tupel DBMS-Active, Human-Passive = DAHP 5

DSMS DBMS transient persistent nur hinzufügen Anfragen Evtl. angenähert Einpass-Verfahren Daten Anfragen Änderungen Indizierung Ergebnisse Datenzugriff persistent transient beliebig Daten exakt 6

Anfragen einmalige Anfragen kontinuierliche Anfragen wird aktiv vom Benutzer einmalig gestellt Schnappschuss des Zustands zu einem Zeitpunkt kontinuierliche Anfragen befindet sich im System und wird kontinuierlich an neu ankommende Daten gestellt Auswertung über einen Zeitraum 7

Anfragen II Ad-hoc-Anfrage vordefinierte Anfrage ignorieren zu beliebigem Zeitpunkt gestellt frühere Daten? ignorieren Zusammenfassungen speichern vordefinierte Anfrage bekannt, bevor Daten ankommen kontinuierliche oder geplante einmalige Anfrage 8

Sliding Windows Problem: blockierende Operationen join, avg, max, min … Lösung: Sliding Windows zeitbasiert tupelbasiert partitioniert 9

Sliding Windows II selbstbeschreibende Technik deterministisch: Anfrage über die selben Daten bringt gleiches Ergebnis nur neue Daten in Auswertung Benutzer versteht die Erstellung des Ergebnisses kann Qualität und Exaktheit in etwa abschätzen gute Möglichkeit angenäherte Ergebnisse zu produzieren 10

DSMS: STREAM STanford stREam datA Manager Beispiel: Anfragesprache: CQL continuous query language Bearbeitung kontinuierlicher Anfragen über Datenströme und Relationen Anfrageplan aus 3 Komponenten Anfrage-Operatoren Inter-Operator-Warteschlangen Synopsen Beispiel: SELECT * FROM R, S WHERE R.name = S.name 11

DSMS: STREAM-Komponenten Operatoren ähneln denen in DBMS lesen Eingabeströme erstellen Ausgabestrom Warteschlangen verbinden Operatoren untereinander Synopsen Zusammenfassung bisheriger Daten Trade-off zwischen Präzision und Speicher Sliding Windows als Synopsen 12

DSMS: STREAM III Zusammenspiel der Operatoren 13

DSMS: AURORA Kollaboration von Brandeis University, Brown University, MIT unterstützt kontinuierliche / Ad-hoc-Anfragen, Sichten Anfragesprache: SQuAl für Stream Query Algebra Box-and-Arrow-Modell sieben Operatoren filter, map, union, bsort, aggregate, join, resample 14

DSMS: AURORA II Box-and-Arrow-Modell 15

XPATH Adressierung von Teilen eines XML-Dokuments mittels Pfad-Notation <journal> <title>databases</title> <editor>anna</editor> <authors> <name>anna</name> <name>bob</name> </authors> <price /> </journal> Kontextknoten: journal Lokalisierungspfad: child::* title, editor, authors, price 16

XPATH Achsensymmetrie Vorwärtsachsen Rückwärtsachsen child parent descendant ancestor following-sibling preceding-sibling following preceding descendant-or-self ancestor-or-self 17

XML-Parser: DOM vs. SAX programmiersprachenunabhängiger Zugriff auf XML-Dokumente DOM = Document Object Model SAX = Simple API for XML hoher Bedarf an Hauptspeicher + beliebiger Zugriff nicht geeignet für Datenströme geeignet + geringerer Bedarf an Hauptspeicher - nur sequentieller Zugriff 18

XML-Parser: SAX Beispiel Jedes XML-Token ist SAX-Ereignis öffnende Markierung <impressum> Text schließende Markierung </impressum> entsprechender Eventhandler für jedes Ereignis <impressum> Version 1.0 of the Simple API for XML (SAX) </impressum> 19

DSMS: SPEX überführt diese Anfragen in Automatennetzwerke Streamed and Progressive Emulator for XPATH wertet vorwärtsgerichtete XPATH-Anfragen gegen XML-Ströme aus überführt diese Anfragen in Automatennetzwerke Auswertung in 4 Schritten Forward XPATH Anfrage XPATH Anfrage logischer Anfrageplan physischer Anfrageplan Ausgabe- strom 20

DSMS: SPEX Anfrageplan /descedant::a[child::b[descendant::d or child::e]]following-sibing::c Jedes Token des Eingabestroms entspricht SAX Ereignis Automaten nutzen Stack um Position der XML-Elemente zu bestimmen führen genau einen Lokalisierungsschritt durch annotieren Strom um Kontextknoten zu markieren, oder leiten unverändert weiter 21

Load Shedding Problem: CPU zu langsam, Hauptspeicher zu klein für ankommenden Datenstrom = Überlast Lösung: kontrolliertes Verwerfen von Daten ohne hohen Genauigkeitsverlust = Load Shedding am Beispiel Aurora: Daten verwerfen, aber wann wo im Anfrageplan wie viel zufällig semantisch mit QoS Graphen Latency-Graph Loss-Tolerance-Graph Value-Based-Graph 22

Zusammenfassung bekannte Techniken aus traditionellen DBMS nicht einfach übertragbar keine Speicherung vor Verarbeitung möglich push-Kommunikation Einpass-Verfahren, weil nur einmaliger sequentieller Zugriff auf Daten Echtzeitverarbeitung exakte Anfrageauswertung nicht möglich bei Ad-hoc-Anfragen bezüglich vergangener Daten Überlast aggregierenden oder sortierenden Operationen 23