OLAP II: NetCubes Eine skalierbare Methode für schnelles Data Mining und hohe Datenkompression Proseminar - Prof. Weikum Intelligentes Suchen in Informationssystemen.

Slides:

Advertisements

Ähnliche Präsentationen

Grundlagen des A*-Algorithmus und Anwendung in der Routenplanung

Advertisements

Prüfungspläne Bachelor-Thesis

Bayes-Netze KI 14-Bayes-Netze.

Data Cubes PG Wissensmangement Seminarphase Hanna Köpcke Lehrstuhl für Künstliche Intelligenz Universität Dortmund.

Graphen Ein Graph ist eine Kollektion von Knoten und Kanten. Knoten sind einfache Objekte. Sie haben Namen und können Träger von Werten, Eigenschaften.

Indizierung von Graphen durch häufige Subgraphen (2)

Inhaltlich orientierter Zugriff auf unstrukturierte Daten

Genetische Algorithmen für die Variogrammanpassung

Marco Barz Seminar über Algorithmen SoSe2007

Anwendung und Visual Basic

Genetische Algorithmen

Genetische Algorithmen

Lehrstuhl Informatik III: Datenbanksysteme Achim Landschoof 28. April 2009 Strukturierte P2P Systeme 1 Achim Landschoof Betreuerin: Dipl.-Inf. Jessica.

Baumstrukturen Richard Göbel.

Heuristiken Automatic Problem Solving Institut für Informatik

Algorithmentheorie 04 –Hashing

WS Algorithmentheorie 13 - Kürzeste (billigste) Wege Prof. Dr. Th. Ottmann.

Vorlesung Informatik 2 Algorithmen und Datenstrukturen (27 – Kürzeste Wege) Prof. Th. Ottmann.

Vorlesung Informatik 2 Algorithmen und Datenstrukturen (17 – Bäume: Grundlagen und natürliche Suchbäume) Prof. Th. Ottmann.

1 Vorlesung Informatik 2 Algorithmen und Datenstrukturen (21 – Kürzeste Wege) T. Lauer.

Algorithmen und Datenstrukturen

Genetische Algorithmen

Computerkurs: Quantitative Auswertung biochemischer Experimente Guten Morgen.

Datenbankentwurf mit Hilfe des ER-Modells entwickeln

Indoor Navigation Performance Analysis

Mathematische Grundlagen

Proseminar „Algorithmen auf Graphen“

Kap. 6.2 Binäre B-Bäume Ullmann: (2, 3) - Bäume

PKJ 2005/1 Stefan Dissmann Rückblick auf 2005 Was zuletzt in 2005 vorgestellt wurde: Klassen mit Attributen, Methoden und Konstruktoren Referenzen auf.

PKJ 2005/1 Stefan Dissmann Zusammenfassung Bisher im Kurs erarbeitete Konzepte(1): Umgang mit einfachen Datentypen Umgang mit Feldern Umgang mit Referenzen.

PG 520 Intelligence Service – gezielte Informationen aus dem Internet

Algorithmen und Komplexität

Modelchecker – RED Tool: Region-Encoding Diagram Stefan Neumann.

Normalformen Normalisieren Schlüssel

6 Normalformen Normalisieren Schlüssel

Beispielrelation Buchbestellungen H = Menge der bedeutenden Ziele = {a, d} Schwelle T = 4 Stichprobe S = {a, b, a, a, a, a} mit s = |S| = 6 N = Anzahl.

Intelligentes Crawling im WWW mit Hilfe intuitiver Suchbedingungen

Statistische Methoden I WS 2004/2005 Probeklausur Freitag, 21. Januar statt Vorlesung - In 2 Wochen In 2 Wochen!

Seminar: Informationstechnik in der Medizin Universität Dortmund Skin Detection Fakultät für Elektrotechnik und Informationstechnik Lehrstuhl für Kommunikationstechnik.

Approximationsalgorithmen Facility Location K-Median Cheng, Wei 12. Juli.

PRJ 2007/1 Stefan Dissmann Verkettete datenstruktur: Liste Problem: Liste, die eine beliebige Zahl von Elementen verwaltet Operationen: Erzeugen, Anfügen,

Diskrete Mathe 9 Vorlesung 9 SS 2001

Institut für Kartographie und Geoinformation Prof. Dr. Lutz Plümer Diskrete Mathematik II Vorlesung 1 SS 2001 Algorithmus von Dijkstra.

Beschreibung der energetischen Zustände der Elektronen

Problemstellung Heterogene DV-Strukturen Mangelnde Kapazität in der EDV-Abteilung Historische Daten nicht verfügbar Analysen belasten die vorhandene Infrastruktur.

Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS

Diskrete Mathematik II

Diskrete Mathematik II

Diskrete Mathematik II

Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS

Quantum Computing Hartmut Klauck Universität Frankfurt WS 04/

Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/

Proseminar: „Webtechnologien für Ecommerce“

Was soll und kann eine fachdidaktische Vorlesung leisten? Maximilian Selinka.

… oder wie finde ich den Weg

Vorlesung Mai 2000 Konstruktion des Voronoi-Diagramms II

Fundamente der Computational Intelligence (Vorlesung) Prof. Dr. Günter Rudolph Fachbereich Informatik Lehrstuhl für Algorithm Engineering Wintersemester.

Statistik – Regression - Korrelation

Analyse der Laufzeit von Algorithmen

Einführung Dateisystem <-> Datenbanksystem

Monatsbericht Ausgleichsenergiemarkt Gas – Oktober

Institut für Kartographie und Geoinformation Prof. Dr. Lutz Plümer Diskrete Mathematik II Vorlesung Suche des kürzesten Weges in einem Netz.

Evolutionärer Entwurf neuronaler Netze

Institut für Kartographie und Geoinformation Prof. Dr. Lutz Plümer Diskrete Mathematik II Vorlesung der Algorithmus von Floyd.

Gliederung der Vorlesung

Institut für Informationssysteme Technische Universität Braunschweig Institut für Informationssysteme Technische Universität Braunschweig Verdrängung von.

Programmiersprachen II Vorbesprechung Klausur Prof. Dr. Reiner Güttler Fachbereich GIS HTW.

Spärliche Kodierung von Videos natürlicher Szenen Vortragender: Christian Fischer.

Krebs Clare Caroline Anke. Ursachen Es gibt viele Ursachen von Krebs. Einige sind von der Umwelt und der normalen Ernährung verursacht. Diese Ursachen.

Präsentation transkript:

OLAP II: NetCubes Eine skalierbare Methode für schnelles Data Mining und hohe Datenkompression Proseminar - Prof. Weikum Intelligentes Suchen in Informationssystemen WS 2001/2002 Katrina Leyking

2 Fallbeispiel: medizinische Datenbank 1.Grundbegriffe: Data Mining, OLAP, Data Cubes 2.Einführung: Bayesian Networks Idee und graphische Darstellung 3.Konstruktion der NetCubes (Algorithmen) 4.Fazit, Ausblick & Kritik Übersicht

3 DataMining = Extraktion (Mining) entscheidungsrelevanter Informationen aus sehr großen Datenbanken Ziel: Zusammenhänge aus einer Flut einzelner Informationen zu erkennen OLAP ( = OnLine Analytical Processing ) - Systeme Tools des knowledge management arbeiten auf marktorientierter, historischer Datenansammlung Datenanalyse zur Entscheidungsfindung Basis: multidimensionale Datenmodelle ( Data Cubes)

4 Fallbeispiel Ausgangslage: große Menge an Patientendaten Dimensionen: –Lebensgewohnheiten –genetische Vorbelastungen –Erkrankungen Forschungszweck: besonders häufige Zusammenhänge zwischen den Dimensionen ausfindig machen Beispielfragen: –Wie häufig leiden Raucher an Atembeschwerden? –Wie wahrscheinlich ist es, dass ein FastFood-Esser, an Fettleibigkeit erkrankt, wenn seine beiden Großmütter an Sodbrennen litten? –Wie groß ist bei Rauchern, die genetisch vorbelastet sind, das Lungenkrebsrisiko?

5 Data Cube multidimensionales Datenmodell jede Dimension besteht aus Attributen (z.B.: A21=Attribut 1 der Dimension 2) bei 3-Dimensionalität vorstellbar als Würfelform: Probleme: !enormer Speicherplatzverbrauch !lange Anfragezeiten Lösungsansatz der Autoren: Anwendung des mathematischen Konstruktes der Bayesian Netze Dimension 1 Dimension 2 Dimension 3 A 11A 12A 13 A 21 A 22 A 23 A 31 A 32 A

6 Data Cube - Beispiel Lungenkrebs Erkältung Fettleibigkeit Atembeschwerden Fehlsichtigkeit Krebs Sodbrennen rote Haare Raucher Frühaufsteher Brillenträger FastFood- Esser Wahrscheinlich- keitsverteilungen: 0,008 0,072 0,004 0,03 0,4 0, N = genetische Vorbelastung Lebens- gewohnheit Fett- leibigkeit

7 Bayesian Networks Einführung Grundidee: 1.Graphische Darstellung der Wahrscheinlichkeits- verteilungen und Unabhängigkeiten zwischen Attributen. gerichteter azyklischer Graph Knoten Attribute der Datenbank Kanten Abhängigkeiten unter der Attributen 2.Tabellarische Darstellung der bedingten Wahrscheinlichkeiten der Attribute 0, ,09 0,22 A D C B E 0,42 0, ,020,040,11

8 Bayesian Network B = E = Menge aller Kanten T = Menge aller Wahrscheinlichkeitstabellen gerichteter azyklischer Graph Berechnung der Wahrscheinlichkeiten bestimmter Kombinationen mit Hilfe der Formeln: E = {(A,C),(B,C),(B,E),(D,E)} C ist abhängig von A und B E ist abhängig von B und D A,B,D sind unabhängige Attribute Bayesian Networks Definition A D C B E 0, ,09 0,22 0,42 0,31 0,25 0,23 0,020,040,11

9 Bayesian Networks – Fallbeispiel: Graphische Darstellung Früh- aufsteher Krebs Fett- leibigkeit Er- kältung Sod- brennen fehl- sichtig rote Haare Raucher Brillen- träger FastFood- Esser Lungen- Krebs Atembe- schwerden

Krebs Raucher Lungen- Krebs Atembe- schwerden Bayesian Networks – Fallbeispiel: graphische + tabellarische Darstellung P(R) 0,4 P(K) 0,05 aus vorliegenden Häufigkeiten berechnete, bedingte Wahrscheinlichkeits- verteilung 0,4 0,1895 0,133 0,0526

11 Q = Wie viele Raucher, die genetisch vorbelastet sind, sind an Lungenkrebs erkrankt ? N = * P(L|RK) = * 0,4 = Bayesian Networks – Beispiel Query-Anfrage:

!? Von der Datenbank zum BN Probleme:Lösungen: Konstruktion des BN aus Datenbank Heuristische Suche zu große Datenbanken für Verarbeitung im Hauptspeicher Aufspalten der Datenmenge und dann Verschmelzen

13 verwendete Variablen:

14 Preprocessing-Algorithmus

15 Bayesian Networks Konstruktions – Idee heuristische Suche = schrittweise Suche nach dem besten Bayesian Netz Ausgangssituation: leeres oder zufällig generiertes Netzwerk pro Schritt : Anfügen, Umdrehen oder Weglassen einer Kante und Bewertung des neu entstandenen BN (Score) Optimierung durch Minimierung der Zielfunktion, des sogenannten Score, der das Netz bewertet (je geringer der Score, umso besser das Netz) Kriterien für Bewertung: hinreichend genau und nicht zu groß Ideen für BuildFromMemoryUsingData(Di)

16 Bayesian Networks: Konstruktions - Algorithmus Setzen der Variablen heuristische Suche Ausgabe des bisher besten Netzes

Bayesian Networks – Zielfunktion Score Bewertung, wie genau die Wahrscheinlichkeitsverteilung des momentane BN B den zugrunde liegenden Daten entspricht. Cross-Entropie von WKV von D zu B = Differenz der beiden MinimalDescriptionLengths Bewertung des benötigten Speicherplatzes und dementsprechende Abstrafung Minimierung des gesamten Scores BN B mit der höchstmöglichen Genauigkeit bei gleichzeitiger vertretbarer Größe.

18 Preprocessing-Algorithmus Daten D Datenteilmengen D i Teilnetzwerke B i Verschmelzung zu BN = NetCube

19 Fazit und Ausblick Vorteile +hohe Kompressionsrate (Speicherersparnis) +ausreichende Genauigkeit +schnelle Anfragezeit +Skalierbarkeit (beliebig große Datenbanken) Ausblick: Implementierung auch für diskrete mehrwertige Variablen Umsetzung spezieller Data-Cube-Operatoren hervorragender Einsatz im Data Mining NetCubes: Arbeiten auf Datenmodell (BN) anstatt auf Ausgangsdaten. (laut Autoren: Paradigmenwechsel!!!!)

Kritik Intuitiv verständliche Idee Unzulängliche Erläuterungen der Details Inhaltsgetreu strukturiert Formelfehler (Score-Funktion) Gute einsichtige Beispiele Viele Verweise auf andere paper

21 Bayesian Networks -Verschmelzung

22 Experimente mit NetCubes 1 1) Schnelligkeit: Anfragen auf NetCubes sind schneller!

23 Experimente mit NetCubes 2 2) Kompression: NetCubes sind speicherplatzsparend!