Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

OLAP II: NetCubes Eine skalierbare Methode für schnelles Data Mining und hohe Datenkompression Proseminar - Prof. Weikum Intelligentes Suchen in Informationssystemen.

Ähnliche Präsentationen


Präsentation zum Thema: "OLAP II: NetCubes Eine skalierbare Methode für schnelles Data Mining und hohe Datenkompression Proseminar - Prof. Weikum Intelligentes Suchen in Informationssystemen."—  Präsentation transkript:

1 OLAP II: NetCubes Eine skalierbare Methode für schnelles Data Mining und hohe Datenkompression Proseminar - Prof. Weikum Intelligentes Suchen in Informationssystemen WS 2001/2002 Katrina Leyking

2 2 Fallbeispiel: medizinische Datenbank 1.Grundbegriffe: Data Mining, OLAP, Data Cubes 2.Einführung: Bayesian Networks Idee und graphische Darstellung 3.Konstruktion der NetCubes (Algorithmen) 4.Fazit, Ausblick & Kritik Übersicht

3 3 DataMining = Extraktion (Mining) entscheidungsrelevanter Informationen aus sehr großen Datenbanken Ziel: Zusammenhänge aus einer Flut einzelner Informationen zu erkennen OLAP ( = OnLine Analytical Processing ) - Systeme Tools des knowledge management arbeiten auf marktorientierter, historischer Datenansammlung Datenanalyse zur Entscheidungsfindung Basis: multidimensionale Datenmodelle ( Data Cubes)

4 4 Fallbeispiel Ausgangslage: große Menge an Patientendaten Dimensionen: –Lebensgewohnheiten –genetische Vorbelastungen –Erkrankungen Forschungszweck: besonders häufige Zusammenhänge zwischen den Dimensionen ausfindig machen Beispielfragen: –Wie häufig leiden Raucher an Atembeschwerden? –Wie wahrscheinlich ist es, dass ein FastFood-Esser, an Fettleibigkeit erkrankt, wenn seine beiden Großmütter an Sodbrennen litten? –Wie groß ist bei Rauchern, die genetisch vorbelastet sind, das Lungenkrebsrisiko?

5 5 Data Cube multidimensionales Datenmodell jede Dimension besteht aus Attributen (z.B.: A21=Attribut 1 der Dimension 2) bei 3-Dimensionalität vorstellbar als Würfelform: Probleme: !enormer Speicherplatzverbrauch !lange Anfragezeiten Lösungsansatz der Autoren: Anwendung des mathematischen Konstruktes der Bayesian Netze Dimension 1 Dimension 2 Dimension 3 A 11A 12A 13 A 21 A 22 A 23 A 31 A 32 A 33 12285 76 156 54118 15898176

6 6 Data Cube - Beispiel Lungenkrebs Erkältung Fettleibigkeit Atembeschwerden Fehlsichtigkeit Krebs Sodbrennen rote Haare Raucher Frühaufsteher Brillenträger FastFood- Esser Wahrscheinlich- keitsverteilungen: 0,008 0,072 0,004 0,03 0,4 0,05 80 488 122 110 22117 524 351 622 N = 10 000 genetische Vorbelastung Lebens- gewohnheit Fett- leibigkeit

7 7 Bayesian Networks Einführung Grundidee: 1.Graphische Darstellung der Wahrscheinlichkeits- verteilungen und Unabhängigkeiten zwischen Attributen. gerichteter azyklischer Graph Knoten Attribute der Datenbank Kanten Abhängigkeiten unter der Attributen 2.Tabellarische Darstellung der bedingten Wahrscheinlichkeiten der Attribute 0,3 0.21 0,09 0,22 A D C B E 0,42 0,31 0.25 0,020,040,11

8 8 Bayesian Network B = E = Menge aller Kanten T = Menge aller Wahrscheinlichkeitstabellen gerichteter azyklischer Graph Berechnung der Wahrscheinlichkeiten bestimmter Kombinationen mit Hilfe der Formeln: E = {(A,C),(B,C),(B,E),(D,E)} C ist abhängig von A und B E ist abhängig von B und D A,B,D sind unabhängige Attribute Bayesian Networks Definition A D C B E 0,3 0.21 0,09 0,22 0,42 0,31 0,25 0,23 0,020,040,11

9 9 Bayesian Networks – Fallbeispiel: Graphische Darstellung Früh- aufsteher Krebs Fett- leibigkeit Er- kältung Sod- brennen fehl- sichtig rote Haare Raucher Brillen- träger FastFood- Esser Lungen- Krebs Atembe- schwerden

10 Krebs Raucher Lungen- Krebs Atembe- schwerden Bayesian Networks – Fallbeispiel: graphische + tabellarische Darstellung P(R) 0,4 P(K) 0,05 aus vorliegenden Häufigkeiten berechnete, bedingte Wahrscheinlichkeits- verteilung 0,4 0,1895 0,133 0,0526

11 11 Q = Wie viele Raucher, die genetisch vorbelastet sind, sind an Lungenkrebs erkrankt ? N = 10000 10000 * P(L|RK) = 10000 * 0,4 = 40000 Bayesian Networks – Beispiel Query-Anfrage:

12 !? Von der Datenbank zum BN Probleme:Lösungen: Konstruktion des BN aus Datenbank Heuristische Suche zu große Datenbanken für Verarbeitung im Hauptspeicher Aufspalten der Datenmenge und dann Verschmelzen

13 13 verwendete Variablen:

14 14 Preprocessing-Algorithmus

15 15 Bayesian Networks Konstruktions – Idee heuristische Suche = schrittweise Suche nach dem besten Bayesian Netz Ausgangssituation: leeres oder zufällig generiertes Netzwerk pro Schritt : Anfügen, Umdrehen oder Weglassen einer Kante und Bewertung des neu entstandenen BN (Score) Optimierung durch Minimierung der Zielfunktion, des sogenannten Score, der das Netz bewertet (je geringer der Score, umso besser das Netz) Kriterien für Bewertung: hinreichend genau und nicht zu groß Ideen für BuildFromMemoryUsingData(Di)

16 16 Bayesian Networks: Konstruktions - Algorithmus Setzen der Variablen heuristische Suche Ausgabe des bisher besten Netzes

17 Bayesian Networks – Zielfunktion Score Bewertung, wie genau die Wahrscheinlichkeitsverteilung des momentane BN B den zugrunde liegenden Daten entspricht. Cross-Entropie von WKV von D zu B = Differenz der beiden MinimalDescriptionLengths Bewertung des benötigten Speicherplatzes und dementsprechende Abstrafung Minimierung des gesamten Scores BN B mit der höchstmöglichen Genauigkeit bei gleichzeitiger vertretbarer Größe.

18 18 Preprocessing-Algorithmus Daten D Datenteilmengen D i Teilnetzwerke B i Verschmelzung zu BN = NetCube

19 19 Fazit und Ausblick Vorteile +hohe Kompressionsrate (Speicherersparnis) +ausreichende Genauigkeit +schnelle Anfragezeit +Skalierbarkeit (beliebig große Datenbanken) Ausblick: Implementierung auch für diskrete mehrwertige Variablen Umsetzung spezieller Data-Cube-Operatoren hervorragender Einsatz im Data Mining NetCubes: Arbeiten auf Datenmodell (BN) anstatt auf Ausgangsdaten. (laut Autoren: Paradigmenwechsel!!!!)

20 Kritik Intuitiv verständliche Idee Unzulängliche Erläuterungen der Details Inhaltsgetreu strukturiert Formelfehler (Score-Funktion) Gute einsichtige Beispiele Viele Verweise auf andere paper

21 21 Bayesian Networks -Verschmelzung

22 22 Experimente mit NetCubes 1 1) Schnelligkeit: Anfragen auf NetCubes sind schneller!

23 23 Experimente mit NetCubes 2 2) Kompression: NetCubes sind speicherplatzsparend!


Herunterladen ppt "OLAP II: NetCubes Eine skalierbare Methode für schnelles Data Mining und hohe Datenkompression Proseminar - Prof. Weikum Intelligentes Suchen in Informationssystemen."

Ähnliche Präsentationen


Google-Anzeigen