Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Die DT-GBI-Methode als Klassifikator für graphstrukturierte Daten und Ihre Anwendungen KADAR CRISTINA cristina.kadar {at} gmail {dot} com Stand:1. Juli.

Ähnliche Präsentationen


Präsentation zum Thema: "Die DT-GBI-Methode als Klassifikator für graphstrukturierte Daten und Ihre Anwendungen KADAR CRISTINA cristina.kadar {at} gmail {dot} com Stand:1. Juli."—  Präsentation transkript:

1 Die DT-GBI-Methode als Klassifikator für graphstrukturierte Daten und Ihre Anwendungen KADAR CRISTINA cristina.kadar {at} gmail {dot} com Stand:1. Juli 2008 Seminar zu Datenbanksystemen Fachgebiet Datenbanken und Informationssysteme Leibniz Universität Hannover Deutschland

2 Übersicht 1. Einführung 2. GBI wieder besucht 3. DT-GBI 4. Anwendung auf DNA-Daten 5. Anwendung auf Hepatitis-Daten 6. Schluss Kadar Cristina, Die DT-GBI-Methode2

3 Einführung 1 Data Mining ◦ Ziel: das Finden von Zusammenhängen und Mustern in oft sehr großen Datenbeständen ◦ Anwendungsgebiete: Bioinformatik, Genetik, Warenkorbanalyse, Kundenpflege, Marketing ◦ Unstrukturierte vs. strukturierte Daten Kadar Cristina, Die DT-GBI-Methode3

4 Einführung 2 Klassifikation ◦ Ziel: aus Daten Prognose für die Zukunft zu treffen ◦ Übliches Hilfsmittel: der Entscheidungsbaum  Innere Knoten := Attribute (Eigenschaften der einzelnen Datensätze)  Blätter := Klassen (Gruppen von gleichartigen Elementen)  Kanten := Tests (Prüfer der Attribute) Kadar Cristina, Die DT-GBI-Methode4

5 Die Daten: Beispiel 1 5 TagAussichtTemperaturFeuchtigkeitWindTennisspielen = KLASSEN 1sonningheißhochschwachNEIN 2sonningheißhochstarkNEIN 3bedecktheißhochschwachJA 4regnerischmildhochschwachJA 5regnerischkühlnormalschwachJA 6regnerischkühlnormalstarkNEIN 7bedecktkühlnormalstarkJA 8sonningmildhochschwachNEIN 9sonningkühlnormalschwachJA 10regnerischmildnormalschwachJA 11sonningmildnormalstarkJA 12bedecktmildhochstarkJA 13bedecktheißnormalschwachJA 14regnerischmildhochstarkNEIN Kadar Cristina, Die DT-GBI-Methode

6 6 Aussicht FeuchtigkeitWind sonnig bedeckt regnerisch hochnormal „JA“ „NEIN“ starkschwach „NEIN“„JA“ Beispiel 2 Das Entscheidungsbaum:

7 Klassifikation I Kadar Cristina, Die DT-GBI-Methode7 1. Welche Klassen? 2. Eine Menge von Datensätzen sammeln, die bereits klassifiziert sind ◦ Trainingsmenge (zum Lernen) ◦ Testmenge (zum Schätzen des Klassifikationsfehlers) 3. Kriterien für Klassifizierung ableiten ◦ z.B. Induktion von Entscheidungsbäume ◦ 2 Phasen-Aufbau des Entscheidungsbaums: ◦ Growing-Phase: ein Entscheidungsbaum wird mit Hilfe von Splitting-Kriterien (z.B. InformationGain) aufgebaut ◦ Pruning-Phase: stutzt den Entscheidungsbaum und verbessert damit den Klassifikationsfehler

8 Klassifikation II Kadar Cristina, Die DT-GBI-Methode8 4. Klassifikationsfehler: Anteil der falsch klassifizierten Datensätze, beurteilt anhand der Testmenge wie gut ein Klassifikator eine Menge klassifiziert 5. Der Klassifikator auf neuen (noch nicht klassifizierte) Daten anwenden

9 InformationGain Kadar Cristina, Die DT-GBI-Methode9 In jedem Schritt müssen wir entscheiden, nach welchem Attribut wir am besten partitionieren Ideal wäre es, wenn man mit einem einzigen Attribut bereits die Klasse vorhersagen könnte, was in der Praxis fast nie vorkommt. Man wählt in jedem Schritt das Attribut, das den größten Informationsgewinn liefert.

10 GBI - Grundlagen Unteralgorithmus: konstruiert die benötigten Attribute für die Klassifizierung Eingabe: ein Graph Ausgabe: eine Liste typischer Muster im Graph Typikalität: meistens durch Häufigkeit beurteilt Kadar Cristina, Die DT-GBI-Methode10

11 Beispiel Kadar Cristina, Die DT-GBI-Methode11

12 Pseudocode GBI(G) Zähle alle Knotenpaare P alle aus G auf Wähle eine Teilmenge P von Knotenpaaren aus P alle aufgrund des Typikalitätskriteriums Wähle ein Paar p aus P allle aufgrund des Ersetzungskriteriums Ersetze das ausgewählte Paar p durch einen Knoten c G c := aus G kontrahierter Graph solange Abbruchkriterium nicht erreicht P := P U GBI(G c ) return P Kadar Cristina, Die DT-GBI-Methode12

13 Optimierung Greedy, kein Backtracking => Viele mögliche Muster nicht erkannt Ein Beam-Search-Verfahren vergrößert den Suchraum Eine bestimmte Anzahl an Knotenpaaren werden ausgewählt und danach parallel extrahiert Eine Konstante b schränkt die Verzweigungsbreite ein => B-GBI Algorithmus Kadar Cristina, Die DT-GBI-Methode13

14 kanonisches Label kanonisches Label Knotenpaare werden immer durch einen Knoten mit einem neuen Bezeichner ersetzt =>neue Knoten können entstehen, die unterschiedliche Bezeichner haben, aber zum selben Muster gehören Knoten werden nach ihren Bezeichner und Grad (Invarianten) gruppiert und lexikographisch sortiert Die Adjazenzmatrix wird erzeugt Für ungerichtete Graphen, konkatenieren wir die Spalten des oberen Rechecks: Kadar Cristina, Die DT-GBI-Methode14

15 DT-GBI - Grundlagen Konstruiert einen Klassifikator für graphstrukturierte Daten Eingabe: eine Menge von Graphen Ausgabe: Binärer Entscheidungsbaum mit ◦ Attribute = Muster in Graphen ◦ Tests = liegt das Muster in dem Graphen? ◦ 2 Klassen = das Muster kommt vor oder nicht Kadar Cristina, Die DT-GBI-Methode15

16 Beispiel 1 Kadar Cristina, Die DT-GBI-Methode16 4 Graphen als Eingabe: 13 verschiedene Knotenpaaren: a → a, a → b, a → c, a → d, b → a, b → b, b → c, b → d, c → b, c → c, d → a, d → b, d → c (Attribut, Attributwert) Tabelle beim 1. Schritt:

17 Wir wählen das Paar mit dem höchsten Informationsgewinn und benutzen es als Wurzel im Entscheidungsbaum: a → a Schritt 2: Das Paar (a → a) → d teilt jetzt die Graphenmenge in 2 Partitionen ein Beispiel 2 Kadar Cristina, Die DT-GBI-Methode17

18 Beispiel 3 Kadar Cristina, Die DT-GBI-Methode18 Entscheidungsbaum als Ausgabe: Um eine Überanpassung der Trainingsmenge zu vermeiden, werden Pruning-Ansätze benutzt: ◦ Naive Prepruning: der Algorithmus soll aufhören sobald die Anzahl der Graphen im Blatt <= 10 ist ◦ Postpruning: es wird erstmal ein überangepasster Baum erzeugt und erst danach wird er zurückgeschnitten

19 Pseudocode DT-GBI(D) Erzeuge einen Knoten DT für D falls Abbruchkriterium erfüllt return DT sonst P := GBI(D) (die Anzahl von Knoten die zusammenfallen ist festgelegt) Wähle ein Paar p aus P Unterteile D in D y (enthält p) und D n (enthält p nicht) Ersetze das Paar p durch c in D y D yc := aus D y kontrahierter Graph Für D i := D yc, D n Dt i := DT-GBI(D i ) Füge Dt i an DT als Ja/Nein-Nachfolger hinzu return P Kadar Cristina, Die DT-GBI-Methode19

20 Klassifizierung Kadar Cristina, Die DT-GBI-Methode20 Die Testmenge wird nun mit dem erzeugten Entscheidungsbaum klassifiziert Schlüsseloperation: wir suchen den Eingabegraph nach Vorkommen eines Musters => Subgraph-Isomorphie-Problem (NP vollständig) Lösung: ◦ Wir erzeugen Kandidaten für Teilgraphen wie bei GBI (die Ersetzungsreihenfolge wurde gespeichert) ◦ Wir prüfen ob das kanonische Label des Subgraphs mit dem kanonischen Label des Musters übereinstimmt

21 Anwendung auf DNA-Daten 1 Kadar Cristina, Die DT-GBI-Methode21 Wir wollen Promotoren in DNA-Sequenzen erkennen DNA-Sequenz = eine Zeichenkette aus Nukleotiden Nukleotid = ein Molekül, das als Grundbaustein von Nukleinsäuren fungiert; bei der DNA handelt es sich um 4 verschieden Arten von Nukleotiden: A, G, C, T Promotor = eine Nukleotidkette, die für den Start der Transkription eines Gens sorgt Eingabe: 106 Datensätzen, wobei 53 positive und 53 negative Instanzen sind

22 atgcat... Wir stellen die Zeichenketten als Graphen dar! Für die Klassifizierung: ◦ Attribute = Teilsequenzen (Teilgraphen) ◦ Klassen = Promoter, Nicht-Promoter ◦ Tests = enthält der Graph das Attribut oder nicht? Anwendung auf DNA-Daten 2 Kadar Cristina, Die DT-GBI-Methode22

23 Anwendung auf DNA-Daten 3 Kadar Cristina, Die DT-GBI-Methode23 Die Klassifikationsfehlerquote wird als Durchschnitt aus den 10 Einzeldurchläufen einer 10-fachen Kreuzvalidierung errechnet K-fache Valiedierung : die Datenmenge wird in k Teilmengen T 1,..., T k aufgeteilt; k Testläufe werden gestartet, bei denen jeweils die i-te Teilmenge T i als Testmenge und die verbleibenden k-1 Teilmengen als Trainingsmenge verwendet werden

24 Anwendung auf DNA-Daten 4 Kadar Cristina, Die DT-GBI-Methode24 InformationGain als Entscheidungskriterium; Postpruning-Ansatz Mehrere Experimente werden ausgeführt um festzulegen wie die Parameter auf die Effizienz des Algorithmus einwirken nrnr Der Alg. ersetzt ein Muster n r -mal am Wurzelknoten und nur einmal an allen anderen Knoten nene Der Alg. ersetzt ein Muster n e -mal an allen Knoten im Entscheidungsbaum b Beam-width von B-GBI

25 Anwendung auf DNA-Daten 3 Kadar Cristina, Die DT-GBI-Methode25 Die Klassifikationsfehlerquote wird als Durchschnitt aus den 10 Einzeldurchläufen einer 10-fachen Kreuzvalidierung errechnet InformationGain als Entscheidungskriterium; Postpruning-Ansatz Mehrere Experimente werden ausgeführt um festzulegen wie die Parameter auf die Effizienz des Algorithmus einwirken nrnr Der Alg. ersetzt ein Muster n r -mal am Wurzelknoten und nur einmal an allen anderen Knoten nene Der Alg. ersetzt ein Muster n e -mal an allen Knoten im Entscheidungsbaum b Beam-width von B-GBI

26 Anwendung auf DNA-Daten 5 Kadar Cristina, Die DT-GBI-Methode26 Intuitiv: je größer die Paramenter n r, n e, und b sind, desto größer der Suchraum ist und damit auch die Klassifikationsgenauigkeit Außerdem sollte sich n e effizienter als n r auf den Algorithmus auswirken Für n r =5, b=12 ist die Klassifikationsfehlerquote= 4,06% Für n e =4, b=10 ist die Klassifikationsfehlerquote= 3,77%

27 Anwendung auf DNA-Daten 6 Ein Entscheidungsbaum für n e =4, b=10: Kadar Cristina, Die DT-GBI-Methode27

28 Datenbestand: Aufzeichnungen von Patienten mit Hepatitis B oder C ◦ Verwaltungsdaten: Alter, Typ, Biopsie-Ergebnis, Erfolgswirksamkeit der Interferon-Therapie ◦ Bluttest, Urinstatus Problem: Knotenbezeichner := Untersuchungsergebnis Lösung: ◦ Numerische Attribute: wir diskretisieren die Werte in 3 Klassen(L-low, N-normal, H-high) ◦ Andere: wir diskretisieren die Standardabweichung vom Normalwert in 3 oder Klassen (1-die niedrigste, 3 oder 5 die größte) Anwendung auf Hepatitis-Daten I Kadar Cristina, Die DT-GBI-Methode28

29 Anwendung auf Hepatitis-Daten 2 Wir möchten die Daten als Graph darstellen Ein gerichteter Graph= eine Patientenaufzeichnung Ein sterförmiger Subgraph= die durschnittliche Untersuchungsergebnisse Der Mittelknoten= hypothetischer Knoten für das 2- monatige Zeitintervall Kante= eine Untersuchung Knoten= das Untersuchungsergebnis Kadar Cristina, Die DT-GBI-Methode29

30 Vier verschiedene Experimente wurden durchgeführt: ◦ Attribute = Teilgraphen ◦ Klassen =  Biopsie-Ergebnisse [Phasen F0 – F4]  3. Hepatitis-Typ [B oder C]  4. Erfolgswirksamkeit der Interferon-Theraphie [R-der Virus ist verschwunden oder N-keine Reaktion auf die Behandlung] ◦ Tests = Enthält der Graph das Attribut oder nicht? Anwendung auf Hepatitis-Daten 3 Kadar Cristina, Die DT-GBI-Methode30 g

31 Anwendung auf Hepatitis-Daten 4 Eine Biopsie zeigt wie fortgeschritten die Fibrose ist: von Phase F0 (normal) bis Phase F4 (akut = Zirrhose) Wir möchten nur zwischen Zirrhose und den anderen Phasen unterscheiden Problem: Anzahl der Instanzen in F4 [Z] = 43 Anzahl der Instanzen in allen anderen nicht- Zirrhose-Phasen [nicht-Z] = 219 Kann zu einem unausgewogenen Entscheidungsbaum führen! Lösung: Wir selektieren nur 65 Instazen von den nicht-Z Klasse => Verhältniszahl von 2:3 Z-Klasse = die Minoritätsklasse nicht-Z-Klasse = die dominante Klasse Kadar Cristina, Die DT-GBI-Methode31

32 Anwendung auf Hepatitis-Daten 5 Nicht-Z-Klasse nur von F0 und F1 ausgewählt Für n r =20, b=15 ist die Klassifikationsfehlerquote = 15% Für n e =20, b=15 ist die Klassifikationsfehlerquote = 12,5% Wie erwartet, ist die Fehlerquote für n e geringer Es ist wichtig, dass man nicht-Z-Patienten nicht als Z- Patienten falsch Klassifiziert Wichtiger ist es aber, Z-Patienten richtig zu identifizieren und die Behandlung anzufangen Kadar Cristina, Die DT-GBI-Methode32

33 Tatsächliche KlasseVorhergesagte Klasse Z-KlasseNicht-Z-Klaase Z-Klasse36466 Nicht-Z-Klasse69581 Anwendung auf Hepatitis-Daten 5 Kadar Cristina, Die DT-GBI-Methode33 Die Fehlerquote für die Z-Klasse ist aber größer als für die nicht-Z-Klasse (15.35% vs %), da die Klassen nicht gleich verteilt sind (43 vs 65) Die Ergebnisse sind also nicht günstig

34 Schluss ◦ Klassifikationsfehlerquote ist befriedigend und vergleichbar mit anderen Methoden ◦ Einige extrahierte Muster stimmen mit der Erfahrung der Spezialisten überein ◦ Nüzliches Hilfsmittel für Evidenzbasierte Medizin ◦ Neigt dazu, mehr Elemente mit der Minderheitsklase als mit der dominanten Klasse falsch zu klassifizieren ◦ Die Vorverarbeitung der Daten (Diskretisierung, Durchschnittsberechnung, Umwandlung in eine Graphendarstellung) ist aufwändig und erfolgt nur mit der Hilfe der Spezialisten Kadar Cristina, Die DT-GBI-Methode34

35 Danke für Ihre Aufmerksamkeit! Fragen? Kadar Cristina, Die DT-GBI-Methode35


Herunterladen ppt "Die DT-GBI-Methode als Klassifikator für graphstrukturierte Daten und Ihre Anwendungen KADAR CRISTINA cristina.kadar {at} gmail {dot} com Stand:1. Juli."

Ähnliche Präsentationen


Google-Anzeigen