Präsentation herunterladen
Veröffentlicht von:Carl Hauer Geändert vor über 8 Jahren
1
Die DT-GBI-Methode als Klassifikator für graphstrukturierte Daten und Ihre Anwendungen
KADAR CRISTINA cristina.kadar {at} gmail {dot} com Stand:1. Juli 2008 Seminar zu Datenbanksystemen Fachgebiet Datenbanken und Informationssysteme Leibniz Universität Hannover Deutschland
2
Übersicht Einführung GBI wieder besucht DT-GBI Anwendung auf DNA-Daten
Anwendung auf Hepatitis-Daten Schluss Kadar Cristina, Die DT-GBI-Methode
3
Einführung 1 Data Mining
Ziel: das Finden von Zusammenhängen und Mustern in oft sehr großen Datenbeständen Anwendungsgebiete: Bioinformatik, Genetik, Warenkorbanalyse, Kundenpflege, Marketing Unstrukturierte vs. strukturierte Daten Kadar Cristina, Die DT-GBI-Methode
4
Einführung 2 Klassifikation
Ziel: aus Daten Prognose für die Zukunft zu treffen Übliches Hilfsmittel: der Entscheidungsbaum Innere Knoten := Attribute (Eigenschaften der einzelnen Datensätze) Blätter := Klassen (Gruppen von gleichartigen Elementen) Kanten := Tests (Prüfer der Attribute) Kadar Cristina, Die DT-GBI-Methode
5
Beispiel 1 Die Daten: Tag Aussicht Temperatur Feuchtigkeit Wind
Tennisspielen = KLASSEN 1 sonning heiß hoch schwach NEIN 2 stark 3 bedeckt JA 4 regnerisch mild 5 kühl normal 6 7 8 9 10 11 12 13 14 Kadar Cristina, Die DT-GBI-Methode
6
Beispiel 2 Das Entscheidungsbaum: Aussicht sonnig regnerisch bedeckt
Feuchtigkeit Wind „JA“ hoch normal stark schwach „NEIN“ „JA“ „NEIN“ „JA“ Kadar Cristina, Die DT-GBI-Methode
7
Klassifikation I Welche Klassen?
Eine Menge von Datensätzen sammeln, die bereits klassifiziert sind Trainingsmenge (zum Lernen) Testmenge (zum Schätzen des Klassifikationsfehlers) Kriterien für Klassifizierung ableiten z.B. Induktion von Entscheidungsbäume 2 Phasen-Aufbau des Entscheidungsbaums: Growing-Phase: ein Entscheidungsbaum wird mit Hilfe von Splitting-Kriterien (z.B. InformationGain) aufgebaut Pruning-Phase: stutzt den Entscheidungsbaum und verbessert damit den Klassifikationsfehler Kadar Cristina, Die DT-GBI-Methode
8
Klassifikation II Klassifikationsfehler: Anteil der falsch klassifizierten Datensätze, beurteilt anhand der Testmenge wie gut ein Klassifikator eine Menge klassifiziert Der Klassifikator auf neuen (noch nicht klassifizierte) Daten anwenden Kadar Cristina, Die DT-GBI-Methode
9
InformationGain In jedem Schritt müssen wir entscheiden, nach welchem Attribut wir am besten partitionieren Ideal wäre es, wenn man mit einem einzigen Attribut bereits die Klasse vorhersagen könnte, was in der Praxis fast nie vorkommt. Man wählt in jedem Schritt das Attribut, das den größten Informationsgewinn liefert. Kadar Cristina, Die DT-GBI-Methode
10
GBI - Grundlagen Unteralgorithmus: konstruiert die benötigten Attribute für die Klassifizierung Eingabe: ein Graph Ausgabe: eine Liste typischer Muster im Graph Typikalität: meistens durch Häufigkeit beurteilt Kadar Cristina, Die DT-GBI-Methode
11
Beispiel Kadar Cristina, Die DT-GBI-Methode
12
Pseudocode GBI(G) Zähle alle Knotenpaare Palle aus G auf Wähle eine Teilmenge P von Knotenpaaren aus Palle aufgrund des Typikalitätskriteriums Wähle ein Paar p aus Pallle aufgrund des Ersetzungskriteriums Ersetze das ausgewählte Paar p durch einen Knoten c Gc := aus G kontrahierter Graph solange Abbruchkriterium nicht erreicht P := P U GBI(Gc) return P Kadar Cristina, Die DT-GBI-Methode
13
Optimierung Greedy, kein Backtracking =>
Viele mögliche Muster nicht erkannt Ein Beam-Search-Verfahren vergrößert den Suchraum Eine bestimmte Anzahl an Knotenpaaren werden ausgewählt und danach parallel extrahiert Eine Konstante b schränkt die Verzweigungsbreite ein => B-GBI Algorithmus Kadar Cristina, Die DT-GBI-Methode
14
kanonisches Label Knotenpaare werden immer durch einen Knoten mit einem neuen Bezeichner ersetzt =>neue Knoten können entstehen, die unterschiedliche Bezeichner haben, aber zum selben Muster gehören Knoten werden nach ihren Bezeichner und Grad (Invarianten) gruppiert und lexikographisch sortiert Die Adjazenzmatrix wird erzeugt Für ungerichtete Graphen, konkatenieren wir die Spalten des oberen Rechecks: Kadar Cristina, Die DT-GBI-Methode
15
DT-GBI - Grundlagen Konstruiert einen Klassifikator für graphstrukturierte Daten Eingabe: eine Menge von Graphen Ausgabe: Binärer Entscheidungsbaum mit Attribute = Muster in Graphen Tests = liegt das Muster in dem Graphen? 2 Klassen = das Muster kommt vor oder nicht Kadar Cristina, Die DT-GBI-Methode
16
Beispiel 1 4 Graphen als Eingabe:
13 verschiedene Knotenpaaren: a→a, a→b, a→c, a→d, b→a, b→b, b→c, b→d, c→b, c→c, d→a, d→b, d→c (Attribut, Attributwert) Tabelle beim 1. Schritt: Kadar Cristina, Die DT-GBI-Methode
17
Beispiel 2 Wir wählen das Paar mit dem höchsten Informationsgewinn und benutzen es als Wurzel im Entscheidungsbaum: a→a Schritt 2: Das Paar (a→a)→d teilt jetzt die Graphenmenge in 2 Partitionen ein Kadar Cristina, Die DT-GBI-Methode
18
Beispiel 3 Entscheidungsbaum als Ausgabe:
Um eine Überanpassung der Trainingsmenge zu vermeiden, werden Pruning-Ansätze benutzt: Naive Prepruning: der Algorithmus soll aufhören sobald die Anzahl der Graphen im Blatt <= 10 ist Postpruning: es wird erstmal ein überangepasster Baum erzeugt und erst danach wird er zurückgeschnitten Kadar Cristina, Die DT-GBI-Methode
19
Pseudocode DT-GBI(D) Erzeuge einen Knoten DT für D falls Abbruchkriterium erfüllt return DT sonst P := GBI(D) (die Anzahl von Knoten die zusammenfallen ist festgelegt) Wähle ein Paar p aus P Unterteile D in Dy (enthält p) und Dn (enthält p nicht) Ersetze das Paar p durch c in Dy Dyc := aus Dy kontrahierter Graph Für Di := Dyc, Dn Dti := DT-GBI(Di) Füge Dti an DT als Ja/Nein-Nachfolger hinzu return P Kadar Cristina, Die DT-GBI-Methode
20
Klassifizierung Die Testmenge wird nun mit dem erzeugten Entscheidungsbaum klassifiziert Schlüsseloperation: wir suchen den Eingabegraph nach Vorkommen eines Musters => Subgraph-Isomorphie-Problem (NP vollständig) Lösung: Wir erzeugen Kandidaten für Teilgraphen wie bei GBI (die Ersetzungsreihenfolge wurde gespeichert) Wir prüfen ob das kanonische Label des Subgraphs mit dem kanonischen Label des Musters übereinstimmt Kadar Cristina, Die DT-GBI-Methode
21
Anwendung auf DNA-Daten 1
Wir wollen Promotoren in DNA-Sequenzen erkennen DNA-Sequenz = eine Zeichenkette aus Nukleotiden Nukleotid = ein Molekül, das als Grundbaustein von Nukleinsäuren fungiert; bei der DNA handelt es sich um 4 verschieden Arten von Nukleotiden: A, G, C, T Promotor = eine Nukleotidkette, die für den Start der Transkription eines Gens sorgt Eingabe: 106 Datensätzen, wobei 53 positive und 53 negative Instanzen sind Kadar Cristina, Die DT-GBI-Methode
22
Anwendung auf DNA-Daten 2
a t g c a t ... Wir stellen die Zeichenketten als Graphen dar! Für die Klassifizierung: Attribute = Teilsequenzen (Teilgraphen) Klassen = Promoter, Nicht-Promoter Tests = enthält der Graph das Attribut oder nicht? 4 3 2 10 5 1 3 1 4 2 9 Kadar Cristina, Die DT-GBI-Methode
23
Anwendung auf DNA-Daten 3
Die Klassifikationsfehlerquote wird als Durchschnitt aus den 10 Einzeldurchläufen einer 10-fachen Kreuzvalidierung errechnet K-fache Valiedierung: die Datenmenge wird in k Teilmengen T1, ..., Tk aufgeteilt; k Testläufe werden gestartet, bei denen jeweils die i-te Teilmenge Ti als Testmenge und die verbleibenden k-1 Teilmengen als Trainingsmenge verwendet werden Kadar Cristina, Die DT-GBI-Methode
24
Anwendung auf DNA-Daten 4
InformationGain als Entscheidungskriterium; Postpruning-Ansatz Mehrere Experimente werden ausgeführt um festzulegen wie die Parameter auf die Effizienz des Algorithmus einwirken nr Der Alg. ersetzt ein Muster nr-mal am Wurzelknoten und nur einmal an allen anderen Knoten ne Der Alg. ersetzt ein Muster ne-mal an allen Knoten im Entscheidungsbaum b Beam-width von B-GBI Kadar Cristina, Die DT-GBI-Methode
25
Anwendung auf DNA-Daten 3
Die Klassifikationsfehlerquote wird als Durchschnitt aus den 10 Einzeldurchläufen einer 10-fachen Kreuzvalidierung errechnet InformationGain als Entscheidungskriterium; Postpruning-Ansatz Mehrere Experimente werden ausgeführt um festzulegen wie die Parameter auf die Effizienz des Algorithmus einwirken nr Der Alg. ersetzt ein Muster nr-mal am Wurzelknoten und nur einmal an allen anderen Knoten ne Der Alg. ersetzt ein Muster ne-mal an allen Knoten im Entscheidungsbaum b Beam-width von B-GBI Kadar Cristina, Die DT-GBI-Methode
26
Anwendung auf DNA-Daten 5
Intuitiv: je größer die Paramenter nr, ne, und b sind, desto größer der Suchraum ist und damit auch die Klassifikationsgenauigkeit Außerdem sollte sich ne effizienter als nr auf den Algorithmus auswirken Für nr=5, b=12 ist die Klassifikationsfehlerquote= 4,06% Für ne=4, b=10 ist die Klassifikationsfehlerquote= 3,77% Kadar Cristina, Die DT-GBI-Methode
27
Anwendung auf DNA-Daten 6
Ein Entscheidungsbaum für ne=4, b=10: Kadar Cristina, Die DT-GBI-Methode
28
Anwendung auf Hepatitis-Daten I
Datenbestand: Aufzeichnungen von Patienten mit Hepatitis B oder C Verwaltungsdaten: Alter, Typ, Biopsie-Ergebnis, Erfolgswirksamkeit der Interferon-Therapie Bluttest, Urinstatus Problem: Knotenbezeichner := Untersuchungsergebnis Lösung: Numerische Attribute: wir diskretisieren die Werte in 3 Klassen(L-low, N-normal, H-high) Andere: wir diskretisieren die Standardabweichung vom Normalwert in 3 oder Klassen (1-die niedrigste, 3 oder 5 die größte) Kadar Cristina, Die DT-GBI-Methode
29
Anwendung auf Hepatitis-Daten 2
Wir möchten die Daten als Graph darstellen Ein gerichteter Graph= eine Patientenaufzeichnung Ein sterförmiger Subgraph= die durschnittliche Untersuchungsergebnisse Der Mittelknoten= hypothetischer Knoten für das 2- monatige Zeitintervall Kante= eine Untersuchung Knoten= das Untersuchungsergebnis Kadar Cristina, Die DT-GBI-Methode
30
Anwendung auf Hepatitis-Daten 3
Vier verschiedene Experimente wurden durchgeführt: Attribute = Teilgraphen Klassen = Biopsie-Ergebnisse [Phasen F0 – F4] 3. Hepatitis-Typ [B oder C] 4. Erfolgswirksamkeit der Interferon-Theraphie [R-der Virus ist verschwunden oder N-keine Reaktion auf die Behandlung] Tests = Enthält der Graph das Attribut oder nicht? g Kadar Cristina, Die DT-GBI-Methode
31
Anwendung auf Hepatitis-Daten 4
Eine Biopsie zeigt wie fortgeschritten die Fibrose ist: von Phase F0 (normal) bis Phase F4 (akut = Zirrhose) Wir möchten nur zwischen Zirrhose und den anderen Phasen unterscheiden Problem: Anzahl der Instanzen in F4 [Z] = 43 Anzahl der Instanzen in allen anderen nicht Zirrhose-Phasen [nicht-Z] = 219 Kann zu einem unausgewogenen Entscheidungsbaum führen! Lösung: Wir selektieren nur 65 Instazen von den nicht-Z Klasse => Verhältniszahl von 2:3 Z-Klasse = die Minoritätsklasse nicht-Z-Klasse = die dominante Klasse Kadar Cristina, Die DT-GBI-Methode
32
Anwendung auf Hepatitis-Daten 5
Nicht-Z-Klasse nur von F0 und F1 ausgewählt Für nr=20, b=15 ist die Klassifikationsfehlerquote= 15% Für ne=20, b=15 ist die Klassifikationsfehlerquote= 12,5% Wie erwartet, ist die Fehlerquote für ne geringer Es ist wichtig, dass man nicht-Z-Patienten nicht als Z- Patienten falsch Klassifiziert Wichtiger ist es aber, Z-Patienten richtig zu identifizieren und die Behandlung anzufangen Kadar Cristina, Die DT-GBI-Methode
33
Anwendung auf Hepatitis-Daten 5
Die Fehlerquote für die Z-Klasse ist aber größer als für die nicht-Z-Klasse (15.35% vs %), da die Klassen nicht gleich verteilt sind (43 vs 65) Die Ergebnisse sind also nicht günstig Tatsächliche Klasse Vorhergesagte Klasse Z-Klasse Nicht-Z-Klaase 364 66 Nicht-Z-Klasse 69 581 Kadar Cristina, Die DT-GBI-Methode
34
Schluss Klassifikationsfehlerquote ist befriedigend und vergleichbar mit anderen Methoden Einige extrahierte Muster stimmen mit der Erfahrung der Spezialisten überein Nüzliches Hilfsmittel für Evidenzbasierte Medizin Neigt dazu, mehr Elemente mit der Minderheitsklase als mit der dominanten Klasse falsch zu klassifizieren Die Vorverarbeitung der Daten (Diskretisierung, Durchschnittsberechnung, Umwandlung in eine Graphendarstellung) ist aufwändig und erfolgt nur mit der Hilfe der Spezialisten Kadar Cristina, Die DT-GBI-Methode
35
Danke für Ihre Aufmerksamkeit!
Fragen? Kadar Cristina, Die DT-GBI-Methode
Ähnliche Präsentationen
© 2024 SlidePlayer.org Inc.
All rights reserved.