Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

KADAR CRISTINA cristina.kadar {at} gmail {dot} com Stand:1. Juli 2008

Ähnliche Präsentationen


Präsentation zum Thema: "KADAR CRISTINA cristina.kadar {at} gmail {dot} com Stand:1. Juli 2008"—  Präsentation transkript:

1 Die DT-GBI-Methode als Klassifikator für graphstrukturierte Daten und Ihre Anwendungen
KADAR CRISTINA cristina.kadar {at} gmail {dot} com Stand:1. Juli 2008 Seminar zu Datenbanksystemen Fachgebiet Datenbanken und Informationssysteme Leibniz Universität Hannover Deutschland

2 Übersicht Einführung GBI wieder besucht DT-GBI Anwendung auf DNA-Daten
Anwendung auf Hepatitis-Daten Schluss Kadar Cristina, Die DT-GBI-Methode

3 Einführung 1 Data Mining
Ziel: das Finden von Zusammenhängen und Mustern in oft sehr großen Datenbeständen Anwendungsgebiete: Bioinformatik, Genetik, Warenkorbanalyse, Kundenpflege, Marketing Unstrukturierte vs. strukturierte Daten Kadar Cristina, Die DT-GBI-Methode

4 Einführung 2 Klassifikation
Ziel: aus Daten Prognose für die Zukunft zu treffen Übliches Hilfsmittel: der Entscheidungsbaum Innere Knoten := Attribute (Eigenschaften der einzelnen Datensätze) Blätter := Klassen (Gruppen von gleichartigen Elementen) Kanten := Tests (Prüfer der Attribute) Kadar Cristina, Die DT-GBI-Methode

5 Beispiel 1 Die Daten: Tag Aussicht Temperatur Feuchtigkeit Wind
Tennisspielen = KLASSEN 1 sonning heiß hoch schwach NEIN 2 stark 3 bedeckt JA 4 regnerisch mild 5 kühl normal 6 7 8 9 10 11 12 13 14 Kadar Cristina, Die DT-GBI-Methode

6 Beispiel 2 Das Entscheidungsbaum: Aussicht sonnig regnerisch bedeckt
Feuchtigkeit Wind „JA“ hoch normal stark schwach „NEIN“ „JA“ „NEIN“ „JA“ Kadar Cristina, Die DT-GBI-Methode

7 Klassifikation I Welche Klassen?
Eine Menge von Datensätzen sammeln, die bereits klassifiziert sind Trainingsmenge (zum Lernen) Testmenge (zum Schätzen des Klassifikationsfehlers) Kriterien für Klassifizierung ableiten z.B. Induktion von Entscheidungsbäume 2 Phasen-Aufbau des Entscheidungsbaums: Growing-Phase: ein Entscheidungsbaum wird mit Hilfe von Splitting-Kriterien (z.B. InformationGain) aufgebaut Pruning-Phase: stutzt den Entscheidungsbaum und verbessert damit den Klassifikationsfehler Kadar Cristina, Die DT-GBI-Methode

8 Klassifikation II Klassifikationsfehler: Anteil der falsch klassifizierten Datensätze, beurteilt anhand der Testmenge wie gut ein Klassifikator eine Menge klassifiziert Der Klassifikator auf neuen (noch nicht klassifizierte) Daten anwenden Kadar Cristina, Die DT-GBI-Methode

9 InformationGain In jedem Schritt müssen wir entscheiden, nach welchem Attribut wir am besten partitionieren Ideal wäre es, wenn man mit einem einzigen Attribut bereits die Klasse vorhersagen könnte, was in der Praxis fast nie vorkommt. Man wählt in jedem Schritt das Attribut, das den größten Informationsgewinn liefert. Kadar Cristina, Die DT-GBI-Methode

10 GBI - Grundlagen Unteralgorithmus: konstruiert die benötigten Attribute für die Klassifizierung Eingabe: ein Graph Ausgabe: eine Liste typischer Muster im Graph Typikalität: meistens durch Häufigkeit beurteilt Kadar Cristina, Die DT-GBI-Methode

11 Beispiel Kadar Cristina, Die DT-GBI-Methode

12 Pseudocode GBI(G) Zähle alle Knotenpaare Palle aus G auf Wähle eine Teilmenge P von Knotenpaaren aus Palle aufgrund des Typikalitätskriteriums Wähle ein Paar p aus Pallle aufgrund des Ersetzungskriteriums Ersetze das ausgewählte Paar p durch einen Knoten c Gc := aus G kontrahierter Graph solange Abbruchkriterium nicht erreicht P := P U GBI(Gc) return P Kadar Cristina, Die DT-GBI-Methode

13 Optimierung Greedy, kein Backtracking =>
Viele mögliche Muster nicht erkannt Ein Beam-Search-Verfahren vergrößert den Suchraum Eine bestimmte Anzahl an Knotenpaaren werden ausgewählt und danach parallel extrahiert Eine Konstante b schränkt die Verzweigungsbreite ein => B-GBI Algorithmus Kadar Cristina, Die DT-GBI-Methode

14 kanonisches Label Knotenpaare werden immer durch einen Knoten mit einem neuen Bezeichner ersetzt =>neue Knoten können entstehen, die unterschiedliche Bezeichner haben, aber zum selben Muster gehören Knoten werden nach ihren Bezeichner und Grad (Invarianten) gruppiert und lexikographisch sortiert Die Adjazenzmatrix wird erzeugt Für ungerichtete Graphen, konkatenieren wir die Spalten des oberen Rechecks: Kadar Cristina, Die DT-GBI-Methode

15 DT-GBI - Grundlagen Konstruiert einen Klassifikator für graphstrukturierte Daten Eingabe: eine Menge von Graphen Ausgabe: Binärer Entscheidungsbaum mit Attribute = Muster in Graphen Tests = liegt das Muster in dem Graphen? 2 Klassen = das Muster kommt vor oder nicht Kadar Cristina, Die DT-GBI-Methode

16 Beispiel 1 4 Graphen als Eingabe:
13 verschiedene Knotenpaaren: a→a, a→b, a→c, a→d, b→a, b→b, b→c, b→d, c→b, c→c, d→a, d→b, d→c (Attribut, Attributwert) Tabelle beim 1. Schritt: Kadar Cristina, Die DT-GBI-Methode

17 Beispiel 2 Wir wählen das Paar mit dem höchsten Informationsgewinn und benutzen es als Wurzel im Entscheidungsbaum: a→a Schritt 2: Das Paar (a→a)→d teilt jetzt die Graphenmenge in 2 Partitionen ein Kadar Cristina, Die DT-GBI-Methode

18 Beispiel 3 Entscheidungsbaum als Ausgabe:
Um eine Überanpassung der Trainingsmenge zu vermeiden, werden Pruning-Ansätze benutzt: Naive Prepruning: der Algorithmus soll aufhören sobald die Anzahl der Graphen im Blatt <= 10 ist Postpruning: es wird erstmal ein überangepasster Baum erzeugt und erst danach wird er zurückgeschnitten Kadar Cristina, Die DT-GBI-Methode

19 Pseudocode DT-GBI(D) Erzeuge einen Knoten DT für D falls Abbruchkriterium erfüllt return DT sonst P := GBI(D) (die Anzahl von Knoten die zusammenfallen ist festgelegt) Wähle ein Paar p aus P Unterteile D in Dy (enthält p) und Dn (enthält p nicht) Ersetze das Paar p durch c in Dy Dyc := aus Dy kontrahierter Graph Für Di := Dyc, Dn Dti := DT-GBI(Di) Füge Dti an DT als Ja/Nein-Nachfolger hinzu return P Kadar Cristina, Die DT-GBI-Methode

20 Klassifizierung Die Testmenge wird nun mit dem erzeugten Entscheidungsbaum klassifiziert Schlüsseloperation: wir suchen den Eingabegraph nach Vorkommen eines Musters => Subgraph-Isomorphie-Problem (NP vollständig) Lösung: Wir erzeugen Kandidaten für Teilgraphen wie bei GBI (die Ersetzungsreihenfolge wurde gespeichert) Wir prüfen ob das kanonische Label des Subgraphs mit dem kanonischen Label des Musters übereinstimmt Kadar Cristina, Die DT-GBI-Methode

21 Anwendung auf DNA-Daten 1
Wir wollen Promotoren in DNA-Sequenzen erkennen DNA-Sequenz = eine Zeichenkette aus Nukleotiden Nukleotid = ein Molekül, das als Grundbaustein von Nukleinsäuren fungiert; bei der DNA handelt es sich um 4 verschieden Arten von Nukleotiden: A, G, C, T Promotor = eine Nukleotidkette, die für den Start der Transkription eines Gens sorgt Eingabe: 106 Datensätzen, wobei 53 positive und 53 negative Instanzen sind Kadar Cristina, Die DT-GBI-Methode

22 Anwendung auf DNA-Daten 2
a t g c a t ... Wir stellen die Zeichenketten als Graphen dar! Für die Klassifizierung: Attribute = Teilsequenzen (Teilgraphen) Klassen = Promoter, Nicht-Promoter Tests = enthält der Graph das Attribut oder nicht? 4 3 2 10 5 1 3 1 4 2 9 Kadar Cristina, Die DT-GBI-Methode

23 Anwendung auf DNA-Daten 3
Die Klassifikationsfehlerquote wird als Durchschnitt aus den 10 Einzeldurchläufen einer 10-fachen Kreuzvalidierung errechnet K-fache Valiedierung: die Datenmenge wird in k Teilmengen T1, ..., Tk aufgeteilt; k Testläufe werden gestartet, bei denen jeweils die i-te Teilmenge Ti als Testmenge und die verbleibenden k-1 Teilmengen als Trainingsmenge verwendet werden Kadar Cristina, Die DT-GBI-Methode

24 Anwendung auf DNA-Daten 4
InformationGain als Entscheidungskriterium; Postpruning-Ansatz Mehrere Experimente werden ausgeführt um festzulegen wie die Parameter auf die Effizienz des Algorithmus einwirken nr Der Alg. ersetzt ein Muster nr-mal am Wurzelknoten und nur einmal an allen anderen Knoten ne Der Alg. ersetzt ein Muster ne-mal an allen Knoten im Entscheidungsbaum b Beam-width von B-GBI Kadar Cristina, Die DT-GBI-Methode

25 Anwendung auf DNA-Daten 3
Die Klassifikationsfehlerquote wird als Durchschnitt aus den 10 Einzeldurchläufen einer 10-fachen Kreuzvalidierung errechnet InformationGain als Entscheidungskriterium; Postpruning-Ansatz Mehrere Experimente werden ausgeführt um festzulegen wie die Parameter auf die Effizienz des Algorithmus einwirken nr Der Alg. ersetzt ein Muster nr-mal am Wurzelknoten und nur einmal an allen anderen Knoten ne Der Alg. ersetzt ein Muster ne-mal an allen Knoten im Entscheidungsbaum b Beam-width von B-GBI Kadar Cristina, Die DT-GBI-Methode

26 Anwendung auf DNA-Daten 5
Intuitiv: je größer die Paramenter nr, ne, und b sind, desto größer der Suchraum ist und damit auch die Klassifikationsgenauigkeit Außerdem sollte sich ne effizienter als nr auf den Algorithmus auswirken Für nr=5, b=12 ist die Klassifikationsfehlerquote= 4,06% Für ne=4, b=10 ist die Klassifikationsfehlerquote= 3,77% Kadar Cristina, Die DT-GBI-Methode

27 Anwendung auf DNA-Daten 6
Ein Entscheidungsbaum für ne=4, b=10: Kadar Cristina, Die DT-GBI-Methode

28 Anwendung auf Hepatitis-Daten I
Datenbestand: Aufzeichnungen von Patienten mit Hepatitis B oder C Verwaltungsdaten: Alter, Typ, Biopsie-Ergebnis, Erfolgswirksamkeit der Interferon-Therapie Bluttest, Urinstatus Problem: Knotenbezeichner := Untersuchungsergebnis Lösung: Numerische Attribute: wir diskretisieren die Werte in 3 Klassen(L-low, N-normal, H-high) Andere: wir diskretisieren die Standardabweichung vom Normalwert in 3 oder Klassen (1-die niedrigste, 3 oder 5 die größte) Kadar Cristina, Die DT-GBI-Methode

29 Anwendung auf Hepatitis-Daten 2
Wir möchten die Daten als Graph darstellen Ein gerichteter Graph= eine Patientenaufzeichnung Ein sterförmiger Subgraph= die durschnittliche Untersuchungsergebnisse Der Mittelknoten= hypothetischer Knoten für das 2- monatige Zeitintervall Kante= eine Untersuchung Knoten= das Untersuchungsergebnis Kadar Cristina, Die DT-GBI-Methode

30 Anwendung auf Hepatitis-Daten 3
Vier verschiedene Experimente wurden durchgeführt: Attribute = Teilgraphen Klassen = Biopsie-Ergebnisse [Phasen F0 – F4] 3. Hepatitis-Typ [B oder C] 4. Erfolgswirksamkeit der Interferon-Theraphie [R-der Virus ist verschwunden oder N-keine Reaktion auf die Behandlung] Tests = Enthält der Graph das Attribut oder nicht? g Kadar Cristina, Die DT-GBI-Methode

31 Anwendung auf Hepatitis-Daten 4
Eine Biopsie zeigt wie fortgeschritten die Fibrose ist: von Phase F0 (normal) bis Phase F4 (akut = Zirrhose) Wir möchten nur zwischen Zirrhose und den anderen Phasen unterscheiden Problem: Anzahl der Instanzen in F4 [Z] = 43 Anzahl der Instanzen in allen anderen nicht Zirrhose-Phasen [nicht-Z] = 219 Kann zu einem unausgewogenen Entscheidungsbaum führen! Lösung: Wir selektieren nur 65 Instazen von den nicht-Z Klasse => Verhältniszahl von 2:3 Z-Klasse = die Minoritätsklasse nicht-Z-Klasse = die dominante Klasse Kadar Cristina, Die DT-GBI-Methode

32 Anwendung auf Hepatitis-Daten 5
Nicht-Z-Klasse nur von F0 und F1 ausgewählt Für nr=20, b=15 ist die Klassifikationsfehlerquote= 15% Für ne=20, b=15 ist die Klassifikationsfehlerquote= 12,5% Wie erwartet, ist die Fehlerquote für ne geringer Es ist wichtig, dass man nicht-Z-Patienten nicht als Z- Patienten falsch Klassifiziert Wichtiger ist es aber, Z-Patienten richtig zu identifizieren und die Behandlung anzufangen Kadar Cristina, Die DT-GBI-Methode

33 Anwendung auf Hepatitis-Daten 5
Die Fehlerquote für die Z-Klasse ist aber größer als für die nicht-Z-Klasse (15.35% vs %), da die Klassen nicht gleich verteilt sind (43 vs 65) Die Ergebnisse sind also nicht günstig Tatsächliche Klasse Vorhergesagte Klasse Z-Klasse Nicht-Z-Klaase 364 66 Nicht-Z-Klasse 69 581 Kadar Cristina, Die DT-GBI-Methode

34 Schluss Klassifikationsfehlerquote ist befriedigend und vergleichbar mit anderen Methoden Einige extrahierte Muster stimmen mit der Erfahrung der Spezialisten überein Nüzliches Hilfsmittel für Evidenzbasierte Medizin Neigt dazu, mehr Elemente mit der Minderheitsklase als mit der dominanten Klasse falsch zu klassifizieren Die Vorverarbeitung der Daten (Diskretisierung, Durchschnittsberechnung, Umwandlung in eine Graphendarstellung) ist aufwändig und erfolgt nur mit der Hilfe der Spezialisten Kadar Cristina, Die DT-GBI-Methode

35 Danke für Ihre Aufmerksamkeit!
Fragen? Kadar Cristina, Die DT-GBI-Methode


Herunterladen ppt "KADAR CRISTINA cristina.kadar {at} gmail {dot} com Stand:1. Juli 2008"

Ähnliche Präsentationen


Google-Anzeigen