KADAR CRISTINA cristina.kadar {at} gmail {dot} com Stand:1. Juli 2008

Slides:



Advertisements
Ähnliche Präsentationen
Algorithmen und Datenstrukturen
Advertisements

8. Termin Teil B: Wiederholung Begriffe Baum
Christian Scheideler SS 2009
Punkt-in-Polygon-Verfahren III (R/R+-Baum)
Vorlesung Programmieren II
Schnelle Matrizenoperationen von Christian Büttner
Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)
Data Mining Anwendungen und Techniken
Indizierung von Graphen durch häufige Subgraphen (2)
Das LCA – Problem in Suffixbäumen
TECHNISCHE UNIVERSITÄT DARMSTADT Naive Bayes for Ranking
Kapitel 6: Klassifizierung von Sortiertechniken
R. Der - Vorlesung Algorithmen und Datenstrukturen (Magister)
Sortierverfahren Richard Göbel.
Sortierverfahren Richard Göbel.
Effizienz: Indexstrukturen
WS Algorithmentheorie 13 - Kürzeste (billigste) Wege Prof. Dr. Th. Ottmann.
Informatik II, SS 2008 Algorithmen und Datenstrukturen Vorlesung 4 Prof. Dr. Thomas Ottmann Algorithmen & Datenstrukturen, Institut für Informatik Fakultät.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (17 – Bäume: Grundlagen und natürliche Suchbäume) Prof. Th. Ottmann.
Algorithmen und Datenstrukturen
Planarisierung von Cluster Graphen
Algorithmen und Komplexität
Christian Schindelhauer
Situationen Verteilte Anwendungen Wintersemester 06/07 © Wolfgang Schönfeld.
Schiller-Gymnasium Hof Manuel Friedrich OStR,
Was sind Histogramme? (1)
Minimum Spanning Tree: MST
Beispielrelation Buchbestellungen H = Menge der bedeutenden Ziele = {a, d} Schwelle T = 4 Stichprobe S = {a, b, a, a, a, a} mit s = |S| = 6 N = Anzahl.
Intelligentes Crawling im WWW mit Hilfe intuitiver Suchbedingungen
Maschinelles Lernen Bayessche Verfahren (Mitchell Kap. 6), Teil 1.
Vortrag über Graphen Von Jörg Hendricks.
Christian Schulz, Marc Thielbeer, Sebastian Boldt
Beweissysteme Hartmut Klauck Universität Frankfurt WS 06/
Effiziente Algorithmen
Computational Thinking Online Algorithmen [Was ist es wert, die Zukunft zu kennen?] Kurt Mehlhorn Konstantinos Panagiotou.
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen
Effiziente Algorithmen
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Hartmut Klauck Universität Frankfurt SS
Information und Kommunikation Hartmut Klauck Universität Frankfurt SS
Information und Kommunikation
Information und Kommunikation Hartmut Klauck Universität Frankfurt SS
Quantum Computing Hartmut Klauck Universität Frankfurt WS 04/
Gleichungen und Gleichungssysteme
Wahrscheinlichkeitsrechnung
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Hilfe Beiratswahl.
se_4_graphen_und_baeume_I.ppt1 Softwareengineering Graphen und Bäume 1 Prof. Dr.-Ing. Axel Benz, Berlin School of Economics and Law.
Das Traveling Salesman Problem (TSP)
Analyse der Laufzeit von Algorithmen
Eine kurze Geschichte der Graphentheorie
Gliederung der Vorlesung
Induktion von Entscheidungsbäumen Seminar Data Mining am Fachgebiet Datenbanken und Informationssysteme Sommersemester 2007 Betreuer: Hendrik Warneke.
Binärbäume.
Programmiersprachen II Vorbesprechung Klausur Prof. Dr. Reiner Güttler Fachbereich GIS HTW.
EIN NEUES ENSEMBLE- KLASSIFIKATIONSVERFAHREN Tim Schneider Rotation Forest.
Programmiersprachen II Fortsetzung Datenstrukturen Balancierte Bäume 3 Prof. Dr. Reiner Güttler Fachbereich GIS HTW.
CL Tree MW 31.1 Business Intelligence Wintersemester 2015 / 2016 Stanislav Prokupetz.
PCA Principal Component Analysis. Gliederung PCA – Warum eigentlich? PCA – Was ist zu tun? Was passiert eigentlich? Anwendungen Zusammenfassung.
 Präsentation transkript:

Die DT-GBI-Methode als Klassifikator für graphstrukturierte Daten und Ihre Anwendungen KADAR CRISTINA cristina.kadar {at} gmail {dot} com Stand:1. Juli 2008 Seminar zu Datenbanksystemen Fachgebiet Datenbanken und Informationssysteme Leibniz Universität Hannover Deutschland

Übersicht Einführung GBI wieder besucht DT-GBI Anwendung auf DNA-Daten Anwendung auf Hepatitis-Daten Schluss Kadar Cristina, Die DT-GBI-Methode

Einführung 1 Data Mining Ziel: das Finden von Zusammenhängen und Mustern in oft sehr großen Datenbeständen Anwendungsgebiete: Bioinformatik, Genetik, Warenkorbanalyse, Kundenpflege, Marketing Unstrukturierte vs. strukturierte Daten Kadar Cristina, Die DT-GBI-Methode

Einführung 2 Klassifikation Ziel: aus Daten Prognose für die Zukunft zu treffen Übliches Hilfsmittel: der Entscheidungsbaum Innere Knoten := Attribute (Eigenschaften der einzelnen Datensätze) Blätter := Klassen (Gruppen von gleichartigen Elementen) Kanten := Tests (Prüfer der Attribute) Kadar Cristina, Die DT-GBI-Methode

Beispiel 1 Die Daten: Tag Aussicht Temperatur Feuchtigkeit Wind Tennisspielen = KLASSEN 1 sonning heiß hoch schwach NEIN 2 stark 3 bedeckt JA 4 regnerisch mild 5 kühl normal 6 7 8 9 10 11 12 13 14 Kadar Cristina, Die DT-GBI-Methode

Beispiel 2 Das Entscheidungsbaum: Aussicht sonnig regnerisch bedeckt Feuchtigkeit Wind „JA“ hoch normal stark schwach „NEIN“ „JA“ „NEIN“ „JA“ Kadar Cristina, Die DT-GBI-Methode

Klassifikation I Welche Klassen? Eine Menge von Datensätzen sammeln, die bereits klassifiziert sind Trainingsmenge (zum Lernen) Testmenge (zum Schätzen des Klassifikationsfehlers) Kriterien für Klassifizierung ableiten z.B. Induktion von Entscheidungsbäume 2 Phasen-Aufbau des Entscheidungsbaums: Growing-Phase: ein Entscheidungsbaum wird mit Hilfe von Splitting-Kriterien (z.B. InformationGain) aufgebaut Pruning-Phase: stutzt den Entscheidungsbaum und verbessert damit den Klassifikationsfehler Kadar Cristina, Die DT-GBI-Methode

Klassifikation II Klassifikationsfehler: Anteil der falsch klassifizierten Datensätze, beurteilt anhand der Testmenge wie gut ein Klassifikator eine Menge klassifiziert Der Klassifikator auf neuen (noch nicht klassifizierte) Daten anwenden Kadar Cristina, Die DT-GBI-Methode

InformationGain In jedem Schritt müssen wir entscheiden, nach welchem Attribut wir am besten partitionieren Ideal wäre es, wenn man mit einem einzigen Attribut bereits die Klasse vorhersagen könnte, was in der Praxis fast nie vorkommt. Man wählt in jedem Schritt das Attribut, das den größten Informationsgewinn liefert. Kadar Cristina, Die DT-GBI-Methode

GBI - Grundlagen Unteralgorithmus: konstruiert die benötigten Attribute für die Klassifizierung Eingabe: ein Graph Ausgabe: eine Liste typischer Muster im Graph Typikalität: meistens durch Häufigkeit beurteilt Kadar Cristina, Die DT-GBI-Methode

Beispiel Kadar Cristina, Die DT-GBI-Methode

Pseudocode GBI(G) Zähle alle Knotenpaare Palle aus G auf Wähle eine Teilmenge P von Knotenpaaren aus Palle aufgrund des Typikalitätskriteriums Wähle ein Paar p aus Pallle aufgrund des Ersetzungskriteriums Ersetze das ausgewählte Paar p durch einen Knoten c Gc := aus G kontrahierter Graph solange Abbruchkriterium nicht erreicht P := P U GBI(Gc) return P Kadar Cristina, Die DT-GBI-Methode

Optimierung Greedy, kein Backtracking => Viele mögliche Muster nicht erkannt Ein Beam-Search-Verfahren vergrößert den Suchraum Eine bestimmte Anzahl an Knotenpaaren werden ausgewählt und danach parallel extrahiert Eine Konstante b schränkt die Verzweigungsbreite ein => B-GBI Algorithmus Kadar Cristina, Die DT-GBI-Methode

kanonisches Label Knotenpaare werden immer durch einen Knoten mit einem neuen Bezeichner ersetzt =>neue Knoten können entstehen, die unterschiedliche Bezeichner haben, aber zum selben Muster gehören Knoten werden nach ihren Bezeichner und Grad (Invarianten) gruppiert und lexikographisch sortiert Die Adjazenzmatrix wird erzeugt Für ungerichtete Graphen, konkatenieren wir die Spalten des oberen Rechecks: Kadar Cristina, Die DT-GBI-Methode

DT-GBI - Grundlagen Konstruiert einen Klassifikator für graphstrukturierte Daten Eingabe: eine Menge von Graphen Ausgabe: Binärer Entscheidungsbaum mit Attribute = Muster in Graphen Tests = liegt das Muster in dem Graphen? 2 Klassen = das Muster kommt vor oder nicht Kadar Cristina, Die DT-GBI-Methode

Beispiel 1 4 Graphen als Eingabe: 13 verschiedene Knotenpaaren: a→a, a→b, a→c, a→d, b→a, b→b, b→c, b→d, c→b, c→c, d→a, d→b, d→c (Attribut, Attributwert) Tabelle beim 1. Schritt: Kadar Cristina, Die DT-GBI-Methode

Beispiel 2 Wir wählen das Paar mit dem höchsten Informationsgewinn und benutzen es als Wurzel im Entscheidungsbaum: a→a Schritt 2: Das Paar (a→a)→d teilt jetzt die Graphenmenge in 2 Partitionen ein Kadar Cristina, Die DT-GBI-Methode

Beispiel 3 Entscheidungsbaum als Ausgabe: Um eine Überanpassung der Trainingsmenge zu vermeiden, werden Pruning-Ansätze benutzt: Naive Prepruning: der Algorithmus soll aufhören sobald die Anzahl der Graphen im Blatt <= 10 ist Postpruning: es wird erstmal ein überangepasster Baum erzeugt und erst danach wird er zurückgeschnitten Kadar Cristina, Die DT-GBI-Methode

Pseudocode DT-GBI(D) Erzeuge einen Knoten DT für D falls Abbruchkriterium erfüllt return DT sonst P := GBI(D) (die Anzahl von Knoten die zusammenfallen ist festgelegt) Wähle ein Paar p aus P Unterteile D in Dy (enthält p) und Dn (enthält p nicht) Ersetze das Paar p durch c in Dy Dyc := aus Dy kontrahierter Graph Für Di := Dyc, Dn Dti := DT-GBI(Di) Füge Dti an DT als Ja/Nein-Nachfolger hinzu return P Kadar Cristina, Die DT-GBI-Methode

Klassifizierung Die Testmenge wird nun mit dem erzeugten Entscheidungsbaum klassifiziert Schlüsseloperation: wir suchen den Eingabegraph nach Vorkommen eines Musters => Subgraph-Isomorphie-Problem (NP vollständig) Lösung: Wir erzeugen Kandidaten für Teilgraphen wie bei GBI (die Ersetzungsreihenfolge wurde gespeichert) Wir prüfen ob das kanonische Label des Subgraphs mit dem kanonischen Label des Musters übereinstimmt Kadar Cristina, Die DT-GBI-Methode

Anwendung auf DNA-Daten 1 Wir wollen Promotoren in DNA-Sequenzen erkennen DNA-Sequenz = eine Zeichenkette aus Nukleotiden Nukleotid = ein Molekül, das als Grundbaustein von Nukleinsäuren fungiert; bei der DNA handelt es sich um 4 verschieden Arten von Nukleotiden: A, G, C, T Promotor = eine Nukleotidkette, die für den Start der Transkription eines Gens sorgt Eingabe: 106 Datensätzen, wobei 53 positive und 53 negative Instanzen sind Kadar Cristina, Die DT-GBI-Methode

Anwendung auf DNA-Daten 2 a t g c a t ... Wir stellen die Zeichenketten als Graphen dar! Für die Klassifizierung: Attribute = Teilsequenzen (Teilgraphen) Klassen = Promoter, Nicht-Promoter Tests = enthält der Graph das Attribut oder nicht? 4 3 2 10 5 1 3 1 4 2 9 Kadar Cristina, Die DT-GBI-Methode

Anwendung auf DNA-Daten 3 Die Klassifikationsfehlerquote wird als Durchschnitt aus den 10 Einzeldurchläufen einer 10-fachen Kreuzvalidierung errechnet K-fache Valiedierung: die Datenmenge wird in k Teilmengen T1, ..., Tk aufgeteilt; k Testläufe werden gestartet, bei denen jeweils die i-te Teilmenge Ti als Testmenge und die verbleibenden k-1 Teilmengen als Trainingsmenge verwendet werden Kadar Cristina, Die DT-GBI-Methode

Anwendung auf DNA-Daten 4 InformationGain als Entscheidungskriterium; Postpruning-Ansatz Mehrere Experimente werden ausgeführt um festzulegen wie die Parameter auf die Effizienz des Algorithmus einwirken nr Der Alg. ersetzt ein Muster nr-mal am Wurzelknoten und nur einmal an allen anderen Knoten ne Der Alg. ersetzt ein Muster ne-mal an allen Knoten im Entscheidungsbaum b Beam-width von B-GBI Kadar Cristina, Die DT-GBI-Methode

Anwendung auf DNA-Daten 3 Die Klassifikationsfehlerquote wird als Durchschnitt aus den 10 Einzeldurchläufen einer 10-fachen Kreuzvalidierung errechnet InformationGain als Entscheidungskriterium; Postpruning-Ansatz Mehrere Experimente werden ausgeführt um festzulegen wie die Parameter auf die Effizienz des Algorithmus einwirken nr Der Alg. ersetzt ein Muster nr-mal am Wurzelknoten und nur einmal an allen anderen Knoten ne Der Alg. ersetzt ein Muster ne-mal an allen Knoten im Entscheidungsbaum b Beam-width von B-GBI Kadar Cristina, Die DT-GBI-Methode

Anwendung auf DNA-Daten 5 Intuitiv: je größer die Paramenter nr, ne, und b sind, desto größer der Suchraum ist und damit auch die Klassifikationsgenauigkeit Außerdem sollte sich ne effizienter als nr auf den Algorithmus auswirken Für nr=5, b=12 ist die Klassifikationsfehlerquote= 4,06% Für ne=4, b=10 ist die Klassifikationsfehlerquote= 3,77% Kadar Cristina, Die DT-GBI-Methode

Anwendung auf DNA-Daten 6 Ein Entscheidungsbaum für ne=4, b=10: Kadar Cristina, Die DT-GBI-Methode

Anwendung auf Hepatitis-Daten I Datenbestand: Aufzeichnungen von Patienten mit Hepatitis B oder C Verwaltungsdaten: Alter, Typ, Biopsie-Ergebnis, Erfolgswirksamkeit der Interferon-Therapie Bluttest, Urinstatus Problem: Knotenbezeichner := Untersuchungsergebnis Lösung: Numerische Attribute: wir diskretisieren die Werte in 3 Klassen(L-low, N-normal, H-high) Andere: wir diskretisieren die Standardabweichung vom Normalwert in 3 oder Klassen (1-die niedrigste, 3 oder 5 die größte) Kadar Cristina, Die DT-GBI-Methode

Anwendung auf Hepatitis-Daten 2 Wir möchten die Daten als Graph darstellen Ein gerichteter Graph= eine Patientenaufzeichnung Ein sterförmiger Subgraph= die durschnittliche Untersuchungsergebnisse Der Mittelknoten= hypothetischer Knoten für das 2- monatige Zeitintervall Kante= eine Untersuchung Knoten= das Untersuchungsergebnis Kadar Cristina, Die DT-GBI-Methode

Anwendung auf Hepatitis-Daten 3 Vier verschiedene Experimente wurden durchgeführt: Attribute = Teilgraphen Klassen = 1.+2. Biopsie-Ergebnisse [Phasen F0 – F4] 3. Hepatitis-Typ [B oder C] 4. Erfolgswirksamkeit der Interferon-Theraphie [R-der Virus ist verschwunden oder N-keine Reaktion auf die Behandlung] Tests = Enthält der Graph das Attribut oder nicht? g Kadar Cristina, Die DT-GBI-Methode

Anwendung auf Hepatitis-Daten 4 Eine Biopsie zeigt wie fortgeschritten die Fibrose ist: von Phase F0 (normal) bis Phase F4 (akut = Zirrhose) Wir möchten nur zwischen Zirrhose und den anderen Phasen unterscheiden Problem: Anzahl der Instanzen in F4 [Z] = 43 Anzahl der Instanzen in allen anderen nicht- Zirrhose-Phasen [nicht-Z] = 219 Kann zu einem unausgewogenen Entscheidungsbaum führen! Lösung: Wir selektieren nur 65 Instazen von den nicht-Z Klasse => Verhältniszahl von 2:3 Z-Klasse = die Minoritätsklasse nicht-Z-Klasse = die dominante Klasse Kadar Cristina, Die DT-GBI-Methode

Anwendung auf Hepatitis-Daten 5 Nicht-Z-Klasse nur von F0 und F1 ausgewählt Für nr=20, b=15 ist die Klassifikationsfehlerquote= 15% Für ne=20, b=15 ist die Klassifikationsfehlerquote= 12,5% Wie erwartet, ist die Fehlerquote für ne geringer Es ist wichtig, dass man nicht-Z-Patienten nicht als Z- Patienten falsch Klassifiziert Wichtiger ist es aber, Z-Patienten richtig zu identifizieren und die Behandlung anzufangen Kadar Cristina, Die DT-GBI-Methode

Anwendung auf Hepatitis-Daten 5 Die Fehlerquote für die Z-Klasse ist aber größer als für die nicht-Z-Klasse (15.35% vs. 10.62%), da die Klassen nicht gleich verteilt sind (43 vs 65) Die Ergebnisse sind also nicht günstig Tatsächliche Klasse Vorhergesagte Klasse Z-Klasse Nicht-Z-Klaase 364 66 Nicht-Z-Klasse 69 581 Kadar Cristina, Die DT-GBI-Methode

Schluss Klassifikationsfehlerquote ist befriedigend und vergleichbar mit anderen Methoden Einige extrahierte Muster stimmen mit der Erfahrung der Spezialisten überein Nüzliches Hilfsmittel für Evidenzbasierte Medizin Neigt dazu, mehr Elemente mit der Minderheitsklase als mit der dominanten Klasse falsch zu klassifizieren Die Vorverarbeitung der Daten (Diskretisierung, Durchschnittsberechnung, Umwandlung in eine Graphendarstellung) ist aufwändig und erfolgt nur mit der Hilfe der Spezialisten Kadar Cristina, Die DT-GBI-Methode

Danke für Ihre Aufmerksamkeit!  Fragen? Kadar Cristina, Die DT-GBI-Methode