Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

1 CloseGraph: Mining Closed Frequent Graph Patterns Xifeng Yan & Jiawei Han In Proceedings of SIGKDD '03. Washington, DC. Präsentation und aktuelle (15.1.04)

Ähnliche Präsentationen


Präsentation zum Thema: "1 CloseGraph: Mining Closed Frequent Graph Patterns Xifeng Yan & Jiawei Han In Proceedings of SIGKDD '03. Washington, DC. Präsentation und aktuelle (15.1.04)"—  Präsentation transkript:

1 1 CloseGraph: Mining Closed Frequent Graph Patterns Xifeng Yan & Jiawei Han In Proceedings of SIGKDD '03. Washington, DC. Präsentation und aktuelle ( ) Anmerkungen

2 2 Frequent (sub)graph mining: Das Problem Terminologie:  Support eines Musters (hier: Subgraph) = Häufigkeit seines Auftretens in der Datenmenge D (hier: D = {g 1,g 2,g 3 } )  Häufiges Muster = Muster, dessen Support mindestens  ist.  Muster sind: Mengen, Sequenzen, Bäume, Verbände, Graphen Problem: Ein häufiger Graph mit n Kanten kann bis zu 2 n häufige Subgraphen enthalten. Einleitung  Eindeutige Subgraphen  Geschlossene Subgraphen  Ausblick

3 3 Herausforderung: mehrfache Subgraph-Isomorphismen Einleitung  Eindeutige Subgraphen  Geschlossene Subgraphen  Ausblick

4 4 Doppelarbeit 1: Reihenfolge des pattern growth Einleitung  Eindeutige Subgraphen  Geschlossene Subgraphen  Ausblick

5 5 Ziel: Pruning des Suchraums Lösungsansatz DFS subscripting Einleitung  Eindeutige Subgraphen  Geschlossene Subgraphen  Ausblick

6 6 Doppelarbeit 2: Redundanz in Form nicht- maximaler (nicht “geschlossener”) Muster Immer, wenn (1) in D auftritt, tritt auch (2) auf.  Support von (3) muss gleich sein wie Support von (4). (braucht nicht berechnet zu werden)  Man braucht nicht von (1) aus zu wachsen, sondern kann es von (2) aus tun. Einleitung  Eindeutige Subgraphen  Geschlossene Subgraphen  Ausblick

7 7 Definition “closed graph pattern”  Ein häufiges Muster I ist geschlossen, wenn es kein echtes Super-Muster von I gibt, das in der Datenmenge D denselben Support hat.  Geschlossenheit wurde untersucht für häufige Itemsets und häufige Sequenzen.  Hier: geschlossene Subgraphen  Im Bsp.:(1), (3) nicht geschlossen  Vorteile: oWährend des Mining: Lösungsansatz early termination  weniger Graphen werden generiert oNachverarbeitung (z.B. Klassifikation, Clustering): Lösungsansatz Beschränkung auf geschlossene Muster  # geschlossene häufige Muster << # häufige Muster oAnnahme: geschlossene Muster sind als “maximale Muster” die interessanten Muster Einleitung  Eindeutige Subgraphen  Geschlossene Subgraphen  Ausblick

8 8 Anwendungsgebiete: Beispiele (1)  Bioinformatik oBeispiel AIDS antiviral screen dataset (zur Verfügung gestellt vom Developmental Therapeutics Program in NCI/NIH): 422 chemische Verbindungen sind nachgewiesenermaßen aktiv. In diesen 422 sind bei  =5% fast häufige Graphmuster (davon 2000 geschlossene). Einleitung  Eindeutige Subgraphen  Geschlossene Subgraphen  Ausblick

9 9 Anwendungsgebiete: Beispiele (2)  Webnavigations-Analyse oLange Tradition der Graph-Analyse in Pädagogik/Psychologie kein Mining, konfirmatorisch oEinflussgrößen auf Zahl und Größe der Muster  Komplexität # unterschiedliche Webseiten (z.B. in einer Site)  hoch # besuchte Webseiten in einer Analyse-Einheit (z.B. in einer Session)  eher niedrig bei Webservern, eher hoch bei Lernsoftware etc. oEinige Vereinfachungen der Graphenstruktur usw. möglich (mehr dazu später) Einleitung  Eindeutige Subgraphen  Geschlossene Subgraphen  Ausblick

10 10 Navigation: Beispiel-Muster Breitensuche Landmarke Einleitung  Eindeutige Subgraphen  Geschlossene Subgraphen  Ausblick

11 11 Vorgehen (1): Naive Variante // get rid of duplicate graphs Einleitung  Eindeutige Subgraphen  Geschlossene Subgraphen  Ausblick

12 12 Algorithmen, die hier verglichen werden  gSpan * oBasiert auf pattern growth (Tiefensuche, die einen Graphen erweitert, statt Konstruktion von Kandidaten aus 2 Mustern in Apriori) oEffizienzgewinn durch Ordnung auf Graphenmustern: rightmost extension  CloseGraph (Closed Graph pattern mining) oWeitere Performanzgewinne durch die Konzepte equivalent occurrence, early termination  Als Performance-Baseline des Weiteren: FSG ** oBester Algorithmus aus der Apriori-Familie * Yan, X., & Han, J. (2002). gSpan: Graph-based substructure pattern mining. UIUC-CS Tech. Report: R , a 4-page short version in ICDM’02. ** Kuramochi, M., & Karypis, G. (2001). Frequent subgraph discovery. ICDM’01. Einleitung  Eindeutige Subgraphen  Geschlossene Subgraphen  Ausblick

13 13 Grundannahmen über die Graphen  Gelabelt, zusammenhängend, ungerichtet, schlicht  Graph g = {V(g), E(g), l : V  E  {Labels}} Einleitung  Eindeutige Subgraphen  Geschlossene Subgraphen  Ausblick

14 14 Subgraphen  Ein Graph g ist ein Subgraph eines anderen Graphen g’, g  g’ (echter Subgraph: g  g’), wenn es einen Subgraph-Isomorphismus von g nach g’ gibt. Definition 1 (Subgraph-Isomorphismus). Ein Subgraph-Isomorphismus ist eine injektive Funktion f : V(g)  V(g’) so, dass 1.f.a. u  V(g): l(u) = l’(f(u)), und 2.f.a. (u,v)  E(g): (f(u),f(v))  E(g’), l(u,v) = l’(f(u),f(v)), wobei l, l’ die Label-Funktionen von g, g’ sind. Einleitung  Eindeutige Subgraphen  Geschlossene Subgraphen  Ausblick

15 15 Das Mining-Problem: Muster & ~eigenschaften; Closed Graph Mining  Gegeben: Datenmenge D = {G 1, G 2, …, G n }  support(g) : der Anteil der Graphen in D, in denen g ein Subgraph ist (Unklar. Im Folgenden eher occurrence(g) ?!)  frequency(g) : die Anzahl der Graphen in D, in denen g ein Subgraph ist  Menge der häufigen Graphenmuster FS = { g | support(g)  min_sup}  Menge der geschlossenen häufigen Graphenmuster CS = { g | g  FS und es gibt kein g’  FS so, dass g  g’ und support(g) = support(g’)}  Problem closed graph mining: finde die vollständige Menge CS gegeben D und min_sup Einleitung  Eindeutige Subgraphen  Geschlossene Subgraphen  Ausblick

16 16 Graph-Dubletten (duplicate graphs)  Erweiterung von g nach g  x e kann sehr redundant sein.  Z.B. kann ein Graph mit k Kanten in k Weisen aus (k-1)-Kanten- Graphen generiert sein.  Schritt 1 in NaiveGraph entfernt Dubletten, aber: oAnzahl ist riesig oGenerierung und Support-Berechnung  Zeit! oDubletten-Test ist nicht-trivial; benötigt kanonisches Label oWenn bestimmte Graphen nur aus einer bestimmten Dublette entstehen können: doch weiterwachsen (???)  gSpan: Effizientes kanonisches Labeling-System, lexikographische Ordnung in Graphen oReduziert die Generierung von Dubletten oKeine Durchsuchung früher gefundener häufiger Graphen zur Identifikation von Dubletten oKeine Erweiterung von Dubletten; trotzdem vollständig (Yan&Han’02) Einleitung  Eindeutige Subgraphen  Geschlossene Subgraphen  Ausblick

17 17 DFS-Subscripting (1)  Reihenfolge der Knoten-Entdeckung in Graph G bei Tiefensuche (DFS)  lineare Ordnung auf Knoten i < j : v i wurde vor v j entdeckt  Ein DFS-Baum T ist ein DFS-Subscripting von G: G T Einleitung  Eindeutige Subgraphen  Geschlossene Subgraphen  Ausblick

18 18 DFS-Subscripting (2)  Gegeben G T : ov 0 : Wurzel; ov n : rechtester Knoten; odirekter Pfad von v 0 nach v n : rechtester Pfad Einleitung  Eindeutige Subgraphen  Geschlossene Subgraphen  Ausblick

19 19 Vorwärts-Kanten; Rückwärts-Kanten  (v i,v j )  E(G), i < j  (v i,v j )  E f T (forward edges set; alle Kanten, die im DFS-Baum sind)  (v i,v j )  E(G), i  j  (v i,v j )  E b T (backward edges set)  g  xf e = “forward extension”, neuer Knoten wird eingefügt  g  xb e = “backward extension”, keine neuen Knoten Einleitung  Eindeutige Subgraphen  Geschlossene Subgraphen  Ausblick

20 20 Rechteste Erweiterung  Rechteste Erweiterung g  r e onur zwei Arten von Erweiterung möglich: Rückwärts-Erweiterung: Vom rechtesten Knoten zu irgendeinem anderen Knoten auf dem rechtesten Pfad (also spezifische Form der allgemeinen backward extension, g  xb e) Vorwärts-Erweiterung: Von irgendeinem Knoten auf dem rechtesten Pfad unter Einführung eines neuen Knotens (also spezifische Form der allgemeinen forward extension, g  xf e)  Zum Sparen benötigt: ein eindeutiges Basis-Subscripting, auf dem rechteste Erweiterung betrieben wird Einleitung  Eindeutige Subgraphen  Geschlossene Subgraphen  Ausblick

21 21 DFS-Code (1)  Zur kanonischen Darstellung eines Graphen: Ordnungen definieren auf 1.Kanten (geg. ein G T ): DFS-Code  G T dargestellt als Sequenz 2.Sequenzen (geg. ein G): DFS lexikographische Ordnung  G dargestellt als eindeutige Sequenz  Grundidee des DFS-Code: DFS + Rückwärtskanten aus Knoten i jeweils vor den Vorwärtskanten aus i  code(G,T), der DFS-Code eines G T, ist eine Kantensequenz (e i ), definiert durch die lineare Ordnung  T auf N 0 2, wobei e 1 = (i 1,j 1 )  T e 2 = (i 2,j 2 ) gdw. eine der folgenden Aussagen zutrifft: i.e 1, e 2  E f T, j 1 i 2 und j 1 = j 2 ) ii.e 1, e 2  E b T, i 1 < i 2 oder ( i 1 = i 2 und j 1 < j 2 ) iii.e 1  E b T, e 2  E f T, i 1 < i 2 (bei Einführung von  T äquivalent zu iv. im Paper) Einleitung  Eindeutige Subgraphen  Geschlossene Subgraphen  Ausblick

22 22 DFS-Code (2)  Grundidee des DFS-Code: DFS + Rückwärtskanten aus Knoten i jeweils vor den Vorwärtskanten aus i  Notation: (i, j, l i, l (i,j),l j ) Einleitung  Eindeutige Subgraphen  Geschlossene Subgraphen  Ausblick

23 23 DFS-Lexikographische Ordnung (1)  Prioritäten für < :  T, Label von i, Kantenlabel, Label von j  Gegeben DFS-Codes  = (a 0, a 1, …, a m ) und  = (b 0, b 1, …, b n ) Wenn a 0 = b 0, …, a t-1 = b t-1, a t < b t (t  min(m,n)), dann  <   Im Beispiel:       Einleitung  Eindeutige Subgraphen  Geschlossene Subgraphen  Ausblick

24 24 DFS-Lexikographische Ordnung (2) < ((0,1,X,a,X) (1,2,X,b,X)) < Beispiel: Einleitung  Eindeutige Subgraphen  Geschlossene Subgraphen  Ausblick * ) M.E. N 0 2 (wie oben) *)*)

25 25 gSpan Theorem 1 (Vollständigkeit): Die Durchführung der rechtesten Erweiterung (= der rechtesten Erweiterung des Basis-Subskripting) in NaiveGraph garantiert die Vollständigkeit des Mining- Resultats. Lemma 1: Die Durchführung der rechtesten Erweiterungen nur auf den minimalen DFS- Codes in NaiveGraph garantiert die Vollständigkeit des Mining-Resultats. Problem: gSpan ist ineffizient bei großen Graphen (exponentielles Wachstum der # häufigen Subgraphen) Einleitung  Eindeutige Subgraphen  Geschlossene Subgraphen  Ausblick

26 26 Grundidee: Wenn s nicht geschlossen ist, dann hier nicht weitersuchen. Ziel: hier durch einen Zusatz eine bessere Abbruchbedingung! CloseGraph: Abbruchbedingung auf der Basis von “äquivalentem Auftreten” Einleitung  Eindeutige Subgraphen  Geschlossene Subgraphen  Ausblick

27 27 Auftreten (Occurrence)  (g,g’): Wie oft findet sich g in g’? Definition 5 (Auftreten) Gegeben g und D = {G 1, G 2, …, G n } ist das Auftreten von g in D die Summe der Zahl von Subgraph-Isomorphismen von g in jedem Graph von D, also I(g,D)=  i=1 n  (g, G i ) Beispiel: g  (g,g 1 ) = 2  (g,g 2 ) = 1  (g,g 3 ) = 0 I(g,D)=2+1+0=3 Einleitung  Eindeutige Subgraphen  Geschlossene Subgraphen  Ausblick

28 28 Erweitertes Auftreten  “Wie oft tritt g’ – hergestellt aus g – in G auf?” Sei g’ = g  x e, f ein Subgraph-Isomorphismus von g in G, f’ ein Subgraph-Isomorphismus von g’ in G. f ist erweiterbar und f’ ist ein erweiterter Subgraph- Isomorphismus aus f, wenn es existiert ein ,  ist ein Subgraph-Isomorphismus von g in g’ so, dass f.a. v: f(v) = f’(  (v)).  (g,g’,G) = die Anzahl in dieser Weise erweiterbarer f Definition 6 (Erweitertes Auftreten): Gegeben g und D = {G 1, G 2, …, G n }, ist das erweiterte Auftreten von g’ in D w.r.t. g : L(g,g’,D) =  i=1 n  (g,g’,G i ) Einleitung  Eindeutige Subgraphen  Geschlossene Subgraphen  Ausblick

29 29 Äquivalentes Auftreten und early termination  g und g’ = g  x e haben äquivalentes Auftreten wenn I(g,D) = L(g,g’,D).  Wo immer g in D auftritt, tritt auch g’ auf.  Wenn og und g’ äquivalentes Auftreten haben, og  g’’, og’  g’’ dann ist g’’ nicht geschlossen.   early termination: erweitere nur g’, nicht g. L(g 1,g 2,D) = 2+1+0=3 I(g 1,D) = 2+1+0=3 Einleitung  Eindeutige Subgraphen  Geschlossene Subgraphen  Ausblick

30 30 Early termination funktioniert nicht immer  Gesucht: geschlossene Graphen mit min. frequ. = 2  g = x— a —y, g’ = x— a —y— b —x  I(g,D) = L(g,g’,D)  reicht es, g’ zu erweitern?  Nein! Wir müssen auch g erweitern, da wir sonst das Muster h nicht finden! h D Einleitung  Eindeutige Subgraphen  Geschlossene Subgraphen  Ausblick

31 31 Zur Demonstration: Entdeckung von Muster h  g = x— a —y, g’ = x— a —y— b —x  Hier: Erweiterung von g, um Muster h zu finden. h D Einleitung  Eindeutige Subgraphen  Geschlossene Subgraphen  Ausblick

32 32 Was ist das Problem? (1)  g (links oben i. Bild) = x— a —y, g’ (obere Reihe i. Bild) = x— a —y— b —x  h (das rote Muster). Es gilt: g  h, g’  h  Erweitere h um die “kritische Kante” e = y— b —x h D  Graph (1): h wird durch e rückwärts erweitert.  Graph (2): h wird durch e vorwärts erweitert. Einleitung  Eindeutige Subgraphen  Geschlossene Subgraphen  Ausblick

33 33 Einleitung  Eindeutige Subgraphen  Geschlossene Subgraphen  Ausblick x–(a)—y x–(a)—y—(b)—xz—(c)—x–(a)—y z—(c)—x–(a)—y—(b)—xx—(d)—z—(c)—x–(a)—y x–(a)—y —(b)—x—(d)—z z—(c)—x–(a)—y—(b)—x d x—(d)—z—(c)—x–(a)—y—(b)—x Graph (1)Graph (2) g {z;z—(c)—x} {x;y—(b)—x} {x;x—(d)—z} {x;x—(b)—y} {z;z—(c)—x} {z;x—(d)—z} {z—(c)—x} {z—(d)—x} {y—(b)—x} {x;x—(d)—z} {x;y—(b)—x} Was ist das Problem? (2) – Das war die Idee

34 34 x–(a)—y x–(a)—y—(b)—xz—(c)—x–(a)—y z—(c)—x–(a)—y—(b)—xx—(d)—z—(c)—x–(a)—y x–(a)—y —(b)—x—(d)—z z—(c)—x–(a)—y—(b)—x d x—(d)—z—(c)—x–(a)—y—(b)—x Graph (1)Graph (2) g {z;z—(c)—x} {x;y—(b)—x} {x;x—(d)—z} {x;x—(b)—y} {z;z—(c)—x} {z;x—(d)—z} {z—(c)—x} {z—(d)—x} {x;y—(b)—x} Nicht-geschlossenen Subgraphen „verpasst“ {y—(b)—x} {x;x—(d)—z} {x;y—(b)—x}  Geschlossenen Subgraphen verpasst Einleitung  Eindeutige Subgraphen  Geschlossene Subgraphen  Ausblick Was ist das Problem? (3) – Das hat nicht geklappt

35 35 x–(a)—y x–(a)—y—(b)—xz—(c)—x–(a)—y z—(c)—x–(a)—y—(b)—xx—(d)—z—(c)—x–(a)—y x–(a)—y —(b)—x—(d)—z z—(c)—x–(a)—y—(b)—x d x—(d)—z—(c)—x–(a)—y—(b)—x Graph (1)Graph (2) g {z;z—(c)—x} {x;y—(b)—x} {x;x—(d)—z} {x;x—(b)—y} {z;z—(c)—x} {z;x—(d)—z} {z—(c)—x} {z—(d)—x} {y—(b)—x} {x;x—(d)—z} {x;y—(b)—x} Vorwärts-Erweiterung, Rückwärts-Erweiterung g‘ Einleitung  Eindeutige Subgraphen  Geschlossene Subgraphen  Ausblick Was ist das Problem? (4) – Verständnisansatz

36 36 Wann funktioniert early termination? Einleitung  Eindeutige Subgraphen  Geschlossene Subgraphen  Ausblick

37 37 x–(a)—y x–(a)—y—(b)—xz—(c)—x–(a)—y z—(c)—x–(a)—y—(b)—xx—(d)—z—(c)—x–(a)—y x–(a)—y —(b)—x—(d)—z z—(c)—x–(a)—y—(b)—x d x—(d)—z—(c)—x–(a)—y—(b)—x Graph (1)Graph (2) g {z;z—(c)—x} {x;y—(b)—x} {x;x—(d)—z} {x;x—(b)—y} {z;z—(c)—x} {z;x—(d)—z} {z—(c)—x} {z—(d)—x} {y—(b)—x} {x;x—(d)—z} {x;y—(b)—x} Vorwärts-Erweiterung, Rückwärts-Erweiterung g‘ h2h2 h1h1 Einleitung  Eindeutige Subgraphen  Geschlossene Subgraphen  Ausblick Darstellung am Beispiel (Th. 2 nicht erfüllt)

38 38 x–(a)—y x–(a)—y—(b)—xz—(c)—x–(a)—y z—(c)—x–(a)—y—(b)—xx—(d)—z—(c)—x–(a)—y x–(a)—y —(b)—x—(d)—z z—(c)—x–(a)—y—(b)—x d x—(d)—z—(c)—x–(a)—y—(b)—x Graph (1)Graph (2) g {z;z—(c)—x} {x;y—(b)—x} {x;x—(d)—z} {x;x—(b)—y} {z;z—(c)—x} {z;x—(d)—z} {z—(c)—x} {z—(d)—x} {y—(b)—x} {x;x—(d)—z} {x;y—(b)—x} Vorwärts-Erweiterung, Rückwärts-Erweiterung g‘ g1g1 Einleitung  Eindeutige Subgraphen  Geschlossene Subgraphen  Ausblick Entdeckung der failure of early termination g2g2 g3g3 „brechbar“ „There are other similar failure cases which can be handled with care. The detection of these failure cases of Early Termination can gurantee the completeness of the mining result.“

39 39 Demontageversuche 1.Versuch, ein Gegenbeispiel zu konstruieren  Idee: Auch g  xf | xb e ist nicht eindeutig und könnte somit zu einer “Verteilung von Support” und dem Verpassen von geschlossenen häufigen Subgraphen führen.  Bisher nicht erfolgreich. (Es ergibt sich wieder die Aufspaltung in Vorwärts- und Rückwärts-Erweiterung.) Einleitung  Eindeutige Subgraphen  Geschlossene Subgraphen  Ausblick Zur Bedeutung von Theorem 2 – wann ist early termination erlaubt? (1)

40 40 Zur Bedeutung von Theorem 2 – wann ist early termination erlaubt? (2) 2.Charakterisierung der von Theorem 2 erlaubten Musterkonstellationen (g,g’)  Betrachte die Erweiterungen jedes Supergraphen h von g durch die kritische Kante e = (v 1,v 2 ). O.B.d.A.: e “wächst bei v 1 an und zeigt zu v 2.”  ENTWEDER (rückwärts): Alle Erweiterungen führen dazu, dass die Kante zu einem schon vorhandenen v 2 zeigt. v 2 muss also in allen Supergraphen von g vorhanden sein, also schon in g.  g’ “schließt eine Lücke” in g.  ODER (vorwärts): Alle Erweiterungen führen dazu, dass die Kante zu einem noch neuen v 2 zeigt. v 2 muss also in allen Supergraphen von g neu sein, darf also in nichts anderem vorhanden sein.  g’ “fügt einen musterspezifischen Knoten” hinzu.  Vorläufiges Fazit: Je mehr solcher Muster (mit Ringstrukturen, mit spezifischen Knoten) es in einem Datenset gibt, desto eher wird sich der (beträchtliche?) zusätzliche Aufwand für den “check of failure of early termination” lohnen. Interessant wäre eine Untersuchung verschiedener Domänen hinsichtlich Musterkonstellationen & Effekten.  Es bleiben die Fragen nach Methode und Vollständigkeitkeitsbeweis! Einleitung  Eindeutige Subgraphen  Geschlossene Subgraphen  Ausblick

41 41 CloseMining (fürs Pre-Processing) Einleitung  Eindeutige Subgraphen  Geschlossene Subgraphen  Ausblick

42 42 CloseGraph Einleitung  Eindeutige Subgraphen  Geschlossene Subgraphen  Ausblick Um zu prüfen, ob ein Graph geschlossen ist: Nur Plus-1-Kante- Supergraphen prüfen notwendig Early termination nicht anwendbar, wenn strikt der DFS-lexikogr. Ordnung gefolgt wird  Prüfung in Z.3 ist Kompromiss.

43 43 Experimentelle Evaluation  Experimente mit oBiodaten (chemische Verbindungen, klassifiziert als aktiv / moderat aktiv / inaktiv) osynthetischen Daten  Resultate: CloseGraph oist schneller als gSpan, dieses schneller als FSG ogeneriert weniger Muster als gSpan oLaufzeit und #Muster sinken mit min_sup oLaufzeit steigt in Abhängigkeit von (a) der durchschnittlichen Größe der potenziell häufigen Graphen und (b) der durchschnittlichen Größe der Graphen in D; beides in gleichem Maße wie gSpan oKeine Interaktionen erkennbar Einleitung  Eindeutige Subgraphen  Geschlossene Subgraphen  Ausblick

44 44 Ausblick der Autoren  Nicht oder nur teilweise gelabelte Graphen  Multigraphen und Pseudographen  Gerichtete Graphen  Nicht-zusammenhängende Graphen  Bäume Einleitung  Eindeutige Subgraphen  Geschlossene Subgraphen  Ausblick

45 45 Mein Ausblick: Häufige Subgraphen in der Webnavigation Grundideen: oAnwendungsfrage: Gesucht sind Methoden zur Effizienzverbesserung bei der Lösung zweier Mining-Probleme: MP 1: Muster definiert durch “Inhalt” MP 2: Muster definiert durch “Struktur” (= Zusammenfassung isomorpher Muster) 1.Versuch, eine effizientere Methode der Kandidaten-Generierung zu definieren, die die Restriktionen der Domäne ausnutzt (MP 1: Mining auf Graphen mit bijektiver Knoten-Label-Funktion) 2.Wenn 1. erfolgreich: Lassen sich die Vorteile auf MP 2 übertragen (dabei Varianten der Isomorphie-Prüfung untersuchen)? 3.Frage: Sinnvollste Behandlung der Eigenschaften der Domäne, gerichtete Multigraphen hervorzubringen? … würde ich gerne zur Diskussion stellen, wenn es etwas weiter gediehen ist … Einleitung  Eindeutige Subgraphen  Geschlossene Subgraphen  Ausblick

46 46 Einleitung  Eindeutige Subgraphen  Geschlossene Subgraphen  Ausblick Vielen Dank!


Herunterladen ppt "1 CloseGraph: Mining Closed Frequent Graph Patterns Xifeng Yan & Jiawei Han In Proceedings of SIGKDD '03. Washington, DC. Präsentation und aktuelle (15.1.04)"

Ähnliche Präsentationen


Google-Anzeigen