Präsentation herunterladen
Die Präsentation wird geladen. Bitte warten
Veröffentlicht von:Waldeburg Dreher Geändert vor über 10 Jahren
1
On the Complexity of Fundamental Problems in Pedigree Analysis Seminar Aktuelle Themen der Bioinformatik Martin Löwer Antonio Piccolboni, Dan Gusfield Johann Wolfgang Goethe Universität Frankfurt a.M. Fachbereich für Biologie und Informatik
2
Seminar "Aktuelle Themen der Bioinformatik" 2 Inhalt 1. Motivation 2. Stammbäume 3. Problemstellungen 4. Einschränkungen des Modells 5. MaxP ist NP-hart 6. Approximierung von MaxP 7. Die Klasse #P 8. MP ist #P-hart 9. Diskussion der Ergebnise
3
Seminar "Aktuelle Themen der Bioinformatik" 3 1. Motivation Hohe Beduetung der Analyse von Stammbaumdaten Es ist keine worst-case-effiziente Methode für die Berechnung von Wahrscheinlichkeiten in Stammbäumen bekannt
4
Seminar "Aktuelle Themen der Bioinformatik" 4 1.1 Zu Zeigen: Geringe Abweichungen von den Fällen, in denen effiziente Berechnungen möglich sind, führen zur NP-Härte Approximation nur bis zu einem exponentiellen Faktor möglich
5
Seminar "Aktuelle Themen der Bioinformatik" 5 2. Stammbäume Ein Stammbaum ist ein gerichteter, azyklischer Graph, der Grad der eingehenden Kanten ist bei jedem Knoten 0 oder 2 und der zugehörige Heiratsgraph ist bipartit. Der Heiratsgraph eines gerichteten Graphen G = (V,E) ist ein ungerichteter Graph H = (V,E*) mit E* = {(v,w) : v,w V und z V : (v,z) E (w,z) E)} Zyklen im ungerichteten Stammbaum: Inzucht und Zwillinge Unterscheidung der Individuen in Gründer und Nichtgründer
6
Seminar "Aktuelle Themen der Bioinformatik" 6 2.1 Stammbäume Bekannte Algorithmen: –Lander und Green (1987) –Elston und Steward (1971) Bisherige Annahme: Inzestzyklen sind die größte Problemquelle
7
Seminar "Aktuelle Themen der Bioinformatik" 7 2.2 Stammbäume Komplette Probleminstanz beinhaltet noch zwei Zufallsvariablen pro Knoten: Phänotyp und Genotyp Probleme der Stammbaumanalyse entstehen durch fehlende Werte für diese Variablen
8
Seminar "Aktuelle Themen der Bioinformatik" 8 2.3 Stammbäume Verteilung der Zufallsvariablen: –P(g i ) Wahrscheinlichkeitsverteilung des Genotyps von Gründer i –P(g i |g v(i),g m(i) ) Wahrscheinlichkeitsverteilung des Genotyps von Nichtgründer i –P(y i |g i ) Wahrscheinlichkeitsverteilung des Phänotyps von Individuum i P(g i |g v(i),g m(i) ) muß genetische Realität wiederspiegeln, wird daher oft durch einfache Regeln der Mendelgenetik beschrieben
9
Seminar "Aktuelle Themen der Bioinformatik" 9 2.4 Stammbäume Gesamtwahrscheinlichkeit eines Stammbaums, bzw. der Score: P(G,Y) = Gründer i P(g i ) P(y i |g i ) Nichtgründer i P(g i |g v(i),g m(i) ) P(y i |g i )
10
Seminar "Aktuelle Themen der Bioinformatik" 10 3. Die Probleme MaxP - Maximale Wahrscheinlichkeit: Gegeben sei ein Stammbaum mit Wskeitsverteilungen und einer Teilmenge G* der Genotypen G bzw. Y* Phänotypen Y. Berechne max G\G*,Y\Y* P(G,Y) MP - Marginale Wahrscheinlichkeit: Gegeben sei ein Stammbaum mit Wskeitsverteilungen und einer Teilmenge G* der Genotypen G bzw. Y* Phänotypen Y. Berechne P(G*,Y*) = G\G*,Y\Y* P(G,Y)
11
Seminar "Aktuelle Themen der Bioinformatik" 11 4. Einschränkungen des Modells Beschränkung auf Spezialfälle, die in allen anderen Modellen enthalten sind: –Ein Locus –Zwei Chromosomen –Zwei Allele (A und a) –Phänotyp wird vernachlässigt, da 1 zu 1 vom Genotyp abhängig –Einfaches Mendelsches Verebungsmodell ohne Mutationen –Keine Inzestzyklen
12
Seminar "Aktuelle Themen der Bioinformatik" 12 5. MaxP ist NP-hart Beweis durch Reduktion von 3-MIS (Garey et al., 1976) 3-MIS: Maximale unabhänige Knotenmenge in einem Graphen G = (V,E), wobei der maximale Grad eines Knotens drei ist Im Folgenden sei e = |E| und v = |V|, die Elemente von V werden mit 1,2,....,v benannt, die Lösung von 3-MIS(G) sei s
13
Seminar "Aktuelle Themen der Bioinformatik" 13 5.1 Reduktion G MAXP(G) Für jeden Knoten i V: 5i, aa5i+25i+4, AA 5i+1, Aa5i+3 Für jede Kante {i, j} E: 5i+25j+3 {i, j}, Aa 5i+35j+2 {i, j}*, Aa Insgesamt l = 5v + 2e Individuen
14
Seminar "Aktuelle Themen der Bioinformatik" 14 5.2 Wahrscheinlichkeitsverteilung in MAXP(G) Verteilung für die Gründer: –P(a) = 1/3 –P(aa) = 1/9 –P(Aa) = P(AA) = 4/9 –Wahrscheinlichkeiten stimmen mit dem Hardy-Weinberg-Gesetz überein
15
Seminar "Aktuelle Themen der Bioinformatik" 15 5.3 Beobachtungen Eine Lösung von MAXP(G), die den Wert 0 annimmt, heißt degeneriert Wenn eine Lösung von MAXP(G) einen Score von größer als 0 hat, gilt folgendes: 1. i V : weder 5i+2 noch 5i+3 hat den Genotyp aa 2. (i, j) E : 5i+2 und 5j+3 können nicht beide den Genotyp AA annehmen 3. i V : wenn 5i+2 den Genotyp AA hat, muß 5i+3 auch AA haben
16
Seminar "Aktuelle Themen der Bioinformatik" 16 5.4 Der Score von MAXP(G) Eine degenerative Belegung kann nicht optimal sein, denn: Score(MAXP(G)) 1 3 6v 2 2e-2v > 0
17
Seminar "Aktuelle Themen der Bioinformatik" 17 Sei s = |{i V: 5i+2 ist mit AA belegt}|, dann hat MAXP(G) genau folgenden Score: Es gilt dann folgendes: 1.Wenn s die Größe des MIS in G ist, dann hat die optimale Lösung von MAXP(G) mindestens den Wert des obigen Bruchs 2.Wenn eine Lösung von MAXP(G) einen Score von größer 0 hat, dann ist {i V: 5i+2 ist mit AA belegt} eine unabhängige Knotenmenge 3.Wenn die optimale Lösung von MAXP(G) obigen Score hat, dann ist die Größe der maximalen unabhänigen Knotenmenge in G mindestens s 5.5 Der Score von MAXP(G) 1 3 6v 2 2e-2v-2s
18
Seminar "Aktuelle Themen der Bioinformatik" 18 5.6 Der Score von MAXP(G) Werden die vorherigen Beobachtungen kombiniert, gilt: Genau dann wenn der Score von MAXP(G) gleichist, ist s die Größe der maximalen unabhängigen Knotenmenge in G. 1 3 6v 2 2e-2v-2s
19
Seminar "Aktuelle Themen der Bioinformatik" 19 6. Approximieren von MAXP 3-MIS ist von einem Polynominalzeit- Algorithmus nur bis zu einem Faktor von 1,0005 approximierbar, d.h wenn s* die optimale Lösung ist, ist ist s*/s größer als c = 1,0005 (Berman und Karpinski, 1999) Wir betrachten zuerst den negativen Logarithmus zur Basis 2 von MAXP
20
Seminar "Aktuelle Themen der Bioinformatik" 20 6.1 Approximieren von MAXP Durch die Beschränkung des Grades der Knoten gilt: s* > v/4 und e 3v/2 Die Approximationsrate R von log- MAXP ist dann 1.000071393
21
Seminar "Aktuelle Themen der Bioinformatik" 21 6.2 Approximieren von MAXP Durch die vorherigen Ergebnisse kann man den Score von MAXP(G) folgendermaßen abschätzen: 1 2 /8(R-1)l-2R+2 Score(MAXP(G)) < l = 5v+2e = 6 ld 3 -2
22
Seminar "Aktuelle Themen der Bioinformatik" 22 6.3 Approximieren von MAXP Das bedeutet: Das Verhältnis vom optimalen Score zu dem besten durch einen eff. Algorithmus berechenbaren wächst exponentiell mit l, der Stammbaumgröße
23
Seminar "Aktuelle Themen der Bioinformatik" 23 7. Die Klasse #P Ein Sprache gehört zur Klasse #P, wenn die Anzahl ihrer Lösungen von einer NTM in polynomineller Zeit berechnet werden kann #P-Härte ist analog zur NP-Härte durch die polynominelle Reduktion definiert
24
Seminar "Aktuelle Themen der Bioinformatik" 24 8. MP ist #P-hart Beweis durch Reduktion von #IS (Dyer und Greenhill, 2000) #IS: Berechne die Anzahl der unabhänigen Knotenmengen in einem Graphen G = (V,E) mit einem maximalen Knotengrad von 3 Im Folgenden sei e = |E| und v = |V|, die Elemente von V werden mit 1,2,....,v benannt, die Lösung von #IS sei S
25
Seminar "Aktuelle Themen der Bioinformatik" 25 8.1 Reduktion G MP(G) Für jeden Knoten i V: 3i, AA3i+2, Aa 3i+1
26
Seminar "Aktuelle Themen der Bioinformatik" 26 8.2 Reduktion G MP(G) Für jede Kante {i, j} E: ({i, j},0), AA3i+1 ({i, j},1) ({i, j},3), Aa ({i, j},8) ({i, j},9), AA ({i, j},4), AA ({i, j},2) ({i, j},6), Aa ({i, j},7) 3j+1 ({i, j},5), Aa Insgesamt 3v + 10e Individuen
27
Seminar "Aktuelle Themen der Bioinformatik" 27 8.3 Wahrscheinlichkeitsverteilung in MP(G) Verteilung für die Gründer wie im vorherigen Beweis P(AA 3i+1 )= P(Aa 3i+1 )=1/2, i {1,...,v} Marginale Wahrscheinlichkeiten für das Kantengadget in Abängigkeit von 3i+1 und 3j+1: 3i+13j+1P AA 0 Aa3/32 AaAA3/32 Aa 3/32
28
Seminar "Aktuelle Themen der Bioinformatik" 28 8.4 Marginale Wahrscheinlichkeiten für die Vorfahren von ({i, j},4) 3i+13j+1({i,j},2)P2({i,j},7)P7P4 AAAaAA½ 1/411/8 AAAaAA½Aa½½1/8 AAAa ½AA1/4½1/16 AAAa ½ ½1/41/16 Summe3/8 Aa AA¼ 1/411/16 Aa AA1/4Aa½½1/16 Aa ½AA1/4½1/16 Aa ½ ½1/41/16 Summe1/4
29
Seminar "Aktuelle Themen der Bioinformatik" 29 8.5 Marginale Wahrscheinlichkeiten für die Vorfahren von ({i, j},5) 3i+13j+1({i,j},1)P1({i,j},8)P8P5 AAAaAA1 ½00 AaAA1Aa½½1/4 Summe1/4 Aa AA½ ½00 Aa AA½Aa½½1/8 Aa ½AA½½1/8 Aa ½ ½½1/8 Summe3/8
30
Seminar "Aktuelle Themen der Bioinformatik" 30 8.6 Beobachtungen Falls der Score von MP(G) größer als Null ist, gilt: 1. i V: Genotyp von 3i+1 ist nicht aa 2. {i,j} E: Genotyp von 3i+1 und 3j+1 ist nicht bei beiden AA
31
Seminar "Aktuelle Themen der Bioinformatik" 31 8.7 Der Score von MP(G) Score(MP(G)) = S 3e3e 2 v + 5e S = Lösung von #IS(G)
32
Seminar "Aktuelle Themen der Bioinformatik" 32 9. Diskussion der Ergebnisse NP-Härte gilt auch für komplexere Modelle Beschränkung der Worst-Case Laufzeit von Algorithmen Ausschluß der Spezialfälle beim Algorithemndesign Auch der Ausschluß von Inzestzyklen kann zu hoher Komplexität führen Bei MaxP sind die Ergebnisse von effizienten Algoryithmen teilweise unbrauchbar (solange P NP)
Ähnliche Präsentationen
© 2024 SlidePlayer.org Inc.
All rights reserved.