On the Complexity of Fundamental Problems in Pedigree Analysis Seminar Aktuelle Themen der Bioinformatik Martin Löwer Antonio Piccolboni, Dan Gusfield.

Slides:



Advertisements
Ähnliche Präsentationen
Fast Fourier Transformation
Advertisements

Christian Scheideler SS 2009
Definition [1]: Sei S eine endliche Menge und sei p eine Abbildung von S in die positiven reellen Zahlen Für einen Teilmenge ES von S sei p definiert.
Rekursion: Rekurrenz: Algorithmen rufen sich selbst (rekursiv) auf.
Falls Algorithmen sich selbst rekursiv aufrufen, so kann ihr Laufzeitverhalten bzw. ihr Speicherplatzbedarf in der Regel durch eine Rekursionsformel (recurrence,
Algebraische Zahlen: Exaktes Rechnen mit Wurzeln
LS 2 / Informatik Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)
Verifizieren versus Berechnen
Algorithmen und Komplexität
HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik Algorithmische Probleme in Funknetzwerken IX Christian Schindelhauer
Algorithmentheorie 04 –Hashing
WS Algorithmentheorie 13 - Kürzeste (billigste) Wege Prof. Dr. Th. Ottmann.
WS Algorithmentheorie 02 - Polynomprodukt und Fast Fourier Transformation Prof. Dr. Th. Ottmann.
Prof. Dr. S. Albers Prof. Dr. Th. Ottmann
1 Vorlesung Informatik 2 Algorithmen und Datenstrukturen (02 – Funktionenklassen) Prof. Dr. Th. Ottmann.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (02 – Funktionenklassen) Tobias Lauer.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (02 – Funktionenklassen) Prof. Dr. Th. Ottmann.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (27 – Kürzeste Wege) Prof. Th. Ottmann.
Algorithmentheorie 7 – Bin Packing
Geometrisches Divide and Conquer
PG 520 Intelligence Service – gezielte Informationen aus dem Internet
High Performance = Innovative Computer Systems + Efficient Algorithms Friedhelm Meyer auf der Heide 1 HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen.
Algorithmen und Komplexität
Christian Schindelhauer
1 HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Algorithmen für Peer-to-Peer-Netzwerke Sommersemester Vorlesung.
Minimum Spanning Tree: MST
Beweissysteme Hartmut Klauck Universität Frankfurt WS 06/
Effiziente Algorithmen
Effiziente Algorithmen
Effiziente Algorithmen
Effiziente Algorithmen
Effiziente Algorithmen
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Effiziente Algorithmen
Effiziente Algorithmen
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen
Effiziente Algorithmen
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Quantum Computing Hartmut Klauck Universität Frankfurt WS 04/
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/ /23.1.
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen
Effiziente Algorithmen
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Hartmut Klauck Universität Frankfurt SS
Information und Kommunikation Hartmut Klauck Universität Frankfurt SS
Information und Kommunikation
Information und Kommunikation Hartmut Klauck Universität Frankfurt SS
Quantum Computing Hartmut Klauck Universität Frankfurt WS 04/
Hartmut Klauck Universität Frankfurt WS 06/
Polynome und schnelle Fourier-Transformation
Vorlesung Mai 2000 Konstruktion des Voronoi-Diagramms II
Analyseprodukte numerischer Modelle
Arne Vater Wintersemester 2006/ Vorlesung
1 Albert-Ludwigs-Universität Freiburg Rechnernetze und Telematik Prof. Dr. Christian Schindelhauer Informatik III Christian Schindelhauer Wintersemester.
Analyse der Laufzeit von Algorithmen
HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik Algorithmische Probleme in Funknetzwerken VIII Christian Schindelhauer
HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik Algorithmische Probleme in Funknetzwerken VI Christian Schindelhauer
Algorithmen und Datenstrukturen Prof. Dr. Ralf Möller Universität zu Lübeck Institut für Informationssysteme Stefan Werner (Übungen) sowie viele Tutoren.
Programmiersprachen II Fortsetzung Datenstrukturen Balancierte Bäume 3 Prof. Dr. Reiner Güttler Fachbereich GIS HTW.
 Präsentation transkript:

On the Complexity of Fundamental Problems in Pedigree Analysis Seminar Aktuelle Themen der Bioinformatik Martin Löwer Antonio Piccolboni, Dan Gusfield Johann Wolfgang Goethe Universität Frankfurt a.M. Fachbereich für Biologie und Informatik

Seminar "Aktuelle Themen der Bioinformatik" 2 Inhalt 1. Motivation 2. Stammbäume 3. Problemstellungen 4. Einschränkungen des Modells 5. MaxP ist NP-hart 6. Approximierung von MaxP 7. Die Klasse #P 8. MP ist #P-hart 9. Diskussion der Ergebnise

Seminar "Aktuelle Themen der Bioinformatik" 3 1. Motivation Hohe Beduetung der Analyse von Stammbaumdaten Es ist keine worst-case-effiziente Methode für die Berechnung von Wahrscheinlichkeiten in Stammbäumen bekannt

Seminar "Aktuelle Themen der Bioinformatik" Zu Zeigen: Geringe Abweichungen von den Fällen, in denen effiziente Berechnungen möglich sind, führen zur NP-Härte Approximation nur bis zu einem exponentiellen Faktor möglich

Seminar "Aktuelle Themen der Bioinformatik" 5 2. Stammbäume Ein Stammbaum ist ein gerichteter, azyklischer Graph, der Grad der eingehenden Kanten ist bei jedem Knoten 0 oder 2 und der zugehörige Heiratsgraph ist bipartit. Der Heiratsgraph eines gerichteten Graphen G = (V,E) ist ein ungerichteter Graph H = (V,E*) mit E* = {(v,w) : v,w V und z V : (v,z) E (w,z) E)} Zyklen im ungerichteten Stammbaum: Inzucht und Zwillinge Unterscheidung der Individuen in Gründer und Nichtgründer

Seminar "Aktuelle Themen der Bioinformatik" Stammbäume Bekannte Algorithmen: –Lander und Green (1987) –Elston und Steward (1971) Bisherige Annahme: Inzestzyklen sind die größte Problemquelle

Seminar "Aktuelle Themen der Bioinformatik" Stammbäume Komplette Probleminstanz beinhaltet noch zwei Zufallsvariablen pro Knoten: Phänotyp und Genotyp Probleme der Stammbaumanalyse entstehen durch fehlende Werte für diese Variablen

Seminar "Aktuelle Themen der Bioinformatik" Stammbäume Verteilung der Zufallsvariablen: –P(g i ) Wahrscheinlichkeitsverteilung des Genotyps von Gründer i –P(g i |g v(i),g m(i) ) Wahrscheinlichkeitsverteilung des Genotyps von Nichtgründer i –P(y i |g i ) Wahrscheinlichkeitsverteilung des Phänotyps von Individuum i P(g i |g v(i),g m(i) ) muß genetische Realität wiederspiegeln, wird daher oft durch einfache Regeln der Mendelgenetik beschrieben

Seminar "Aktuelle Themen der Bioinformatik" Stammbäume Gesamtwahrscheinlichkeit eines Stammbaums, bzw. der Score: P(G,Y) = Gründer i P(g i ) P(y i |g i ) Nichtgründer i P(g i |g v(i),g m(i) ) P(y i |g i )

Seminar "Aktuelle Themen der Bioinformatik" Die Probleme MaxP - Maximale Wahrscheinlichkeit: Gegeben sei ein Stammbaum mit Wskeitsverteilungen und einer Teilmenge G* der Genotypen G bzw. Y* Phänotypen Y. Berechne max G\G*,Y\Y* P(G,Y) MP - Marginale Wahrscheinlichkeit: Gegeben sei ein Stammbaum mit Wskeitsverteilungen und einer Teilmenge G* der Genotypen G bzw. Y* Phänotypen Y. Berechne P(G*,Y*) = G\G*,Y\Y* P(G,Y)

Seminar "Aktuelle Themen der Bioinformatik" Einschränkungen des Modells Beschränkung auf Spezialfälle, die in allen anderen Modellen enthalten sind: –Ein Locus –Zwei Chromosomen –Zwei Allele (A und a) –Phänotyp wird vernachlässigt, da 1 zu 1 vom Genotyp abhängig –Einfaches Mendelsches Verebungsmodell ohne Mutationen –Keine Inzestzyklen

Seminar "Aktuelle Themen der Bioinformatik" MaxP ist NP-hart Beweis durch Reduktion von 3-MIS (Garey et al., 1976) 3-MIS: Maximale unabhänige Knotenmenge in einem Graphen G = (V,E), wobei der maximale Grad eines Knotens drei ist Im Folgenden sei e = |E| und v = |V|, die Elemente von V werden mit 1,2,....,v benannt, die Lösung von 3-MIS(G) sei s

Seminar "Aktuelle Themen der Bioinformatik" Reduktion G MAXP(G) Für jeden Knoten i V: 5i, aa5i+25i+4, AA 5i+1, Aa5i+3 Für jede Kante {i, j} E: 5i+25j+3 {i, j}, Aa 5i+35j+2 {i, j}*, Aa Insgesamt l = 5v + 2e Individuen

Seminar "Aktuelle Themen der Bioinformatik" Wahrscheinlichkeitsverteilung in MAXP(G) Verteilung für die Gründer: –P(a) = 1/3 –P(aa) = 1/9 –P(Aa) = P(AA) = 4/9 –Wahrscheinlichkeiten stimmen mit dem Hardy-Weinberg-Gesetz überein

Seminar "Aktuelle Themen der Bioinformatik" Beobachtungen Eine Lösung von MAXP(G), die den Wert 0 annimmt, heißt degeneriert Wenn eine Lösung von MAXP(G) einen Score von größer als 0 hat, gilt folgendes: 1. i V : weder 5i+2 noch 5i+3 hat den Genotyp aa 2. (i, j) E : 5i+2 und 5j+3 können nicht beide den Genotyp AA annehmen 3. i V : wenn 5i+2 den Genotyp AA hat, muß 5i+3 auch AA haben

Seminar "Aktuelle Themen der Bioinformatik" Der Score von MAXP(G) Eine degenerative Belegung kann nicht optimal sein, denn: Score(MAXP(G)) 1 3 6v 2 2e-2v > 0

Seminar "Aktuelle Themen der Bioinformatik" 17 Sei s = |{i V: 5i+2 ist mit AA belegt}|, dann hat MAXP(G) genau folgenden Score: Es gilt dann folgendes: 1.Wenn s die Größe des MIS in G ist, dann hat die optimale Lösung von MAXP(G) mindestens den Wert des obigen Bruchs 2.Wenn eine Lösung von MAXP(G) einen Score von größer 0 hat, dann ist {i V: 5i+2 ist mit AA belegt} eine unabhängige Knotenmenge 3.Wenn die optimale Lösung von MAXP(G) obigen Score hat, dann ist die Größe der maximalen unabhänigen Knotenmenge in G mindestens s 5.5 Der Score von MAXP(G) 1 3 6v 2 2e-2v-2s

Seminar "Aktuelle Themen der Bioinformatik" Der Score von MAXP(G) Werden die vorherigen Beobachtungen kombiniert, gilt: Genau dann wenn der Score von MAXP(G) gleichist, ist s die Größe der maximalen unabhängigen Knotenmenge in G v 2 2e-2v-2s

Seminar "Aktuelle Themen der Bioinformatik" Approximieren von MAXP 3-MIS ist von einem Polynominalzeit- Algorithmus nur bis zu einem Faktor von 1,0005 approximierbar, d.h wenn s* die optimale Lösung ist, ist ist s*/s größer als c = 1,0005 (Berman und Karpinski, 1999) Wir betrachten zuerst den negativen Logarithmus zur Basis 2 von MAXP

Seminar "Aktuelle Themen der Bioinformatik" Approximieren von MAXP Durch die Beschränkung des Grades der Knoten gilt: s* > v/4 und e 3v/2 Die Approximationsrate R von log- MAXP ist dann

Seminar "Aktuelle Themen der Bioinformatik" Approximieren von MAXP Durch die vorherigen Ergebnisse kann man den Score von MAXP(G) folgendermaßen abschätzen: 1 2 /8(R-1)l-2R+2 Score(MAXP(G)) < l = 5v+2e = 6 ld 3 -2

Seminar "Aktuelle Themen der Bioinformatik" Approximieren von MAXP Das bedeutet: Das Verhältnis vom optimalen Score zu dem besten durch einen eff. Algorithmus berechenbaren wächst exponentiell mit l, der Stammbaumgröße

Seminar "Aktuelle Themen der Bioinformatik" Die Klasse #P Ein Sprache gehört zur Klasse #P, wenn die Anzahl ihrer Lösungen von einer NTM in polynomineller Zeit berechnet werden kann #P-Härte ist analog zur NP-Härte durch die polynominelle Reduktion definiert

Seminar "Aktuelle Themen der Bioinformatik" MP ist #P-hart Beweis durch Reduktion von #IS (Dyer und Greenhill, 2000) #IS: Berechne die Anzahl der unabhänigen Knotenmengen in einem Graphen G = (V,E) mit einem maximalen Knotengrad von 3 Im Folgenden sei e = |E| und v = |V|, die Elemente von V werden mit 1,2,....,v benannt, die Lösung von #IS sei S

Seminar "Aktuelle Themen der Bioinformatik" Reduktion G MP(G) Für jeden Knoten i V: 3i, AA3i+2, Aa 3i+1

Seminar "Aktuelle Themen der Bioinformatik" Reduktion G MP(G) Für jede Kante {i, j} E: ({i, j},0), AA3i+1 ({i, j},1) ({i, j},3), Aa ({i, j},8) ({i, j},9), AA ({i, j},4), AA ({i, j},2) ({i, j},6), Aa ({i, j},7) 3j+1 ({i, j},5), Aa Insgesamt 3v + 10e Individuen

Seminar "Aktuelle Themen der Bioinformatik" Wahrscheinlichkeitsverteilung in MP(G) Verteilung für die Gründer wie im vorherigen Beweis P(AA 3i+1 )= P(Aa 3i+1 )=1/2, i {1,...,v} Marginale Wahrscheinlichkeiten für das Kantengadget in Abängigkeit von 3i+1 und 3j+1: 3i+13j+1P AA 0 Aa3/32 AaAA3/32 Aa 3/32

Seminar "Aktuelle Themen der Bioinformatik" Marginale Wahrscheinlichkeiten für die Vorfahren von ({i, j},4) 3i+13j+1({i,j},2)P2({i,j},7)P7P4 AAAaAA½ 1/411/8 AAAaAA½Aa½½1/8 AAAa ½AA1/4½1/16 AAAa ½ ½1/41/16 Summe3/8 Aa AA¼ 1/411/16 Aa AA1/4Aa½½1/16 Aa ½AA1/4½1/16 Aa ½ ½1/41/16 Summe1/4

Seminar "Aktuelle Themen der Bioinformatik" Marginale Wahrscheinlichkeiten für die Vorfahren von ({i, j},5) 3i+13j+1({i,j},1)P1({i,j},8)P8P5 AAAaAA1 ½00 AaAA1Aa½½1/4 Summe1/4 Aa AA½ ½00 Aa AA½Aa½½1/8 Aa ½AA½½1/8 Aa ½ ½½1/8 Summe3/8

Seminar "Aktuelle Themen der Bioinformatik" Beobachtungen Falls der Score von MP(G) größer als Null ist, gilt: 1. i V: Genotyp von 3i+1 ist nicht aa 2. {i,j} E: Genotyp von 3i+1 und 3j+1 ist nicht bei beiden AA

Seminar "Aktuelle Themen der Bioinformatik" Der Score von MP(G) Score(MP(G)) = S 3e3e 2 v + 5e S = Lösung von #IS(G)

Seminar "Aktuelle Themen der Bioinformatik" Diskussion der Ergebnisse NP-Härte gilt auch für komplexere Modelle Beschränkung der Worst-Case Laufzeit von Algorithmen Ausschluß der Spezialfälle beim Algorithemndesign Auch der Ausschluß von Inzestzyklen kann zu hoher Komplexität führen Bei MaxP sind die Ergebnisse von effizienten Algoryithmen teilweise unbrauchbar (solange P NP)