Präsentation herunterladen
Die Präsentation wird geladen. Bitte warten
Veröffentlicht von:Bathild Albus Geändert vor über 10 Jahren
1
AAGUCGGCCGAUUAGG UGACGCUGACGC Proteinstrukturvorhersage mit Hilfe von CP(FD) Seminar: Bioinformatik WS 01/02 Martin Homik
2
AAGUCGGCCGAUUAGG UGACGCUGACGC Vortrag 1. Motivation Kriterien, Modelle, Bisherige Ansätze 2. Constraint Programmierung Modellierung, Propagierung, Suche 3. CP Modell für HP(NX) Naive, Fortgeschritten 4. Fazit, Ausblick und Literatur
3
AAGUCGGCCGAUUAGG UGACGCUGACGC Motivation Gegeben: Aminosäuresequenz Gesucht: Natürliche Struktur Ziele: Funktion Medikamentenherstellung NP vollständig (Berger, Leighton; Crescenzi 1998)
4
AAGUCGGCCGAUUAGG UGACGCUGACGC Qualitätskriterien Gittermodell Simplifikation Energiefunktion Algorithmus
5
AAGUCGGCCGAUUAGG UGACGCUGACGC Gittermodell Monomerplatzierung auf Gitterpositionen Einheitliche Bindungsabständen Monomere haben einheitliche Größe
6
AAGUCGGCCGAUUAGG UGACGCUGACGC HP Modell Dill, Lan (1989) teilen Monomere ein in: hydrophob hydrophil Reduktion von 20 2 VAIAEQCGRQAGGKLCPNNLCCSQWGWCGSTDEYCSPDHNCQSNCK HPHPPHPHPHPHHPHPPPPHPPHHPHPPHHPHPHPHPHHPPHHPPP
7
AAGUCGGCCGAUUAGG UGACGCUGACGC Kontakt Optimale Anordnung: Maximum von Kontakten zwischen H-Monomeren HH-Kontakt P H
8
AAGUCGGCCGAUUAGG UGACGCUGACGC HP Modell: Energiefunktion H = Hydrophob (wasserabweisend) P = Hydrophil (wasseranziehend)
9
AAGUCGGCCGAUUAGG UGACGCUGACGC HP Modell in 3D H-Monomer P-Monomer
10
AAGUCGGCCGAUUAGG UGACGCUGACGC HP Modell: Nachteil Hoher Degenerierungsgrad Viele Strukturen zu einer Sequenz mit min. Energie Ungenaue Energiefunktion Degenerierung
11
AAGUCGGCCGAUUAGG UGACGCUGACGC HPNX Modell: Energiefunktion Hydrophob Positiv Negativ Neutral Hydrophil: Bornberg-Bauer (1997)
12
AAGUCGGCCGAUUAGG UGACGCUGACGC HPNX Modell in 3D H-Monomer P-Monomer N-Monomer X-Monomer
13
AAGUCGGCCGAUUAGG UGACGCUGACGC Bisherige Ansätze Es existiert kein effizienter Algorithmus! Beschränkung auf 3x3x3 Kubus (Sali, 1994) Nur kurze Sequenzen (Teilsequenzen) Maximum Compact State (MCS) Annahme: MCS = optimale Konformation Wiederlegt von You 1995 Monte Carlo (50 000 000 Schritte)
14
AAGUCGGCCGAUUAGG UGACGCUGACGC Warum CP? (Backofen, Will) Gittermodelle bleiben skalierbar Längere Sequenzen Keine MCS Einschränkung Modellierung mit Higher Order Alphabeten CP Modell bleibt für andere Gitter anwendbar Reduzierung von Degenerierungen
15
AAGUCGGCCGAUUAGG UGACGCUGACGC Constraint Programmierung Modellierung Propagierung Problemzerlegung Explorierung (Suche)
16
AAGUCGGCCGAUUAGG UGACGCUGACGC Constraintspeicher CP Modellierung x {3,4,5} y {3,4,5} ProblemvariablenFinite Domains
17
AAGUCGGCCGAUUAGG UGACGCUGACGC CP Propagierung x y y 3 x {3,4,5} y {3,4,5} Constraintspeicher Aufsetzen neuer Propagierer Propagierer filtern inkonsistente Werte Propagierer (Threads)
18
AAGUCGGCCGAUUAGG UGACGCUGACGC CP Propagierung Propagierer y>3 im Betrieb x y y 3 x {3,4,5} y {3,4,5}
19
AAGUCGGCCGAUUAGG UGACGCUGACGC CP Propagierung Propagierer y>3 im Betrieb Einschränkung Constraintspeicher x y y 3 x {3,4,5} y {4,5}
20
AAGUCGGCCGAUUAGG UGACGCUGACGC CP Propagierung Propagierer x y im Betrieb x y y 3 x {3,4,5} y {4,5}
21
AAGUCGGCCGAUUAGG UGACGCUGACGC CP Propagierung Propagierer x y im Betrieb Einschränkung Constraintspeicher x y y 3 x {4,5} y {4,5}
22
AAGUCGGCCGAUUAGG UGACGCUGACGC CP Propagierung Propagierer a) im Betrieb Einschränkung Constraintspeicher Fixpunkt erreicht x y y 3 x {4,5} y {4,5}
23
AAGUCGGCCGAUUAGG UGACGCUGACGC CP Propagierung: Summe x {3,4,5} y {3,4,5} z={1,...,100} x+y=z 3+3=6 5+5=10 x {3,4,5} y {3,4,5} z={6,...,10} Analog für
24
AAGUCGGCCGAUUAGG UGACGCUGACGC CP Problemzerlegung Propagierung reicht nicht! Zusätzliche Constraints x yy 3 x {4} y {4} x y y 3 x {5} y {5} x yy 3 x {4,5} y {4,5} x=4 x 4
25
AAGUCGGCCGAUUAGG UGACGCUGACGC CP Heuristik Kriterien Welche Variable wählen? Welchen Wert zuweisen? Wissenseinwirkung Beispiele: Naive: Wähle erstbeste nicht determinierte Variable und weise kleinsmöglichen Wert zu First Fail: Wähle nicht determinierte Variable mit kleinstem Bereich und weise kleinsten Wert zu
26
AAGUCGGCCGAUUAGG UGACGCUGACGC CP Explorierung Iteration: Propagierung Zerlegung Suchbaum: Lösung Fail Kriterium: Anzahl der Zerlegungsknoten
27
AAGUCGGCCGAUUAGG UGACGCUGACGC CP Branch & Bound Sei f Zielfunktion Sei s eine Lösung Dann: Vergleichswert: f(s) Nächste Lösung s´: f(s´) < f(s) s
28
AAGUCGGCCGAUUAGG UGACGCUGACGC CP Branch & Bound Sei f Zielfunktion Sei s eine Lösung Dann: Vergleichswert: f(s) Nächste Lösung s´: f(s´) < f(s) s
29
AAGUCGGCCGAUUAGG UGACGCUGACGC CP Modellierungstechniken Symmetrien vermeiden Vermeidung gleicher Lösungen Ordnung Redundante Constraints Gleiche Constraints Aber anderer Filteralgorithmus Reifizierte Constraints rc(x 1,..., x n ) b, b {0,1}
30
AAGUCGGCCGAUUAGG UGACGCUGACGC CP Modell: HP Sei s=(s 1,..,s n ) eine HP(NX)-Sequenz Strukturfunktion (Konformation): c:{1,...,n} Z 3 Koordinaten: X i, Y i, Z i {1,...,2*n}, 1 i n
31
AAGUCGGCCGAUUAGG UGACGCUGACGC CP Modell: Propagierer Distanz: Self-Avoiding: Kontaktstellen (i, j):
32
AAGUCGGCCGAUUAGG UGACGCUGACGC CP Propagierer: HP Energiefunktion:
33
AAGUCGGCCGAUUAGG UGACGCUGACGC CP Suche: HP Heuristik Wähle Variable aus {X i, Y i, Z i | 1 i n } Heuristik: First Fail Branch & Bound Sei E c der aktuell beste Energiewert Neuer Constraint: Energy < E c
34
AAGUCGGCCGAUUAGG UGACGCUGACGC CP Suche: HPNX Energiefunktion: Strategie: Erst alle HP Lösungen suchen Dann: Beste HPNX Lösung filtern
35
AAGUCGGCCGAUUAGG UGACGCUGACGC CP Suche: HP (Besser) Redundante Constraints Zielgerichtete Heuristik: Fühzeitige Enumierung von Strukturen mit geringer Energie
36
AAGUCGGCCGAUUAGG UGACGCUGACGC Redundante Constraints Ebenen Constraints Position Constraints Typ Constraints
37
AAGUCGGCCGAUUAGG UGACGCUGACGC Ebenen Constraints X Y Z Ist Monomer i in X-Ebene c dann gilt:
38
AAGUCGGCCGAUUAGG UGACGCUGACGC Ebenen Constraints
39
AAGUCGGCCGAUUAGG UGACGCUGACGC Ebenen Constraints Anzahl H-Monomere in der X- Ebene
40
AAGUCGGCCGAUUAGG UGACGCUGACGC Position Constraints Eine beliebige Position sei: Monomer i besetzt Position
41
AAGUCGGCCGAUUAGG UGACGCUGACGC Position Constraints Besetze jede Position höchstens einmal Nachbarpositionen
42
AAGUCGGCCGAUUAGG UGACGCUGACGC Typ Constraints Ein H-Monomer besetzt Position Anzahl H-Monomere Analog für P-,N- und X-Monomere
43
AAGUCGGCCGAUUAGG UGACGCUGACGC Surface Sei HSurf s (c) die Anzahl von Paaren benachbarter Positionen, wobei die erste Position durch ein H- Monomer besetzt ist und die zweite nicht HSurf s (c)=10
44
AAGUCGGCCGAUUAGG UGACGCUGACGC Neue Schranke (You, Dill) Jedes Monomer hat 2*d Nachbarn in Z d Anzahl von H-Monomeren in s: Maximierung von HHC Minimierung von HSurf s (c)
45
AAGUCGGCCGAUUAGG UGACGCUGACGC Surface Constraints Definiere für alle Nachbarpositionen Und somit:
46
AAGUCGGCCGAUUAGG UGACGCUGACGC Heuristik Schranken für Anzahl von H-Monomeren in Ebene j Konkrete Ebene an H-Monomere zuweisen Konkrete Position an H(P)-Monomere zuweisen Konkrete Position an N,X-Monomere zuweisen
47
AAGUCGGCCGAUUAGG UGACGCUGACGC Ergebnisse Starke Reduzierung von Degenerierungen Higher Order Alphabete Reduzeiren Suchraum Max. Länge: 40 (Zeit?)
48
AAGUCGGCCGAUUAGG UGACGCUGACGC Ergebnisse (2) Effizienz nicht vergleichbar: You&Dill: Alg. für HP nicht frei zugänglich Max. Länge 88 (Zeit?) Keine weiteren Ansätze für HPNX bekannt Monte Carlo (3x3x3) 50 000 000 Schritte
49
AAGUCGGCCGAUUAGG UGACGCUGACGC Fazit CP(FD) ist eine aussichtsreiche Technik Skalierbare Gittermodelle Keine Beschränkung der Sequenzlänge Differenzierte Gittermodelle Higher Order Alphabete Reduzierung von Degenerierungen
50
AAGUCGGCCGAUUAGG UGACGCUGACGC Ausblick (Aktuell) Weitere Gitternetze Face-centered cubic lattice (FCC) Sequenzlänge 160 Zeit: 5-15 Minuten
51
AAGUCGGCCGAUUAGG UGACGCUGACGC Literatur Backofen, Will, Bornberg-Bauer: Application of constraint programming techniques for structure prediction of lattice proteins with extended alphabets Backofen: The Protein Structure Prediction Problem: A Constraint Optimization Approach using a New Lower Bound
52
AAGUCGGCCGAUUAGG UGACGCUGACGC Literatur Backofen, Will: A Brounch-and-Bound Constraint Optimization. Approach to the HPNX Structure Prediction Problem Mozart/Oz www.mozart-oz.org
53
AAGUCGGCCGAUUAGG UGACGCUGACGC Aminosäure C -Atom Aminogruppe Carboxylgruppe H H H C C OH O R N Organischer Rest Beispiel: Alanin
54
AAGUCGGCCGAUUAGG UGACGCUGACGC CP Propagierer: HP Distanz benachbarter Monomere ist 1 Xdiff i = |X i –X i+1 | Ydiff i = |Y i –Y i+1 | Zdiff i = |Z i –Z i+1 | Xdiff i + Ydiff i + Zdiff i = 1
55
AAGUCGGCCGAUUAGG UGACGCUGACGC CP Propagierer: HP Self-avoiding 1 i,j n mit i j Xdiff i,j = |X i –X j | Ydiff i,j = |Y i –Y j | Zdiff i,j = |Z i –Z j | r i,j,{x,y,z} {0,1} (Xdiff i,j = 0) (r i,j,x = 0) (Ydiff i,j = 0) (r i,j,y = 0) (Zdiff i,j = 0) (r i,j,z = 0) r i,j,x + r i,j,y + r i,j,z > 0
56
AAGUCGGCCGAUUAGG UGACGCUGACGC CP Propagierer: HP Kontaktstellen: Xdiff i,j = |X i – X j | Ydiff i,j = |Y i – Y j | Zdiff i,j = |Z i – Z j | Contact i,j {0,1} (Contact i,j = 1) Xdiff i,j +Ydiff i,j +Zdiff i,j = 1
Ähnliche Präsentationen
© 2024 SlidePlayer.org Inc.
All rights reserved.