Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Theoretical Analysis of Protein-Protein Interactions Proseminar SS 2004.

Ähnliche Präsentationen


Präsentation zum Thema: "Theoretical Analysis of Protein-Protein Interactions Proseminar SS 2004."—  Präsentation transkript:

1 Theoretical Analysis of Protein-Protein Interactions Proseminar SS 2004

2 Virtual Screening: Predicting Pairs from Sequence

3 3/29SS 2004Anna Hobler Übersicht Einleitung Einleitung 1.Modell: Vorhersage von Protein-Interfaces aus Sequenzprofilen und Residue Neighbor Listen durch neuronale Netzwerke 1.Modell: Vorhersage von Protein-Interfaces aus Sequenzprofilen und Residue Neighbor Listen durch neuronale Netzwerke 2.Modell: Vorhersage von Protein-Interfaces aus der Aminosäuresequenz mithilfe einer Support Vector Machine 2.Modell: Vorhersage von Protein-Interfaces aus der Aminosäuresequenz mithilfe einer Support Vector Machine Zusammenfassung Zusammenfassung

4 4/29SS 2004Anna Hobler Einleitung Protein-Protein-Interaktionen spielen eine entscheidende Rolle bei biologischen Prozessen Protein-Protein-Interaktionen spielen eine entscheidende Rolle bei biologischen Prozessen Ziel: Verständnis der physiologischen Funktion eines Proteins Ziel: Verständnis der physiologischen Funktion eines Proteins Identifikation von InterfacesIdentifikation von Interfaces

5 5/29SS 2004Anna Hobler Einleitung Spezifisches Problem: Gegeben die Struktur eines Proteins und die Tatsache, dass es einen Komplex mit einem anderen, unbekannten Protein bildet. Sage die Residuen des ersten Proteins voraus, die im Interface mit dem zweiten Protein liegen.

6 6/29SS 2004Anna Hobler Merkmale von Interfaces unterscheiden sich in Homo- und Heteromeren, sowie in permanent und transient interagierenden Proteinen unterscheiden sich in Homo- und Heteromeren, sowie in permanent und transient interagierenden Proteinen Unterschiedliche Interface-Arten haben unterschiedliche Merkmale Unterschiedliche Interface-Arten haben unterschiedliche Merkmale große Anzahl von hydrophoben Residuen im Vergleich zur gesamten Proteinoberfläche große Anzahl von hydrophoben Residuen im Vergleich zur gesamten Proteinoberfläche Protein-Interfaces sind segmentiert Protein-Interfaces sind segmentiert

7 7/29SS 2004Anna Hobler Merkmale von Interface-Residuen Segmente fassen oft Residuen zusammen, die in der 3D-Struktur geclustert sind und in der Aminosäuresequenz aufeinanderfolgen Segmente fassen oft Residuen zusammen, die in der 3D-Struktur geclustert sind und in der Aminosäuresequenz aufeinanderfolgen andere Aminosäure-Zusammensetzung als der Rest des Proteins andere Aminosäure-Zusammensetzung als der Rest des Proteins nicht-polare Residuen häufiger in Interfaces als geladene und polare Residuen (Ausnahme: Arginin) nicht-polare Residuen häufiger in Interfaces als geladene und polare Residuen (Ausnahme: Arginin) mutieren weniger häufig als andere Stellen der Protein- Oberfläche mutieren weniger häufig als andere Stellen der Protein- Oberfläche

8 8/29SS 2004Anna Hobler Definitionen Oberflächen-Residue: relative MASA (ASA im ungebundenen Molekül) wenigsten 25% der Gesamtfläche Interface-Residue: 1.Basierend auf der Reduktion der ASA: ASA Monomer - ASA Komplex <1 Å 2 2.Abstands-basiert: Residue (oder Atom) in anderem Molekül mit Abstand <6Å zur Target-Residue

9 9/29SS 2004Anna Hobler 1.Modell: Vorhersage von Protein-Interfaces aus Sequenzprofilen und Residue Neighbor Listen durch neuronale Netzwerke Ziel: Entwicklung eines genauen Predictors für Interface- Residuen Ziel: Entwicklung eines genauen Predictors für Interface- Residuen Input: Sequenzprofil und ASA einer Oberflächen- Residue und das Gleiche für die 19 räumlich am nähesten Oberflächen-Residuen Input: Sequenzprofil und ASA einer Oberflächen- Residue und das Gleiche für die 19 räumlich am nähesten Oberflächen-Residuen Sammlung von Komplexen: Kettenpaare mit 20 Residuen/Kette, die einen Interface-Kontakt mit der anderen Kette bilden Sammlung von Komplexen: Kettenpaare mit 20 Residuen/Kette, die einen Interface-Kontakt mit der anderen Kette bilden

10 10/29SS 2004Anna Hobler Architektur der neuronalen Netzwerke 2 aufeinanderfolgende neuronale Netzwerke 2. Netzwerk soll Genauigkeit verbessern 2. Netzwerk soll Genauigkeit verbessern 1.Netzwerk: 420 Input-Knoten führen zu einem Hidden Layer mit 75 Knoten, die zu 2 Output-Knoten führen 1.Netzwerk: 420 Input-Knoten führen zu einem Hidden Layer mit 75 Knoten, die zu 2 Output-Knoten führen Zielwerte: (1,0) wenn die Residue unter der Vorhersage eine Interface-Residue ist Zielwerte: (1,0) wenn die Residue unter der Vorhersage eine Interface-Residue ist (0,1) sonst (0,1) sonst 2. Netzwerk: Input-Knoten, ein Hidden Layer mit 30 Knoten und 2 Output-Knoten 2. Netzwerk: Input-Knoten, ein Hidden Layer mit 30 Knoten und 2 Output-Knoten Die Werte der 2. Output-Knoten sind entscheidend Die Werte der 2. Output-Knoten sind entscheidend

11 11/29SS 2004Anna Hobler Neural Network Predictor Vorherzusagende Residue: L79 Vorherzusagende Residue: L79 2 nächste räumliche Nachbarn: F78, V80 2 nächste räumliche Nachbarn: F78, V80 Input-Knoten: enthalten Substitutions-Werte aus Sequenzprofil (PSI-BLAST) bzw. letzter Knoten enthält relative ASA Input-Knoten: enthalten Substitutions-Werte aus Sequenzprofil (PSI-BLAST) bzw. letzter Knoten enthält relative ASA Vergleich der beiden Output-Knoten: Interface-Residue x 1 >x 2 Vergleich der beiden Output-Knoten: Interface-Residue x 1 >x 2 Input-Layer Hidden Layer Output-Layer Quelle: Zhou, H.X. and Shan, Y.B., (2001) Proteins, 44, 336-343. Prediction of Protein Interaction Sites from Sequence Profile and Residue Neighbor List.

12 12/29SS 2004Anna Hobler Performance der Methode Training Set: 615 Paare von nicht-homologen komplex- bildenden Proteinen Training Set: 615 Paare von nicht-homologen komplex- bildenden Proteinen 225.139 Oberflächen- Residuen (42.797 IR, 182.342 NIR) 225.139 Oberflächen- Residuen (42.797 IR, 182.342 NIR) Test Set: 129 Paare Test Set: 129 Paare 58.890 Residuen, davon 40.914 an der Oberfläche (11.805 mit wenigstens einem Interface-Kontakt) 58.890 Residuen, davon 40.914 an der Oberfläche (11.805 mit wenigstens einem Interface-Kontakt) 11.004 Vorhersagen von IR 11.004 Vorhersagen von IR 70% (7732) richtig, d.h. Genauigkeit 70% (7732) richtig, d.h. Genauigkeit 65% der 11.805 Residuen die die 129 Interfaces bilden 65% der 11.805 Residuen die die 129 Interfaces bilden

13 13/29SS 2004Anna Hobler Neighbor Listen und ASA relativ unempfindlich gegenüber strukturellen Änderungen Neighbor Listen und ASA relativ unempfindlich gegenüber strukturellen Änderungen NN für gebundene und ungebundene Strukturen etwa gleiche Genauigkeit: NN für gebundene und ungebundene Strukturen etwa gleiche Genauigkeit: Suche nach ungebundenen Formen für die 129 Paare von Proteinketten 35 solcher Proteine Suche nach ungebundenen Formen für die 129 Paare von Proteinketten 35 solcher Proteine als Test Set : Genauigkeit von 69% als Test Set : Genauigkeit von 69%

14 14/29SS 2004Anna Hobler 2.Modell: Vorhersage von Protein-Interfaces aus der Aminosäuresequenz mithilfe einer Support Vector Machine Ziel: Predictor zur Vorhersage von Interfaces durch Nutzung einer Support Vector Machine Ziel: Predictor zur Vorhersage von Interfaces durch Nutzung einer Support Vector Machine Vorhersage, ob Oberflächen-Residue = Interface- Residue, basierend auf der Identität der Ziel-Residue und ihrer 10 Sequenznachbarn Vorhersage, ob Oberflächen-Residue = Interface- Residue, basierend auf der Identität der Ziel-Residue und ihrer 10 Sequenznachbarn einzige Strukturinformation: ASA der Residuen zur Identifizierung von Oberflächen-Residuen des Target- Proteins einzige Strukturinformation: ASA der Residuen zur Identifizierung von Oberflächen-Residuen des Target- Proteins Vorhersage korrekt: Residue oder eine ihrer 4 nächsten Nachbarn haben wenigstens einen Interface-Kontakt Vorhersage korrekt: Residue oder eine ihrer 4 nächsten Nachbarn haben wenigstens einen Interface-Kontakt

15 15/29SS 2004Anna Hobler Input: abgeleitet aus der Identität der Target-Residue und den Residuen die sie in der Primärsequenz umgeben Input: abgeleitet aus der Identität der Target-Residue und den Residuen die sie in der Primärsequenz umgeben 11-Residue-Fenster besteht aus der Residue und ihren 10 Sequenznachbarn (5 auf jeder Seite)11-Residue-Fenster besteht aus der Residue und ihren 10 Sequenznachbarn (5 auf jeder Seite) Output: +1 wenn Target Residue als Interface-Residue vorhergesagt wurde Output: +1 wenn Target Residue als Interface-Residue vorhergesagt wurde -1 sonst -1 sonst

16 16/29SS 2004Anna Hobler Support Vector Machine Residue repräsentiert durch Vektor mit 20 Elementen (Elemente entsprechen den AS) Residue repräsentiert durch Vektor mit 20 Elementen (Elemente entsprechen den AS) Jede Target-Residue assoziiert mit 220-elementigen Vektor Jede Target-Residue assoziiert mit 220-elementigen Vektor Wert eines Elementes im Vektor: Häufigkeit, mit der die entsprechende AS in dieser Position im Alignment vorkommt Wert eines Elementes im Vektor: Häufigkeit, mit der die entsprechende AS in dieser Position im Alignment vorkommt Learning Algorithmus generiert Klasse mit 220- elementigen Vektor als Input und gibt Klassenlabel aus Learning Algorithmus generiert Klasse mit 220- elementigen Vektor als Input und gibt Klassenlabel aus

17 17/29SS 2004Anna Hobler Quelle: http://lectures.molgen.mpg.de/statistik/docs/Kapitel_16.pdf http://lectures.molgen.mpg.de/statistik/docs/Kapitel_16.pdf SVM wählt eine Hyperfläche im euklidischen Raum aus, die den Trennungsrand zwischen den beiden Klassen maximiert SVM wählt eine Hyperfläche im euklidischen Raum aus, die den Trennungsrand zwischen den beiden Klassen maximiert

18 18/29SS 2004Anna Hobler Maßstäbe für die Beurteilung der Methode TP (true positives) = # vorhergesagte IR, die wirklich welche sind TP (true positives) = # vorhergesagte IR, die wirklich welche sind TN (true negatives) = # vorhergesagte NIR, die wirklich keine sind TN (true negatives) = # vorhergesagte NIR, die wirklich keine sind FP (false postitives) = # vorhergesagte IR, die aber NIR sind FP (false postitives) = # vorhergesagte IR, die aber NIR sind FN (false negatives) = # vorhergesagte NIR, die aber IR sind FN (false negatives) = # vorhergesagte NIR, die aber IR sind N = TP + TN + FP + FN = # aller Vorhersagen N = TP + TN + FP + FN = # aller Vorhersagen IR = TP + FN IR = TP + FN NIR = TN + FP NIR = TN + FP

19 19/29SS 2004Anna Hobler Maßstäbe für die Beurteilung der Methode

20 20/29SS 2004Anna Hobler Erklärungen Sensitivität: wie viel Prozent aller IR wurden richtig vorhergesagt Sensitivität: wie viel Prozent aller IR wurden richtig vorhergesagt Spezifität: wie viel Prozent aller vorhergesagten IR wurden richtig vorhergesagt Spezifität: wie viel Prozent aller vorhergesagten IR wurden richtig vorhergesagt False positive rate: wie viel Prozent aller NIR wurden als IR vorhergesagt False positive rate: wie viel Prozent aller NIR wurden als IR vorhergesagt

21 21/29SS 2004Anna Hobler Gesamtwahrscheinlichkeit, dass eine Vorhersage korrekt ist Maßstab dafür, wie gut Vorhersagen den aktuellen Daten entsprechen 1 bei positiver Korrelation 1 bei positiver Korrelation -1 bei negativer Korrelation -1 bei negativer Korrelation Zufallsvorhersagen: Korrelationskoeffizient von 0 (keine K.) Zufallsvorhersagen: Korrelationskoeffizient von 0 (keine K.)

22 22/29SS 2004Anna Hobler Performance der Methode 115 Proteine aus 70 Heterokomplexen (unterteilt in 6 Kategorien) 115 Proteine aus 70 Heterokomplexen (unterteilt in 6 Kategorien) 12.676 Oberflächen-Residuen (3727 IR, 8949 NIR) 12.676 Oberflächen-Residuen (3727 IR, 8949 NIR) 115 jack-knife Experimente 115 jack-knife Experimente Training Set: je 1250 zufällig gewählte IR und NIR aus 114 der 115 Proteine Training Set: je 1250 zufällig gewählte IR und NIR aus 114 der 115 Proteine SVM klassifizierte Oberflächen-Residuen in IR und NIR: SVM klassifizierte Oberflächen-Residuen in IR und NIR: Spezifität 71% Spezifität 71% Sensitivität von 67% Sensitivität von 67% False Alarm Rate von 35,9% False Alarm Rate von 35,9% Korrelationskoeffizient von 0.29 Korrelationskoeffizient von 0.29

23 23/29SS 2004Anna Hobler

24 24/29SS 2004Anna Hobler

25 25/29SS 2004Anna Hobler

26 26/29SS 2004Anna Hobler

27 27/29SS 2004Anna Hobler

28 28/29SS 2004Anna Hobler Zusammenfassung Direkter Vergleich beider Methoden nicht gut möglich Direkter Vergleich beider Methoden nicht gut möglich Aber beide Methoden relativ gut, NN etwas besser Aber beide Methoden relativ gut, NN etwas besser sichere Identifizierung Interfaces kann Exerimente untersützen sichere Identifizierung Interfaces kann Exerimente untersützen Ergebnisse und einzigartige Kompositionen der interagierenden Residuen Ergebnisse und einzigartige Kompositionen der interagierenden Residuen Interfaces allein aus der Sequenz bestimmbar Interfaces allein aus der Sequenz bestimmbar

29 29/29SS 2004Anna Hobler Quellen Ofran, Y. and Rost, B., (2003) FEBS Let, 544, 236-239. Predicted Protein-Protein Interaction Sites from Local Sequence Information. Ofran, Y. and Rost, B., (2003) FEBS Let, 544, 236-239. Predicted Protein-Protein Interaction Sites from Local Sequence Information. Zhou, H.X. and Shan, Y.B., (2001) Proteins, 44, 336- 343. Prediction of Protein Interaction Sites from Sequence Profile and Residue Neighbor List. Zhou, H.X. and Shan, Y.B., (2001) Proteins, 44, 336- 343. Prediction of Protein Interaction Sites from Sequence Profile and Residue Neighbor List. Yan, C., Honavar, V., and Dobbs, D., (2002). Predicting Protein-Protein Interaction Sites from Amino Acid Sequence. Yan, C., Honavar, V., and Dobbs, D., (2002). Predicting Protein-Protein Interaction Sites from Amino Acid Sequence.


Herunterladen ppt "Theoretical Analysis of Protein-Protein Interactions Proseminar SS 2004."

Ähnliche Präsentationen


Google-Anzeigen