Theoretical Analysis of Protein-Protein Interactions Proseminar SS 2004.

Slides:



Advertisements
Ähnliche Präsentationen
Algorithmen und Datenstrukturen
Advertisements

Powerpoint-Präsentation
Anzahl der ausgefüllten und eingesandten Fragebögen: 211
Definition [1]: Sei S eine endliche Menge und sei p eine Abbildung von S in die positiven reellen Zahlen Für einen Teilmenge ES von S sei p definiert.
Algebraische Zahlen: Exaktes Rechnen mit Wurzeln
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil3.
Docking von starren und flexiblen Proteinen
Einführung in die Informatik: Programmierung und Software-Entwicklung
SST - Sequence Search Tree
Was ist Testtheorie?.
Evaluation der bewegungstherapeutischen Behandlung mit Hilfe des Dortmunder Fragebogens zur Bewegungstherapie DFBT Stuttgart Daniela Croissant.
TECHNISCHE UNIVERSITÄT DARMSTADT Naive Bayes for Ranking
Maschinelles Lernen   Präsenzübung.
Genetische Algorithmen für die Variogrammanpassung
1 Proseminar Bioinformatik: Theoretical Analysis of Protein-Protein-Interactions Scoring Functions Silke Ruzek 22.Juni.2004.
Seminar: Theoretical Analysis of Protein-Protein Interactions
Protein-Protein Bindungsstellen
Algorithmentheorie 04 –Hashing
Geometrisches Divide and Conquer
Tricks mit Zahlen. Kapitel 2 © Beutelspacher Mai 2004 Seite 2 Idee / Aufgaben In jeder Woche stelle ich Ihnen einen Zaubertrick mit Zahlen vor. Ihre Aufgaben:
Rechneraufbau & Rechnerstrukturen, Folie 2.1 © W. Oberschelp, G. Vossen W. Oberschelp G. Vossen Kapitel 2.
© 2006 W. Oberschelp, G. Vossen Rechneraufbau & Rechnerstrukturen, Folie 2.1.
Internet facts 2006-I Graphiken zu dem Berichtsband AGOF e.V. September 2006.
Internet facts 2006-III Graphiken zum Berichtsband AGOF e.V. März 2007.
Internet facts 2008-II Graphiken zu dem Berichtsband AGOF e.V. September 2008.
Internet facts 2006-II Graphiken zu dem Berichtsband AGOF e.V. November 2006.
Berechnen Sie den Output Vektor wenn der Input Vektor (1,1,-1,-1) ist.
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil2.
PKJ 2005/1 Stefan Dissmann Zusammenfassung Bisher im Kurs erarbeitete Konzepte(1): Umgang mit einfachen Datentypen Umgang mit Feldern Umgang mit Referenzen.
Kursleitung: Hier ist Platz für Ihren Namen
Projekt A4: Alignment of Situation Models Gert Rickheit Sven Wachsmuth Constanze Vorwerg Agnes Swadzba SFB-Kolloqium,
Analyse von DNA-Sequenzen
Wir suchen ‘ mit m = m    ‘ c  ‘ mod 26
Prof. Dr. Bernhard Wasmayr
Uebung 02 NN Properties b1b1 b2b2 b3b3 b4b4 b INPUTINPUT OUTPUTOUTPUT w 1o w 2o w 3o w 4o w 11 w 12 w 13 w 14 w 21 w 22 w 23 w 24.
Inhalte und Maßnahmen eingegeben haben,
Prof. Dr. Bernhard Wasmayr VWL 2. Semester
Ralf KüstersDagstuhl 2008/11/30 2 Ralf KüstersDagstuhl 2008/11/30 3.
AWA 2007 Natur und Umwelt Natürlich Leben
20:00.
Christian Schulz, Marc Thielbeer, Sebastian Boldt
LS 2 / Informatik Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Generalisierung/Spezialisierung Subtypisierung/Vererbung
Polynome und schnelle Fourier-Transformation
Auslegung eines Vorschubantriebes
STATISIK LV Nr.: 0028 SS Mai 2005.
Statistik: Mehr zur Regression.
Übergewicht und Untergewicht Von Kathrin, Marina und Martina St.
Absatzwirtschaft Vertriebsumfrage Düsseldorf, den
PROCAM Score Alter (Jahre)
Ertragsteuern, 5. Auflage Christiana Djanani, Gernot Brähler, Christian Lösel, Andreas Krenzin © UVK Verlagsgesellschaft mbH, Konstanz und München 2012.
Vorlesung Mai 2000 Konstruktion des Voronoi-Diagramms II
Großer Altersunterschied bei Paaren fällt nicht auf!
Zahlentheorie und Zahlenspiele Hartmut Menzer, Ingo Althöfer ISBN: © 2014 Oldenbourg Wissenschaftsverlag GmbH Abbildungsübersicht / List.
MINDREADER Ein magisch - interaktives Erlebnis mit ENZO PAOLO
1 (C)2006, Hermann Knoll, HTW Chur, FHO Quadratische Reste Definitionen: Quadratischer Rest Quadratwurzel Anwendungen.
Analyseprodukte numerischer Modelle
ENDLICHE KÖRPER RSA – VERFAHREN.
Schutzvermerk nach DIN 34 beachten 20/05/14 Seite 1 Grundlagen XSoft Lösung :Logische Grundschaltung IEC-Grundlagen und logische Verknüpfungen.
Folie Beispiel für eine Einzelauswertung der Gemeindedaten (fiktive Daten)
Unternehmensbewertung Thomas Hering ISBN: © 2014 Oldenbourg Wissenschaftsverlag GmbH Abbildungsübersicht / List of Figures Tabellenübersicht.
Der Erotik Kalender 2005.
Folie Einzelauswertung der Gemeindedaten
Datum:17. Dezember 2014 Thema:IFRS Update zum Jahresende – die Neuerungen im Überblick Referent:Eberhard Grötzner, EMA ® Anlass:12. Arbeitskreis Internationale.
1 Medienpädagogischer Forschungsverbund Südwest KIM-Studie 2014 Landesanstalt für Kommunikation Baden-Württemberg (LFK) Landeszentrale für Medien und Kommunikation.
Monatsbericht Ausgleichsenergiemarkt Gas – Oktober
Gene Prediction Marco Block Jonas Heise Nima Keshvari Michael Schreiber.
Projekt A4: „Alignment of Situation Models“ Dr. Gerd Rickheit Dr. Sven Wachsmuth Dr. Constanze Vorwerg Agnes Swadzba SFB-Kolloqium,
 Gegenstandsbereich der Testtheorie: Analyse der Charakteristika von Tests:  Güte von Tests.  Struktur von Tests.  Schwierigkeit von Tests.  Gruppenunterschiede.
 Präsentation transkript:

Theoretical Analysis of Protein-Protein Interactions Proseminar SS 2004

Virtual Screening: Predicting Pairs from Sequence

3/29SS 2004Anna Hobler Übersicht Einleitung Einleitung 1.Modell: Vorhersage von Protein-Interfaces aus Sequenzprofilen und Residue Neighbor Listen durch neuronale Netzwerke 1.Modell: Vorhersage von Protein-Interfaces aus Sequenzprofilen und Residue Neighbor Listen durch neuronale Netzwerke 2.Modell: Vorhersage von Protein-Interfaces aus der Aminosäuresequenz mithilfe einer Support Vector Machine 2.Modell: Vorhersage von Protein-Interfaces aus der Aminosäuresequenz mithilfe einer Support Vector Machine Zusammenfassung Zusammenfassung

4/29SS 2004Anna Hobler Einleitung Protein-Protein-Interaktionen spielen eine entscheidende Rolle bei biologischen Prozessen Protein-Protein-Interaktionen spielen eine entscheidende Rolle bei biologischen Prozessen Ziel: Verständnis der physiologischen Funktion eines Proteins Ziel: Verständnis der physiologischen Funktion eines Proteins Identifikation von InterfacesIdentifikation von Interfaces

5/29SS 2004Anna Hobler Einleitung Spezifisches Problem: Gegeben die Struktur eines Proteins und die Tatsache, dass es einen Komplex mit einem anderen, unbekannten Protein bildet. Sage die Residuen des ersten Proteins voraus, die im Interface mit dem zweiten Protein liegen.

6/29SS 2004Anna Hobler Merkmale von Interfaces unterscheiden sich in Homo- und Heteromeren, sowie in permanent und transient interagierenden Proteinen unterscheiden sich in Homo- und Heteromeren, sowie in permanent und transient interagierenden Proteinen Unterschiedliche Interface-Arten haben unterschiedliche Merkmale Unterschiedliche Interface-Arten haben unterschiedliche Merkmale große Anzahl von hydrophoben Residuen im Vergleich zur gesamten Proteinoberfläche große Anzahl von hydrophoben Residuen im Vergleich zur gesamten Proteinoberfläche Protein-Interfaces sind segmentiert Protein-Interfaces sind segmentiert

7/29SS 2004Anna Hobler Merkmale von Interface-Residuen Segmente fassen oft Residuen zusammen, die in der 3D-Struktur geclustert sind und in der Aminosäuresequenz aufeinanderfolgen Segmente fassen oft Residuen zusammen, die in der 3D-Struktur geclustert sind und in der Aminosäuresequenz aufeinanderfolgen andere Aminosäure-Zusammensetzung als der Rest des Proteins andere Aminosäure-Zusammensetzung als der Rest des Proteins nicht-polare Residuen häufiger in Interfaces als geladene und polare Residuen (Ausnahme: Arginin) nicht-polare Residuen häufiger in Interfaces als geladene und polare Residuen (Ausnahme: Arginin) mutieren weniger häufig als andere Stellen der Protein- Oberfläche mutieren weniger häufig als andere Stellen der Protein- Oberfläche

8/29SS 2004Anna Hobler Definitionen Oberflächen-Residue: relative MASA (ASA im ungebundenen Molekül) wenigsten 25% der Gesamtfläche Interface-Residue: 1.Basierend auf der Reduktion der ASA: ASA Monomer - ASA Komplex <1 Å 2 2.Abstands-basiert: Residue (oder Atom) in anderem Molekül mit Abstand <6Å zur Target-Residue

9/29SS 2004Anna Hobler 1.Modell: Vorhersage von Protein-Interfaces aus Sequenzprofilen und Residue Neighbor Listen durch neuronale Netzwerke Ziel: Entwicklung eines genauen Predictors für Interface- Residuen Ziel: Entwicklung eines genauen Predictors für Interface- Residuen Input: Sequenzprofil und ASA einer Oberflächen- Residue und das Gleiche für die 19 räumlich am nähesten Oberflächen-Residuen Input: Sequenzprofil und ASA einer Oberflächen- Residue und das Gleiche für die 19 räumlich am nähesten Oberflächen-Residuen Sammlung von Komplexen: Kettenpaare mit 20 Residuen/Kette, die einen Interface-Kontakt mit der anderen Kette bilden Sammlung von Komplexen: Kettenpaare mit 20 Residuen/Kette, die einen Interface-Kontakt mit der anderen Kette bilden

10/29SS 2004Anna Hobler Architektur der neuronalen Netzwerke 2 aufeinanderfolgende neuronale Netzwerke 2. Netzwerk soll Genauigkeit verbessern 2. Netzwerk soll Genauigkeit verbessern 1.Netzwerk: 420 Input-Knoten führen zu einem Hidden Layer mit 75 Knoten, die zu 2 Output-Knoten führen 1.Netzwerk: 420 Input-Knoten führen zu einem Hidden Layer mit 75 Knoten, die zu 2 Output-Knoten führen Zielwerte: (1,0) wenn die Residue unter der Vorhersage eine Interface-Residue ist Zielwerte: (1,0) wenn die Residue unter der Vorhersage eine Interface-Residue ist (0,1) sonst (0,1) sonst 2. Netzwerk: Input-Knoten, ein Hidden Layer mit 30 Knoten und 2 Output-Knoten 2. Netzwerk: Input-Knoten, ein Hidden Layer mit 30 Knoten und 2 Output-Knoten Die Werte der 2. Output-Knoten sind entscheidend Die Werte der 2. Output-Knoten sind entscheidend

11/29SS 2004Anna Hobler Neural Network Predictor Vorherzusagende Residue: L79 Vorherzusagende Residue: L79 2 nächste räumliche Nachbarn: F78, V80 2 nächste räumliche Nachbarn: F78, V80 Input-Knoten: enthalten Substitutions-Werte aus Sequenzprofil (PSI-BLAST) bzw. letzter Knoten enthält relative ASA Input-Knoten: enthalten Substitutions-Werte aus Sequenzprofil (PSI-BLAST) bzw. letzter Knoten enthält relative ASA Vergleich der beiden Output-Knoten: Interface-Residue x 1 >x 2 Vergleich der beiden Output-Knoten: Interface-Residue x 1 >x 2 Input-Layer Hidden Layer Output-Layer Quelle: Zhou, H.X. and Shan, Y.B., (2001) Proteins, 44, Prediction of Protein Interaction Sites from Sequence Profile and Residue Neighbor List.

12/29SS 2004Anna Hobler Performance der Methode Training Set: 615 Paare von nicht-homologen komplex- bildenden Proteinen Training Set: 615 Paare von nicht-homologen komplex- bildenden Proteinen Oberflächen- Residuen ( IR, NIR) Oberflächen- Residuen ( IR, NIR) Test Set: 129 Paare Test Set: 129 Paare Residuen, davon an der Oberfläche ( mit wenigstens einem Interface-Kontakt) Residuen, davon an der Oberfläche ( mit wenigstens einem Interface-Kontakt) Vorhersagen von IR Vorhersagen von IR 70% (7732) richtig, d.h. Genauigkeit 70% (7732) richtig, d.h. Genauigkeit 65% der Residuen die die 129 Interfaces bilden 65% der Residuen die die 129 Interfaces bilden

13/29SS 2004Anna Hobler Neighbor Listen und ASA relativ unempfindlich gegenüber strukturellen Änderungen Neighbor Listen und ASA relativ unempfindlich gegenüber strukturellen Änderungen NN für gebundene und ungebundene Strukturen etwa gleiche Genauigkeit: NN für gebundene und ungebundene Strukturen etwa gleiche Genauigkeit: Suche nach ungebundenen Formen für die 129 Paare von Proteinketten 35 solcher Proteine Suche nach ungebundenen Formen für die 129 Paare von Proteinketten 35 solcher Proteine als Test Set : Genauigkeit von 69% als Test Set : Genauigkeit von 69%

14/29SS 2004Anna Hobler 2.Modell: Vorhersage von Protein-Interfaces aus der Aminosäuresequenz mithilfe einer Support Vector Machine Ziel: Predictor zur Vorhersage von Interfaces durch Nutzung einer Support Vector Machine Ziel: Predictor zur Vorhersage von Interfaces durch Nutzung einer Support Vector Machine Vorhersage, ob Oberflächen-Residue = Interface- Residue, basierend auf der Identität der Ziel-Residue und ihrer 10 Sequenznachbarn Vorhersage, ob Oberflächen-Residue = Interface- Residue, basierend auf der Identität der Ziel-Residue und ihrer 10 Sequenznachbarn einzige Strukturinformation: ASA der Residuen zur Identifizierung von Oberflächen-Residuen des Target- Proteins einzige Strukturinformation: ASA der Residuen zur Identifizierung von Oberflächen-Residuen des Target- Proteins Vorhersage korrekt: Residue oder eine ihrer 4 nächsten Nachbarn haben wenigstens einen Interface-Kontakt Vorhersage korrekt: Residue oder eine ihrer 4 nächsten Nachbarn haben wenigstens einen Interface-Kontakt

15/29SS 2004Anna Hobler Input: abgeleitet aus der Identität der Target-Residue und den Residuen die sie in der Primärsequenz umgeben Input: abgeleitet aus der Identität der Target-Residue und den Residuen die sie in der Primärsequenz umgeben 11-Residue-Fenster besteht aus der Residue und ihren 10 Sequenznachbarn (5 auf jeder Seite)11-Residue-Fenster besteht aus der Residue und ihren 10 Sequenznachbarn (5 auf jeder Seite) Output: +1 wenn Target Residue als Interface-Residue vorhergesagt wurde Output: +1 wenn Target Residue als Interface-Residue vorhergesagt wurde -1 sonst -1 sonst

16/29SS 2004Anna Hobler Support Vector Machine Residue repräsentiert durch Vektor mit 20 Elementen (Elemente entsprechen den AS) Residue repräsentiert durch Vektor mit 20 Elementen (Elemente entsprechen den AS) Jede Target-Residue assoziiert mit 220-elementigen Vektor Jede Target-Residue assoziiert mit 220-elementigen Vektor Wert eines Elementes im Vektor: Häufigkeit, mit der die entsprechende AS in dieser Position im Alignment vorkommt Wert eines Elementes im Vektor: Häufigkeit, mit der die entsprechende AS in dieser Position im Alignment vorkommt Learning Algorithmus generiert Klasse mit 220- elementigen Vektor als Input und gibt Klassenlabel aus Learning Algorithmus generiert Klasse mit 220- elementigen Vektor als Input und gibt Klassenlabel aus

17/29SS 2004Anna Hobler Quelle: SVM wählt eine Hyperfläche im euklidischen Raum aus, die den Trennungsrand zwischen den beiden Klassen maximiert SVM wählt eine Hyperfläche im euklidischen Raum aus, die den Trennungsrand zwischen den beiden Klassen maximiert

18/29SS 2004Anna Hobler Maßstäbe für die Beurteilung der Methode TP (true positives) = # vorhergesagte IR, die wirklich welche sind TP (true positives) = # vorhergesagte IR, die wirklich welche sind TN (true negatives) = # vorhergesagte NIR, die wirklich keine sind TN (true negatives) = # vorhergesagte NIR, die wirklich keine sind FP (false postitives) = # vorhergesagte IR, die aber NIR sind FP (false postitives) = # vorhergesagte IR, die aber NIR sind FN (false negatives) = # vorhergesagte NIR, die aber IR sind FN (false negatives) = # vorhergesagte NIR, die aber IR sind N = TP + TN + FP + FN = # aller Vorhersagen N = TP + TN + FP + FN = # aller Vorhersagen IR = TP + FN IR = TP + FN NIR = TN + FP NIR = TN + FP

19/29SS 2004Anna Hobler Maßstäbe für die Beurteilung der Methode

20/29SS 2004Anna Hobler Erklärungen Sensitivität: wie viel Prozent aller IR wurden richtig vorhergesagt Sensitivität: wie viel Prozent aller IR wurden richtig vorhergesagt Spezifität: wie viel Prozent aller vorhergesagten IR wurden richtig vorhergesagt Spezifität: wie viel Prozent aller vorhergesagten IR wurden richtig vorhergesagt False positive rate: wie viel Prozent aller NIR wurden als IR vorhergesagt False positive rate: wie viel Prozent aller NIR wurden als IR vorhergesagt

21/29SS 2004Anna Hobler Gesamtwahrscheinlichkeit, dass eine Vorhersage korrekt ist Maßstab dafür, wie gut Vorhersagen den aktuellen Daten entsprechen 1 bei positiver Korrelation 1 bei positiver Korrelation -1 bei negativer Korrelation -1 bei negativer Korrelation Zufallsvorhersagen: Korrelationskoeffizient von 0 (keine K.) Zufallsvorhersagen: Korrelationskoeffizient von 0 (keine K.)

22/29SS 2004Anna Hobler Performance der Methode 115 Proteine aus 70 Heterokomplexen (unterteilt in 6 Kategorien) 115 Proteine aus 70 Heterokomplexen (unterteilt in 6 Kategorien) Oberflächen-Residuen (3727 IR, 8949 NIR) Oberflächen-Residuen (3727 IR, 8949 NIR) 115 jack-knife Experimente 115 jack-knife Experimente Training Set: je 1250 zufällig gewählte IR und NIR aus 114 der 115 Proteine Training Set: je 1250 zufällig gewählte IR und NIR aus 114 der 115 Proteine SVM klassifizierte Oberflächen-Residuen in IR und NIR: SVM klassifizierte Oberflächen-Residuen in IR und NIR: Spezifität 71% Spezifität 71% Sensitivität von 67% Sensitivität von 67% False Alarm Rate von 35,9% False Alarm Rate von 35,9% Korrelationskoeffizient von 0.29 Korrelationskoeffizient von 0.29

23/29SS 2004Anna Hobler

24/29SS 2004Anna Hobler

25/29SS 2004Anna Hobler

26/29SS 2004Anna Hobler

27/29SS 2004Anna Hobler

28/29SS 2004Anna Hobler Zusammenfassung Direkter Vergleich beider Methoden nicht gut möglich Direkter Vergleich beider Methoden nicht gut möglich Aber beide Methoden relativ gut, NN etwas besser Aber beide Methoden relativ gut, NN etwas besser sichere Identifizierung Interfaces kann Exerimente untersützen sichere Identifizierung Interfaces kann Exerimente untersützen Ergebnisse und einzigartige Kompositionen der interagierenden Residuen Ergebnisse und einzigartige Kompositionen der interagierenden Residuen Interfaces allein aus der Sequenz bestimmbar Interfaces allein aus der Sequenz bestimmbar

29/29SS 2004Anna Hobler Quellen Ofran, Y. and Rost, B., (2003) FEBS Let, 544, Predicted Protein-Protein Interaction Sites from Local Sequence Information. Ofran, Y. and Rost, B., (2003) FEBS Let, 544, Predicted Protein-Protein Interaction Sites from Local Sequence Information. Zhou, H.X. and Shan, Y.B., (2001) Proteins, 44, Prediction of Protein Interaction Sites from Sequence Profile and Residue Neighbor List. Zhou, H.X. and Shan, Y.B., (2001) Proteins, 44, Prediction of Protein Interaction Sites from Sequence Profile and Residue Neighbor List. Yan, C., Honavar, V., and Dobbs, D., (2002). Predicting Protein-Protein Interaction Sites from Amino Acid Sequence. Yan, C., Honavar, V., and Dobbs, D., (2002). Predicting Protein-Protein Interaction Sites from Amino Acid Sequence.