Reconstructing the Topology of Protein Complexes Alexander Bernard, David S. Vaughn, Alexander J.Hartemink Hauptseminar 2007/2008 Göksel Kaya
Inhalt Motivation Einführung Bisherige Modelle PROCTOR Mathematische Formulierung Monte Carlo EM Algorithmus Rekonstruktion der Topologie Ergebnisse und Evaluierung Zusammenfassung
Motivation Protein Komplexe dienen als zelluläre Bausteine, Signal Übermittler und Produktionsstätten Viele annotierte Protein-Protein-Interaktionen und Domän-Domän-Interaktionen sind ungenau oder falsch (46-90%) Bessere Algorithmen notwendig für Schlussfolgerungen über die Topologie eines Proteinkomplexes über PPI bzw. DDI
Einführung Beschreibung eines Protein Komplexes: Identifizierung der einzelnen Proteine Protein-Protein-Interaktionen Domän-Domän-Interaktionen Atomare 3D-Struktur
Einführung Experimentelle Daten: Ermittelt durch Highthroughput- Experimente Yeast-Two-Hybrid (Y2H) Affinity-Purification / Mass Spectrometry (AP-MS)
Yeast-Two-Hybrid
Yeast-Two-Hybrid Vorteile: Nachteile: Billig und in vivo Direkte Interaktionen Screening-Verfahren möglich Nachteile: False Negatives/Positives auf Grund von Milieu im Zellkern Protein-Komplexe werden nicht erkannt Falsche PPI, da manche Proteine nicht gleichzeitig vorkommen in der Zelle
AP-MS
AP-MS Vorteile: Nachteile: Liefert Proteine im Proteinkomplex Indirekter Beweis für PPI False Positives/Negatives (schlechte Purifizierung) Genaue PPIs nicht feststellbar Viele verschiedene Möglichkeiten für PPIs
Probleme Hohe Fehlerrate bei den Datensätzen Y2H-Daten allein sind ungeeignet für Vorhersage von Topologien AP-MS-Daten geben keine Auskunft über PPI Herleitung der Topologie eines Proteinkomplexes durch Kombination der Informationen beider Datensätze
Bisherige Methoden Benutzen nur Y2H-Daten zur Vorhersage von PPI Transformieren AP-MS-Daten in paarweise Interaktionen in Form von einem Cliquen- oder Spoke-Modell
PROCTOR PROtein Complex Topology Reconstruction Tool zur Vorhersage von DDI, die PPI vermitteln Rekonstruktion der internen Topologie eines Proteinkomplexes durch Schlussfolgerungen auf Domänenebene Verwendung von Y2H- und AP-MS-Daten Betrachtung verschiedener, möglicher Topologien für eine AP-MS Purification
Verschiedene Topologien:
Mathematische Formulierungen Definitionen:
Modell für die Beobachtung eines Y2H: Bait- und Prey-Protein interagieren und bilden ein Komplex oder sie interagieren nicht und Prey-Protein ist false positive Wahrscheinlichkeit der Beobachtung:
Modell für eine AP-MS Beobachtung: Annahmen: Jegliche Komplex-Topologie für eine AP-MS Purification kann nur ein Baum c sein, das sich über den kompletten Graph erstreckt, der von einer Teilmenge von den Proteinen induziert wurde. Das Bait-Protein ist immer in Restlichen Proteine als FP behandelt repräsentiert die True Positives repräsentiert die Kanten Kanten auf sich selbst sind erlaubt in
Wahrscheinlichkeit für einen Complex Topology Tree: Wahrscheinlichkeit der Beobachtung einer AP-MS: Modell ignoriert die Möglichkeit von False Negative Complexes
Einbeziehung negativer Information: Proteine, die nicht in Komplexen mit einem Bait- Protein teilnehmen, stellen einen negativen Beweis für DDI dar. = Menge an Proteinen, die in manchen Purifications weder als Bait noch als Prey-Protein beobachtet worden sind
Gemeinsames Modell für Y2H und AP-MS: Gegeben: K Y2H Datensets und L AP-MS Datensets
Monte Carlo EM Algorithmus Erweiterung eines EM-Algorithmus, das bereits in Recomb 02 vorgestellt wurde Einbeziehung des AP-MS Beobachtungsmodells Die Fehlerraten sind bereits gegeben Ziel ist es die DDI-Wahrscheinlichkeiten zu schätzen
Monte Carlo Method Die Berechnung aller möglichen Complex Topology Trees ist unhandbar Generierung zufälliger Bäume anhand einer Gleichverteilung mittels eines Random Walks über Knotenmenge O. False Positives wurden zuvor ebenfalls über einen Random Walk erzeugt.
EM-Algorithmus Estimation Step: Berechnung des Erwartungswertes für Man unterscheidet zwei Fälle bei einer AP-MS Purification: a) b)
a) b)
Maximization Step:
Reconstruktion der Topologie eines Protein Komplexes Generierung vieler zufälliger Bäume und anschließender Berechnung der Wahrscheinlichkeiten für die Kanten der Graphen Complex Topology Tree mit der größten Wahrscheinlichkeit bildet die Topologie der AP-MS Purification
Results and Evaluation Trainingsset: 5 AP-MS-Datensätze mit insgesamt 6,864 Purifications. 2 Y2H-Datensätze mit 957 und 4549 Interaktionen Datensätze repräsentieren insgesamt 5925 Hefe-Proteine Protein-Domän-Informationen aus Pfam Laufzeit: 25-30 Iterationen (30 Minuten pro Iteration)
Results and Evaluation DDI Vorhersage Evaluierungsset: 1501 positive DDIs aus 3DID und IPfam 40 mal so viele negative DDIs PPI Vorhersage 3144 positive PPIs aus DIP 40 mal so viele negative PPIs
Results and Evaluation
Results and Evaluation Prediction of Protein Complex Topologies Gegeben: 1)AP-MS Purification von Tfg1 2)AP-MS Purification von Arp2 und Arp3
Results and Evaluation Teil der RNA Polymerase II Arp2/3 Komplex
Zusammenfassung PROCTOR ermöglicht Rekonstruktion der Topologie eines Proteinkomplexes Interaktionsvorhersage auf Domänebene besser Akzeptable Laufzeit Verbesserung durch bessere experimentelle Daten möglich oder durch zusätzliche Informationen (Stöchiometrie)
Literaturverzeichnis [1] A. Bateman et al. The pfam protein families database. Nucleic Acids Research, 32: D138–D141, 2004. [2] M. Deng, S. Mehta, F. Sun, and T. Chen. Inferring domain-domain interactions from protein-protein interactions. In RECOMB ’02: Proceedings of the sixth annual international conference on Computational biology, pages 117–126. ACM Press, 2002. [3] P. Aloy and R.B. Russell. Structural systems biology: modeling protein interactions. Nature Reviews in Molecular Cell Biology, 7:188– 197, 2006. [4] I. Xenarios, L. Salwinski, X.J. Duan, P. Higney, S.M. Kim, and D. Eisenberg. DIP, the database of interacting proteins: a research tool for studying cellular networks of protein interactions. Nucleic Acids Research, 30:303–305, 2002.
[5] S. M. Gomez and A. Rzhetsky [5] S.M. Gomez and A. Rzhetsky. Towards the prediction of complete protein-protein interaction networks. In PSB, volume 7, pages 413– 424, 2002. [6] R. Edwards and L. Glass. Combinatorial explosion in model gene networks. Chaos,10:691–704, September 2000. [7] C. von Mering, R. Krause, B. Snel, M. Cornell, S.G. Oliver, S. Fields, and P. Bork. Comparative assessment of large-scale data sets of protein-protein interactions. Nature, 417: 399–403, 2002. [8] P. D’haeseleer and G.M. Church. Estimating and improving protein interaction error rates. In CSB. IEEE, August 2004. [9] M.A. Gilchrist, L.A. Salter, and A. Wagner. A statistical framework for combining and interpreting proteomic datasets. Bioinformatics, 20:689–700, 2004. [10] N.J. Krogan et al. Global landscape of protein complexes in the yeast saccharomyces cerevisiae. Nature, 440:637–643, 2006.