Reconstructing the Topology of Protein Complexes

Slides:



Advertisements
Ähnliche Präsentationen
Definition [1]: Sei S eine endliche Menge und sei p eine Abbildung von S in die positiven reellen Zahlen Für einen Teilmenge ES von S sei p definiert.
Advertisements

Zerlegung von Graphen.
Docking von starren und flexiblen Proteinen
TECHNISCHE UNIVERSITÄT DARMSTADT Naive Bayes for Ranking
Institut für Informatik Abteilung Datenbanken Problemseminar Datacleaning Überblick Datacleaning.
Fluoreszenzpolarisation
isobaric tag for relative and absolute quantitation
Suche in Texten (Stringsuche )
3. Kapitel: Komplexität und Komplexitätsklassen
Wasserfall-Ansätze zur Bildsegmentierung
On a Buzzword: Hierachical Structure David Parnas.
Theoretical Analysis of Protein-Protein Interactions Proseminar SS 2004.
DOM (Document Object Model)
Union-Find-Strukturen
Konfidenzintervalle für Parameter
Numerische Klassifikation TWINSPAN
Beispielrelation Buchbestellungen H = Menge der bedeutenden Ziele = {a, d} Schwelle T = 4 Stichprobe S = {a, b, a, a, a, a} mit s = |S| = 6 N = Anzahl.
Classification of Credit Applicants Using Data Mining. Thema.
Vorlesung: Einführung in der Bioinformatik
Approximationsalgorithmen Facility Location K-Median Cheng, Wei 12. Juli.
Effiziente Algorithmen
Homologes Modelling von Protein Komplexen
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen
Shape Similarity 27. Februar 2006 Michael Keller.
Knowledge Discovery Erzeugung künstlicher Telekommunikationsdaten
Vorlesung #4 Überführung des ER-Modells in das relationale Modell
VL Algorithmische BioInformatik (19710)
Rekonstruktion phylogenetischer Bäume.
Peer-to-Peer-Netzwerke
SS 2014 – IBB4B Datenmanagement Do 17:00 – 18:30 R Vorlesung #4 Überführung des ER-Modells in das relationale Modell.
HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik Algorithmische Probleme in Funknetzwerken VI Christian Schindelhauer
Gene Prediction Marco Block Jonas Heise Nima Keshvari Michael Schreiber.
Miriam Böhm Anne Weiland. BioGRID: Biological General Repository for Interaction Datasets beinhaltet Interaktion zwischen Proteinen Was sind Protein-Protein-
Anwendung der Ellipsoidmethode in der Kombinatorischen Optimierung
Gliederung der Vorlesung
Modellierung und Simulation metabolischer Netzwerke
SS 2015 – IBB4C Datenmanagement Fr 17:00 – 18:30 R Vorlesung #4 Überführung des ER-Modells in das relationale Modell.
Modellierung gastrointestinaler Absorption A. Weiße, J. Heise, H. Wöhrle, Y. Zhang.
Programmiersprachen II Vorbesprechung Klausur Prof. Dr. Reiner Güttler Fachbereich GIS HTW.
EIN NEUES ENSEMBLE- KLASSIFIKATIONSVERFAHREN Tim Schneider Rotation Forest.
V10 Protein-Protein-Interaktionsnetzwerke
1 StatiX: Making XML Count J.Freire, J.R.Haritsa, M.Ramanath, P.Roy, J.Siméon: StatiX: Making XML Count ACM SIGMOD, June 2002 Ann Früchtl
CL Tree MW 31.1 Business Intelligence Wintersemester 2015 / 2016 Stanislav Prokupetz.
The PageRank Axioms Johannes Zaunschirm. Überblick / Outline  Alon Altman and Moshe Tennenholtz. “Ranking Systems: The PageRank Axioms”., 2005  Basisstruktur.
Semi-automatische Komposition von Dienstbenutzerschnittstellen auf mehreren Abstraktionsebenen Christian Jäckel Universität des Saarlandes Bachelor.
Expressionssystem Escherichia coli
Parallele Lösung von Differential-Algebraischen Gleichungssystemen und Sensitivitätssystemen Seminarvortrag Daniel Abele
Institut für Verkehrssystemtechnik Dipl.-Psych. David Käthner Telefon:0531 / Ein kognitives Fahrermodell:
Einführung Grundlagen Zwischenfazit Deep Learning Probleme Fazit
Häufige Teilgraphen:gSpan Seminartitel: Data Mining Seminarthema:1.5.1 Häufige Teilgraphen: gSpan Fernuniversität Hagen SS 2008 Seminarleiter: Ralf.
Suchen und Sortieren.
Struktur und Regulation von Proteinkomplexen
Seminar im Fach Geoinformation IV
Dr. Caroline C. Friedel Lehr- und Forschungseinheit Bioinformatik
Scan - Matching Vortrag über Scan-Matching und dessen Verfahren
Diskrete Mathematik II
Das Problem des Handlungsreisenden
Struktur und Regulation von Proteinkomplexen
Sichtbar – Mit den Augen wahrnehmbar.
Algorithmen für Geographische Informationssysteme
Struktur-Funktions-Modelle von Pflanzen
Making connections: Data integration, web services, phylogenies and high-throughput data interpretation. Heiko Schoof Crop Bioinformatics, Bonn University.
MLDM Übung 6 - Evaluation
Homologes Modelling von Protein Komplexen
Wiederholung TexPoint fonts used in EMF.
Struktur-Funktions-Modelle von Pflanzen
Treewidth and its characterizations
Lösung von Optimierungsaufgaben in der Unternehmensplanung
 Präsentation transkript:

Reconstructing the Topology of Protein Complexes Alexander Bernard, David S. Vaughn, Alexander J.Hartemink Hauptseminar 2007/2008 Göksel Kaya

Inhalt Motivation Einführung Bisherige Modelle PROCTOR Mathematische Formulierung Monte Carlo EM Algorithmus Rekonstruktion der Topologie Ergebnisse und Evaluierung Zusammenfassung

Motivation Protein Komplexe dienen als zelluläre Bausteine, Signal Übermittler und Produktionsstätten Viele annotierte Protein-Protein-Interaktionen und Domän-Domän-Interaktionen sind ungenau oder falsch (46-90%) Bessere Algorithmen notwendig für Schlussfolgerungen über die Topologie eines Proteinkomplexes über PPI bzw. DDI

Einführung Beschreibung eines Protein Komplexes: Identifizierung der einzelnen Proteine Protein-Protein-Interaktionen Domän-Domän-Interaktionen Atomare 3D-Struktur

Einführung Experimentelle Daten: Ermittelt durch Highthroughput- Experimente Yeast-Two-Hybrid (Y2H) Affinity-Purification / Mass Spectrometry (AP-MS)

Yeast-Two-Hybrid

Yeast-Two-Hybrid Vorteile: Nachteile: Billig und in vivo Direkte Interaktionen Screening-Verfahren möglich Nachteile: False Negatives/Positives auf Grund von Milieu im Zellkern Protein-Komplexe werden nicht erkannt Falsche PPI, da manche Proteine nicht gleichzeitig vorkommen in der Zelle

AP-MS

AP-MS Vorteile: Nachteile: Liefert Proteine im Proteinkomplex Indirekter Beweis für PPI False Positives/Negatives (schlechte Purifizierung) Genaue PPIs nicht feststellbar Viele verschiedene Möglichkeiten für PPIs

Probleme Hohe Fehlerrate bei den Datensätzen Y2H-Daten allein sind ungeeignet für Vorhersage von Topologien AP-MS-Daten geben keine Auskunft über PPI Herleitung der Topologie eines Proteinkomplexes durch Kombination der Informationen beider Datensätze

Bisherige Methoden Benutzen nur Y2H-Daten zur Vorhersage von PPI Transformieren AP-MS-Daten in paarweise Interaktionen in Form von einem Cliquen- oder Spoke-Modell

PROCTOR PROtein Complex Topology Reconstruction Tool zur Vorhersage von DDI, die PPI vermitteln Rekonstruktion der internen Topologie eines Proteinkomplexes durch Schlussfolgerungen auf Domänenebene Verwendung von Y2H- und AP-MS-Daten Betrachtung verschiedener, möglicher Topologien für eine AP-MS Purification

Verschiedene Topologien:

Mathematische Formulierungen Definitionen:

Modell für die Beobachtung eines Y2H: Bait- und Prey-Protein interagieren und bilden ein Komplex oder sie interagieren nicht und Prey-Protein ist false positive Wahrscheinlichkeit der Beobachtung:

Modell für eine AP-MS Beobachtung: Annahmen: Jegliche Komplex-Topologie für eine AP-MS Purification kann nur ein Baum c sein, das sich über den kompletten Graph erstreckt, der von einer Teilmenge von den Proteinen induziert wurde. Das Bait-Protein ist immer in Restlichen Proteine als FP behandelt repräsentiert die True Positives repräsentiert die Kanten Kanten auf sich selbst sind erlaubt in

Wahrscheinlichkeit für einen Complex Topology Tree: Wahrscheinlichkeit der Beobachtung einer AP-MS: Modell ignoriert die Möglichkeit von False Negative Complexes

Einbeziehung negativer Information: Proteine, die nicht in Komplexen mit einem Bait- Protein teilnehmen, stellen einen negativen Beweis für DDI dar. = Menge an Proteinen, die in manchen Purifications weder als Bait noch als Prey-Protein beobachtet worden sind

Gemeinsames Modell für Y2H und AP-MS: Gegeben: K Y2H Datensets und L AP-MS Datensets

Monte Carlo EM Algorithmus Erweiterung eines EM-Algorithmus, das bereits in Recomb 02 vorgestellt wurde Einbeziehung des AP-MS Beobachtungsmodells Die Fehlerraten sind bereits gegeben Ziel ist es die DDI-Wahrscheinlichkeiten zu schätzen

Monte Carlo Method Die Berechnung aller möglichen Complex Topology Trees ist unhandbar Generierung zufälliger Bäume anhand einer Gleichverteilung mittels eines Random Walks über Knotenmenge O. False Positives wurden zuvor ebenfalls über einen Random Walk erzeugt.

EM-Algorithmus Estimation Step: Berechnung des Erwartungswertes für Man unterscheidet zwei Fälle bei einer AP-MS Purification: a) b)

a) b)

Maximization Step:

Reconstruktion der Topologie eines Protein Komplexes Generierung vieler zufälliger Bäume und anschließender Berechnung der Wahrscheinlichkeiten für die Kanten der Graphen Complex Topology Tree mit der größten Wahrscheinlichkeit bildet die Topologie der AP-MS Purification

Results and Evaluation Trainingsset: 5 AP-MS-Datensätze mit insgesamt 6,864 Purifications. 2 Y2H-Datensätze mit 957 und 4549 Interaktionen Datensätze repräsentieren insgesamt 5925 Hefe-Proteine Protein-Domän-Informationen aus Pfam Laufzeit: 25-30 Iterationen (30 Minuten pro Iteration)

Results and Evaluation DDI Vorhersage Evaluierungsset: 1501 positive DDIs aus 3DID und IPfam 40 mal so viele negative DDIs PPI Vorhersage 3144 positive PPIs aus DIP 40 mal so viele negative PPIs

Results and Evaluation

Results and Evaluation Prediction of Protein Complex Topologies Gegeben: 1)AP-MS Purification von Tfg1 2)AP-MS Purification von Arp2 und Arp3

Results and Evaluation Teil der RNA Polymerase II Arp2/3 Komplex

Zusammenfassung PROCTOR ermöglicht Rekonstruktion der Topologie eines Proteinkomplexes Interaktionsvorhersage auf Domänebene besser Akzeptable Laufzeit Verbesserung durch bessere experimentelle Daten möglich oder durch zusätzliche Informationen (Stöchiometrie)

Literaturverzeichnis [1] A. Bateman et al. The pfam protein families database. Nucleic Acids Research, 32: D138–D141, 2004. [2] M. Deng, S. Mehta, F. Sun, and T. Chen. Inferring domain-domain interactions from protein-protein interactions. In RECOMB ’02: Proceedings of the sixth annual international conference on Computational biology, pages 117–126. ACM Press, 2002. [3] P. Aloy and R.B. Russell. Structural systems biology: modeling protein interactions. Nature Reviews in Molecular Cell Biology, 7:188– 197, 2006. [4] I. Xenarios, L. Salwinski, X.J. Duan, P. Higney, S.M. Kim, and D. Eisenberg. DIP, the database of interacting proteins: a research tool for studying cellular networks of protein interactions. Nucleic Acids Research, 30:303–305, 2002.

[5] S. M. Gomez and A. Rzhetsky [5] S.M. Gomez and A. Rzhetsky. Towards the prediction of complete protein-protein interaction networks. In PSB, volume 7, pages 413– 424, 2002. [6] R. Edwards and L. Glass. Combinatorial explosion in model gene networks. Chaos,10:691–704, September 2000. [7] C. von Mering, R. Krause, B. Snel, M. Cornell, S.G. Oliver, S. Fields, and P. Bork. Comparative assessment of large-scale data sets of protein-protein interactions. Nature, 417: 399–403, 2002. [8] P. D’haeseleer and G.M. Church. Estimating and improving protein interaction error rates. In CSB. IEEE, August 2004. [9] M.A. Gilchrist, L.A. Salter, and A. Wagner. A statistical framework for combining and interpreting proteomic datasets. Bioinformatics, 20:689–700, 2004. [10] N.J. Krogan et al. Global landscape of protein complexes in the yeast saccharomyces cerevisiae. Nature, 440:637–643, 2006.