Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse.

Ähnliche Präsentationen


Präsentation zum Thema: "13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse."—  Präsentation transkript:

1 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse IIAnalyse von Proteinstruktur und Ligandenbindung IIIZell- bzw. Netzwerksimulationen auf den folgenden Folien ist der klausurrelevante Teil der Vorlesung zusammengefaßt.

2 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik2 Organisatorisches: Scheinvergabe - Bewertung: Vorlesung zählt 2V + 2P = 9 Leistungspunkte - Curriculum: Pflichtvorlesung für die Vertiefung Bioinformatics (neue PO) - kann für CMB-Bachelor eingebracht werden - Wahlfach Pharmazie/Diplom, M.Sc. Biotechnologie - Benotung der Scheine: 50% der Benotung ergibt sich aus der mittleren Benotung von drei praktischen Aufgaben, die während des Semesters von jedem Studenten einzeln zu bearbeiten sind. Die Aufgaben werden etwa alle 4 Wochen ausgegeben und sind innerhalb von 2 Wochen zu bearbeiten und durch ein mindestens 5-seitiges Protokoll zu dokumentieren. Jeder Student muss mindestens zwei der drei praktischen Aufgaben mit einer Note von 4 und besser bestehen. Am Ende des Semesters wird eine 2-stündige Klausur über die Inhalte der Vorlesung und der Übungen geschrieben. Die Klausurnote geht ebenfalls mit 50% in die Scheinnote mit ein. Die Klausur muss mit einer Note von 4 und besser bestanden werden.

3 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik3 Sequenzanalyse

4 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik4 Ziele (0) Identifiziere alle menschlichen Proteine (ORFs) und ihre Funktion Sind dies alle Proteine? Nein: post-translationelle Modifikationen möglich wie Methylierung, Phosphorylierung, Glykosilierung … (1)Identifiziere Gen-Netzwerke. Welche Proteine wechselwirken miteinander? (2)Identifiziere Module: abgeschlossene Einheiten (3) Identifiziere Sequenz-Abschnitte, in denen Mutationen für Krankheiten codieren

5 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik5 Was hat nun Sequenz-Konservierung mit Proteinstrukturen zu tun? sehr viel! Die Twilight zone kennzeichnet das Mass an Sequenzidentität, bis zu der zwei Proteinstrukturen mit hoher Wkt. die gleiche Struktur besitzen. Richtlinien von Doolittle: Sequenzen mit > 150 Residuen und 25% Sequenzidentität sind wahrscheinlich verwandt mit 15-20% Sequenzidentität können sie verwandt sein bei <15% Sequenzidentität ist es schwierig zu sagen ob sie verwandt sind oder nicht ohne weitere strukturelle oder funktionelle Hinweise Proteinstruktur Sequenz TWILIGHT ZONE

6 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik6 - Konservierung von Residuen sind Indizien für den Verwandtschaftsgrad von Proteinen, für die Evolution und für die Verwandtschaft von Organismen Q: aus welchen Gründen können bestimmte Bereiche der Proteinsequenz konserviert sein? - Konservierung von Residuen im aktiven Zentrum - Konservierung von Residuen, die die Architektur der Proteinstruktur stabilisieren - Konservierung von Residuen, die während Faltung des Proteins wichtig sind - Konservierung von Residuen an Bindungsschnittstellen für Liganden und andere Proteine Proteinstruktur Sequenz

7 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik7 Eigenschaften der Aminosäuren Aminosäuren unterscheiden sich in ihren physikochemischen Eigenschaften. Q: müssen Bioinformatiker die Eigenschaften von Aminosäuren kennen?

8 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik8 Transmembrandomänen: Hydrophobizitätsskalen Stephen White group, UC Irvine TM Helices sind 20 Residuen lange Abschnitte aus vorwiegend hydrophoben Resiuden.

9 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik9 V2 Paarweises Sequenzalignment Methoden des Sequenzalignments Áustauschmatrizen Bedeutsamkeit von Alignments BLAST, Algorithmus – Parameter – Ausgabe Diese Vorlesung lehnt sich eng an das BLAST Tutorial- Buch (links) an, Kapitel 3-9 siehe auch Vorlesung Bioinformatik I von Prof. Lenhof, Wochen 3 und 5

10 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik10 Sequenz-Alignment Wenn man 2 oder mehr Sequenzen vorliegen hat, möchte man zunächst einmal - ihre Ähnlichkeiten quantitativ erfassen - Entsprechungen zwischen einzelnen Bausteinen beider Sequenzen erfassen - Gesetzmässigkeiten der Konservierung und Variabilität beobachten - Rückschlüsse auf entwicklungsgeschichtliche Verwandschaftsverhältnisse ziehen -Wichtiges Ziel: Annotation, z.B. Zuordnung von Struktur und Funktion

11 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik11 Suche in Datenbanken Identifiziere Ähnlichkeiten zwischen einer neuen Testsequenz, deren Struktur und Funktion unbekannt und nicht charakterisiert ist und Sequenzen in (öffentlichen) Datenbanken deren Strukturen und Funktionen bekannt sind. N.B. Die ähnlichen Regionen können die ganze Sequenz, oder Teile von ihr umfassen! Lokales Alignment globales Alignment

12 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik12 Ähnlichkeit von Aminosäuren Margaret Dayhoff stellte die Ähnlichkeit (beobachtete Austauschhäufigkeiten zwischen verwandten Sequenzen) zwischen Aminosäuren als log 2 odds Verhältnis, oder lod score dar. Lod score einer Aminosäure: nehme den Logarithmus zur Basis 2 (log 2 ) von dem Verhältnis der beobachteten Häufigkeit für ein Paar durch die zufällig für das Paar erwartete Häufigkeit. Lod score = 0 beobachtete und erwartete Häufigkeiten sind gleich > 0 ein Austauschpaar tritt häufiger auf als zufällig erwartet < 0 unwahrscheinlicher Austausch Allgemeine Formel für den Score s ij von zwei Aminosäuren i und j. mit den individuellen Häufigkeiten p i und p j, und der Paarungsfrequenz q jj,

13 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik13 Ähnlichkeit der Aminosäuren Beispiel: die relative Häufigkeiten von Methionin und Leucin seien 0.01 und 0.1. Durch zufällige Paarung erwartet man 1/1000 Austauschpaare Met – Leu. Wenn die beobachtete Paarungshäufigkeit 1/500 ist, ist das Verhältnis der Häufigkeiten 2/1. Im Logarithmus zur Basis 2 ergibt sich ein lod score von +1 or 1 bit. Wenn die Häufigkeit von Arginin 0.1 und die Paarung mit Leu mit Häufigkeit 1/500 ist, dann ergibt sich ein lod score für ein Arg – Leu Paar von bits. Gewöhnlich berechnet man nats, multipliziert die Werte mit einem Skalierungsfaktur und rundet sie dann auf Integer Werte Austauschmatrizen PAM und BLOSUM. Diese Integer-werte nennt man raw scores.

14 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik14 Bewertungs- oder Austausch-Matrizen – dienen um die Qualität eines Alignments zu bewerten –Für Protein/Protein Vergleiche: eine 20 x 20 Matrix für die Wahrscheinlichkeit mit der eine bestimmte Aminosäure gegen eine andere durch zufällige Mutationen ausgetauscht werden kann. –Der Austausch von Aminosäuren ähnlichen Charakters (Ile, Leu) ist wahrscheinlicher (hat einen höheren Score) als der von Aminosäuren unterschiedlichen Charkters (e.g. Ile, Asp). –Matrizen werden als symmetrisch angenommen, besitzen also Form einer Dreiecksmatrix.

15 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik15 Substitutions-Matrizen Nicht alle Aminosäuren sind gleich –Einige werden leichter ausgetauscht als andere –Bestimmte Mutationen geschehen leichter als andere –Einige Austausche bleiben länger erhalten als andere Mutationen bevorzugen bestimmte Austausche –Einige Aminosäuren besitzen ähnliche Codons –Diese werden eher durch Mutation der DNA mutiert Selektion bevorzugt bestimmte Austausche –Einige Aminosäuren besitzen ähnliche Eigenschaften und Struktur

16 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik16 PAM250 Matrix

17 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik17 Beispiel für eine Bewertung log (A B) = log A + log B Die Bewertung (Score) eines Alignments ist die Summe aller Bewertungen für die Paare an Aminosäuren (Nukleinsäuren) des Alignments: Sequenz 1: TCCPSIVARSN Sequenz 2: SCCPSISARNT => Alignment Score = 46

18 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik18 Dayhoff Matrix (1) – wurde von M.O. Dayhoff aufgestellt, die statistische Daten über die Austauschhäufigkeit von Aminosäuren sammelte – Datensatz von eng verwandten Proteinsequenzen (> 85% Identität). –Diese können zweifelsfrei aligniert werden. – Aus der Frequenz, mit der Austausche auftreten, wurde die 20 x 20 Matrix für die Wahrscheinlichkeiten aufgestellt, mit der Mutationen eintreten. – Diese Matrize heisst PAM 1. Ein evolutionärer Abstand von 1 PAM (point accepted mutation) bedeutet, dass es 1 Punktmutation pro 100 Residuen gibt, bzw. Dass die beiden Sequenzen zu 99% identisch sind.

19 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik19 Log odds Matrix: enthält den Logarithmus der Elemente der PAM Matrizen. Score der Mutation i j beobachtete Mutationsrate i j = log() aufgrund der Aminosäurefrequenz erwartete Mutationsrate Die Wkt zweier unabhängiger Mutationsereignisse ist das Produkt der Einzelwahrscheinlichkeiten. Bei Verwendung einer log odds Matrix (d.h. bei Verwendung der logarithmisierten Werte) erhält man den gesamten Score des Alignments als Summe der Scores für jedes Residuenpaar. Dayhoff Matrix (2)

20 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik20 Aus PAM 1 kann man Matrizen für grössere evolutionäre Entfernungen herstellen indem man die Matrix mehrfach mit sich selbst multipliziert. PAM250: –2,5 Mutationen pro Residue –entspricht 20% Treffern zwischen zwei Sequenzen, –d.h. man beobachtet Änderungen in 80% der Aminosäurepositionen. –Dies ist die Default-Matrize in vielen Sequenzanalysepaketen. Dayhoff Matrix (3)

21 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik21 BLOSUM Matrix Einschränkung der Dayhoff-Matrix: Die Matrizen, die auf dem Dayhoff-Modell der evolutionären Raten basieren, sind von eingeschränktem Wert, da ihre Substitionsraten von Sequenzalignments abgeleitet wurden, die zu über 85% identisch sind. Ein anderer Weg wurde von S. Henikoff und J.G. Henikoff eingeschlagen, welche lokale multiple Alignments von entfernter verwandten Sequenzen verwendeten. Ihre Vorteile: - grössere Datenmengen - multiple Alignments sind robuster

22 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik22 BLOSUM Matrix (2) Die BLOSUM Matrizen (BLOcks SUbstitution Matrix) basieren auf der BLOCKS Datenbank. Die BLOCKS Datenbank verwendet das Konzept von Blöcken (lückenlose Aminosäure-Signaturen), die charakteristisch für eine Proteinfamilie sind. Aus den beobacheten Mutationen innerhalb dieser Blöcke wurden Austauschwahrscheinlichkeiten für alle Aminosäurepaare berechnet und für eine log odds BLOSUM matrix benutzt. Man erhält unterschiedliche Matrizen indem man die untere Schranke des verlangten Grads an Identität variiert. z.B. wurde die BLOSUM80 Matrix aus Blöcken mit > 80% Identität abgeleitet.

23 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik23 Welche Matrix soll man benutzen? Enge Verwandtschaft (Niedrige PAM, hohe Blosum) Entfernte Verwandtschaft (Hohe PAM, niedrige Blosum) Vernünftige Default-Werte: PAM250, BLOSUM62

24 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik24 Gewichtung von Lücken (Gaps) Neben der Substitutionsmatrix braucht man auch eine Methode zur Bewertung von Lücken. Welche Bedeutung haben Insertionen und Deletionen im Verhältnis zu Substitutionen? Unterscheide Einführung von Lücken: aaagaaa aaa-aaa von der Erweiterung von Lücken: aaaggggaaa aaa----aaa Verschiedene Programme (CLUSTAL-W, BLAST, FASTA) empfehlen unterschiedliche Default-Werte, die man wohl erst einmal verwenden sollte.

25 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik25 Needleman-Wunsch Algorithmus -- allgemeiner Algorithmus für Sequenzvergleiche -- maximiert einen Ähnlichkeitsscore -- bester Match = grösste Anzahl an Residuen einer Sequenz, die zu denen einer anderen Sequenz passen, wobei Deletionen erlaubt sind. -- Der Algorithmus findet durch dynamische Programmierung das bestmögliche GLOBALE Alignment zweier beliebiger Sequenzen -- NW beinhaltet eine iterative Matrizendarstellung -alle möglichen Residuenpaare (Basen oder Aminosäuren) – je eine von jeder Sequenz – werden in einem zwei-dimensionalen Gitter dargestellt. -alle möglichen Alignments werden durch Pfade durch dieses Gitter dargestellt. -- Der Algorithmus hat 3 Schritte: 1 Initialisierung 2 Auffüllen 3 Trace-back

26 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik26 Needleman-Wunsch Algorithm: Initialisierung Aufgabe: aligniere die Wörter COELACANTH und PELICAN der Länge m =10 und n =7. Konstruiere (m+1) (n+1) Matrix. Ordne den Elementen der ersten Zeile und Reihe die Werte – m gap und – n gap zu. Die Pointer dieser Felder zeigen zurück zum Ursprung. COELACANTH P E -2 L -3 I -4 C -5 A -6 N -7

27 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik27 Needleman-Wunsch Algorithm: Auffüllen Fülle alle Matrizenfelder mit Werten und Zeigern gemäss von simplen Operationen, die die Werte der diagonalen, vertikal, und horizontalen Nachbarzellen einschliessen. Berechne - match score: Wert der Diagonalzelle links oben + Wert des Alignments (+1 oder -1) - horizontal gap score: Wert der linken Zelle + gap score (-1) - vertical gap score: Wert der oberen Zelle + gap score (-1) -ordne der Zelle das Maximum dieser 3 Werte zu. Der Pointer zeigt in Richtung des maximalen Scores. -max(-1, -2, -2) = -1 -max(-2, -2, -3) = -2 -(Pointer soll bei gleichen Werte immer in eine bestimmte Richtung zeigen, z.B. -entlang der Diagonalen. COELACANTH P -2

28 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik28 Needleman-Wunsch Algorithmus: Trace-back Trace-back ergibt das Alignment aus der Matrix. Starte in Ecke rechts unten und folge den Pfeilen bis in die Ecke links oben. COELACANTH -PELICAN-- COELACANTH P E L I C A N

29 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik29 Smith-Waterman-Algorithmus Smith-Waterman ist ein lokaler Alignment-Algorithmus. SW ist eine sehr einfache Modifikation von Needleman-Wunsch. Lediglich 3 Änderungen: - die Matrixränder werden auf 0 statt auf ansteigende Gap-Penalties gesetzt. - der maximale Wert sinkt nie unter 0. Pointer werden nur für Werte grösser als 0 eingezeichnet. - Trace-back beginnt am grösseten Wert der Matrix und endet bei dem Wert 0. ELACAN ELICAN COELACANTH P E L I C A N

30 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik30 BLAST – Basic Local Alignment Search Tool Findet das am besten bewertete lokale optimale Alignment einer Testsequenz mit allen Sequenzen einer Datenbank. Sehr schneller Algorithmus, 50 mal schneller als dynamische Programmierung. Kann verwendet werden um sehr grosse Datenbanken zu durchsuchen, da BLAST eine vor-indizierte Datenbank benutzt Ist ausreichend sensititv und selektiv für die meisten Zwecke Ist robust – man kann üblicherweise die Default-Parameter verwenden

31 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik31 BLAST Algorithmus, Schritt 1 Für ein gegebenes Wort der Länge w (gewöhnlich 3 für Proteine) und eine gegebene Score-Matrix Erzeuge eine Liste aller Worte (w-mers), die einen Score > T erhalten, wenn man sie mit dem w-mer der Eingabe vergleicht P D G 13 P Q A 12 P Q N 12 etc. unterhalb Schranke (T=13) Test SequenzL N K C K T P Q G Q R L V N Q P Q G 18 P E G 15 P R G 14 P K G 14 P N G 13 benachbarte Wörter Wort P M G 13

32 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik32 BLAST Algorithmus, Schritt 2 jedes benachbarte Wort ergibt alle Positionen in der Datenbank, in denen es gefunden wird (hit list). P D G 13 P Q G 18 P E G 15 P R G 14 P K G 14 P N G 13 P M G 13 PMG Database

33 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik33 Traditional BLAST programs Sequence 1 Sequence 2 Alignments Gapped alignments Search Space

34 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik34 Seeding Sequence 1 Sequence 2 Word hits

35 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik35 Neighboorhood for 3-letter words BLOSUM62PAM200 WordScoreWord Score RGD17RGD18 KGD14RGE17 QGD13RGN16 RGE13KGD15 EGD12RGQ15 HGD12KGE14 NGD12HGD13 RGN12KGN13 AGD11RAD13 MGD11RGA13 RAD11RGG13 RGQ11RGH13 RGS11RGK13 RND11RGS13 RSD11RGT13 SGD11RSD13 TGD11WGD13 Choice of cut-off T will affect seeding

36 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik36 Seeding Sequence 1 Sequence 2 Word clusters Isolated words

37 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik37 BLAST Algorithm: Extension Program tries to extend seeds in both directions by adding residue pairs until the added score is smaller than a cut-off. After terminating the extension, the alignment is trimmed back to that with the maximal score.

38 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik38 PSI-BLAST Position-Specific Iterated BLAST –Entfernte Verwandtschaften lassen sich besser durch Motiv- oder Profil- Suchen entdecken als durch paarweise Vergleiche –PSI-BLAST führt zunächst eine BLAST-Suche mit Gaps durch. –Das PSI-BLAST Programm verwendet die Information jedes signifikanten Alignments um eine positionsspezifische Substitionsmatrix zu konstruieren, die an Stelle der Eingabesequenz in der nächsten Runde der Datenbank- Suche verwendet wird. –PSI-BLAST kann iterativ verwendet werden bis keine neuen signifikanten Alignments mehr gefunden werden.

39 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik39 Kleine Wahrscheinlichkeit deutet an, dass der Treffer wohl nicht zufällig zustande kam. BLAST Output (2)

40 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik40 Bedeutung des Alignments in BLAST P-Wert (Wahrscheinlichkeit) –Gibt die Wahrscheinlichkeit an, mit der der Score eines Alignments zufällig zustande kommen kann. –Je näher P bei Null liegt, desto grösser die Sicherheit, dass ein gefundener Treffer ein richtiger Treffer (homologe Sequenz) ist. E-Wert (Erwartungswert) –E = P * Anzahl der Sequenzen in Datenbank –E entspricht der Anzahl an Alignments eines bestimmten Scores, die man zufällig in einer Sequenz-Datenbank dieser Grösse erwartet –(wird z.B. für ein Sequenzalignment E=10 angegeben, erwartet man 10 zufällige Treffer mit dem gleichen Score). Dieses Alignment ist also nicht signifikant. –Treffer werden in BLAST nur ausgegeben, wenn der E-Wert unterhalb einer Schranke liegt.

41 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik41 Grobe Anhaltspunkte P-Wert (Wahrscheinlichkeit) – A. M. Lesk –P genaue Übereinstimmung –P zwischen und nahezu identische Sequenzen, zum Beispiel Allele oder SNPs –P zwischen und eng verwandte Sequenzen, –Homologie gesichert –P zwischen und in der Regel entfernte Verwandte –P > Ähnlichkeit vermutlich nicht signifikant E-Wert (Erwartungswert) E 0,02Sequenzen vermutlich homolog E zwischen 0,02 und 1Homologie ist nicht auszuschliessen E 1man muss damit rechnen, dass diese gute Übereinstimmung Zufall ist.

42 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik42 Tips für den Einsatz von BLAST Verwende nicht stur die Standardparameter You get what you look for. Führe Kontrollen durch, besonders in der twilight zone. z.B. Schüttle die Sequenz durcheinander und wiederhole die Suche. Falls die variierte Sequenz ähnliche Ergebnisse liefert, beruht das Alignment auf einer systematischen Verfälschung, oder die Parameter sind nicht empfindlich genug gewählt Setze Komplexitätsfilter ein wenn erforderlich. Maskiere Repeats in genomischer DNA. Teile große Genomsequenzen in Stücke auf um die Suche zu beschleunigen.

43 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik43 Zusammenfassung Paarweises Sequenzalignment ist heute Routine, aber nicht trivial. Mit dynamischer Programmierung (z.B. Smith-Waterman) findet man garantiert das Alignment mit optimaler Bewertung. Vorsicht: die Bewertungsfunktion ist nur ein Modell der biologischen Evolution. FASTA ist erheblich schneller als dynamische Programmierung. Am schnellsten ist BLAST und seine Derivate. Beide geben sehr robuste und brauchbare Ergebnisse für Proteinsequenzen. FASTA ist für Nukleotidsequenzen zuverlässiger. Multiple Sequenzalignments sind in der Lage, entferntere Ähnlichkeiten aufzuspüren und bieten ein besseres funktionelles Verständnis von Sequenzen und ihren Beziehungen Kommt nächste Woche dran.

44 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik44 V3 Multiples Sequenz Alignment Literatur: Kapitel 4 in Buch von David Mount Thioredoxin-Beispiel heute aus Buch von Arthur Lesk

45 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik45 Homo sapiens DjlA protein Escherichia coli DjlA protein Protein-Alignment kann durch tertiäre Strukturinformationen geführt werden nur so kann man letztlich auch bewerten, ob ein Sequenzalignment korrekt ist.

46 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik46 Homologie: Ähnlichkeit, die durch Abstammung von einem gemeinsamen Ursprungsgen herrührt – die Identifizierung und Analyse von Homologien ist eine zentrale Aufgabe der Phylogenie. Ein Alignment ist eine Hypothese für die positionelle Homologie zwischen Basenpaaren bzw. Aminosäuren. Definition von Homologie

47 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik47 MSA für Thioredoxin-Familie Farbe AminosäuretypAminosäuren gelbklein, wenig polarGly, Ala, Ser, Thr grünhydrophobCys, Val, Ile, Leu Pro, Phe, Tyr, Met, Trp violettpolarAsn, Gln, His rotnegativ geladenAsp, Glu blaupositiv geladenLys, Arg

48 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik48 Infos aus MSA von Thioredoxin-Familie Thioredoxin: aus 5 beta-Strängen bestehendes beta-Faltblatt, das auf beiden Seiten von alpha-Helices flankiert ist. gemeinsamer Mechanismus: Reduktion von Disulfidbrücken in Proteinen

49 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik49 Infos aus MSA von Thioredoxin-Familie 1) Die am stärksten konservierten Abschnitte entsprechen wahrscheinlich dem aktiven Zentrum. Disulfidbrücke zwischen Cys32 und Cys35 gehört zu dem konservierten WCGPC[K oder R] Motiv. Andere konservierte Sequenzabschnitte, z.B. Pro76Thr77 und Gly92Gly93 sind an der Substratbindung beteiligt.

50 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik50 Infos aus MSA von Thioredoxin-Familie 2) Abschnitte mit vielen Insertionen und Deletionen entsprechen vermutlich Schleifen an der Oberfläche. Eine Position mit einem konservierten Gly oder Pro läßt auf eine Wendung der Kette (turn) schließen.

51 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik51 Infos aus MSA von Thioredoxin-Familie 3) Ein konserviertes Muster hydrophober Bausteine mit dem Abstand 2 (d.h., an jeder zweiten Position), bei dem die dazwischenliegenden Bausteine vielfältiger sind und auch hydrophil sein können, läßt auf ein -Faltblatt an der Moleküloberfläche schließen.

52 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik52 Infos aus MSA von Thioredoxin-Familie 4) Ein konserviertes Muster hydrophober Aminosäurereste mit dem Abstand von ungefähr 4 läßt auf eine -Helix schließen.

53 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik53 Infos aus MSA von Thioredoxin-Familie Die Thioredoxine sind Teil einer Superfamilie, zu der auch viele weiter entfernte homologe Protein gehören, z.B. Glutaredoxin (Wasserstoffdonor für die Reduktion von Ribonukleotiden bei der DNA-Synthese) Protein-Disulfidisomerase (katalysiert bei der Proteinfaltung den Austausch falsch gefalteter Disulfidbrücken) Phosducin (Regulator in G-Protein-abhängigen Signalübertragungswegen) Glutathion-S-Transferasen (Proteine der chemischen Abwehr). Die Tabelle des MSAs für Thioredoxinsequenzen enthält implizit auch Muster, die man zur Identifizierung dieser entfernteren Verwandten nutzen kann.

54 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik54 Es gibt im wesentlichen 3 unterschiedliche Vorgehensweisen: (1) Manuell (2) Automatisch (3) Kombiniert Multiples Sequenz-Alignment - Methoden manuelles Alignment bietet sich an falls – Alignment einfach ist. – es zusätzliche (strukturelle) Information gibt. – automatische Alignment –Methoden in lokalen Minima feststecken. – ein automatisch erzeugtes Alignment manuell verbessert werden kann.

55 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik55 2 Methoden: Dynamische Programmierung –betrache 2 Proteinsequenzen von 100 Aminosäuren Länge. -wenn es Sekunden dauert, diese beiden Sequenzen erschöpfend zu alignieren, dann wird es Sekunden dauern um 3 Sequenzen zu alignieren, Sekunden für 4 sequences und x10 34 Jahre für 20 Sequenzen. Progressives Alignment multiples Sequenzalignment

56 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik56 berechne zunächst paarweise Alignments für 3 Sequenzen wird Würfel aufgespannt: D.h. dynamische Programmierung hat nun Komplexität n1 * n2 * n3 mit den Sequenzlängen n1, n2, n3. Sehr aufwändig!Versuche, Suchraum einzuschränken. dynamische Programmierung mit MSA Programm

57 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik57 dynamische Programmierung mit MSA Programm Links: Baum für 5 Sequenzen ohne Paarung von Sequenzen. Neighbour-joining Methode: berechne Summe aller Kantenlängen S = a + b + c + d + e (Kantenlängen sind bekannt) In diesem Fall seien sich A und B am nächsten. Konstruiere daher den Baum rechts. Generell: Verbinde die Sequenzpaare mit den kürzesten Abständen … Man erhält den Baum mit der kleinsten Summe der Kantenlängen. Konstruiere anhand phylogenetischem Baum ein versuchsweises Multiples Sequenz Alignment.

58 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik58 Dieses Alignment dient dazu, den möglichen Raum inmitten des Würfels einzugrenzen, in dem das beste MSA zu finden sein sollte. Grosse Rechenersparnis! dynamische Programmierung mit MSA Programm

59 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik59 wurde von Feng & Doolittle 1987 vorgestellt ist eigentlich eine heuristische Methode. Daher ist nicht garantiert, das optimale Alignment zu finden. benötigt (n-1) + (n-2) + (n-3)... (n-n+1) paarweise Sequenzalignments als Ausgangspunkt. weitverbreitete Implementation in Clustal (Des Higgins) ClustalW ist eine neuere Version, in der den Parameter für Sequenzen und Programm Gewichte (weights) zugeteilt werden. Progressives Alignment

60 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik60 Schnelle paarweise Alignments: berechne Matrix der Abstände 1 PEEKSAVTALWGKVN--VDEVGG 2 GEEKAAVLALWDKVN--EEEVGG 3 PADKTNVKAAWGKVGAHAGEYGA 4 AADKTNVKAAWSKVGGHAGEYGA 5 EHEWQLVLHVWAKVEADVAGHGQ Hbb_Human 1 - Hbb_Horse Hba_Human Hba_Horse Myg_Whale Hbb_Human Hbb_Horse Hba_Horse Hba_Human Myg_Whale alpha-helices Nachbar-Verbindungs- Baumdiagramm progressive Alignments entsprechend dem Baumdiagramm CLUSTAL W Überblick der ClustalW Prozedur

61 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik61 Berechne alle möglichen paarweisen Alignments von Sequenzpaaren. Es gibt (n-1)+(n-2)...(n-n+1) Möglichkeiten. Berechne aus diesen isolierten paarweisen Alignments den Abstand zwischen jedem Sequenzpaar. Erstelle eine Abstandsmatrix. ClustalW- Paarweise Alignments aus den paarweisen Distanzen wird ein Nachbarschafts-Baum erstellt Dieser Baum gibt die Reihenfolge an, in der das progressive Alignment ausgeführt werden wird.

62 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik62 aligniere die beiden ähnlichsten Sequenzen zuerst. dieses Alignment ist dann fest und wird nicht mehr angetastet. Falls später ein GAP eingeführt werden muss, wird er in beiden Sequenzen an der gleichen Stelle eingeführt. Deren relatives Alignment bleibt unverändert. Multiples Alignment - Erstes Paar Vorteil: –Geschwindigkeit. Nachteile: –keine objektive Funktion. –Keine Möglichkeit zu quantifizieren ob Alignment gut oder schlecht ist. –Keine Möglichkeit festzustellen, ob das Alignment korrekt ist.

63 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik63 Mögliche Probleme: –in ein lokales Minimum zu geraten. Falls zu einem frühen Zeitpunkt ein Fehler im Alignment eingebaut wird, kann dieser später nicht mehr korrigiert werden. –Zufälliges Alignment. ClustalW - Lokales Minimum

64 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik64 Sollen all Sequenzen gleich behandelt werden? Obwohl manche Sequenzen eng verwandt und andere entfernt verwandt sind? Sollen alle Positionen der Sequenzen gleich behandelt werden? Obwohl sie unterschiedliche Funktionen und Positionen in der dreidimensionalen Strukturen haben können? Genauigkeit des Alignments verbessern

65 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik65 Sequenzgewichtung Variable Substitutionsmatrizen Residuen-spezifische Gap-Penalties und verringerte Penalties in hydrophilen Regionen (externe Regionen von Proteinsequenzen), bevorzugt Gaps in Loops anstatt im Proteinkern. Positionen in frühen Alignments, an denen Gaps geöffnet wurden, erhalten lokal reduzierte Gap Penalties um in späteren Alignments Gaps an den gleichen Stellen zu bevorzugen ClustalW- Besonderheiten

66 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik66 Zwei Parameter sind festzulegen (es gibt Default-Werte, aber man sollte sich bewusst sein, dass diese abgeändert werden können): Die GOP- Gap Opening Penalty ist aufzubringen um eine Lücke in einem Alignment zu erzeugen Die GEP- Gap Extension Penalty ist aufzubringen um diese Lücke um eine Position zu verlängern. ClustalW- vom Benutzer festzulegende Parameter

67 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik67 Bevor irgendein Sequenzpaar aligniert wird, wird eine Tabelle von GOPs erstellt für jede Position der beiden Sequenzen. Die GOP werden positions-spezifisch behandelt und können über die Sequenzlänge variieren. Falls ein GAP an einer Position existiert, werden die GOP und GEP penalties herabgesetzt – und alle anderen Regeln treffen nicht zu. Daher wird die Bildung von Gaps an Positionen wahrscheinlicher, an denen bereits Gaps existieren. Positions-spezifische Gap penalties

68 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik68 Solange kein GAP offen ist, wird GOP hochgesetzt falls die Position innerhalb von 8 Residuen von einem bestehenden Gap liegt. Dadurch werden Gaps vermieden, die zu eng beieinander liegen. An jeder Position innerhalb einer Reihe von hydrophilen Residuen wird GOP herabgesetzt, da diese gewöhnlich in Loop-Regionen von Proteinstrukturen liegen. Eine Reihe von 5 hydrophilen Residuen gilt als hydrophiler stretch. Die üblichen hydrophilen Residuen sind: DAspKLysPPro EGluNAsnRArg GGlyQGlnSSer Dies kann durch den Benutzer geändert werden. Vermeide zu viele Gaps

69 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik69 Progressives Alignment ist ein mathematischer Vorgang, der völlig unabhängig von der biologischen Realität abläuft. Es kann eine sehr gute Abschätzung sein. Es kann eine unglaublich schlechte Abschätzung sein. Erfordert Input und Erfahrung des Benutzers. Sollte mit Vorsicht verwendet werden. Kann (gewöhnlich) manuell verbessert werden. Es hilft oft, farbliche Darstellungen zu wählen. Je nach Einsatzgebiet sollte der Benutzer in der Lage sein, die zuverlässigen Regionen des Alignments zu beurteilen. Für phylogenetische Rekonstruktionen sollte man nur die Positionen verwenden, für die eine zweifelsfreie Hypothese über positionelle Homologie vorliegt. Tips für progressives Alignment

70 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik70 Es macht wenig Sinn, proteinkodierende DNS-Abschnitte zu alignieren! ATGCTGTTAGGG ATGCTCGTAGGG ATGCT-GTTAGGG ATGCTCGT-AGGG Das Ergebnis kann sehr unplausibel sein und entspricht eventuell nicht dem biologischen Prozess. Es ist viel sinnvoller, die Sequenzen in die entsprechenden Proteinsequenzen zu übersetzen, diese zu alignieren und dann in den DNS-Sequenzen an den Stellen Gaps einzufügen, an denen sie im Aminosäure-Alignment zu finden sind. Alignment von Protein-kodierenden DNS-Sequenzen

71 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik71 Progressive Alignments sind die am weitesten verbreitete Methode für multiple Sequenzalignments. Sehr sensitive Methode ebenfalls: Hidden Markov Modelle (HMMer) Multiples Sequenzalignment ist nicht trivial. Manuelle Nacharbeit kann in Einzelfällen das Alignment verbessern. Multiples Sequenzalignment erlaubt Denken in Proteinfamilien und –funktionen. Zusammenfasusng

72 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik72 V4 Prediction of Phylogenies based on single genes Material of this lecture taken from - chapter 6, DW Mount Bioinformatics and from Julian Felsensteins book. A phylogenetic analysis of a family of related nucleic acid or protein sequences is a determination of how the family might have been derived during evolution. Placing the sequences as outer branches on a tree, the evolutionary relationships among the sequences are depicted. Phylogenies, or evolutionary trees, are the basic structures to describe differences between species, and to analyze them statistically. They have been around for over 140 years. Statistical, computational, and algorithmic work on them is ca. 40 years old.

73 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik73 3 main approaches in single-gene phylogeny - maximum parsimony - distance matrix - maximum likelihood (not covered here) Popular programs: PHYLIP (phylogenetic inference package – J Felsenstein) PAUP (phylogenetic analysis using parsimony – Sinauer Assoc

74 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik74 Methods for Single-Gene Phylogeny Choose set of related sequences Obtain multiple sequence alignment Is there strong sequence similarity? Maximum parsimony methods Yes No Is there clearly recogniza- ble sequence similarity? Yes Distance methods No Maximum likelihood methods Analyze how well data support prediction

75 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik75 Parsimony methods Edwards & Cavalli-Sforza (1963): that evolutionary tree is to be preferred that involves the minimum net amount of evolution. seek that phylogeny on which, when we reconstruct the evolutionary events leading to our data, there are as few events as possible. (1) We must be able to make a reconstruction of events, involving as few events as possible, for any proposed phylogeny. (2) We must be able to search among all possible phylogenies for the one or ones that minimize the number of events.

76 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik76 A simple example Suppose that we have 5 species, each of which has been scored for 6 characters (0,1) We will allow changes 0 1 and 1 0. The initial state at the root of a tree may be either state 0 or state 1.

77 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik77 Evaluating a particular tree Figure right shows another tree also requiring 8 changes. These two most parsimonious trees are the same tree when the roots of the tree are removed.

78 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik78 Methods of rooting the tree There are many rooted trees, one for each branch of this unrooted tree, and all have the same number of changes of state. The number of changes of state only depends on the unrooted tree, and not at all on where the tree is then rooted. Biologists want to think of trees as rooted need method to place the root in an otherwise unrooted tree. (1) Outgroup criterion (2) Use a molecular clock.

79 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik79 Outgroup criterion Assumes that we know the answer in advance. Suppose that we have a number of great apes, plus a single old-world monkey. Suppose that we know that the great apes are a monophyletic group. If we infer a tree of these species, we know that the root must be placed on the lineage that connects the old-world monkey (outgroup) to the great apes (ingroup).

80 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik80 Molecular clock If an equal amount of changes were observed on all lineages, there should be a point on the tree that has equal amounts of change (branch lengths) from there to all tips. With a molecular clock, it is only the expected amounts of change that are equal. The observed amounts may not be. using various methods find a root that makes the amounts of change approximately equal on all lineages.

81 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik81 Branch lengths Having found an unrooted tree, locate the changes on it and find out how many occur in each of the branches. The location of the changes can be ambiguous. average over all possible reconstructions of each character for which there is ambiguity in the unrooted tree. Fractional numbers in some branches of left tree add up to (integer) number of changes (right)

82 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik82 Open questions * Particularly for larger data sets, need to know how to count number of changes of state by use of an algorithm. * need to know algorithm for reconstructing states at interior nodes of the tree. * need to know how to search among all possible trees for the most parsimonious ones, and how to infer branch lengths. * sofar only considered simple model of 0/1 characters. DNA sequences have 4 states, protein sequences 20 states. * Justification: is it reasonable to use the parsimony criterion? If so, what does it implicitly assume about the biology? * What is the statistical status of finding the most parsimonious tree? Can we make statements how well-supported it is compared to other trees?

83 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik83 Counting evolutionary changes 2 related dynamic programming algorithms: Fitch (1971) and Sankoff (1975) - evaluate a phylogeny character by character - for each character, consider it as rooted tree, placing the root wherever seems appropriate. - update some information down a tree; when we reach the bottom, the number of changes of state is available. Do not actually locate changes or reconstruct interior states at the nodes of the tree.

84 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik84 Fitch algorithm intended to count the number of changes in a bifurcating tree with nucleotide sequence data, in which any one of the 4 bases (A, C, G, T) can change to any other. At the particular site, we have observed the bases C, A, C, A and G in the 5 species. Give them in the order in which they appear in the tree, left to right.

85 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik85 Fitch algorithm For the left two, at the node that is their immediate common ancestor, attempt to construct the intersection of the two sets. But as {C} {A} = instead construct the union {C} {A} = {AC} and count 1 change of state. For the rightmost pair of species, assign common ancestor as {AG}, since {A} {G} = and count another change of state..... proceed to bottom Total number of changes = 3. Algorithm works on arbitrarily large trees.

86 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik86 Complexity of Fitch algorithm Fitch algorithm can be carried out in a number of operations that is proportional to the number of species (tips) on the tree. Dont we need to multiply this by the number of sites n ? Any site that is invariant (which has the same base in all species, e.g. AAAAA) can be dropped. Other sites with a single variant base (e.g. ATAAA) will only require a single change of state on all trees. These too can be dropped. For sites with the same pattern (e.g. CACAG) that we have already seen, simply use number of changes previously computed. Pattern following same symmetry (e.g. TCTCA = CACAG) need same number of changes numerical effort rises slower than linearly with the number of sites.

87 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik87 Sankoff algorithm Fitch algorithm is very effective – but we cant understand why it works. Sankoff algorithm: more complex, but its structure is more apparent. Assume that we have a table of the cost of changes c ij between each character state i and each other state j. Compute the total cost of the most parsimonious combinations of events by computing it for each character. For a given character, compute for each node k in the tree a quantity S k (i). This is interpreted as the minimal cost, given that node k is assigned state i, of all the events upwards from node k in the tree.

88 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik88 Sankoff algorithm If we can compute these values for all nodes, we can also compute them for the bottom node in the tree. Simply choose the minimum of these values which is the desired total cost we seek, the minimum cost of evolution for this character. At the tips of the tree, the S(i) are easy to compute. The cost is 0 if the observed state is state i, and infinite otherwise. If we have observed an ambigous state, the cost is 0 for all states that it could be, and infinite for the rest. Now we just need an algorithm to calculate the S(i) for the immediate common ancestor of two nodes.

89 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik89 Sankoff algorithm Suppose that the two descendant nodes are called l and r (for left and right). For their immediate common ancestor, node a, we compute The smallest possible cost given that node a is in state i is the cost c ij of going from state i to state j in the left descendant lineage, plus the cost S l (j) of events further up in the subtree gien that node l is in state j. Select value of j that minimizes that sum. Same calculation for right descendant lineage sum of these two minima is the smallest possible cost for the subtree above node a, given that node a is in state i. Apply equation successively to each node in the tree, working downwards. Finally compute all S 0 (i) and use previous eq. to find minimum cost for whole tree.

90 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik90 Sankoff algorithm The array (6,6,7,8) at the bottom of the tree has a minimum value of 6 = minimum total cost of the tree for this site.

91 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik91 Finding the best tree by heuristic search The obvious method for searching for the most parsimonious tree is to consider ALL trees and evaluate each one. Unfortunately, generally the number of possible trees is too large. use heuristic search methods that attempt to find the best trees without looking at all possible trees. (1) Make an initial estimate of the tree and make small rearrangements of it = find neighboring trees. (2) If any of these neighbors are better, consider them and continue search.

92 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik92 Distance matrix methods introduced by Cavalli-Sforza & Edwards (1967) and by Fitch & Margoliash (1967) general idea seems as if it would not work very well (Felsenstein): - calculate a measure of the distance between each pair of species - find a tree that predicts the observed set of distances as closely as possible. All information from higher-order combinations of character states is left out. But computer simulation studies show that the amount of lost information is remarkably small. Best way to think about distance matrix methods: consider distances as estimates of the branch length separating that pair of species.

93 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik93 Least square method - observed table (matrix) of distances D ij - any particular tree leads to a predicted set of distances d ij.

94 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik94 Least square method Measure of the discrepancy between the observed and expected distances: where the weights w ij can be differently defined: - w ij = 1 (Cavalli&Sforza, 1967) - w ij = 1/D ij 2 (Fitch&Margoliash, 1967) - w ij = 1/D ij (Beyer et al., 1974) Aim: Find tree topology and branch lengths that minimize Q. Equation above is quadratic in branch lengths. Take derivative with respect to branch lengths, set = 0, and solve system of linear equations. Solution will minimize Q. Doug Brutlags course

95 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik95 Least square method Number species in alphabetical order. The expected distance between species A and D d 14 = v 1 + v 7 + v 4 The expected distance between speices B and E d 25 = v 5 + v 6 + v 7 + v 2. v1v1 v2v2 v3v3 v4v4 v5v5 v6v6 v7v7

96 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik96 Finding the least squares tree topology Now that we are able to assign branch lengths to each tree topology. we need to search among tree topologies. This can be done by the same methods of heuristic search that were presented for the Maximum Parsimony method. Note: no-one has sofar presented a branch-and-bound method for finding the least squares tree exactly. Day (1986) has shown that this problem is NP-complete. The search is not only among tree topologies, but also among branch lengths.

97 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik97 neighbor-joining method introduced by Saitou and Nei (1987) – algorithm works by clustering - does not assume a molecular clock but approximates the minimum evolution model. Minimum evolution model: among possible tree topologies, choose the one with minimal total branch length. Neighbor-joining, as the least-squares method, is guaranteed to recover the true tree if the distance matrix is an exact reflection of the tree.

98 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik98 neighbor-joining method (1) For each tip, compute (2) Choose the i and j for which D ij – u i – u j is smallest. (3) Join items i and j. Compute the branch length from i to the new node (v i ) and from j to the new node (v j ) as (4) Compute distance between the new node (ij) and each of the remaining tips as (5) Delete tips i and j from the tables and replace them by the new node, (ij), which is now treated as a tip. (6) If more than 2 nodes remain, go back to step (1). Otherwise, connect the two remaining nodes (e.g. l and m) by a branch of length D lm.

99 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik99 limitation of distance methods Distance matrix methods are the easiest phylogeny method to program, and they are very fast. Distance methods have problems when the evolutionary rates vary largely. One can correct for this in distance methods as well as in likelihood methods. When variation of rates is large, these corrections become important. In likelihood methods, the correction can use information from changes in one part of the tree to inform the correction in others. Once a particular part of the molecule is seen to change rapidly in the primates, this will affect the interpretation of that part of the molecule among the rodents as well. But a distance matrix method is inherently incapable of propagating the information in this way. Once one is looking at changes within rodents, it will forget where changes were seen among primates.

100 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik100 V5 – Analyse von Genomsequenzen - Genom-Assemblierung finde identische k-Tupel - Genom-Alignment Suche nach MUMs (maximal unique matches) andere wichtige Bereiche, für die wir heute keine Zeit haben - Gene identifizieren Hidden Markov Modelle - Transkriptionsfaktorbindestellen Position Specific Scoring Matrices (PSSM) - finde Repeat-Sequenzen Suche nach bekannten Repeat-Motiven Suche auf Suffix-Baum

101 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik101 Whole Genome Shotgun Assemblierung Es gibt 2 Strategien für die Sequenzierung von Genomen: clone-by-clone Methode whole-genome shotgun Methode (Celera, Gene Myers). Die Shotgun Sequenzierung wurde bereits 1977 von F. Sanger et al. eingeführt und ist seither eine Standardmethode für die Sequenzierung von Genen. Umstritten war jedoch, ob man sie auch für komplette Genome verwenden kann. ED Green, Nat Rev Genet 2, 573 (2001)

102 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik102 Arachne Programm von Serafin Batzoglou (MIT, Doktorarbeit 2000) (i)konstruiere Graph G für Überlappungen zwischen Paaren von reads aus Shotgun-Daten (i)prozessiere G um Supercontigs von gemappten reads zu erhalten. Batzoglou et al. Genome Res 12, 177 (2002) Wichtige Variation der whole-genome shotgun Sequenzierung: sequenziere reads jeweils von beiden Enden eines Klons. Da die Inserts nach ihrer Größe ausgewählt werden, ist damit der ungefähre Abstand zwischen dem Paar von reads bekannt. Man nennt diese earmuff (Ohrenwärmer) Verbindungen.

103 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik103 Arachne: erzeuge Überlappungsgraphen Liste von reads R = (r 1,..., r N ), N ist die Anzahl der reads. Jeder read r i besitzt eine Länge l i < Wenn beide reads von den Endpunkten desselben Klons stammen (earmuff link), besitzt r i eine Verknüpfung zu einem anderen read r j in einer festen Distanz d ij. Erstes Ziel: erzeuge Graphen G der Überlappungen (Kanten) zwischen Paaren an reads (Knoten) dies ergibt die Paare an reads in R, die aligniert werden müssen. Da R sehr lang sein kann, sind N 2 alignments nicht praktikabel. erstelle Tabelle für das Vorkommen von k-Tupel (Strings der Länge k) in den reads, zähle die Anzahl von k-Tupel Treffern für jedes Paar an reads. Führe dann paarweise Alignments zwischen den Paaren an reads durch, die mehr als cutoff gemeinsame k-mere besitzen. Batzoglou PhD thesis (2002)

104 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik104 Arachne: Tabelle für Vorkommen von k-meren Ermittle die Anzahl an k-Tupel Treffern in der Vorwärts- und Rückwärts-Richtung zwischen jedem Paar von reads in R. (1) Ermittle alle Triplets (r,t,v) r = Nummer des reads in R t = Index eines k-mers, das in r vorkommt v = Richtung des Auftretens (vorwärts oder rückwärts) (2) sortiere die Menge der Paare nach den k-mer Indices t (3) verwende eine sortierte Liste um eine Tabelle T von Quadrubletts (r i, r j, f, v) zu erstellen, wobei r i und r i die reads sind, die mindestens einen gemeinsamen k-mer enthalten, v die Richtung angiebt, und f die Anzahl an gemeinsamen k-mers zwischen r i und r j in Richtung v. Batzoglou PhD thesis (2002)

105 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik105 Arachne: Tabelle für Vorkommen von k-mers Batzoglou PhD thesis (2002) Hier: k = 3

106 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik106 Arachne: Tabelle für Vorkommen von k-mers Wenn ein k-Tupel zu oft auftritt gehört er wahrscheinlich zu einer Repeat-Sequenz. Man sollte diese nicht für die Detektion von Überlappungen verwenden. Implementierung (1)finde k-Tupel (r,t,v) und sortieren sie in 64 Dateien entsprechen den ersten drei Nukleotiden jedes k-mers. (2)Für i=1,64 lade Datei in den Speicher, sortiere nach t, speichere sortierte Datei ab. end (3)lade 64 sortierte Dateien nacheinander in den Speicher, fülle Tabelle T nacheinander auf. In der Praxis ist k = 8 bis 24. Batzoglou PhD thesis (2002)

107 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik107 Arachne: paarweise read-Alignments Führe paarweise Alignments zwischen den Reads durch, die mehr als Cutoff gemeinsame k-mers besitzen. Sobald man zu häufige k-mers ausschließt (mehr als ein zweiter Cutoff), ist sichergestellt, daß nur O(N) viele paarweise Sequenzalignments durchgeführt werden müssen. Nur eine kleine Anzahl an Basen-Austauschen und Indels ist in einer überlappenden Region zweier alignierter reads erlaubt. Output des Alignment-Algorithmus: für die reads r i, r j gibt es Quadrubletts (b 1, b 2, e 1, e 2 ) für jede detektierte Überlappungsregion mit den Anfangspositionen b 1, b 2 und Endpositionen e 1,e 2. Falls eine signifikante Überlappungsregion vorliegt, wird (r i, r j, b 1, b 2, e 1, e 2 ) eine Kante im Überlappungsgraphen G. Batzoglou PhD thesis (2002)

108 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik108 Kombination teilweiser Alignments 3 teilweise Alignments der Länge k=6 zwischen einem Paar von reads werden zu einem einzigen vollen Alignment der Länge k=19 kombiniert. Die vertikalen Linien verbinden übereinstimmenden Basen, wogegen x Mismatche sind. Dies ist eine oft auftretende Situation, in der ein ausgedehnter k-mer Treffer ein volles Alignment von zwei reads ist. Batzoglou et al. Genome Res 12, 177 (2002)

109 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik109 Repeats erzeugen Mehrdeutigkeit Ohne das Auftreten von Sequen- zierungsfehlern und Repeats wäre es einfach, alle entdeckbaren paarweise Abstände von reads zu finden und den Graph G zu konstruieren. Da es Repeats jedoch sehr häufig auftreten, bedeutet eine Verbindung zwischen zwei reads in G nicht ohne weiteres eine wahre Überlappung. Eine Repeat-Verbindung ist eine Verbindung in G zwischen zwei reads, die aus verschiedenen Regionen des Genoms stammen und in der repetitiven Sequenz überein- stimmen. Batzoglou PhD thesis (2002)

110 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik110 Sequence contigs Batzoglou PhD thesis (2002) unerläßlich für die Assemblierung ist die ausreichende Überdeckung (mehrfache Sequenzierung = coverage) derselben Genomregionen

111 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik111 Verbinden von Contigs Batzoglou PhD thesis (2002) Sequenz-Contigs werden gebildet indem Paare von reads verbunden werden, die eindeutig verbunden werden können. Tatsächlich ist die Situation viel schwieriger als hier gezeigt, da Repeats häufig nicht zu 100% zwischen Kopien konserviert sind. Durch die Löschung von k-mers hoher Frequenz wird einiges an Repetition im Genom vor der Erzeugung von G effizient maskiert. Zur Erkennung von repetitiven Verbindung dienen weitere heuristische Algorithmen, die hier nicht diskutiert werden sollen.

112 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik112 Benutze Überlapp-Paarungen um die reads zu verbinden Arachne sucht nach 2 Plasmiden mit gleicher Insert-Länge, deren Sequenzen an beiden Enden überlappen paired pairs. Batzoglou et al. Genome Res 12, 177 (2002) (A) A paired pair of overlaps. The top two reads are end sequences from one insert, and the bottom two reads are end sequences from another. The two overlaps must not imply too large a discrepancy between the insert lengths. (B) Initially, the top two pairs of reads are merged. Then the third pair of reads is merged in, based on having an overlap with one of the top two left reads, an overlap with one of the top two right reads, and consistent insert lengths. The bottom pair is similarly merged. Unten: eine Menge von paired pairs werden zu contigs zusammengefasst und eine Konsensussequenz erzeugt.

113 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik113 Detection of repeat contigs Contig R is linked to contigs A and B to the right. The distances estimated between R and A and R and B are such A and B cannot be positioned without substantial overlap between them. If there is no corresponding detected overlap between A and B then R is probably a repeat linking to two unique regions to the right. Batzoglou et al. Genome Res 12, 177 (2002) Some of the identified contigs are repeat contigs in which nearly identical sequence from distinct regions are collapsed together. Detection by (a) repeat contigs usually have an unusually high depth of coverage. (b) they will typically have conflicting links to other contigs. After marking repeat contigs, the remaining contigs should represent the correctly assembled sequence.

114 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik114 Contig assembly If (a,b) and (a,c) overlap, then (b,c) are expected to overlap. Moreover, one can calculate that shift(b,c)=shift(a,c)-shift(a,b). A repeat boundary is detected toward the right of read a, if there is no overlap (b,c), nor any path of reads x 1,..., x k such that (b,x 1 ), (x 1,x 2 )..., (x k,c) are all overlaps, and shift(b,x 1 ) shift(x k,c) shift(a,c) – shift(a,b). Batzoglou et al. Genome Res 12, 177 (2002)

115 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik115 Consistency of forward-reverse links (A)The distance d(A,B) (length of gap or negated length of overlap) between two linked contigs A and B can be estimated using the forward- reverse linked reads between them. (B)The distance d(B,C) between two contigs B,C that are linked to the same contig A can be estimated from their respective distances to the linked contig. Batzoglou et al. Genome Res 12, 177 (2002)

116 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik116 Filling gaps in supercontigs (A)Contigs A and B are connected by a path p of contigs X 1,..., X k. The distance d p (A,B) between A and B (along the path p) is the length of the sequence in the path that does not overlap A and B. (B)Contigs Y 1 and Y 2 share forward- reverse links with the supercontig S. These links position them in the vicinity of the gap between A and B. Therefore, Y 1 and Y 2 will be used as possible stepping points in the path closing the gap from A to B. Batzoglou et al. Genome Res 12, 177 (2002)

117 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik117 Comparison of different assemblers Pevzner, Tang, Waterman PNAS 98, 9748 (2001) you should look out for: - smallest number of contigs + misassembled contigs - highest possible coverage by contigs - lowest possible coverage by misassembled contigs

118 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik118 Whole Genome Alignment (WGA) Nachdem die genomische DNA-Sequenz eng verwandter Organismen verfügbar wird, ist die erste Frage, wie das Alignment beider Genome aussieht. Globale Genom-Alignments machen nur für eng verwandte Organismen Sinn. Im anderen Fall muß man erst die genomischen Rearrangements betrachten. Dann kann man die systenischen Regionen (Regionen, in denen Gen- Reihenfolge des nächsten gemeinsamen Vorfahrens in beiden Spezies konserviert blieb) betrachten und lokale Genom-Alignments dieser Regionen produzieren.

119 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik119 Vergleich von Maus und Mensch auf Genomebene Wichtigste Ergebnisse: * das Mausgenom ist etwa 14% kürzer als das menschliche Genom. Die unterschiedliche Länge liegt wohl an der höheren Deletionsrate in Maus. * über 90% des Maus- und Menschen-Genoms kann in entsprechende Regionen mit konservierter Syntenie eingeteilt werden * auf dem Nukleotid-Level kann etwa 40% des menschlichen Genoms mit dem Maus-Genom aligniert werden (diese am stärksten orthologen Sequenzen blieben wohl in beiden Linien vom gemeinsamen Vorfahren erhalten). Der Rest wurde wohl in einem oder beiden Genomen gelöscht. * die neutrale Substitutionsrate beträgt etwa 0.5 Nucleotid-Substitutionen pro Position seit der Divergenz der beiden Spezien. Etwa doppelt so viele Austausche haben in Maus gegenüber Mensch stattgefunden. aus dem Paper des Mouse Genome Sequencing Consortiums Initial sequencing and comparative analysis of the mouse genome, Nature 420, ( ). Excellent paper! Well readable!

120 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik120 Vergleich von Maus und Mensch auf Genomebene Key findings: * der Anteil kurzer ( bp) Segmente in den Säugetier-Genomen, der reinigender Selektion unterliegt, ist etwa 5%, d.h. wesentlich höher als der Anteil der Protein-kodierenden Regionen Genome enthalten viele zusätzliche Eigenschaften wie UTRs (untranslated regions), regulatorische Elemente, nicht-Protein-kodierende Gene, chromosomale Strukturelemente, die unter Selektion für die biologische Funktion stehen. * die Evolution von Säugetier-Genomen verläuft ungleichmäßig. Es gibt deutliche Unterschiede an Divergenz je nach Genomposition. * Sowohl Maus wie Mensch-Genom enthalten etwa Gene, die für Proteine kodieren. Der Anteil an Mausgenen mit einem eindeutigen Orthologen im menschlichen Genom ist etwa 80%. Der Anteil der Mausgene ohne ein homologes Gen im menschlichen Genom ist < 1%.

121 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik121 The mouse genome. Nature 420, Konservierung von Syntenie zwischen Mensch und Maus Ein typisches 510-kb Segment des Maus-Chromosoms 12, das mit einem 600-kb Stück des menschlichen Chromosom 14 verwandt ist. Blaue Linien: reziprok eindeutige Treffer in beiden Genomen. Rote Markierungen kennzeichnen die Länge der passenden Regionen. Die Abstände zwischen diesen Landmarks sind im Maus-Genom kleiner als im Mensch, was mit der 14% kürzeren Gesamtlänge des Genoms übereinstimmt.

122 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik122 The mouse genome. Nature 420, Entsprechung syntenischer Regionen 342 Segmente und 217 Blöcke >300 kb mit konservierter Syntenie im Mensch sind im Maus-Genom markiert. Jede Farbe entspricht einem bestimmten menschlichen Chromosom.

123 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik123 Sensitivit ä t Couronne,..., Dubchak, Genome Res. 13, 73 (2003) Im globalen Mensch:Maus Alignment sind mehr als eine Millionen Regionen stärker als 70% konserviert (auf 100-bp Level) – diese Regionen decken > 200 Million bp ab. Nur 62% von ihnen werden von (lokalen) BLAT-Treffern abgedeckt. Dies bedeutet, daß man 38% der konservierten Abschnitte nur durch das globale Alignment finden kann! Idee: lokales Alignment soll als Anker-Verfahren für anschliessendes globales Alignment dienen. Dadurch hofft man, viele zusätzliche konservierte Regionen ausserhalb der Anker-Regionen zu finden.

124 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik124 hohe Sensitivit ä t von globalen Alignments Couronne,..., Dubchak, Genome Res. 13, 73 (2003) Beispiel: das globale Alignment der mouse finished sequence NT_ gegen die Region, die mit BLAT-Ankern gefunden wurde, zeigt konservierte kodierende und nicht-kodierende Elemente, die mit BLAT nicht gefunden wurden.

125 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik125 Zus ä tzliche Informationen aus globalem WGA Unterschiede in Repeat-Merkmalen –Duplikationen (große Fragmente, chromosomal) –Tandem-Repeats Große Insertionen und Deletionen Translokationen von einem Teil des Genoms zu einem anderen Single Nucleotide Polymorphism

126 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik126 Methods for WGA: iterative pairwise global alignment These Methods follow a general strategy of iteratively merging two multiple alignments of two disjoint subsets of sequences into a single multiple alignment of the union of those subsets. Construct a hash table on either the query string, or the database string (or both) for all possible substrings of a pre-specified size (say l) Find exactly matching substrings of length l using this hash table (seeds). In the second phase, these seeds are extended in both directions, and combined if possible, in order to find better alignments. If the global pairwise alignment of two genomic DNA sequences S 1 and S 2 is computed by standard dynamic programming algorithms (which requires O( | S 1 || S 2 | time, where |S| is the length of sequence S) such iterative methods cannot be used in practice to align DNA sequences of entire genomes due to time and memory limitations. examples are: FASTA, BLAST, MegaBLAST, BL2SEQ, Wu-blast, flash,PipMaker (BLASTZ), and PatternHunter

127 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik127 Methods for WGA: anchor-based global multiple alignment These methods try to identify substrings of the sequences under consideration that they are likely parts of a global alignment. (As mentioned, these substrings can be obtained from local alignments). These substrings form anchors in the sequences to be aligned. These methods first align the anchors and subsequently close the gaps (align the substrings between the anchors). Anchor-based alignment methods are well suited for aligning very long sequences. MUMmer is a very successful implementation of this strategy for aligning two genome sequences.

128 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik128 Was ist MUMmer? A.L. Delcher et al. 1999, 2002 Nucleic Acids Res. Nimm an, dass zwei Sequenzen eng verwandt sind (sehr ähnlich) MUMmer kann zwei bakterielle Genome in weniger als 1 Minute alignieren nutzt Suffix-Bäume um Maximal Unique Matches zu finden Definition eines Maximal Unique Matches (MUM): –Eine Subsequenz, die in beiden Sequenzen genau einmal ohne Abweichungen vorkommt und in keine Richtung verlängert werden kann. Grundidee: ein MUM ausreichender L ä nge wird sicher Teil eines globalen Alignments sein. A maximal unique matching subsequence (MUM) of 39 nt (shown in uppercase) shared by Genome A and Genome B. Any extension of the MUM will result in a mismatch. By definition, an MUM does not occur anywhere else in either genome. Delcher et al. Nucleic Acids Res 27, 2369 (1999)

129 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik129 MUMmer: wichtige Schritte Erkenne MUMs (L ä nge wird vom Benutzer festgelegt) ACTGATTACGTGAACTGGATCCA ACTCTAGGTGAAGTGATCCA ACTGATTACGTGAACTGGATCCA ACTCTAGGTGAAGTGATCCA ACTGATTACGTGAACTGGATCCA ACTC--TAGGTGAAGTG-ATCCA

130 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik130 Definition von MUMmers Für zwei Strings S1 und S2 und einen Parameter l Der Substring u ist eine MUM Sequenz wenn gilt: |u| > l u kommt genau einmal in S1 und genau einmal in S2 (Eindeutigkeit) Für jeden Buchstaben a kommt weder ua noch au sowohl in S1 als auch in S2 vor (Maximalität)

131 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik131 Wie findet man MUMs? Naiver Ansatz –Vergleiche alle Teilsequenzen von A mit allen Teilsequenzen von B. Dies dauert O(n n ) verwende Suffix-Bäume als Datenstruktur –ein naiver Ansatz, einen Suffix-Baum zu konstruieren hat eine quadratische Komplexität in der Rechenzeit und dem Speicherplatz –durch klevere Benutzung von Pointern gibt es lineare Algorithmen in Rechenzeit und Speicherplatz wie den Algorithmus von McCreight

132 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik132 Suffix-B ä ume CACATAG$ Suffix-Bäume sind seit über 20 Jahren wohl etabliert. Einige ihrer Eigenschaften: ein Suffix beginnt an jeder Position I der Sequenz und reicht bis zu ihrem Ende. Eine Sequenz der Länge N hat N Suffices. Es gibt N Blätter. Jeder interne Knoten hat mindest zwei Kinder. 2 Kanten aus dem selben Knoten können nicht mit dem selben Buchstaben beginnen. Am Ende wird $ angefügt

133 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik133 Suchen in einem Suffix-Baum C A T C A G $ A T C A G $ T T A G $ G $ A A TG$A G $ G$$ A Search Pattern: CATA

134 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik134 Suchen in einem Suffix-Baum C A T C A G $ A T C A G $ T T A G $ G $ A A TG$A G $ G$$ A Search Pattern: ATCG

135 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik135 MUMmer 1.0: Wie findet man MUMs? Konstruiere einen Suffix-Baum aus allen Suffices von Genom A F ü ge jedes Suffix von Genom B in diesen Suffix-Baum ein Kennzeichne jedes Blatt mit dem Genom, das es enth ä lt

136 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik136 Sortieren der MUMs MUMs werden nach ihren Positionen in Genom A sortiert Genome A: Genome B: Genome A: Genome B: Jeder MUM ist nur mit seiner Nummer gekennzeichnet, ohne Berücksichtigung seiner Länge. Das obere Alignment zeigt alle MUMs. Die Verschiebung von MUM 5 in Genom B zeigt eine Transposition an. Die Verschiebung von MUM 3 könnte ein Zufallstreffer oder Teil einer inexakten Repeat-Sequenz sein. Unteres Alignment: suche in beiden Genomen die längste gemeinsam ansteigende Folge an Subsequenzen

137 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik137 Es gibt 4 Arten an Gaps in MUM-Alignments Delcher et al. Nucleic Acids Res 27, 2369 (1999) Diese Beispiele stammen aus dem Alignment der beiden M.tuberculosis Genome.

138 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik138 Beispiel: Alignment zweier Mikroorganismen Delcher et al. Nucleic Acids Res 27, 2369 (1999) Das Genom von M.genitalium ist nur etwa 2/3 so lang wie das von M.pneumoniae. Obere Abbildung: FASTA-Alignment von M.genitalium und M.pneumoniae. Mitte: Alignment mit 25mers Unten: Alignment mit MUMs. 5 Translokationen. Ein Punkt bedeutet jeweils einen Treffer zwischen den Genomen. FASTA-Plot: ähnliche Gene 25-mer-Plot: 25-Basen-Sequenz, die in beiden Sequenzen genau einmal vorkommt. MUM-Plot: MUM-Treffer.

139 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik139 Example: alignment human:mouse Delcher et al. Nucleic Acids Res 27, 2369 (1999) Alignment of even more distant species: human and mouse. Here: alignment of a bp subsequence of human chromosome 12p13, accession no. U47924, to a bp subsequence of mouse chromosome 6, accession no. AC Each point in the plot corresponds to an MUM of [ge]15 bp.

140 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik140 Zusammenfassung Die Anwendung der Suffix-Bäume war ein Durchbruch für die Alignierung ganzer Genome MUMmer 2 besitzt zusätzliche Verbesserung für die Rechenzeit und den Speicherplatz –die Verwendung von Suffix-Arrays anstatt von Suffix-Bäumen gibt eine verbesserte Datenstruktur ( Stefan Kurtz, Hamburg) –es wird nun m ö glich, mehr als zwei Genome zu alignieren (implementiert in MGA)

141 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik141 V6: Bioinformatische Analyse von Proteinstrukturen Angelehnt an Kapitel 1 und 5 aus dem Buch von Arthur Lesk - Hierarchischer Aufbau der Proteinstruktur - Klassifikation von Proteinstrukturen

142 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik142 Funktion von Proteinen Strukturproteine (Hüllenproteine von Viren, Cytoskelett) Enzyme, die chemische Reaktionen katalysieren Transport- und Speicheproteine (Hämoglobin) Regulatoren wie Hormone und Rezeptoren/Signalübertragungsproteine Proteine, die die Transkription kontrollieren oder an Erkennungsvorgängen beteiligt sind: Zelladhäsionsproteine, Antikörper

143 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik143 Warum sind Proteine so groß? Proteine sind große Moleküle. Ihre Funktion ist oft in einem kleinen Teil der Struktur, dem aktiven Zentrum, lokalisiert. Der Rest? - Korrekte Orientierung der Aminosäuren des aktiven Zentrums - Bindungsstellen für Interaktionspartner - Konformationelle Dynamik Evolution der Proteine: Veränderungen der Struktur, die durch Mutationen in ihrer Aminosäuresequenz hervorgerufen werden.

144 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik144 Hierarchischer Aufbau Primärstruktur – Sekundärstruktur – Tertiärstruktur – Quartärnere Struktur – Komplexe Welche Kräfte sind für die Ausbildung der verschiedenen Strukturen wichtig?

145 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik145 Einleitung: Aminosäuren Aminosäuren sind die Bausteine von Proteinen: Carboxylsäure Aminogruppe Aminosäuren unterscheiden sich hinsichtlich ihrer - Größe - elektrischen Ladung - Polarität - Form und Steifigkeit

146 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik146 Proteine sind aus 20 verschiedenen natürlichen Aminosäuren aufgebaut 5 sind hydrophob. Sie sind vor allem Im Proteininneren. Einleitung: hydrophobe Aminosäuren

147 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik147 Es gibt drei voluminöse aromatische Aminosäuren. Tyrosin und Tryptophan liegen bei Membranproteinen vor allem in der Interface-region. Einleitung: aromatische Aminosäuren

148 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik148 Es gibt 2 Schwefel enthaltende Aminosäuren und das ungewöhnliche Prolin. Cysteine können Disulfidbrücken bilden. Prolin ist ein Helixbrecher. Einleitung: Aminosäuren

149 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik149 Es gibt zwei Aminosäuren mit terminalen polaren Hydroxlgruppen: Einleitung: Aminosäuren

150 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik150 Es gibt 3 positiv geladene Aminosäuren. Sie liegen vor allem auf der Proteinoberflächen und in aktiven Zentren. Thermophile Organismen besitzen besonders viele Ionenpaare auf den Protein- oberflächen. Einleitung: Aminosäuren

151 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik151 Es gibt 2 negativ geladene Aminosäuren und ihre zwei neutralen Analoga. Asp und Glu haben pK a Werte von 2.8. Das heisst, erst unterhalb von pH=2.8 werden ihre Carboxylgruppe protoniert. Einleitung: Aminosäuren

152 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik152 Ein- und Drei-Buchstaben-Codes der Aminosäuren G GlycinGlyP ProlinPro A AlaninAlaV ValinVal L LeucinLeuI IsoleucinIle M MethioninMetC CysteinCys F PhenylalaninPheY Tyrosin Tyr W TryptophanTrpH HistidinHis K LysinLysR ArgininArg Q GlutaminGlnN AsparaginAsn E GlutaminsäureGluD AsparaginsäureAsp S SerinSerT ThreoninThr Zusätzliche Codes B Asn/AspZ Gln/GluX Irgendeine Aminosäure Kenntnis dieser Abkürzungen ist essentiell für Sequenzalignments und für Proteinstrukturanalyse! Buchstaben-Code der Aminosäuren

153 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik153 In Peptiden und Proteinen sind die Aminosäuren miteinander als lange Ketten verknüpft. Ein Paar ist jeweils über eine Peptidbindung verknüpft. Die Aminosäuresequenz eines Proteins bestimmt seinen genetischen code. Die Kenntnis der Sequenz eines Proteins allein verrät noch nicht viel über seine Funktion. Entscheidend ist seine drei-dimensionale Struktur. Einleitung: Peptidbindung

154 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik154 E.J. Corey und Linus Pauling studierten die Petidbindung in den 1940ern und 1950ern. Sie fanden: die C-N Länge ist 1.33 Å. Sie liegt damit zwischen 1.52 Å und 1.25 Å, was die Werte für eine Einfach- bzw. Doppelbindung sind. Die benachbarte C=O Bindung hat eine Länge Von 1.24 Å, was etwas länger als eine typische Carbonyl- C=O Doppelbindung ist (1.215 Å). die Peptidbindung hat einen teilweise konjugierten Charakter und ist nicht frei drehbar. Es bleiben damit pro Residue 2 frei drehbare Diederwinkel des Proteinrückgrats übrig. Eigenschaften der Peptidbindung Linus Pauling Nobelpreise für Chemie 1954 und Frieden 1963

155 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik155 Wie seit den 1950er Jahren bekannt, können Aminosäure-Stränge Sekundärstrukturelemente bilden: (aus Stryer, Biochemistry) -Helices und -Stränge. In diesen Konformationen bilden sich jeweils Wasserstoffbrückenbindungen zwischen den C=O und N-H Atomen des Rückgrats. Daher sind diese Einheiten strukturell stabil. Einleitung: Sekundärstrukturelemente

156 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik156 Diederwinkel des Proteinrückgrats Lesk-Buch Die dreidimensionale Faltung des Proteins wird vor allem durch die Diederwinkel des Proteinrückgrats bestimmt. Pro Residue gibt es 2 frei drehbare Diederwinkel, die als und bezeichnet werden.

157 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik157 Stabilität und Faltung von Proteinen Die gefaltete Struktur eines Proteins ist die Konformation, die die günstigste freie Enthalpie G für diese Aminosäuresequenz besitzt. Der Ramachandran-Plot charakterisiert die energetisch günstigen Bereiche des Aminosäurerückgrats. r -Helix-Region -Faltblatt-Region (rechtsgängige Helix)

158 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik158 Kompakter Bereich im Faltungsmuster einer Molekülkette, der den Anschein hat, er könnte auch unabhängig von den anderen stabil sein. Domänen cAMP-abhängige Proteinkinase SERCA Calcium-Pumpe Lesk-Buch

159 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik159 Modular aufgebaute Proteine bestehen aus mehreren Domänen. Anwendung von SMART (www.smart.embl-heidelberg.de) für die Src-Kinase HcK ergibtwww.smart.embl-heidelberg.de Sequenz: MGGRSSCEDP GCPRDEERAP RMGCMKSKFL QVGGNTFSKT ETSASPHCPV YVPDPTSTIK PGPNSHNSNT PGIREAGSED IIVVALYDYE AIHHEDLSFQ KGDQMVVLEE SGEWWKARSL ATRKEGYIPS NYVARVDSLE TEEWFFKGIS RKDAERQLLA PGNMLGSFMI RDSETTKGSY SLSVRDYDPR QGDTVKHYKI RTLDNGGFYI SPRSTFSTLQ ELVDHYKKGN DGLCQKLSVP CMSSKPQKPW EKDAWEIPRE SLKLEKKLGA GQFGEVWMAT YNKHTKVAVK TMKPGSMSVE AFLAEANVMK TLQHDKLVKL HAVVTKEPIY IITEFMAKGS LLDFLKSDEG SKQPLPKLID FSAQIAEGMA FIEQRNYIHR DLRAANILVS ASLVCKIADF GLARVIEDNE YTAREGAKFP IKWTAPEAIN FGSFTIKSDV WSFGILLMEI VTYGRIPYPG MSNPEVIRAL ERGYRMPRPE NCPEELYNIM MRCWKNRPEE RPTFEYIQSV LDDFYTATES QYQQQP Modular aufgebaute Proteine

160 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik160 Die Klassifikation von Proteinstrukturen nimmt in der Bioinformatik eine Schlüsselposition ein, weil sie das Bindeglied zwischen Sequenz und Funktion darstellt. Lesk-Buch Klassifikation von Proteinen

161 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik161 Lesk-Buch Anwendungen der Hydrophobizität

162 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik162 Betrachte die Residuen einer Transmembranhelix … -Helices in globulären Proteinen haben oft eine ins Innere des Proteins weisende hydrophobe Seite und eine hydrophile Seite, die zum Lösungsmittel gerichtet ist. In einer -Helix ist jede Aminosäure um etwa 100 Grad gegenüber ihrem Vorgänger verdreht. Damit müssen sich hydrophile und hydrophobe Residuen etwa alle 4 Positionen abwechseln. Anwendungen der Hydrophobizität: Das helikale Rad Dasselbe Verhalten zeigen amphipatische Helices, die auf der Oberfläche einer Lipid-Doppelschicht binden.

163 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik163 Im Inneren der Lipidschicht kann das Proteinrückgrat keine Wasserstoffbrücken- Bindungen mit den Lipiden ausbilden die Atome des Rückgrats müssen miteinander Wasserstoffbrückenbindungen ausbilden, sie müssen entweder helikale oder -Faltblattkonformation annehmen. Topologie von Membranproteinen

164 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik164 Topologie von Membranproteinen Die hydrophobe Umgebung erzwingt, dass (zumindest die bisher bekannten) Strukturen von Transmembranproteinen entweder reine -Barrels (links) oder reine -helikale Bündel (rechts) sind.

165 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik165 Vergleich von zwei Proteinstrukturen: Angabe des RMS-Werts, die Wurzel der mittleren quadratischen Abweichung, oder root-mean-square deviation Interessanterweise ist bei zwei verschiedenen Proteinen oft nicht klar, welche Atome überlagert werden sollen! Superposition von Strukturen und Struktur-Alignment d i : Abstand zwischen den Koordinaten des i-ten Atompaares n : Anzahl an Atompaaren

166 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik166 Die Sekundärstrukturelemente -Helix und -Faltblatt werden durch energetisch günstige Wasserstoffbrücken zwischen Atomen des Peptidrückgrats gebildet. Sie sind sequenzunabhängig. Protein folds ergeben sich durch die Assemblierung von Sekundärstrukturelementen. Der Ramachandran-Plot ist ein wichtiges Werkzeug um die Güte von Protein- strukturen (bzw. –modellen) zu beurteilen. Proteine sind oft modular aus mehreren Domänen aufgebaut. Der Vergleich mehrerer Proteinstrukturen ist nicht-trivial. Zusammenfassung

167 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik167 V7: Aufklärung von Proteinstrukturen in der nahen Zukunft Structural genomics soll die Strukturen von Proteinen vor allem mit neuen Faltungsmustern (folds) aufklären. Bedeutung von Folds. Grundsätzliches zu Struktur – Funktion Beziehung. Definition von Folds: siehe V6 Homologiemodellierung der Strukturen aller verwandten Proteine unter Verwendung der bekannten 3D-Strukturen als Vorlagen.

168 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik168 Analyse einer unbekannten Sequenz Suche in Sequenzdatenbanken nach identischer Sequenz bzw. ähnlichen Sequenzen Gibt es ähnliche Sequenz mit bekannter 3D-Struktur? Vorhersage der Sekundärstruktur Kann man Funktion zuordnen? Modellierung der Proteinstruktur durch Homologiemodellierung Ab inito Vorhersage der Tertiärstruktur Zuordnung eines Protein-Folds Multiples Sequenzalignment Input: neue Proteinsequenz Alignment der Sekundärstrukturen. Erkenne Domänen Analyse dieses Folds, Nachbarn? Experimentelle Daten vorhanden? 3D-Proteinstruktur Alignment der Sequenz mit einer Target-Struktur Fold erkannt? Nein Ja Nein Ja Nach Rob Russell, gtsp/flowchart2.html

169 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik169 Homologie/Komperative Modellierung Protein structure modeling for structural genomics. R. Sánchez et al. Nat. Struct. Biol. 7, (2000) Qualität der Modellierung hängt von Sequenzidentität mit Vorlage ab.

170 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik170 Genomweite Strukturmodellierung R. Sánchez et al. Nat. Struct. Biol. 7, (2000) Effekt des Wachstums der PDB- Datenbank auf die Zahl der Protein des Bakteriums M. Genitalium, deren Fold und Struktur im jeweiligen Jahr vorhergesagt werden konnte. Homologie-Modellierung ist nicht aufwendig, dauert pro Struktur nur wenige Minuten. Akkurate Modellierung von Loops und Seitenketten kann jedoch erheblich aufwendiger sein. Grün: Proteine mit Modell oder fold assignment aus PSI-BLAST für mindestens 30 ihrer Residuen. Blau: nur Modell Rot: Anteil der Residuen des Genoms, die in Modell oder fold assignment vorkommen.

171 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik171 Schliesse von Struktur auf Funktion? From structure to function: Approaches and limitations J. M. Thornton et al. Nat. Struct. Biol. 7, 991 (2000)

172 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik172 Methode zur Fold-Erkennung: Threading Gegeben: –Sequenz: IVACIVSTEYDVMKAAR… –Ein Datenbank von möglichen Proteinstrukturen (folds) Bilde die Sequenz auf jeden fold ab Bestimme anhand einer Bewertungsfunktion, welcher Fold am besten zu dieser Sequenz passt.

173 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik173 Bryngelson, Wolynes, PNAS (1987) Gradient Rauhigkeit beschleunigtbremstFaltung Frustration New view of protein folding: Faltung entlang trichterähnlichen Energielandschaften Brooks, Gruebele, Onuchic, Wolynes, PNAS 95, (1998)

174 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik174 Fold Optimierung Einfache Gittermodelle (HP-Modelle) –Zwei Sorten von Seitenketten: hydrophob und polar –2-D oder 3-D Gitter –Treibende Kräfte: hydrophober Kollaps – es ist günstig, Kontakte zwischen hydropoben Seitenketten zu bilden –Bewertung = Anzahl an H H Kontakten

175 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik175 Homologie-basierte Proteinmodellierung (SwissModel) Methode: Wissensbasierter Ansatz. Erfordernis: Mindestens 1 bekannte 3D-Struktur eines verwandten Proteins, Prozedur: Superposition der verwandten 3D-Strukturen Erzeugung eines multiplen Sequenzalignments mit der Zielsequenz. Generierung eines Frameworks für die neue Sequenz. Konstruiere fehlende Loops. Vervollständige und korrigieren das Proteinrückgrat. Korrigiere die Seitenketten. Überprüfe die Qualität der modellierten Struktur und deren Packung. Strukturverfeinerung durch Energieminimierung und Moleküldynamik. SWISS-MODEL.html

176 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik176 Überlagerung der 3D-Strukturen Regionen mit Sequenzähnlichkeit werden automatisch ausgewählt und ihre Residuen in 3D überlagert. Diese erste Auswahl wird weiter verfeinert. SWISS-MODEL.html

177 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik177 (a)Für alle Atome, die eine ähnliche Position besitzen und vermutlich eine strukturelle Entsprechung in der neuen Struktur besitzen, werden gemittelte Positionen als Framework-Koordinaten bestimmt. (b)Seitenketten mit völlig inkorrekter Geometrie werden entfernt. (c)Matrix mit Gewichten für lokale Ähnlichkeit. 3D Framework für die neue Sequenz SWISS-MODEL.html

178 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik178 Basierend auf den Verankerungen der Loops werden (a)wird eine Datenbank bekannter Loopfragmente in der PDB-Datenbank durchsucht. Für den neuen Loop verwendet man entweder das am besten passende Fragment oder ein Framework aus den 5 besten Fragmenten. (b)Der Torsionsraum der Loopresiduen wird durchsucht - 7 erlaubte Kombinationen der - Winkel - benötigter Raum für den gesamten Loop Konstruktion fehlender Loops SWISS-MODEL.html

179 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik179 Rekonstruktion von fehlendem Proteinrückgrat Das Rückgrat wird auf der Grundlage von C -Positionen konstruiert. - 7 Kombinationen der - Winkel sind erlaubt. - Durchsuche Datenbank für Backbone- Fragmente mit Fenster aus 5 Residuen, Verwende die Koordinaten der 3 zentralen Residuen des am besten passenden Fragments.

180 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik180 Verwende Bibliothek erlaubter Seitenketten-Rotamere geordnet nach der Häufigkeit des Auftretens in der PDB-Datenbank. - Erst werden verdrehte (aber komplette) Seitenketten korrigiert. - fehlende Seitenketten werden aus der Rotamer-Bibliothek ergänzt. Teste dabei, ob van-der-Waals Überlapps auftreten und ob die Torsisonswinkel in erlaubten Bereichen liegen. Konstruktion unvollständiger/fehlender Seitenketten SWISS-MODEL.html

181 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik181 Überprüfe die Qualität der 3D-Modelle Analysiere 3D-Umgebung jeder Seitenkette. Erlaubt die Identifizierung missgefalteter Regionen. Auch: WHATCHECK SWISS-MODEL.html

182 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik182 Berechne, welche Bereiche des Proteins für eine kleine Probe zugänglich sind (Connolly-Oberfläche bzw. Kubisches Gitter). Algorithmus entdeckt Oberflächen innerhalb und ausserhalb des Proteins. Der Vergleich von Grösse und Verteilung von internen Cavities zwischen Modell und Kristallstruktur-Vorlage erlaubt es, Fehler im Modell aufzuspüren. Analyse der Packungsdichte eines atomaren Modells SWISS-MODEL.html

183 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik183 Bewertung der Qualität eines Homologiemodells 1. Allgemeine Gesichtspunkte Ein Modell wird als falsch angesehen, wenn mindestens eines seiner strukturellen Elemente gegenüber dem Rest des Modells falsch angeordnet ist. Dies kann durch ein falsches Sequenzalignment entstehen. Das Modell kann dennoch korrekte Stereochemie besitzen. Man kann ein Modell als ungenau ansehen wenn seine atomare Koordinaten mehr als 0.5 Å von einer experimentellen Kontrollstruktur abweichen. Ungenauigkeiten können auch in der Stereochemie (Bindungslängen und – winkel auftreten). Dies kann leicht mit WhatCheck überprüft werden. Statistische Paarpotentiale für die Verteilung von Aminosäuren in bekannten Proteinen erlauben manchmal die Aufspürung von fehlerhaften Modellen.

184 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik Fehlerquellen Die Qualität eines Modells hängt von 2 Kriterien ab 1Seine Korrektheit hängt von der Qualität des Sequenzalignments ab. 2Seine Genauigkeit wird durch seine Abweichung von einer (zukünftig zu bestimmenden) experimentellen Struktur bestimmt. Strukturelle Abweichungen haben 2 Ursachen - der inherente Fehler der Modellierungsprozedur - durch Umgebung und Methoden der Datenerfassung bewirkte Variationen der experimentellen Strukturen, die als Vorlage verwendet werden. Ein durch komparative Methoden abgeleitetes Protein-Modell kann nicht genauer sein als der Unterschied zwischen einer NMR-Struktur und einer Kristallstruktur desselben Proteins.

185 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik185 3 Proteinkern und Loops Fast jedes Proteinmodell enthält nicht-konservierte Loops, die als die am wenigsten zuverlässigen Teile des Proteinmodells angesehen werden können. Andererseits sind diese Bereiche der Struktur oft auch am flexibelsten – hohe Temperaturfaktoren in Kristallstrukturen oder hohe Unterschiede zwischen verschiedenen (gleichsam gültigen) NMR-Strukturen. Die Residuen im Proteinkern werden gewöhnlich fast in der identischen Orientierung wie in experimentellen Kontrollstrukturen modelliert. Residuen an der Proteinoberfläche zeigen grössere Abweichungen.

186 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik186 Einordnung von Proteinmodellen in 3 Kategorien 1Modelle, die auf falschen Alignments zwischen Vorlage und Zielprotein basieren. Strategie: konstruiere mehrere Modelle für unterschiedliche Alignments. Wähle das am besten erscheinende Modell. 2Modelle, die auf korrekten Alignments beruhen, können für zielgerichtete Mutagenese-Experimente hilfreich sein. Sind oft nicht zuverlässig genug für detaillierte Untersuchung von Ligandenbindung. 3Modelle, die auf einer hohen Sequenzidentität (> 70%) mit der Vorlage beruhen. Solche Modelle können in Drug Design Projekten verwendet werden. Fehler sind jedoch immer, also auch bei sehr hoher Identität möglich.

187 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik187 Test für die Zuverlässigkeit von SwissModell 3DCrunch-Projekt von Expasy zusammen mit SGI. Generiere Homologie- Modelle für Proteine mit bekannter 3D-Struktur. Die Vorlagen besaßen 25 – 95 % Sequenzidentität mit dem Zielprotein Kontrolle-Modelle. Grad der Identität [%]Modell innerhalb von x Å RMSD zur Vorlage /SWISS-MODEL.html

188 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik188 Zusammenfassung Gemeinsamer Kern von Proteinen mit 50% Sequenzidentität besitzt ca. 1 Å RMSD Dies gilt sogar für absolute identische Sequenzen. Der zuverlässigste Teil eines Proteinmodells ist der Sequenzabschnitt, den es mit der Vorlage gemeinsam hat. Die größten Abweichungen liegen in den konstruierten Schleifen. Die Wahl der Modellvorlage ist entscheidend! Die An- oder Abwesenheit von Ko-faktoren, anderen Untereinheiten oder Substraten kann Proteinkonformation sehr beeinflussen und somit alle Modelle, die von ihnen abgeleitet werden. Jeder Fehler im Alignment produziert falsche Modelle! Solche Alignment-Fehler treten bei Sequenzidentität unter 40% auf.

189 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik189 V8 Protein-Liganden-Wechselwirkung – anschaulich betrachtet Beispiele für Protein-Liganden Komplexe Wo ist das aktive Zentrum? (Docking wird hier nicht behandelt – siehe Spezialvorlesungen von A. Kämper und A. Hildebrandt/D. Neumann im SS05) Wie stark binden Liganden an Proteine? Wie kann man die Affinität des Liganden verbessern?

190 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik190 beta-Trypsin:Benzamidin (3ptb) Enge, sehr polare Bindungstasche auf Proteinoberfläche. Amidin-Gruppen des Liganden bilden 4 H- Bindungen mit Carboxylgruppen des Proteins (Trypsin) aus. Benzolring passt optimal in hydro- phobe Tasche.

191 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik191 Cytochrome P450cam : Kampher (2cpp) Weites, recht unpolares aktives Zentrum im Proteininneren. Hämgruppe katalysiert Reaktion. Partielle Desolvatation. Wie gelangt Substrat hinein?

192 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik192 Maus-Antikörper McPC-603:Phosphocholine (2mcp) Bindungstasche auf Proteinoberfläche wird durch drei hypervariable Loops geformt.

193 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik193 Streptavidin:Biotin (1stp) Sehr polare, tiefe Bindungstasche. Außerordentlich starke Affinität.

194 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik194 HIV-1 Protease:XK-263 Inhibitor (1hvr) Inhibitor XK-263 stammt von Merck-Dupont. Er enthält eine 7-Ring zyklische Urea-Einheit mit Phenyl- und Naphtyl-Ringen. Die CO-Gruppe ahmt das ansonsten konservierte Wassermolekül 301 nach und verdrängt es. Der tiefere Teil des zyklischen Urea-Rings enthält zwei benachbarte Hydroxylgruppen, die H-Bindungen mit den katalytischen Aspartat-Residuen bilden.

195 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik195 Identifikation von funktionellen Residuen 1 Funktionelle bzw. katalytische Residuen werden traditionell in (hoch) konservierten Regionen von Multiple Sequence Alignments erwartet evtl. Kopplung mit Information über 3D-Struktur 2: finde Residuen, die Proteinstruktur destabilisieren. Grund: Funktionelle Residuen im Proteininneren sind oft energetisch ungünstig. Funktionalität auf Kosten von Stabilität. 3: finde Löcher oder Einbuchtungen in Proteinstruktur. Hier vorgestellt: integrierte Methode, die 1 -3 implementiert. Möglichkeit für funktionelle Annotation von Proteinen mit unbekannter Funktion.

196 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik196 Wo ist das aktive Zentrum I? Auswahl von 49 Enzymen. Kriterien: - Auflösung 2.0 Å - funktionelle Residuen sind bekannt (in Swissprot-Eintrag in ACT_SITE) - enthalten nur eine Domäne (SCOP Datenbank) - die SCOP-Einträge sind unterschiedlich - es gibt 10 homologe Sequenzen mit Blast E-Wert < katalytische Residuen: 22 His 17 Asp, Glu 10 Cys 8 Ser 7 Arg, Lys Ota, Kinoshita, Nishikawa, J Mol Biol 327, 1053 (2003) 5 Tyr 3 Asn 2 Thr

197 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik197 Repräsentative Enzyme PDBProtein Länge Auflösung EC Zahl Zahl und Namen der SCOP Seq. katalytischen Residuen

198 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik198 Fitness-Funktion - Bewertung der Seitenketten-Konformation entsprechend Rotamer-Bibliothek - Seitenketten-Packung (wissensbasiert) - Hydratation (wissensbasiert) - Analyse der Proteinoberfläche (MSP-Programm): Zuordnung zu den einzelnen Residuen - elektrostatische Energie: AMBER-Partialladungen elektrostatisches Potential (aus Poisson-Boltzmann-Rechnung) Jeder Score(S), Rang (R) und Position (L) werden gegen den Mittelwert und die Standardabweichung für jeden Aminosäuretyp normalisiert. Ota, Kinoshita, Nishikawa, J Mol Biol 327, 1053 (2003)

199 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik199 Vorhersage katalytischer Residuen in Enzymen Beispiel: 3D-Profil für Lysozym aus Hühnereiweiss. D52 ist katal. Residue. native Hydratations- lokaleD52 hat sehr schlechten Rang. D.h. Residue klasse Struktures wäre günstig D52 zu ersetzen. Katalytische Residuen sind stets un- stabiler als nicht-katalytische. Ota, Kinoshita, Nishikawa, J Mol Biol 327, 1053 (2003) Score Rang Score native native beste Residue Residue Residue

200 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik200 Vorhersage katalytischer Residuen in Enzymen Flussdiagramm der Vorhersagemethode. - Links oben Analyse der Konservierung. - Rechts oben Analyse der Position in 3D-Struktur bzw. Stabilität der Mutantenproteine - untere Hälfte trifft für verschiedene Aminosäuretypen (1-Letter-code) die Entscheidung, ob katalytische Residuen vorliegen. Ota, Kinoshita, Nishikawa, J Mol Biol 327, 1053 (2003)

201 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik201 Wo ist das aktive Zentrum II Analyse mit elektrostatischen Kontinuumsrechnungen Die Titrationszustände der meisten Aminosäuren folgen der Henderson-Hasselbalch-Gleichung. Berechne Titrationskurven für 3 Enzyme mit UHBD. TIM und AR haben eine sehr ähnliche Strukturen, katalysieren aber ganz unterschiedliche Reaktionen. AR und PMI haben sehr verschiedene Strukturen, katalysieren aber ähnliche Reaktionen. Ondrechen, Clifton, Ringe, PNAS 98, (2001)

202 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik202 Theoretische Titrationskurven Titrationskurven aller His-Residuen in TIM Triosephosphat Isomerase (TIM) katalysiert die Isomerierung von D-Glyceraldehyd- 3-Phosphat zu Dihydroxyaceton-Phosphat. Man findet 4 Residuen mit verschobenen, flachen Titrationskurven: His95, Glu165, Lys112, Tyr164. Davon liegen H95, E165 und Y164 eng beieinander. Ondrechen, Clifton, Ringe, PNAS 98, (2001)

203 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik203 Titrationskurven aller Tyr-Residuen in AR Theoretische Titrationskurven Aldose-Reduktase (AR) katalysiert die Reduktion einer Aldehydgruppe von Aldose zu einem Alkohol. Man findet 7 Residuen mit verschobenen, flachen Titrationskurven: Tyr48, Cys298, Glu185, Lys21, Lys77, Tyr107, Tyr209. Tyr48, His110 und Cys298 bilden das aktive Zentrum. Die anderen Residuen liegen in der Nähe. Ondrechen, Clifton, Ringe, PNAS 98, (2001)

204 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik204 Titrationskurven aller Lys-Residuen in PMI Theoretische Titrationskurven PMI katalysiert die Interkonversion von Mannose-6-Phosphat und Fructose-6- Phosphat. Man findet 4 Residuen mit verschobenen, flachen Titrationskurven: His135, Lys100, Lys136, Tyr287. Alle liegen eng beieinander, die ersten 3 wohl im aktiven Zentrum und His135 nahe bei Lys136. Ondrechen, Clifton, Ringe, PNAS 98, (2001)

205 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik205 Weitere Beispiele PDB ID Name ChemieResiduen mit auffälligen Titrationskurven 1AMQ Aspartat [H189, Y225, K258, R266, C191, C192], aminotransferase * Transamination [Y256], [Y295], [H301] * 1CSE1CSE Subtilisin Peptidhydrolyse [D32, H64] Carlsberg (Serin-Protease) 1EA51EA5 Acetylcholinesterase Ester Hydrolyse [Y130, E199, E327, H440, D392], [Y148], [H398], [H425] 1HKA1HKA 6-Hydroxymethyl- * Kinase [D97, H115] * 7,8-dihydropterin pyrophosphate kinase 1OPY1OPY 3-Keto- 5 -Steroid Isomerase[Y16, Y32, Y57], [C81] isomerase 1PIP1PIP Papain Peptidhydrolyse [C25, H159], (Cys Protease) [K17, K174, Y186], [R59], [R96] 1PSO1PSO Pepsin Peptidhydrolyse [D32, D215, D303], [D11] (Säure-Protease) 1WBA1WBA Winged bean Speicherung - keine keine albuminEnzymfunktion Residue im zweiter Schale. Residue im aktiven Zentrum Ondrechen, Clifton, Ringe, PNAS 98, (2001)

206 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik206 Fazit Mittels elektrostatischer Kontinuumsrechnungen für bekannte Kristallstrukturen von Proteinen wurde für verschiedene externe pH-Werte die energetisch optimale Gesamtladung der Proteine berechnet. Aktive Zentren von Enzymen enthalten oft mehrere polare bzw. geladene Seitenketten um die chemische Umwandlung zu katalysieren. Deren Titrationszustände sind eng aneinander gekoppelt und zeigen im Vergleich zu isolierten Seitenketten sehr ungewöhnliche Titrationskurven. Diese Methode erlaubt also die Position von aktiven Zentren allein aufgrund der Proteinstruktur zu erkennen. Ondrechen, Clifton, Ringe, PNAS 98, (2001)

207 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik207 Wie stark binden Liganden an Proteine? Kuntz, Chen, Sharp, Kollman, PNAS 96, 9997 (1999)

208 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik208 Bindungsaffinität Metallionen oder Metalloenzyme kleine Anionen natürliche Liganden Enzyminhibitoren linearer Anstieg der freien Bindungsenthalpie zu Beginn bis ca. 15 Nicht-H-Atome G binding = - 60 kJ mol -1 maximal. Dann wird Sättigung beobachtet. Kuntz, Chen, Sharp, Kollman, PNAS 96, 9997 (1999)

209 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik209 Interpretation Metallionen und Anionen binden am stärksten. Nanomolekulare Liganden können bereits mit 7-10 Atomen erreicht werden. Grössere Liganden - besitzen üblicherweise nur eine kleine Zahl polarer Atome pro Molekül - die elektrostatischen Gruppen der Bindungsstelle werden zunehmend im Inneren begraben - sind oft elektrisch neutral - besitzen mehr entropische Freiheitsgrade Kuntz, Chen, Sharp, Kollman, PNAS 96, 9997 (1999) - G pro Atom

210 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik210 Eine konkrete Studie an einem biologischen System – oft kommt es anders als man denkt. Gu, W., Kofler, W., Antes, I., Freund, C., Helms, V. (2005) Biochemistry, 44, Alternative Binding Modes of Proline-rich Peptides Binding to the GYF-Domain. entfällt

211 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik211 Zusammenfassung Die Protein:Liganden Wechselwirkung ist heutzutage relativ gut verstanden. Wir haben Tools kennengelernt, mit denen man - die Position des aktiven Zentrums lokalisieren kann - Bindungsaffinitäten abschätzen bzw. verbessern kann - die Assoziation bzw. Dissoziation des Liganden simulieren kann. Für die Zukunft bleibt: (1) korrelierte Analysen aus der umgekehrten Richtung: finde einen Liganden, der selektiv an ein bestimmtes Protein bindet, jedoch nicht an andere (2) Automatisierung + Verknüpfung der obigen Schritte (3) Einbeziehung zusätzlicher Gesichtspunkte (ADMET)

212 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik212 V9 From Protein Complexes to Networks and back Protein interaction could be defined in a number of ways (1) Proteins that form permanent supracomplexes = protein machines (2) Proteins that bind each other transiently (signal transduction, bioenergetics... ) (3) Co-regulated expression of genes/proteins (4) Proteins participating in the same metabolic pathways (5) Proteins sharing substrates (6) Proteins that are co-localized Techniques: Experimental methods + computational methods.

213 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik213 How transferable are interactions? interaction similariy (iRMSD) vs. % sequence identity for all the available pairs of interacting domains with known 3D structure. Curve shows 80% percentile (i.e. 80% of the data lies below the curve), and points below the line (iRMSD = 10 Å) are similar in interaction. Aloy et al. Science, 303, 2026 (2004)

214 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik In silico studies to predict protein protein contacts Field of studying protein interactions is split into two areas: (1) on the macro level: map networks of protein interactions (2) on the micro level: understand mechanisms of interaction to predict interaction sites Growth of genome data stimulated a lot of research in area (1). Fewer studies have addressed area (2). Constructing detailed models of the protein-protein interfaces is important for comprehensive understanding of molecular processes, for drug design and for prediction the arrangement into macromolecular complexes. Also: understanding (2) should facilitate (1). Therefore, this lecture focusses on linking area (2) to area (1).

215 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik215 Bioinformatic identification of interface patches Statistical analysis of protein-protein interfaces in crystal structures of protein-protein complexes: residues at interfaces have significantly different amino acid composition that the rest of the protein. predict protein-protein interaction sites from local sequence information ? Conservation at protein-protein interfaces: interface regions are more conserved than other regions on the protein surface identify conserved regions on protein surface e.g. from solvent accessibility Patterns in multiple sequence alignments: Interacting residues on two binding partners often show correlated mutations (among different organisms) if being mutated identify correlated mutations Structural patterns: surface patterns of protein-protein interfaces: interface often formed by hydrophobic patch surrounded by ring of polar or charged residues. identify suitable patches on surface if 3D structure is known

216 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik216 7 Analysis of interfaces 1812 non-redundant protein complexes from PDB (less than 25% identity). Results dont change significantly if NMR structures, theoretical models, or structures at lower resolution (altogether 50%) are excluded. Most interesting are the results for transiently formed complexes. Ofran, Rost, J. Mol. Biol. 325, 377 (2003) permanent transient

217 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik217 Amino acid composition of interface types The frequencies of all residues found in SWISS-PROT were used as background when the frequency of an amino acid is similar to its frequency in SWISS-PROT, the height of the bar is close to zero. Over-representation results in a positive bar, and under-representation results in a negative bar. Ofran, Rost, J. Mol. Biol. 325, 377 (2003)

218 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik218 Pairing frequencies at interfaces red square: interaction occurs more frequently than expected; blue square: it occurs less frequently than expected. (A) Intra-domain: hydrophobic core is clear (B) domain–domain, (C) obligatory homo-oligomers, (D) transient homo-oligomers, (E) obligatory hetero-oligomers, and (F) transient hetero-oligomers. The amino acid residues are ordered according to hydrophobicity, with isoleucine as the most hydrophobic and arginine as the least hydrophobic. propensities have been successfully used to score protein-protein docking runs. Ofran, Rost, J. Mol. Biol. 325, 377 (2003)

219 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik219 8 Correlated mutations at interface Pazos, Helmer-Citterich, Ausiello, Valencia J Mol Biol 271, 511 (1997): correlation information is sufficient for selecting the correct structural arrangement of known heterodimers and protein domains because the correlated pairs between the monomers tend to accumulate at the contact interface. Use same idea to identify interacting protein pairs.

220 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik220 Correlated mutations at interface Correlated mutations evaluate the similarity in variation patterns between positions in a multiple sequence alignment. Similarity of those variation patterns is thought to be related to compensatory mutations. Calculate for each positions i and j in the sequence a rank correlation coefficient (r ij ): Pazos, Valencia, Proteins 47, 219 (2002) where the summations run over every possible pair of proteins k and l in the multiple sequence alignment. S ikl is the ranked similarity between residue i in protein k and residue i in protein l. S jkl is the same for residue j. S i and S j are the means of S ikl and S jkl.

221 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik221 i2h method Schematic representation of the i2h method. A: Family alignments are collected for two different proteins, 1 and 2, including corresponding sequences from different species (a, b, c, ). B: A virtual alignment is constructed, concatenating the sequences of the probable orthologous sequences of the two proteins. Correlated mutations are calculated. C: The distributions of the correlation values are recorded. We used 10 correlation levels. The corresponding distributions are represented for the pairs of residues internal to the two proteins (P11 and P22) and for the pairs composed of one residue from each of the two proteins (P12). Pazos, Valencia, Proteins 47, 219 (2002)

222 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik222 Predictions from correlated mutations Results obtained by i2h in a set of 14 two domain proteins of known structure = proteins with two interacting domains. Treat the 2 domains as different proteins. A: Interaction index for the 133 pairs with 11 or more sequences in common. The true positive hits are highlighted with filled squares. B: Representation of i2h results, reminiscent of those obtained in the experimental yeast two-hybrid system. The diameter of the black circles is proportional to the interaction index; true pairs are highlighted with gray squares. Empty spaces correspond to those cases in which the i2h system could not be applied, because they contained <11 sequences from different species in common for the two domains. In most cases, i2h scored the correct pair of protein domains above all other possible interactions. Pazos, Valencia, Proteins 47, 219 (2002)

223 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik223 Predicted interactions for E. coli Number of predicted interactions for E. coli. The bars represent the number of predicted interactions obtained from the 67,238 calculated pairs (having at least 11 homologous sequences of common species for the two proteins in each pair), depending on the interaction index cutoff established as a limit to consider interaction. Pazos, Valencia, Proteins 47, 219 (2002) Among the high scoring pairs are many cases of known interacting proteins.

224 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik224 9 Coevolutionary Analysis Idea: if co-evolution is relevant, a ligand-receptor pair should occupy related positions in phylogenetic trees. Goh & Cohen, 2002 showed that within correlated phylogenetic trees, the protein pairs that bind have a higher correlation between their phylogenetic distance matrices than other homologs drawn drom the ligand and receptor families that do not bind. Other Idea: analyze occurrence of proteins that can functionally substitute for another in various organisms. Detect analogous enzymes in thiamin biosynthesis

225 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik225 Detect analogous enzymes in thiamin biosynthesis Gene names are applied according to the first gene described from a group of orthologs. Solid black arrows represent known or proposed reaction steps and dashed black arrows indicate unknown reactions. In addition, significant anticorrelations in the occurrence of genes across species (red arrows), and relevant in silico predicted protein-protein interactions (blue dashed arrows) are illustrated. Distinct precursors have been proposed for different species (indicated in gray). Genes with orthologous sequences in eukaryotes and prokaryotes are in green; genes assumed to be prokaryote-specific are black. Interestingly, significant 'one-to-one' anticorrelations usually involve a prokaryote-specific and a 'ubiquitous' gene. Abbreviations: AIR, 5-aminoimidazole ribonucleotide; Cys, cysteine; Gly, glycine; His, histidine; HMP, 2- methyl-4-amino-5-hydroxymethylpyrimidine; THZ, 4- methyl-5- -hydroxyethylthiazole; Tyr, tyrosine; Vit. B6, Vitamin B6. Morett et al. Nature Biotech 21, 790 (2003)

226 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik226 THI-PP biosynthesis pathway: analogous genes Negatively correlating gene occurrences are highlighted using the same colors. Species having at least two genes with a role unique to THI- PP biosynthesis are predicted to possess the functional pathway. The column 'STRING score' shows the most significant interaction for each gene, predicted using the STRING server. Predicted interaction partners are listed in the column 'Interact. with'. COG id: id in groups of orthologous proteins server (a) Essential THI-PP biosynthesis enzymes, which are unique to the pathway. (b) Essential THI-PP biosynthesis enzymes, which have been implicated in more than one biological process. The thiO gene, suggested to play a role in the pathway, was also added to that list. (c) Proteins predicted in silico to be involved in the pathway. Morett et al. Nature Biotech 21, 790 (2003) 4 analogies detected: thiE can be replaced by MTH861 thiL by THI80 thiG by THI4 thiC by tenA

227 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik227 Interpretation Proteins that functionally substitute eachother have anti-correlated distribution pattern across organisms. allows discovery of non-obvious components of pathways and function prediction of uncharacterized proteins and prediction of novel interactions. Morett et al. Nature Biotech 21, 790 (2003)

228 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik228 Bereich 3: V10 - Integrative Biologie 1 Protein-Netzwerke: topologische Graphen-Netzwerke 2 Analyse von Stoffwechselwegen (metabolic pathways): Konzentration auf Metabolite, enzym. Reaktionen 3 Zell-Simulationen: dynamische Simulation auf Sekunden-Zeitskala, t = 0.01 s (V10 und V11) Systems Biology: Integration von genomischen und proteomischen Analysen (V12) Komplexität, Level an Verständnis

229 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik229 Analyse von Stoffwechselwegen: Beispiel E. coli verwende Daten aus Datenbank EcoCyc (siehe auch MetaCyc: Stoffwechsel von > 150 Organismen) EcoCyc enthält 905 Reaktionen für E.coli davon gehören 161 nicht zum Stoffwechsel kleiner Moleküle, z.B. DNA Replikation, von den verbleibenden 744 wurden 569 mindestens einem Pfad zugeordnet Dagegen gibt es 607 Enzyme. Es gibt also keine 1:1 Zuordnung zwischen Enzymen und Reaktionen, denn (1) Manche Enzyme katalyiseren mehrere Reaktionen, und manche Reaktionen werden von mehreren Enzymen katalysiert (2)nicht zu allen Reaktionen sind die Enzyme bekannt, die sie katalysieren. Ouzonis, Karp, Genome Research 10, 568 (2000)

230 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik230 Beispiel: Stoffwechsel von E. coli Die 744 Reaktionen enthalten 791 verschiedene Substrate. Ouzonis, Karp, Genome Research 10, 568 (2000) Im Mittel enthält jede Reaktion 4 Substrate.

231 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik231 Beispiel: Stoffwechsel von E. coli EcoCyc enthält 131 Stoffwechsel- Pfade. Die Länge der Pfade variiert von 1 bis 16. Im Mittel 5.4. Von den 607 Enzymen sind 100 multifunktional. Purin-Nukleosid-Phosphorylase und Nukleosid-Diphosphatkinase katalysieren 7 bzw. 9 Reaktionen. 483 Reaktionen gehören zu einem Pfad, 99 Reaktionen gehören zu mehreren Pfaden. Ouzonis, Karp, Genome Research 10, 568 (2000)

232 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik232 Fazit Stoffwechsel-Netzwerke von einfachen Organismen sind mittlerweile fast vollständig bekannt. Ist die Beschreibung mit einzelnen Stoffwechsel-Wegen adäquat? - Reaktionen, Enzyme und Substrate gehören oft zu mehreren Pfaden. - Die Einteilung in einzelne Stoffwechsel-Pfade ist nicht immer eindeutig.

233 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik233 Metabolische Pfade in der post-genomischen Ära (a) klassische Biochemie bestimmt Stöchiometrien einzelner Reaktionen (b) Katalogisierung vieler Reaktionen, Gruppierung nach gemeinsamen Metaboliten führt zu traditionellen Pfaden wie Glykolyse, Pentose-Phosphat- Pfad (c) Durch komplette Information können nun die kompletten metabolischen Pfade zugeordnet werden.

234 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik234 Metabolische Pfade in der post-genomischen Ära Traditionelle metabolische Pfade dienen als konzeptioneller Rahmen für Forschung und Lehre. Man kann dadurch Metabolismen verschiedener Organismen vergleichen. Jedoch sind sie nicht für quantitative, systemische Bewertungen biologischer Reaktionsnetzwerke geeignet, da sie nur Teile der Netzwerke darstellen. Sie wurden oft in Zelltypen entdeckt, in denen sie wichtige metabolische Funktionen übernehmen (z.G. Glykolyse in Hefe). Man kann diese Pfade jedoch nicht einfach auf andere Zelltypen mit anderen Enzymleveln und metabolischen Profilen übertragen.

235 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik235 3 Vorgehensweisen 1konstruiere alle Transformationswege, die von einem gegebenen Substrat zu einem gegebenen Produkt führen 2verwende Satz von linear (systemisch) unabhängigen Basisvektoren im Raum der Reaktionsflüsse, durch Linearkombination sollen sich alle möglichen Flußverteilungen darstellen lassen. Allerdings ist die Wahl dieser Basisvektoren nicht eindeutig. 3Konzept der elementaren (Fluss-) Moden Eine Elementarmode ist ein minimaler Satz von Enzymen, die im Gleichgewicht operieren können. Minimal heisst: falls nur die Enzyme dieser Mode operieren, führt Inhibition jedes einzelnen seiner Enzyms zum Stop aller Gleichgewichtsflüsse im System

236 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik236 Beschreibung vernetzter metabolischer Pfade (a) aus genomischen, biochemischen, physiologischen Daten wird ein Reaktionsnetzwerk aufgestellt. Es gibt interne Flüsse innerhalb der Systemgrenzen und externe Flüsse mit der Umgebung. (b) Dieses Netzwerk wird durch eine stöchiometrische Matrix dargestellt, in der Metaboliten durch Reaktionen miteinander verbunden werden. (c) Mögliche Zustände der Zelle aufgrund dieser Matrix werden mit Techniken wie elementary modes oder extreme pathways identifiziert. Die möglichen Zustände liegen innerhalb eines Konus im durch die verschiedenen Flüsse aufgespannten Koordinatensystem. Papin et al. TIBS 28, 250 (2003)

237 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik237 Analyse der stöchiometrischen Matrix Analyse der Matrix S Pathway-Darstellung P. Deren Zeilen enthalten den Reaktionen entsprechende Flüsse und die Spalten die sich ergebenden Pfade. Darstellung des Reaktions- netzwerks mit stöchiometrischer Matrix S. Metabolite stöchiometrische Koeffizienten der einzelnen Reaktionen. Darstellung der Pfade ist möglich für einfache Netzwerke. Papin et al. TIBS 28, 250 (2003)

238 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik238 Netzwerk-Analyse (a) welche Substrate (A-E) sind zur Produktion der Biomasse erforderlich (B,E), welche nicht? (b) Aufspüren von nicht genutzten Reaktionen (F E), Refinement der Annotation von Genomen. (c) quantitative Beschreibung von Pathway-Redundanz bzw. Robustheit des Netzwerks: P 1 und P 2 führen beide von A nach D. (d) Reaktionen R A, R B und R C werden stets gemeinsam benutzt. Ihre Gene werden daher vermutlich koordiniert reguliert. Papin et al. TIBS 28, 250 (2003)

239 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik239 E-cell: Software Umgebung zur Simulation ganzer Zellen Institute for Advanced Biosciences der Keio University (existiert seit 1996) Dr. Masaru Tomita, Team enthält > 50 Mitglieder! weitere Programme für integrative Zellsimulationen: GEPASI (1993, 1997) – Simulation von Stoffwechselpfaden KINSIM (1983, 1997) METAMODEL (1991) SCAMP (1993) DBSolve (1997) V-Cell (1999) es gibt auch separate Programme, mit denen man Genregulation und –expression, sowie Signaltransduktion und Zellteilung untersuchen kann. Das allgemeine Problem sind fehlende experimentelle Daten.

240 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik240 Implementation des E-cell Systems E-CELL wurde in C++ geschrieben, existiert nun in der Version 3. Das Modell besteht aus 3 Listen, die bei Programmstart geladen werden: substance list definiert alle Objekte, die die Zelle und das Kulturmedium enthalten rule list definiert alle Reaktionen, die in der Zelle stattfinden system list definiert die räumliche und/oder funktionelle Struktur der Zelle und ihrer Umgebung Der Zustand der Zelle zu jedem Zeitpunkt wird als Liste von Konzentrationen und globalen Parametern wie Zellvolumen, pH und Temperatur angegeben. Das Programm (simulation engine) erzeugt neue Zustände der Zelle nach Iterationsschritten von jeweils z.B. t = 1 ms.

241 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik241 Erstes Modellsystem: Mycoplasma genitalium 1996 Veröffentlichung des Genoms von Mycoplasma genitalium Dies ist eines der kleinsten bisher bekannten Genome (580 kb). Es enthält die kleinste bisher bekannte Anzahl von Genen (ca. 480) von allen bisher bekannten lebenden Organismen. Genom ist 10 kleiner als E.coli ca. 80% der Gene sind homolog zu Proteinen mit bekannter Funktion. Intensive Gene-Knockout Untersuchungen zeigten, dass viele der 480 Gene für das Überleben von M. genitalium nicht notwendig sind. Es wurde ein minimaler Satz von 127 Genen als notwendig und hinreichend für das Überleben und einen stabilen Zustand der Zelle ausgewählt.

242 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik242 Large-scale Organisation von metabolischen Netzwerken Modell einer Zelle, die aus eigener Kraft lebt. Diese minimale Zelle besitzt 127 Gene, gerade ausreichend um Proteingehalt und Membranstruktur aufrecht zu erhalten. Glukose wird aus der Umgebung als Energiequelle aufgenommen; ATP wird durch den Glykolyse-Pfad produziert und wird hauptsächlich zur Proteinsynthese verbraucht. Proteine und Phospholipide werden mit der Zeit spontan abgebaut.

243 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik243 Ausblick Zusätzlich zu der virtuellen, überlebensfähigen Zelle und zum Modell des menschlichen Erythrozyten werden in Keio andere Modelle konstruiert: - ein Modell eines Mitochondriums - ein Signaltransduktionsmodell für Chemotaxis in E.coli Ein allgemeines Problem von umfangreichen Zellmodellen ist derzeit der Mangel an quantitativen experimentellen Daten: - Konzentrationen von Metaboliten und Enzymen - Flussraten - kinetische Parameter und Dissoziationskonstanten Das Institute of Advanced Biosciences in Keio besteht aus 3 Zentren: Metabolom-Forschung, Bioinformatik, Genom-Engineering. Ziel: Entwicklung von custom-made Bakterien.

244 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik244 V11 Zellsimulationen Nerven-Verbindung (synaptischer Spalt). Nach seiner Auschüttung bindet der Neurotransmitter Acetylcholin (hellblaue Kugeln) an die Acetylcholinrezeptoren (tassenförmige Objekte) und an Acetylcholinesterase. Doppelt besetzte Rezeptoren (gelb) leiten Strom, der eine Kaskade von Vorgängen einleitet, die zur Kontraktion des Muskelstrangs führen. Diese und nächste Stunde werden 3 Simulationspakete behandelt, E-cell, Virtual Cell, Mcell, die 3 verschiedene Paradigmen für Zellsimulationen verkörpern - ODE = gewöhnliche Differentialgleichungen, enthalten /t grösseres- PDE = partielle Differentialgleichungen, enthalten /t und /r Detail- explizite Simulation der Brownschen Bewegungen einzelner Moleküle - Projekte unserer Arbeitsgruppe

245 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik245 Virtual Cell: Software-Umgebung für computerunterstützte Zellbiologie Prof. Leslie Loew, University of Conneticut Health Center National Resource for Cell Analysis and Modeling Virtual Cell - wurde für die Zellbiologie-Community entwickelt - ermöglicht die Konstruktion räumlicher Modelle - Verbindung zur quantiativen Lichtmikroskopie an lebenden Zellen - Kann man auf der Basis des komplexen räumlichen und zeitlichen Zusammen- spiels der Zellkomponenten ein quantitatives Verständnis des gesamten zellulären Verhaltens entwickeln? - Sind die identifizierten Komponenten notwendig und hinreichend? - Wie sensitiv reagiert der Gesamtprozess auf Veränderungen einer Komponente? (Zellen sind robust). - Die Simulationen werden über das Internet auf einem 16-Prozessor cluster mit Alpha-Prozessoren durchgeführt.

246 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik246 Design einer Virtuellen Zelle Die `Physiologie' beinhaltet die topologische Anordnung von Kompartments und Membranen, die mit ihnen assoziierten Moleküle, und die Reaktionen zwischen den Molekülen. Die getrennt definierte `Geometrie ist eine räumliche Beschreibung der Kompartments in 0-3 Dimensionen. Sie kann aus analytischen Ausdrücken bestehen oder aus einem experimentellen Bild abgeleitet werden, das z.B. von einem Mikroskop stammt. Das eigentliche Modell besteht aus der Verbindung der Topologie der physiologischen Beschreibung mit einer geeigneten räumlichen Geometrie.

247 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik247 Virtual cell: graphische Benutzerschnittstelle (GUI) Das GUI von Virtual Cell ist als JAVA applet innerhalb eines Webbrowsers entwickelt. Hier sieht man, wie eine Zelltopologie einer bestimmten experimentellen Geometrie zugeordnet wird.

248 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik248 Einzelschritte bei Erstellung von BioModellen Structure Mapping – definiert die Beziehung zwischen der Physiologie (zelluläre Strukturen) und der Geometrie des Modells. Bestimme das Verhältnis von Oberfläche zu Volumen für die Modelle der Kompartments oder für nicht aufgelöste räumliche Strukturen. Bilde die zellulären Strukturen auf geometrische Objekte ab. Wähle zwischen unterschiedlichen Randbedingungen (Wert bzw. Ableitung am Rand = Dirichlet bzw. Neumann) für die Strukturen. Anfangsbedingungen – Konzentrationen und Diffusionsraten können räumlich variable definiert werden. Wähle Anfangsbedingungen für Diffusion 0. Reaction Mapping – erlaube oder verbiete Reaktionen bzw. Flüsse. Math Viewer – prüfe die mathematische Beschreibung, die vom Programm automatisch für die Abbildung des physiologischen Modells auf ein Kompartment-Modell oder auf ein räumliches Modell erstellt wird.

249 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik249 Virtual cell: Ausblick aktuelle Version: - ermöglicht Simulation von Reaktions-Diffusionsprozessen in beliebigen Geometrien. Anpassung notwendig für Probleme, die Änderungen der Geometrie erfordern (Zellwanderung, Zellteilung). -behandelt nur bestimmte Sorten von stochastischen Prozessen: Brownsche Bewegung, gerichtete Teilchenbewegung entlang von Mikrotubuli, Reaktion einzelner Teilchen mit kontinuierlich verteilten Molekülen. - wenn die Anzahl an wechselwirkenden Molekülen zu klein wird, braucht man statt der stochastischen Beschreibung Reaktionen zwischen diskreten Molekülen. - Behandlung diskreter Zustände ist auch erforderlich zur Modellierung der Ströme von einzelnen Ionenkanälen und deren räumlicher Verteilung.

250 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik250 M-cell: Allgemeine Monte–Carlo Simulation von zellulären Mikrophysiologien Thomas M. Bartol Jr. Joel R. Stiles Computational Neurobiology Laboratory Biomedical Applications (T. Sejnowski), Salk Institute, San Diego Pittsburgh Supercomputing Center Ziel: quantitatives, molekulares Verständnis der Nervenfortleitung, Funktion von Nervengasen, Modulatoren, oder Autoimmunerkrankungen.

251 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik251 MCell: Idee + Motivation MCell ermöglicht 3-D Monte–Carlo Simulationen für Ligandendiffusion und chemische Signalprozesse. Biologische Strukturen wie Neuronen zeigen auf der subzellulären Ebene eine enorme Komplexität und Diversität. Die inter- und intrazelluläre Kommunikation geschieht mittels verschiedener chemischer Signalpfade. Am Prozess der synaptischen Transmission sind z.B. Neurotransmitter und Neuromodulatoren beteiligt. Ebenfalls beteiligt sind Proteine, die die Auffüllung und Entleerung der synaptischen Vesikel mit Neurotransmitter-Molekülen beeinflussen, Rezeptorproteine, Transportproteine, sowie oxidierende und hydrolytische Enzyme. Mit Mcell kann man alle diese Parameter in beliebig komplexen räumlichen Darstellungen der beteiligten zellulären Strukturen darstellen und variieren. Anfangsbedingung: Eine Monte–Carlo Simulation beginnt damit, dass die Zellumgebung mit einzelnen Liganden und Liganden-bindenden Molekülen angefüllt wird.

252 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik252 Warum soll man Monte Carlo Algorithmen benutzen? 1. löse PDEs zwischen Voxels Die Diffusion von Ligandenmolekülen in Lösung basiert auf Brownscher Bewegung. Der mittlere Netto-Fluss aus einer Region des Raums in eine andere hängt von der Mobilität der Moleküle und dem räumlichen Konzentrationsunterschied der beiden Regionen ab. Eine Methode, den räumlichen Gradienten zu berechnen, ist, den Raum in kleine, üblicherweise kubische Volumenelemente (Voxels) aufzuteilen, innerhalb derer man gute Mischung annimmt, und dann mittels eindimensionaler partieller Differentialgleichungen den mittleren Fluss durch die Verbindungsfläche zwischen angrenzenden Voxeln zu berechnen. Sofern die Granularität der räumlichen und zeitlichen Unterteilung fein genug ist, wird eine numerische Simulation das korrekte mittlere Verhalten des Systems erzeugen.

253 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik253 löse PDEs innerhalb von Voxels Man kann weitere PDEs hinzufügen um die mittlere Raten chemischer Raten Reaktionen innerhalb jedes Voxels zu beschreiben. Man erhält damit eine Simulation des räumlichen und zeitlichen Diffusionsverhaltens und der chemischen Reaktionen. Für einfache räumliche Anordnungen kann diese Methode sehr effizient sein. Für komplexe (d.h. realistische) Structuren werden die räumlichen Unterteilungen immer komplexer und eine grosse Anzahl an Voxeln ist erforderlich. Auf jeden Fall liefert die Simulation keine direkten Informationen über die stochastischen Schwankungen, die auf der endlichen Anzahl an beteiligten Molekülen beruhen. Diese sind in biologischen Systemen jedoch oft von grossem Interesse.

254 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik völlig andere Methode: Random walk Direkte Beschreibung der Brownschen Bewegung der einzelnen Ligandenmoleküle. Durch Verwendung von Zufallszahlen werden bei jedem Zeitschritt beliebige erlaubte Richtungen und Verschiebungen ausgewählt. Indem die Zeitschritte und Verschiebungen deutlich kleiner als die Teilchengröße gehalten werden, erreicht man eine hohe numerische Genauigkeit. Kollisionen mit beliebigen Oberflächen werden entdeckt und gemäss von Regeln behandelt (Bindung, Transport, Reflexion etc.). Voxel sind unnötig. Gleichsam werden Kollisionen mit möglichen Bindungsstellen entdeckt und behandelt. Für die Ausbildung von Bindungen werden Bindungswahrscheinlich- keiten festgelegt. Die momentane Entscheidung wird durch eine Zufallszahl bestimmt. Alle möglichen Vorgänge werden auf einer Molekül-für-Molekül Basis betrachtet. Dadurch enthält die Simulation realistische stochastische Schwankungen in Abhängigkeit von der räumlichen Verteilung und der Anzahl an Molekülen.

255 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik255 Typische Vorgänge während einer MCell-Simulation -Freisetzung von Ligandenmolekülen aus einer Struktur (z.B. einem Vesikel) -Erzeugung oder Vernichtung von Ligandenmolekülen (z.B. Synthese, Hydrolyse, oder Redox-Reaktionen) -Diffusion der Liganden innerhalb des Raums zwischen beliebigen Oberflächen (z.B. prä- und postsynaptische Membranen) -chemische Reaktionen von Ligandenmolekülen mit Effektormolekülen (z.B. Rezeptoren oder Enzyme)

256 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik256 MCell: biologische Skala Der Level an Detail von MCell Simulationen liegt zwischen denen von atomistischen Moleküldynamik-Simulationen und der Simulationen gesamter Zellen (Virtual Cell, E-cell). Die Diffusion einzelner Ligandenmoleküle wird als Brownsche Bewegung mit einem Random–Walk– Algorithmus simuliert. Mittlere Ratenkonstanten werden in Monte– Carlo–Wahrscheinlichkeiten für Reaktionen einzelner Moleküle pro Zeitschritt umgeformt. Damit können die Ligandenmoleküle stochastisch reagieren sobald sie an Rezeptoren, Enzyme oder Transporter gebunden sind.

257 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik257 Zusammenfassung Zellsimulationen sind im Kommen! Detaillierte, dreidimensionale Modelle sind notwendig, sobald Lokalisation z.B. an Membran stattfindet, und sobald wichtige Moleküle in kleinen Zahlen vorliegen. Schlagwort: Systems Biology. Messung von kinetischen Konstanten im Allgemeinen mühsam. Daher zunächst Konzentration auf Modellsysteme. Molekulare Simulationen können sehr aufwendig sein. Ein Volumen von 100 nm 3 enthält ca Proteine. 1 μm 3 enthält dagegen bereits ca Proteine. Bei Beschränkung auf Molekül-Konzentrationen kann dagegen fast in real time simuliert werden.

258 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik258 V12 Bioinformatik-Tools für HT Proteinanalyse traditionelle Ansätze: reduktionistisch; finde einzelne Gene und die kodierten Proteinprodukte, die einen beobachteten Phänotyp definieren. Oft werden hierdurch komplexe Systeme zu stark vereinfacht. Hoch-Durchsatzmethoden: parallele Untersuchung vieler gleichzeitiger Vorgänge omics-Welt: Genomics, Proteomics, Metabolomics, Transcriptomics...

259 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik259 Wie soll man das Proteom untersuchen? Proteomics zerfällt derzeit in 2 Bereiche Expression Proteomics - katalogisiere alle Proteine in einer Probe - differentielle Expression: Unterschied zwischen mehreren Proben Cell-map Proteomics - Protein-Protein Wechselwirkung - Protein-Liganden Wechselwirkung - zelluläre Lokalisation

260 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik260 Expressions-Proteomik Das zelluläre Proteom enthält ende von Proteinen, deren Konzentrationen mehr als 10 6 fach verschieden sind. Prof. Walter (UdS)

261 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik261 Technologien in Proteomics Separation von Proteinen - 2-D gel Elektrophorese - Flüssig-Chromatographie - Affinitäts-Chromatographie Annotation einzelner Proteine - Massenspektroskopie - kombinierte HPLC und MS - Protein-Quantifizierung mit MS Protein-Chips

262 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik262 Analytische versus funktionelle Protein-Microarrays (a) analytische Microarrays: beobachte Proteinexpression und klinische Diagnostik. Vergleiche Proteinproben zweier biologischer Zustände, wobei die Protein entweder mit einem grünen oder mit einem roten Farbstoff gelabelt werden. Wenn eine Farbe überwiegt, liegt das Protein vornehmlich in dem entsprechenden Zustand vor. Phizicky et al. Nature 422, 208 (2003) (b) funktionelle Microarrays: visualisieren Proteinaktivität, -bindung oder posttranslationelle Modifikationen. Auch geeignet um Substrat- oder Inhibitor- bindung an Enzyme zu messen und zur Konstruktion biologischer Netzwerke.

263 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik263 Phizicky et al. Nature 422, 208 (2003) Yeast Two-Hybrid Methoden (a) die DNA-bindende und die Aktivierungsdomänen (Kreise) sind an die Protein X und Y fusioniert. Genexpression des Reporters beginnt. (b) Standard-2YH-Suche von X gegen eine komplexe Bibliothek von zufälligen, mit Y fusionierten Peptid- Schnipseln. (c) 2YH-Array. Screene X gegen komplette Satz von ORFs.

264 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik264 Zweidimensionale Gelelektrophorese (2D PAGE) 2D Polyacrylamid-Gel für ein Biopsie- Probe mit menschlicher Leber. In x-Richtung – nichtlinearer pH- Gradient - geschieht eine Auftrennung nach dem isoelektrischen Punkt (bei welchem pH ist die Ladung des Proteins neutral?). In y-Richtung geschieht durch Variation des Anteils an Polyacrylamid eine Trennung nach der molekularen Masse. Problem: man kann nur Proteine visualisieren, die relativ häufig vorkommen. Banks et al. Lancet 356, 1749 (2000)

265 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik265 Annotation von 2D-Gelen: mühsam Banks et al. Lancet 356, 1749 (2000)

266 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik266 Fallstudie: Expressions-Proteomik Die Balken 1-6 stammen von Kardiomyopathie-diagnostizierten Rindern, 7-12 von gesunden Rindern sind Rinder, die selbst klinisch normal sind, aber von kranken Rindern abstammen (nur SPP 943 ist deutlich abgesenkt). Banks et al. Lancet 356, 1749 (2000) Proteine des Rinderherzen: welche Proteine sind im Herzen von Rindern mit einer vererbten Kardiomyopathie reduziert?

267 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik267 (Bio)informatische Aufgaben bei Analyse von 2D-Gelen Zwei Gele stimmen oft in Grösse, Kontrast, Auftrennung in x- und y-Richtung nicht überein. Darüberhinaus treten Unterschied als Folge der experimentellen Bedingungen auf. Der Vergleich zweier Gele erfordert daher oft Methoden der Bildbearbeitung, z.B. mit dem Programm Flicker Eine Laplace-Transformation verbessert die Übereinstimmung zwischen dem linken und rechten Gel erheblich in (b) gegenüber (a). Lemkin PF, Electrophoresis, 18, (1997)

268 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik268 Fraktionierung der Probe vor 2D PAGE-Analyse Hanash, Nature 422, 226 (2003) Oft gibt es das Problem, dass die Proteineigen- schaften über einen sehr grossen Bereich variieren. Lösung: konzentriere auf Teil der Proteine. z.B. (a) versehe die ansonsten schwer detek- tierbaren Proteine an der Membranoberfläche mit einem Biotin Anker (tag). Auftrennung in 2D-Gel. Erkenne die markierten Proteine mit Avidin. Identifikation mit MS. (b) Getrennte Visualisierung der markierten Proteine (oben) gegenüber der Darstellung des gesamten Zell-Lysats (unten). Dies erlaubte die Identifikation neuer Proteine auf der Oberfläche von Krebszellen.

269 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik269 Direkte Visualisierung der Protein-Verteilung mit MS Ein gefrorener Schnitt durch ein Rattengehirn wird mit einem MALDI MS-Gerät abgetastet. Hier: je 15 Spektren für Punkte, gleichzeitige Aufnahme aller Massen. Visualisiere den Schnitt getrennt für verschiedene Verhältnisse von Masse und Ladung (jeweils oben rechts gezeigt). z.B. ist die Proteindichte für m/z=6844 recht gering. Hanash, Nature 422, 226 (2003) Ziel: vergleiche gesundes und krankes Gewebe. Aufgabe: Bildverarbeitung

270 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik270 Proteomics mit Massenspektroskopie (MS) (1) Aufreinigung (SDS-PAGE). Banden ausschneiden. (2) Problem: Gesamtmasse eines Proteins ist nicht aussagekräftig. Daher Trypsin (Protease)-Verdau Peptidschnipsel unterschiedlicher Länge, diese sind charakteristisch für Protein. (3) MS-Analyse in Vakuum (4) Detektion der Massenintensität bei vorgegebenem Verhältnis von Masse m und Ladung z. (5) Weitere Auftrennung der einzelnen Peptidschnipsel in zweitem MS-Schritt. Teilweise Sequenzierung möglich. Aufgabe: Annotation des Proteins aus Sequenz-Datenbank. Tyers, Mann, Nature 422, 193 (2003)

271 13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik271 Sequenzdiversität in der Zelle: Analyse mit MS Organismus kodiert über das Genom viele Isoformen. Identifikation der Proteine durch Datenbanksuche um die Lücken der exp. Daten zu füllen. Sequenz-Datenbanken enthalten jedoch keine komplette Information über die natürlich auftretende Sequenzdiversität. Rappsilber, Mann, TIBS, 27, 74 (2002)


Herunterladen ppt "13. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik1 V13 Zusammenfassung (V1 – V12) Inhalt dieser Veranstaltung: Softwarewerkzeuge für ISequenzanalyse."

Ähnliche Präsentationen


Google-Anzeigen