Susanne Franssen1 The splits in the Neighborhood of a Tree A Classification of Consensus Methods for Phylogenetics Seminarvortrag zum Thema: „Aktuelle.

Susanne Franssen1 The splits in the Neighborhood of a Tree A Classification of Consensus Methods for Phylogenetics Seminarvortrag zum Thema: „Aktuelle Themen der Bioinformatik“ SS 2005

2 Übersicht: The splits in the Neighborhood of a Tree  Einleitung  Terminologie  Baum Metriken  Splits in den Nachbarschaften der vorgestellten Metriken A Classification of Consensus Methods for Phylogenetics  Einleitung  Terminologie  Vorstellung verschiedener Consensus Methoden  Klassifikation der vorgestellten Consensus Methoden  Subtrees & Supertrees

3 The Splits in the Neighborhood of a Tree - Einleitung Phylogenie: –Phylogenese ist die Stammesentwicklung der Lebewesen im Verlauf der Erdgeschichte Zentraler Bereich in der Phylogenie: –Rekonstruktion phylogenetischer Bäume anhand von gesammelten Daten verschiedener Organismen  Distanzbasierte Methoden (UPGMA, Neighbor-Joining)  Merkmalbasierte Methoden (Maximum Parsimony / Likelihood)

4 The Splits in the Neighborhood of a Tree - Einleitung Motivation zur Betrachtung lokaler Strukturen des Raumes aller Bäume: –Der Baum der eine gegebene Funktion optimiert wird über die Suche durch den Raum aller Bäume ermittelt Problem: –Der Raum aller möglichen phylogenetischen Bäume ist sehr komplex und wächst überexponentiell in der Anzahl der Blätter

5 The Splits in the Neighborhood of a Tree - Einleitung Vereinfachen der Suche im Raum aller Bäume  Dekomposition der Bäume in Sammlungen von Splits Vorteile: -Vereinfachung ermöglicht das Lösen von NP-harten Optimierungsproblemen im Raum aller Bäume in polynomieller Laufzeit -Erstellen effizienter Suchalgorithmen

6 The Splits in the Neighborhood of a Tree - Terminologie Ungewurzelter, binärer phylogenetischer X-Baum T X = {a,b,c,d,e} Σ(T) ist die Menge aller Splits des Baumes T Σ(T) = {{a}|{b,c,d,e}, {b}|{a,c,d,e}, {c}|{a,b,d,e}, {d}|{a,b,c,e}, {e}|{a,b,c,d}, {a,b}|{c,d,e}, {c,d}|{a,b,e}} Split A|B von X: Partition von X in zwei nichtleere Mengen A und B

7 The Splits in the Neighborhood of a Tree - Terminologie Splits aus Σ(T) für je zwei Splits A|B und C|D aus Σ(T) gilt:  mindestens eine der vier Schnittmengen A∩C, A∩D, B∩C, B∩D muss leer sein {a,b}|{c,d,e} Σ(T) {a,b,e}|{c,d} Σ(T) {a,c}|{b,d,e} Σ(T)

8 Robinson-Foulds Metrik (partition metric) Robinson-Foulds Distanz –d RF (T 1, T 2 ) = ½ | Σ(T 1 ) Δ Σ(T 2 ) | = ½ | Σ(T 1 ) - Σ(T 2 ) | + ½ | Σ(T 2 ) - Σ(T 1 ) | Erweiterung durch gewichtete Kanten –d w (T 1, T 2 ) = Σ A|B є Σ(T1) U Σ(T2) | w 1 (A|B) - w 2 (A|B) | The Splits in the Neighborhood of a Tree - Baummetriken d RF (T 1, T 2 ) = 1 -Σ(T 1 ) - Σ(T 2 ) = { {a,b}|{c,d} }Σ(T 2 ) - Σ(T 1 ) = { {a,c}|{b,d} }

9 Nearest Neighbor Interchange Metrik Nearest Neighbor Interchange (NNI) Für jeden binären X-Baum mit n Blättern gilt: –Es gibt genau 2(n-3) X-Bäume T i mit d RF (T, T i ) = 1 The Splits in the Neighborhood of a Tree - Baummetriken (n-3)  Anzahl der inneren Kanten im X-Baum 2  Anzahl möglicher Bäume durch ein NNI (durch ein NNI wird genau ein Split aus Σ(T) verändert)

10 Nearest Neighbor Interchange Metrik Für zwei beliebige binäre X-Bäume T 1 und T 2 gilt: –T 1 kann durch eine Folge von NNI in T 2 überführt werden Nearest Neighbor Distanz: d NNI (T 1, T 2 ) –Kleinstmögliche Anzahl von NNI, die benötigt wird einen Baum in den anderen zu überführen –Bestimmung von d NNI (T 1, T 2 ) ist NP-hart –d NNI (T 1, T 2 ) ≥ d RF (T 1, T 2 ) a)ein NNI kann d RF (T 1, T 2 ) höchstens um eins verringern b)Es wird ein NNI durchgeführt, der einen nicht in Σ(T 2 ) enthaltenen Split in einen Split verwandelt, der ebenfalls nicht in Σ(T 2 ) enthalten ist The Splits in the Neighborhood of a Tree - Baummetriken

11 The Splits in the Neighborhood of a Tree - Baummetriken Beispiel zu b) d RF (T 1, T 2 ) = 2 d NNI (T 1, T 2 ) = 3

12 The Splits in the Neighborhood of a Tree - Baummetriken Subtree Prune and Regraft Metrik (SPR) Entferne Kante {u,v}  zwei Teilbäume T u und T v Wahl beliebiger Kante aus T v  Einfügen eines neuen Knotens w Einfügen einer neuen Kante zwischen u und w, unterdrücken aller Kanten mit nur zwei adjazenten Kanten

13 The Splits in the Neighborhood of a Tree - Baummetriken Subtree Prune and Regraft Metrik (SPR) Subtree Prune and Regraft Distanz: d SPR (T 1, T 2 ) –Kleinstmögliche Anzahl von SPR, die benötigt wird einen Baum in den anderen zu überführen –Bestimmung von d SPR (T 1, T 2 ) ist NP-hart ?! –d SPR (T 1, T 2 ) ≤ d NNI (T 1, T 2 )

14 The Splits in the Neighborhood of a Tree - Baummetriken Tree Bisection Reconnection Metrik (TBR)

15 The Splits in the Neighborhood of a Tree - Baummetriken Tree Bisection Reconnection Metrik (TBR) Tree Bisection Reconnection Distanz: d TBR (T 1, T 2 ) –Kleinstmögliche Anzahl von TBR, die benötigt wird einen Baum in den anderen zu überführen –Bestimmung von d TBR (T 1, T 2 ) ist NP-hart –d TBR (T 1, T 2 ) ≤ d SPR (T 1, T 2 )

16 The Splits in the Neighborhood of a Tree - Terminologie Bäume und Splits in der Nachbarschaft des Baumes T r-Nachbarschaft von T: –N d (T,r) = {T’ UB(X) | d(T, T’) ≤ r} –mit UB(X) = Menge aller X-Bäume Split Nachbarschaft von T: –Menge aller Splits, die in mind. einem Baum aus der r-Nachbarschaft von T vorkommen –S d (T,r) = T’є Nd(T,r) Σ(T’)

17 The Splits in the Neighborhood of a Tree – Splits in the RF Neighborhood T ein binärer X-Baum,A|B ein Split von X –A|B Σ(T)  A|B ist paarweise kompatibel mit jedem Split in Σ(T) –A|B Σ(T)  A|B ist paarweise inkompatibel mit einigen Splits in Σ(T) Diese Splits stehen im Konflikt mit A|B.  „conflicting splits“ Die Kanten, die diese Splits verbinden, bezeichnen wir als mit A|B im Konflikt stehende Kanten von T.  „conflicting edges“ Splits in der RF Neighborhood

18 The Splits in the Neighborhood of a Tree – Splits in the RF Neighborhood Beispiel: conflicting Splits A|B Σ(T) mit A = {a,b,c} und B = {d,e,f} Σ(T) = { …{a,b}|{c,d,e,f}, {a,b,f}|{c,d,e}, {a,b,e,f}|{c,d}}

19 The Splits in the Neighborhood of a Tree – Splits in the RF Neighborhood Lemma 3.1.: –Sei ein T binärer X-Baum und A|B ein Split von X, dann gilt: Die mit A|B im Konflikt stehenden Kanten von T bilden einen verbundenen Subgraph. Beweis: –e 1 und e k sind zwei conflicting edges –e 1,, e 2, … e k sind die Kanten auf dem Weg von e 1 nach e k –Wir zeigen, dass die Kanten e 2,, e 3, … e k-1 auch „conflicting“ sind.

20 The Splits in the Neighborhood of a Tree – Splits in the RF Neighborhood Beweis: –Für i = 1, 2, …, k X i |Y i sei der Split, der durch e i verbunden wird mit X 1 c X 2 c … c X k  Y k c Y k-1 c … c Y 1 –X 1 |Y 1 und A|B sind inkompatibel  es existiert: a X 1 ∩A und b X 1 ∩B –Analog  es existiert: a‘ Y k ∩A und b‘ Y k ∩B für alle i = 1, 2, …, k existiert: a X i ∩A, b X i ∩B, a‘ X i ∩A, b‘ X i ∩B –A|B ist inkompatibel mit X i |Y i

21 The Splits in the Neighborhood of a Tree – Splits in the RF Neighborhood Verdeutlichung der Beweisidee an einem Beispiel {a,c}|{b,d,e,f} Σ(T)

22 The Splits in the Neighborhood of a Tree – Splits in the RF Neighborhood Konstruktive Beschreibung aller Splits – die jeweils mit genau allen Kanten eines geg. zusammenhängenden Subgraphen in Konflikt stehen ∏(E‘) = A 1 | A 2 | … | A k Die Partition von X geg. durch T – V‘ (V‘ die inzidenten Knoten zu allen Kanten in E‘) zwei Blöcke A i, A j sind adjazent, wenn sie in der gleichen Komponente von T – E‘ enthalten sind

23 The Splits in the Neighborhood of a Tree – Splits in the RF Neighborhood Bilde alle möglichen Splitkombinationen aus den Blöcken A i –Einschränkung: adjzente Blöcke dürfen nicht in der gleichen Menge (A bzw. B) des Splits A|B vorkommen ∏(E‘) = A 1 | A 2 | A 3 | A 4 | A 5 | A 6 | A 7 Adjazente Blöcke: {A 1, A 2 }, {A 3, A 4 }, {A 6, A 7 } Anzahl der conflicting Splits:  2 a+b / 2 a = # adjazenter Blöcke b = # der Blöcke, zu denen es keinen adjazenten Block gibt

24 The Splits in the Neighborhood of a Tree – Splits in the RF Neighborhood Theorem 3.3.: –Sei T ein binärer X-Baum. Ein Split A|B ist genau dann in S RF (T,r), wenn er mit höchstens r Kanten im Konflikt steht. Beweis: –Annahme: A|B Σ(T‘) und d RF (T, T‘) ≤ r  es gibt höchstens r Splits in Σ(T) – Σ(T‘), da A|B mit allen Splits aus Σ(T‘) kompatibel ist folgt: A|B ist kompatibel mit allen Splits aus Σ(T) mit Ausnahme von höchstens r vielen.

25 The Splits in the Neighborhood of a Tree – Splits in the RF Neighborhood Beweis: –Annahme: A|B steht höchstens mit r Kanten von T im Konflikt. S ist die zugehörige Menge von conflicting Splits. |S| ≤ r  (Σ(T) – S) {A|B} ist kompatibel  es gibt einen binären X-Baum, der die Splits (Σ(T) – S) {A|B} enthält, daher ist d RF (T, T‘) ≤ r

26 The Splits in the Neighborhood of a Tree – Splits in the RF Neighborhood Whitney number eines Baumes: –Ť ist der Subgraph von T bestehend aus allen inneren Kanten und Knoten –k-subtree von Ť: ein verbundener Subgraph von Ť mit k Knoten (k-1 Kanten) –Whitney number  # aller möglichen k-subtrees von Ť von einem festen Baum T

27 The Splits in the Neighborhood of a Tree – Splits in the RF Neighborhood Catalan Zahlen: –C n = 1/(n+1) * (2n)! / (2n!) –# geordneter (Unterscheidung linker und rechter Sohn), binärer Bäume mit n Knoten –1, 2, 5, 14, 42, 132, …

28 The Splits in the Neighborhood of a Tree – Splits in the RF Neighborhood Lemma 3.4.: –Sei T ein binärer X-Baum. Die # von k-subtrees von Ť beträgt O(nC k ), mit n = |X| und C k ist die k-te Catalan Zahl. Beweis: –Wahl eines beliebigen Blattes aus Ť. Alle Kanten aus Ť erhalten eine Orientierung, die von diesem Knoten weggerichtet ist. –Für jeden der n – 2 inneren Knoten v gilt: die # der k-subtrees mit Wurzel v ist durch C k beschränkt.  (n – 2)C k ist die obere Schranke für die # an k-subtrees

29 The Splits in the Neighborhood of a Tree – Splits in the RF Neighborhood Verdeutlichung der Beweisidee an einem Beispiel –Ť n – 2 innere Knoten Von jedem dieser Knoten gehen max. C k viele k-subtrees aus. Auf diese Weise werden alle k-subtrees betrachtet

30 The Splits in the Neighborhood of a Tree – Splits in the RF Neighborhood Sei T ein binärer X-Baum. Zu Theorem 3.3.: –Ein Split A|B ist genau dann in S RF (T,r), wenn er mit höchstens r Kanten im Konflikt steht. Zu Lemma 3.4.: –Die # von k-subtrees von Ť beträgt O(nC k ), mit n = |X| und C k ist die k-te Catalan Zahl. Korollar 3.5.: –Die Anzahl der Splits in S RF (T,r) ist linear in n für ein festes r.

31 The Splits in the Neighborhood of a Tree – Splits in the NNI Neighborhood Splits in der NNI Neighborhood –d RF (T 1, T 2 ) ≤ d NNI (T 1, T 2 )  S NNI (T,r) _ S RF (T,r) –Die Anzahl der Splits in der NNI Nachbarschaft ist linear in der Anzahl der Blätter für ein festes r. Conflicting vertex: –Sei v ein innerer Knoten eines binären X-Baumes. –v ist ein mit A|B im Konflikt stehender Knoten, wenn alle zu v inzidenten Kanten mit A|B im Konflikt stehen.

32 The Splits in the Neighborhood of a Tree – Splits in the NNI Neighborhood Theorem 4.1.: –Sei T ein binärer X-Baum, A|B ein Split von X und E‘, V‘ die Kanten bzw. Knoten, die mit A|B im Konflikt stehen. A|B ist in S NNI (T,r) genau wenn |E‘|+|V‘| ≤ r. Beweis: –Annahme: A|B Σ(T‘) und d NNI (T,T‘) = s ≤ r –Es gibt eine Folge von X-Bäumen T 0 bis T s mit T‘ = T 0, T = T s so dass für alle i = 0,1,…,s gilt: T i+1 unterscheidet sich von T i durch ein NNI

33 The Splits in the Neighborhood of a Tree – Splits in the NNI Neighborhood Beweis: –Behauptung: für alle i gilt |E‘ i |+ |V‘ i | ≤ i, was |E‘|+|V‘| = |E s ‘|+ |V s ‘| = s ≤ r impliziert –Beweis über Induktion: Anker für i = 0  |E‘ 0 |+ |V‘ 0 | ≤ 0, da T 0 = T‘ und A|B Σ(T‘) –Die Behauptung gilt für alle i ≤ j und T j+1 wird aus T j durch einen NNI um die Kante {u,v} erhalten. –Unterscheidung zweier Hauptfälle: Kante {u,v} ist noch nicht conflicting Kante {u,v} ist bereits conflicting

34 The Splits in the Neighborhood of a Tree – Splits in the NNI Neighborhood Kante {u,v} ist noch nicht im Konflikt mit A|B -Die # der zu A|B im Konflikt stehenden Kanten wird um eins erhöht. -Die # der „conflicting vertices“ bleibt unverändert.

35 The Splits in the Neighborhood of a Tree – Splits in the NNI Neighborhood Kante {u,v} steht bereits im Konflikt mit A|B -Die # der zu A|B im Konflikt stehenden Kanten bleibt unverändert. -Die # der „conflicting vertices“ kann um höchstens eins erhöht werden.

36 The Splits in the Neighborhood of a Tree – Splits in the NNI Neighborhood –Daraus folgt: |E‘ j+1 |+|V‘ j+1 | ≤ |E‘ j |+|V‘ j | + 1 ≤ j+1 –Das Ergebnis folgt durch Induktion. –Annahme: A|B steht im Konflikt mit E‘ und V‘ und es gilt |E‘|+|V‘| ≤ r –Wahl einer Kante {u,v} aus E‘, wobei u zu keiner weiteren Kante aus E‘ inzident ist. –Zwei Fälle: V ist ein conflicting vertex  ein conflicting vertex verschwindet V ist kein conflicting vertex  eine conflicting edge verschwindet –|E‘|+|V‘| -faches Wiederholen erzeugt einen Baum T‘, der A|B enthält mit d NNI (T,T‘).

37 The Splits in the Neighborhood of a Tree – Splits in the SPR & TBR Neighborhoods Splits in den SPR & TBR Neighborhoods –Jeder NNI ist ein SPR und jeder SPR ist ein TBR  d TBR (T 1, T 2 ) ≤ d SPR (T 1, T 2 ) ≤ d NNI (T 1, T 2 ) –Es folgt:  S NNI (T,r) _ S SPR (T,r) _ S TBR (T,r) Wir wollen zeigen, dass die Split Nachbarschaften von SPR und TBR identisch und beträchtlich größer sind als die NNI Nachbarschaft. –Erklärung der Gleichheit beider Nachbarschaften über die Parsimony Länge eines Charakters

38 The Splits in the Neighborhood of a Tree – Splits in the SPR & TBR Neighborhoods binary character –Funktion χ : X  {0,1} Parsimony Länge von χ‘ auf T bezeichnet als l T (χ) –Minimum von l‘ T (χ‘) über alle χ‘ von χ Die Länge von χ‘ bezeichnet als l‘ T (χ‘) –# von Kanten {u,v} mit χ‘(u) ≠ χ‘(v) Erweiterung von χ auf einen X-Baum –Funktion χ‘: V(T)  {0,1} –So dass die Restriktion von χ‘ auf X gleich χ ist.

39 The Splits in the Neighborhood of a Tree – Splits in the SPR & TBR Neighborhoods Lemma 5.1.: –T‘ unterscheidet sich von T durch eine TBR Operation. Für jeden Charakter χ gilt: l T‘ (χ) ≤ l T (χ)+1 Beweis: –… siehe Ausarbeitung Für jeden Split A|B von X soll gelten: –χ A|B (x) = 1falls x A 0sonst

40 The Splits in the Neighborhood of a Tree – Splits in the SPR & TBR Neighborhoods Theorem 5.2.: –Sei T ein binärer X-Baum und A|B ein Split von X. Die folgenden drei Aussagen sind äquivalent. 1)A|B S SPR (T,r) 2)A|B S TBR (T,r) 3)l T (χ A|B ) ≤ r+1 Ringbeweis: 1)  2) –Wir haben bereits gezeigt, dass S SPR (T,r) _ S TBR (T,r)

42 The Splits in the Neighborhood of a Tree – Splits in the SPR & TBR Neighborhoods 3) l T (χ A|B ) ≤ r+1  1) A|B S SPR (T,r) –l T (χ A|B ) ≤ s+1 ≤ r+1 –Wenn s = 0 folgt 1), da l T (χ A|B ) = 1  A|B Σ(T) –Für s > 0 sei χ‘ eine Erweiterung von χ A|B mit minimaler Länge: es gibt drei Knoten u,v,w mit {u,v} E(T), v liegt auf dem Weg von u nach w und χ‘(v) ≠ χ‘(u) = χ‘(w) –Durchführen eines SPR: Entfernen der Kante {u,v}, Einfügen eines neuen Knotens x an einer zu w adjazenten Kante, Hinzufügen der Kante {u,x}, Setzen von χ‘(x) = χ‘(u) –χ‘ des neuen Baumes hat nun Länge s –Nach s Durchläufen  T‘ mit A|B Σ(T‘) und d SPR (T, T‘) = s

43 The Splits in the Neighborhood of a Tree – Splits in the SPR & TBR Neighborhoods Exakte Formel für die # an Charakteren mit der Parsimony Länge k Zusammen mit Theorem 5.2. Ergibt sich daraus eine Formel für die # an Splits in S SPR (T,r) und S TBR (T,r) |S SPR (T,r)| = |S TBR (T,r)| = Σ 1≤k≤ r+1 [(n-k)!/(k!(n-2k)!) + (n-k-1)!/(k!(n-2k-1)!)] 2 k

44 Übersicht: The splits in the Neighborhood of a Tree  Einleitung  Terminologie  Baum Metriken  Splits in den Nachbarschaften der vorgestellten Metriken A Classification of Consensus Methods for Phylogenetics  Einleitung  Terminologie  Vorstellung verschiedener Consensus Methoden  Klassifikation der vorgestellten Consensus Methoden  Subtrees & Supertrees

45 A Classification of Consensus Methods for Phylogenetics - Einleitung Consensus Baum Methoden: –aus einer Sammlung von phylogenetischen Bäumen auf dem gleichen Taxaset wird ein einzelner „repräsentativer“ Baum, der Consensus Baum, erstellt Wie kann man Informationen von miteinander konkurrierenden Bäumen miteinander verbinden? –finden gemeinsamer Substrukturen und Wiedergabe im Ausgabebaum –Konfliktreiche Regionen werden ausgeschlossen

46 A Classification of Consensus Methods for Phylogenetics - Einleitung Nutzen und Missbrauch von Consensus Methoden: –Art der Interpretation ist zu beachten –Werkzeug zur Repräsentation –Werkzeug für phylogenetische Schlussfolgerungen  problematisch, die meisten Methoden stützen sich auf kombinatorische Eigenschaften  im Zusammenhang mit einer bestimmten Zielsetzung, einem Modell oder Paradigma Standard Consensus Methoden: –Bestimmen von Gemeinsamkeiten und Differenzen zwischen Eingabebäumen –verschiedene Zielsetzungen  verschiedene Consensus Methoden

47 A Classification of Consensus Methods for Phylogenetics - Terminologie Gewurzelter phylogenetischer Baum {a,b,c,d,e} ist die Menge aller Taxa von T Gruppe: eine Teilmenge der Menge aller Taxa Monophyletische Gruppen, Cluster eines Baumes T: alle Gruppen, die alle Nachkommen ihres jüngsten gemeinsamen Vorfahren enthalten Gewurzeltes Tripple z.B. bc|a, cd|e r(T) ist die Menge aller Tripple im Baum T

48 A Classification of Consensus Methods for Phylogenetics - Terminologie Kompatibilität von Gruppen: –Eine Sammlung von Gruppen C ist kompatibel, wenn es einen gewurzelten Baum T gibt, für den jede Gruppe ein Cluster von T bildet –Für jedes Cluster A und B in C gilt: A _ B oder B _ A oder A ∩ B = Ø Restriktion von T auf X: T| X –Jedes Cluster A aus T wird durch die Schnittmenge A ∩ X ersetzt Ein Baum T verfeinert einen Baum T‘ –Wenn jedes Clustern/Splits aus T‘ auch in T enthalten ist

49 A Classification of Consensus Methods for Phylogenetics – Consensus Methoden Übersicht von Consensus Methoden –Strict Consensus Tree –Majority Rule Tree –Loose Consensus Tree –Greedy Consensus Tree –Nelson Page & Asymmetric Median Consensus Tree –Adams Consensus Tree –Cluster Height Methods –Local Consensus Tree –Prune & Regraft Tree –Q * & R * Consensus Tree –Matrix Repräsentation mit Parsimony –Average Consensus Tree –Buneman Consensus Tree Basierend auf Splits & Clustern Cluster Schnittmengen Methoden Basierend auf Teilbäumen Basierend auf Recoding

50 A Classification of Consensus Methods for Phylogenetics – Consensus Methoden Übersicht von Consensus Methoden Consensus Methoden basierend auf Splits/Clustern –Strict Consensus Tree –Majority Rule Tree –Loose Consensus Tree –Greedy Consensus Tree Cluster Schnittmengen Methoden –Adams Consensus Tree

51 A Classification of Consensus Methods for Phylogenetics – Consensus Methoden Consensus Methoden basierend auf Splits/Clustern Strict Consensus Tree –Enthält genau alle Splits/Cluster, die in je allen Eingabebäumen vorkommen –Beispiel: T = { ((a,(b,c)),d), (((a,b),c),d) }  ((a,b,c),d)

52 A Classification of Consensus Methods for Phylogenetics – Consensus Methoden Majority Rule Tree –Enthält genau die Splits/Cluster, die in mehr als der Hälfte der Eingabebäume vorkommen –Verfeinert den Strict Consensus Tree –Beispiel: T = { ((a,(b,c)),d), (((a,b),c),d), (((a,b),d),c) }  (((a,b),c),d) Strict Consensus

53 A Classification of Consensus Methods for Phylogenetics – Consensus Methoden Majority Rule Tree –ein Median Tree –Symmetrische Differenz Distanz d (T 1, T 2 ) = d RF (T 1, T 2 ) –Der Majority Rule Tree T von T = {T 1, … T k } minimiert d (T, T ) = Σ 1≤i ≤k d (T, T i )

54 A Classification of Consensus Methods for Phylogenetics – Consensus Methoden Loose Consensus Tree –Enthält genau alle Splits/Cluster, die mit jedem Baum aus T kompatibel sind –Verfeinert den Strict Consensus Tree –Beispiel: T = { ((a,b),(c,d)), ((a,b,c),d) }  ((a,b),c,d)

55 A Classification of Consensus Methods for Phylogenetics – Consensus Methoden Loose Consensus Tree –Wenn T nur aus binären Bäumen besteht, ist der Loose Consensus Tree identisch mit dem Strict Consensus Tree, da wenn ein Split/Cluster mit T kompatibel ist muss er/es in T enthalten sein –Können Splits/Cluster enthalten, die nur in einem der Eingabebäume enthalten sind –Sind kompatibel mit allen Eingabebäumen

56 A Classification of Consensus Methods for Phylogenetics – Consensus Methoden Greedy Consensus Tree –Erlaubt das Einfügen zusätzlicher Splits/Cluster in den Majority Rule Tree  PHYLIP und PAUP erlauben dies –Liste aller vorkommenden Splits/Cluster in der Reihenfolge ihrer Häufigkeiten (häufigste zu Beginn) –Schrittweiser Aufbau einer kompatiblen Menge an Splits/Cluster  Liste wird durchlaufen, jeder Splits/Cluster wird in S aufgenommen, wenn er mit allen in S enthaltenen Splits/Clustern kompatibel ist –Problem: Behandlung von Splits/Clustern die mit gleicher Häufigkeit vorkommen  willkürliche Auswahl

57 A Classification of Consensus Methods for Phylogenetics – Consensus Methoden Theorem 2.6.: –Die Greedy Selection Methode erzeugt einen Consensus Baum, der den Majority Rule Tree und den Loose Consensus Tree verfeinert. Beweis (für ungewurzelte Bäume): –Splits, die in mehr als der Hälfte der Eingabebäume enthalten sind, stehen in der ersten Hälfte der Liste; sie sind kompatibel und werden deshalb alle in S aufgenommen –Jeder Split A|B der mit allen Eingagebäumen kompatibel ist muss in S aufgenommen (es kann in keinem Baum einen Split geben, der mit A|B inkompatibel ist)

58 A Classification of Consensus Methods for Phylogenetics – Consensus Methoden Cluster Schnittmengen Methoden  nur für gewurzelte Bäume Adams Consensus Tree –Erste Consensus Methode für Bäume (1972) –П 1, П 2, … П k sind k Partitionen auf der Menge X –Partition П ist das Produkt dieser k Partitionen:  a, b X mit a ≠ b sind nur in dem gleichen Block von П enthalten, wenn sie das in allen П i (für alle i) sind Bsp: ab|cde, ac|bde  a|b|c|de –Maximale Cluster Partition von T: П(T) Partition, die die maximalen Cluster von T enthält

59 A Classification of Consensus Methods for Phylogenetics – Consensus Methoden Bildung durch rekursives Aufstellen von Partitionen П von T und Restriktionen der Bäume in T Procedure AdamsTree(T 1, … T k ) If T 1 enthält nur ein Blatt  return T 1 else erzeuge П( T ), das Produkt von П(T 1 ), … П(T k ) For jeder Block B von П( T ) do AdamsTree (T 1 | B, … T k | B ) Verbinde die Wurzeln dieser Bäume mit einem neuen Knoten v return diesen Baum end

60 A Classification of Consensus Methods for Phylogenetics – Consensus Methoden Beispiel: T 1 : (((a,b),c),d) T 2 : (((c,b),a),d) П(T 1 ) = abc|d П(T 2 ) = cba|d  П( T ) = abc|d Procedure AdamsTree(T 1, … T k ) If T 1 enthält nur ein Blatt  return T 1 else erzeuge П( T ), das Produkt von П(T 1 ), … (T k ) For jeder Block B von П( T ) do AdamsTree (T 1 | B, … T k | B ) Verbinde die Wurzeln dieser Bäume mit einem neuen Knoten v return diesen Baum end  ((a,b,c),d) T 1 | A : ((a,b),c) T 2 | A : ((c,b),a) П(T 1 | A ) = ab|c П(T 2 | A ) = cb|a  П( T | A ) = a|b|c

61 A Classification of Consensus Methods for Phylogenetics – Consensus Methoden Theorem 2.8.: –Sei T AD der Adams Consensus Tree für die Eingabebäume T = {T 1, … T k }. ∩ 1≤i≤k r(T i ) _ r(T AD ) _ 1≤i≤k r(T i ) Beweis: –… siehe Ausarbeitung

62 A Classification of Consensus Methods for Phylogenetics – Klassifikation Klassifikation der Consensus Methoden –Kriterium zur Klassifikation: Art des zusätzlichen Informationsgehalts im Vergleich zum Strict Consensus Tree

63 A Classification of Consensus Methods for Phylogenetics – Subtrees & Supertrees Subtrees & Supertrees –Bisherige Bedingungen: 1)Alle Eingabebäume haben das gleiche Taxaset 2)Der Consensus Baum ist auf dem gleichen Taxaset wie die Eingabebäume Subtrees –Im Ausgabebaum können bestimmte Taxa weggelassen werden –Agreement Subtree T für T = {T 1, … T k }: T = T i | X für alle i = 1, … k

64 A Classification of Consensus Methods for Phylogenetics – Subtrees & Supertrees Supertrees –Eingabebäume können verschiedene Taxasets beinhalten –Zur Analyse auf verschiedenen Datenmengen, die verschiedene Informationen (Taxa) enthalten –Zur Konstruktion großer Phylogenien –Einige Consensus Methoden wurden auf das Supertree Problem angepasst (Strict, Adams, …) –Wilkinson & Thorley haben eine Methode entwickelt, die über Teilmengen aus der Gesamtmenge von Taxa einen Supertree erzeugt.

65 Quellen Splits in the Neighborhood of a Tree, David Bryant, DIMACS Series in Discrete Mathematics and Theoretical Computer Science Aclassifikation of Consensus Methods for Phylogenetics, David Bryant, Annals of Combinatorics, 2003

Susanne Franssen1 The splits in the Neighborhood of a Tree A Classification of Consensus Methods for Phylogenetics Seminarvortrag zum Thema: „Aktuelle.

Ähnliche Präsentationen

Präsentation zum Thema: "Susanne Franssen1 The splits in the Neighborhood of a Tree A Classification of Consensus Methods for Phylogenetics Seminarvortrag zum Thema: „Aktuelle."— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback

Anmelden

Anmeldung über soziales Netzwerk:

Susanne Franssen1 The splits in the Neighborhood of a Tree A Classification of Consensus Methods for Phylogenetics Seminarvortrag zum Thema: „Aktuelle.

Ähnliche Präsentationen

Präsentation zum Thema: "Susanne Franssen1 The splits in the Neighborhood of a Tree A Classification of Consensus Methods for Phylogenetics Seminarvortrag zum Thema: „Aktuelle."— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback