Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Vortrag zum Seminar „Aktuelle Themen der Bioinformatik“ Identifying Conserved Gene Clusters in the Presence of Homology Families Von Florian Rörsch.

Ähnliche Präsentationen


Präsentation zum Thema: "Vortrag zum Seminar „Aktuelle Themen der Bioinformatik“ Identifying Conserved Gene Clusters in the Presence of Homology Families Von Florian Rörsch."—  Präsentation transkript:

1 Vortrag zum Seminar „Aktuelle Themen der Bioinformatik“ Identifying Conserved Gene Clusters in the Presence of Homology Families Von Florian Rörsch

2 Inhalt Einleitung Einleitung Vom Wolf zum Gen-Cluster Vom Wolf zum Gen-Cluster Wissenschaftlicher Nutzen Wissenschaftlicher Nutzen Modellbildung Modellbildung Der Algorithmus Der Algorithmus Laufzeit und Speicherplatzbedarf Laufzeit und Speicherplatzbedarf Ergebnisse mit realen Daten Ergebnisse mit realen Daten Interpretation der Ergebnisse Interpretation der Ergebnisse Eine Implementierung Eine Implementierung Statistische Signifikanz der Ergebnisse Statistische Signifikanz der Ergebnisse Themenverwandte Arbeiten Themenverwandte Arbeiten

3 Einleitung „Identifying Conserved Gene Clusters in the Presence of Homology Families “ „Identifying Conserved Gene Clusters in the Presence of Homology Families “ „ Conserve “ = Konservieren, erhalten, bewahren „ Conserve “ = Konservieren, erhalten, bewahren „ Gen Cluster “ = Haufen, Gruppierung „ Gen Cluster “ = Haufen, Gruppierung „ Homology Familie “ = Gruppe von Genen mit gleicher Abstammung / ähnlicher Funktion / ähnlicher Struktur „ Homology Familie “ = Gruppe von Genen mit gleicher Abstammung / ähnlicher Funktion / ähnlicher Struktur

4 Vom Wolf zum Gen-Cluster Was bringt Gen-Clustering im Gegensatz zur randomisierten Verteilung aus biologischer Sicht? Was bringt Gen-Clustering im Gegensatz zur randomisierten Verteilung aus biologischer Sicht?

5 Vom Wolf zum Gen-Cluster Was bringt Gen-Clustering im Gegensatz zur randomisierten Verteilung? Was bringt Gen-Clustering im Gegensatz zur randomisierten Verteilung? 1. -> Steigerung der Transkriptionsgeschwindigkeit -> Effizienzgewinn -> Evolutionärer Vorteil 2. -> Qualitätssicherung

6 Wissenschaftlicher Nutzen Rekonstruktion der evolutionären Geschichte Rekonstruktion der evolutionären Geschichte Erforschung der Frage, ob aus der Genposition die Genfunktion abgeleitet werden kann Erforschung der Frage, ob aus der Genposition die Genfunktion abgeleitet werden kann Wichtige Zielgruppen: Medizin, Pharmazie und Chemie Wichtige Zielgruppen: Medizin, Pharmazie und Chemie

7 Modellbildung Wahl der Gene eingeschränkt auf Homologe Wahl der Gene eingeschränkt auf Homologe -> unrelevante Genomabschnitte blasen die Algorithmenlaufzeit nicht unnötig auf -> Cluster werden auf Basis von Homologen Beziehungen gefunden

8 Modellbildung (1) Definition eines „ Chromosoms “: Definition eines „ Chromosoms “: C = (Σ, X) Σ = Set (Menge) von homologen Familien X = Geordnete Menge von Genen Definition eines „ Gens “: Definition eines „ Gens “: g = (p, f) p = Physikalische Position des Gens auf dem Chromosom f ( ∈ Σ) = Homologie-Familie, zu der das Gen gehört

9 Modellbildung (2) Definition einer „ Subsequenz “: Definition einer „ Subsequenz “: Gegeben C= (Σ, X), nennt man ein Paar (Σ(X‘), X‘), wobei X‘ ≤ X, eine Subsequenz Definition eines „ Subchromosoms “: Definition eines „ Subchromosoms “: C‘ = (Σ‘, X‘), falls X‘ eine fortlaufende Teilmenge von X ist Σ‘ = Teilmenge der homologen Familien X‘ = Teilmenge der Gene

10 Modellbildung (3) Definition von „ Benachbarten Genen “: Definition von „ Benachbarten Genen “: Gegeben: 2 Gene g i, g j und Parameter δ g i, g j heißen benachbart, wenn Δ(g i, g j ) 0 δ = Anzahl „unwichtiger“ Gene zwischen 2 „Interessanten“ = Gaps

11 Modellbildung (3) Definition von „ Benachbarten Genen “: Definition von „ Benachbarten Genen “: Gegeben: 2 Gene g i, g j und Parameter δ g i, g j heißen benachbart, wenn Δ(g i, g j ) ≤ δ, für einen Parameter δ > 0 δ = Anzahl „unwichtiger“ Gene zwischen 2 „Interessanten“ Definition eines „ δ-runs “: Definition eines „ δ-runs “: C‘ ist ein δ-run, wenn es in Bezug auf alle relevanten Gene eine maximale δ-Subsequenz ist

12 Modellbildung (4) Definition einer „ δ-chain “: Gegeben ein Chromosom C = (Σ, X), nennt man Σ‘ ⊆ Σ eine δ-chain, falls es eine δ-Subsequenz C‘ gibt, so dass Σ‘ = Σ(C‘) gilt. C‘ bezeugt dann eine solche δ-chain. Durch die Definition einer δ-chain wird versucht Abstand von der Definition eines Chromosoms durch Gene zu gewinnen und zu einer Definition des Chromosoms durch Homologe Familien zu gelangen.

13 Modellbildung (4) Definition einer „ δ-chain “: Gruppen von homologen Familien, bei denen die darunter liegenden Gene die Delta-Regel erfüllen. Durch die Definition einer δ-chain wird versucht Abstand von der Definition eines Chromosoms durch Gene zu gewinnen und zu einer Definition des Chromosoms durch Homologe Familien zu gelangen.

14 Modellbildung (4) Definition eines „ δ-sets “: Wenn Σ ein Set (Menge) von Homologen Familien für 2 (!!) Chromosome C und D ist, dann ist Σ‘ ⊆ Σ ein δ-set von C und D, wenn Σ‘ eine δ-chain von sowohl C, als auch D ist.

15 Modellbildung (4) Definition eines „ δ-sets “: Wenn Σ ein Set (Menge) von Homologen Familien für 2 (!!) Chromosome C und D ist, dann ist Σ‘ ⊆ Σ ein δ-set von C und D, wenn Σ‘ eine δ-chain von sowohl C, als auch D ist. Definition eines „ δ-teams “: Ein δ-team ist ein maximales δ-set.

16 Der Algorithmus (1) Eingabe: 2 Chromosomen C und D Eingabe: 2 Chromosomen C und D

17 Der Algorithmus (1) Eingabe: 2 Chromosomen C und D Eingabe: 2 Chromosomen C und D Daraus resultierend: Daraus resultierend: - Das Alphabet Σ (Die Menge der Homologie- Familien) - Die Anzahl der Gene beider Chromosomen - m (für C) und n (für D) genannt. Nur relevante Gene werden gelistet.

18 Der Algorithmus (2) FINDTEAMS(C,D) //Globale Daten initialisieren globaltime = 0 For each f in Σ stamp[f] = 0 tempmarkf] = 0 //Chromosom C in seine δ-runs zerlegen localtime = MARKCOMMONALPHABET(C,D) Crest = C repeat Cfirst = FINDFIRSTRUN(Crest,localtime) Crest = Crest – Cfirst FINDTEAMSRECURSE(B, Cfirst) until (Crest = Ø)

19 Der Algorithmus (3) MARKCOMMONALPHABET(A,B) globaltime = globaltime + 1 for each g in A sei f die Homologie-Familie von g tempmark[f] = globaltime For each g in B sei f die Homologie-Familie von g if tempmark[f] = globaltime then stamp[f] = globaltime Return globaltime

20 Der Algorithmus (4) FINDFIRSTRUN(A,timestamp) endrun = das 1. Gen in A mit stamp[f] >= timestamp nextgene = das Gen in A nach endrun while(nextgene wohldefiniert und Δ(endrun,nextgene) ≤ δ) do Sei f die Homologie-Familie von nextgene Sei f die Homologie-Familie von nextgene //Wenn nextgene in common family ist, erweitere den run //Wenn nextgene in common family ist, erweitere den run endrun = nextgene endrun = nextgene nextgene =das Gen in A nach nextgen nextgene =das Gen in A nach nextgen Return das Unterchromosom bis endrun (inklusive)

21 Der Algorithmus (5) FINDTEAMSRECURSE(A,B) localtime = MARKCOMMONALPHABET(A,B) Afirst = FINDFIRSTRUN(A,localtime) Arest = A - Afirst if Arest = Ø then REPORTTEAM(A,B)elserepeatFINDTEAMSRECURSE(B,Afirst) Afirst = FINDFIRSTRUN(Arest,localtime) Arest = Arest - Afirst until (Arest = Ø) FINDTEAMSRECURSE(B,Afirst)

22 Laufzeit und Speicherplatzbedarf Laufzeit: = O(n+m) Laufzeit: = O(n+m) Speicherplatzbedarf O(n+m) Speicherplatzbedarf O(n+m) Damit der Speicherplatz linear bleibt muss explizit darauf geachtet werden, dass die Subprobleme während den Rekursionen nicht mehrmals abgearbeitet werden Damit der Speicherplatz linear bleibt muss explizit darauf geachtet werden, dass die Subprobleme während den Rekursionen nicht mehrmals abgearbeitet werden Keine großen versteckten Faktoren Keine großen versteckten Faktoren Leider nicht sehr effizient bei Multigenomvergleichen Leider nicht sehr effizient bei Multigenomvergleichen

23 Ergebnisse mit realen Daten (1) - Datenwahl Versuch mit 2 prokaryotischen Genomen: E. Coli K12 und B. subtilis Versuch mit 2 prokaryotischen Genomen: E. Coli K12 und B. subtilis In Schritt 1 wurden die orthologen Beziehungen gesucht -> Datenbank (NCBI) In Schritt 1 wurden die orthologen Beziehungen gesucht -> Datenbank (NCBI) Die Proteine in den heruntergeladenen Dateien enthalten schon eine so genannten COG-Nummer Die Proteine in den heruntergeladenen Dateien enthalten schon eine so genannten COG-Nummer COG = Cluster of orthologues Groups = Homologie- Familie COG = Cluster of orthologues Groups = Homologie- Familie Die Datenbank enthält zur Zeit über 4800 COGs (identifiziert aus 43 kompletten Genomen) Die Datenbank enthält zur Zeit über 4800 COGs (identifiziert aus 43 kompletten Genomen) In Schritt 2 wurde der Algorithmus angewandt um alle δ-teams zu identifizieren In Schritt 2 wurde der Algorithmus angewandt um alle δ-teams zu identifizieren

24 Zeigt das prozentuale Verhältnis zwischen Genen, die zu einem COG gehören, allen Genen und solchen die zu einem COG gehören, welcher in beiden Genomen vorkommt Zeigt das prozentuale Verhältnis zwischen Genen, die zu einem COG gehören, allen Genen und solchen die zu einem COG gehören, welcher in beiden Genomen vorkommt Ergebnisse mit realen Daten (2) - Datenwahl

25 Ergebnisse mit realen Daten (3) - Datenwahl

26 Ergebnisse mit realen Daten (4) - Datenwahl Wahl des δ-Parameters nicht so einfach Wahl des δ-Parameters nicht so einfach Bei zu großer Wahl zu viele Falsch-Positive Bei zu großer Wahl zu viele Falsch-Positive Bei zu kleiner Wahl werden nicht alle Cluster gefunden Bei zu kleiner Wahl werden nicht alle Cluster gefunden

27 Ergebnisse mit realen Daten (5) - Datenwahl δ-Parameter wurde „gebenchmarkt“ δ-Parameter wurde „gebenchmarkt“  Bestimmung über 4 bekannte Cluster:  Bestimmung über 4 bekannte Cluster: Ribosomalen Protein Cluster Ribosomalen Protein Cluster ATP Synthase Operon ATP Synthase Operon Tryptophan Biosynthese Operon Tryptophan Biosynthese Operon ABC Ribose-Transport Operon ABC Ribose-Transport Operon Die meisten Cluster konnten bei δ = 1900 bp rekonstruiert werden (150 Stück) Die meisten Cluster konnten bei δ = 1900 bp rekonstruiert werden (150 Stück)

28 Ergebnisse mit realen Daten (5) Diese 150 identifizierten Teams (Cluster) wurden mit real bekannten Operonen (Cluster) verglichen Diese 150 identifizierten Teams (Cluster) wurden mit real bekannten Operonen (Cluster) verglichen Ribosomale Teams und Teams der Kardinalität 2 wurde nicht weiter betrachtet (biologisch uninteressant) Ribosomale Teams und Teams der Kardinalität 2 wurde nicht weiter betrachtet (biologisch uninteressant) Einteilung in 4 Gruppen: Einteilung in 4 Gruppen: Exakte Übereinstimmung mit einem bekannten Operon Exakte Übereinstimmung mit einem bekannten Operon Teilweise Übereinstimmung Teilweise Übereinstimmung Solche, die vorhergesagte Operone treffen Solche, die vorhergesagte Operone treffen Keine Übereinstimmung mit Operonen Keine Übereinstimmung mit Operonen

29 Interpretation der Ergebnisse Die 10 exakten Übereinstimmungen enthalten sehr zentrale Cluster (z.B. ATP Synthase) Die 10 exakten Übereinstimmungen enthalten sehr zentrale Cluster (z.B. ATP Synthase) Ergebnisse der 2. Gruppe interessant: Ergebnisse der 2. Gruppe interessant: 1. Möglichkeit: Fehlende oder falsche Zuordnungen von Genen zu COGs 1. Möglichkeit: Fehlende oder falsche Zuordnungen von Genen zu COGs 2. Möglichkeit: δ-Wert zu klein gewählt 2. Möglichkeit: δ-Wert zu klein gewählt 3. Möglichkeit: Einige Operone sind nicht in beiden Organismen konserviert 3. Möglichkeit: Einige Operone sind nicht in beiden Organismen konserviert 4. Möglichkeit: Zugeordnete Gene könnten noch nicht als zugehörig (zum Operon) entdeckt worden sein 4. Möglichkeit: Zugeordnete Gene könnten noch nicht als zugehörig (zum Operon) entdeckt worden sein

30 Eine Implementierung Vorstellung einer Implementierung des Algorithmus, umgesetzt durch Michael Goldwasser Vorstellung einer Implementierung des Algorithmus, umgesetzt durch Michael Goldwasser Verwendet C++ Verwendet C++ Kann frei über die Internetseite heruntergeladen werden Kann frei über die Internetseite heruntergeladen werden

31 Statistische Signifikanz der Ergebnisse Ziel: Ausschließen der Null-Hypothese Ziel: Ausschließen der Null-Hypothese n = Anzahl der Gene im Genom / Chromosom n = Anzahl der Gene im Genom / Chromosom k = Anzahl der „relevanten“ Gene, die einen Cluster bilden k = Anzahl der „relevanten“ Gene, die einen Cluster bilden d = Anzahl der „irrelevanten“ Gene, die zwischen zwei „relevanten“ Genen stehen dürfen d = Anzahl der „irrelevanten“ Gene, die zwischen zwei „relevanten“ Genen stehen dürfen

32 Statistische Signifikanz der Ergebnisse (2) n! Permutationen um n Gene anzuordnen 1. Schritt: k-Cluster generieren => k! Permutationen k Gene anzuordnen

33 Statistische Signifikanz der Ergebnisse (2) n! Permutationen um n Gene anzuordnen 1. Schritt: k-Cluster generieren => k! Permutationen k Gene anzuordnen 2. Anzahl „Lücken“ im Cluster = i 0 ≤ i ≤ (k-1)*d

34 Statistische Signifikanz der Ergebnisse (2) n! Permutationen um n Gene anzuordnen 1. Schritt: k-Cluster generieren => k! Permutationen k Gene anzuordnen Anzahl „Lücken“ im Cluster = i 0 ≤ i ≤ (k-1)*d Bsp: d = 2, k = 5 i = 0 ergibt sich, wenn keine Lücken auftreten i = 8 ergibt sich, wenn zwischen 2 relevanten Genen immer genau d irrelevante Gene liegen

35 Statistische Signifikanz der Ergebnisse (3) - Anzahl Möglichkeiten einen k-Cluster mit i Lücken zu generieren sei s(k,d,i) - Für s(k,d,i) gibt es keine einfache geschlossene Formel

36 Statistische Signifikanz der Ergebnisse (3) - Anzahl Möglichkeiten einen k-Cluster mit i Lücken zu generieren sei s(k,d,i) - Für s(k,d,i) gibt es keine einfache geschlossene Formel 3. Der komplette Cluster wird im Genom plaziert - Größe des Clusters: k+i => n-(k+i)+1 Möglichkeiten

37 Statistische Signifikanz der Ergebnisse (3) - Anzahl Möglichkeiten einen k-Cluster mit i Lücken zu generieren sei s(k,d,i) - Für s(k,d,i) gibt es keine einfache geschlossene Formel 3. Der komplette Cluster wird im Genom plaziert - Größe des Clusters: k+i => n-(k+i)+1 Möglichkeiten 4. Restlichen Gene platzieren: (n-k)!

38 Statistische Signifikanz der Ergebnisse (4) Gesamtwahrscheinlichkeit: P(n,k,d) =

39 Statistische Signifikanz der Ergebnisse (4) Gesamtwahrscheinlichkeit: P(n,k,d) = =

40 Statistische Signifikanz der Ergebnisse (5) Jetzt: Generelles Modell Jetzt: Generelles Modell m = Anzahl Familien im Genom m = Anzahl Familien im Genom M = {f 1,f 2,…,f m } M = {f 1,f 2,…,f m } Jedes Gen gehört zu einer Familie Jedes Gen gehört zu einer Familie = Anzahl Gene, die zu Familie f j gehören = Anzahl Gene, die zu Familie f j gehören i j = Index der Familie zu der das Gene j gehört i j = Index der Familie zu der das Gene j gehört Unterschied zum vorherigen Modell: Mehr Varianten einen Cluster zu bilden Unterschied zum vorherigen Modell: Mehr Varianten einen Cluster zu bilden

41 Statistische Signifikanz der Ergebnisse (6) = Anzahl Möglichkeiten k Gene zu wählen Neue Gesamtwahrscheinlichkeit: Q(M,n,k,d) =

42 Approximation der statistischen Signifikanz Clustergröße normalerweise < 10 Clustergröße normalerweise < 10 δ sehr klein: 1-3 δ sehr klein: 1-3 n = mehrere Tausend >> k, d, i n = mehrere Tausend >> k, d, i 0 ≤ i ≤ (k-1)*d => i kann vernachlässigt werden Absolute Anzahl Möglichkeiten Lücken in k Genen zu verteilen: (d+1) k-1, da es d+1 Möglichkeiten gibt Lücken zwischen 2 „relevanten“ Genen zu verteilen (0-Lücke,1-Lücke,…,d-Lücke) => P(n,k,d) ≈ => P(n,k,d) ≈

43 Approximation der statistischen Signifikanz (2) Beispielparameter (aus E. Coli): Beispielparameter (aus E. Coli): n = 2000 (nur orthologe Gene!) n = 2000 (nur orthologe Gene!) δ = 1900 bp ~ 1 Gen δ = 1900 bp ~ 1 Gen Produktterm aus Formel Q(M,n,k,d) ist ungefähr 2 k Produktterm aus Formel Q(M,n,k,d) ist ungefähr 2 k k=2 => Q(2) = 8*10 -3 k=2 => Q(2) = 8*10 -3 k=3 => Q(3) = 4,8*10 -5 k=3 => Q(3) = 4,8*10 -5 k=4 => Q(4) = 3,8*10 -7 k=4 => Q(4) = 3,8*10 -7

44 Gefundene Cluster

45 Themenverwandte Arbeiten Beal et al. Beal et al. Gleiche Zielsetzung leicht anderes Modell (nur 1-zu- 1 Beziehungen) Gleiche Zielsetzung leicht anderes Modell (nur 1-zu- 1 Beziehungen) Sankoff und Trinh Sankoff und Trinh Chromosomal Breakpoint Reuse in Genome Sequence Rearrangement Chromosomal Breakpoint Reuse in Genome Sequence Rearrangement


Herunterladen ppt "Vortrag zum Seminar „Aktuelle Themen der Bioinformatik“ Identifying Conserved Gene Clusters in the Presence of Homology Families Von Florian Rörsch."

Ähnliche Präsentationen


Google-Anzeigen