Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Vorlesung: Vorverarbeitung von Affymetrix-Daten 28.10.2003.

Ähnliche Präsentationen


Präsentation zum Thema: "Vorlesung: Vorverarbeitung von Affymetrix-Daten 28.10.2003."—  Präsentation transkript:

1 Vorlesung: Vorverarbeitung von Affymetrix-Daten

2 Experiment- Design Experiment (Microarray) Biologische Verifikation Bildverarbeitung Rohe Intensitätswerte Normalisierung Expressions Level Analyse: Clustering; Class Discovery; Klassifikation; Differentielle Gene;.... Vom Tiff zum Expressions Level Vorverarbeitung von Microarray Daten: Beispiel: Affymetrix Biologie Diagnostik Therapie... ? !

3 Vorverarbeitung von Microarray Daten: Beispiel: Affymetrix 18µm copies of a specific oligonucleotide probe per feature Bild eines hybridisierten Arrays Bild eines hybridisierten Arrays >450,000 different probes Single stranded, labeled RNA target Oligonucleotide probe * * * * *1.28cm GeneChip Probe Array Compliments of D. Gerhold

4 Extraktion der Poly-A - RNA Chip-hybridisierung Zellpool aus Gewebeproben oder Zellkulturen Amplifikation und Markierung der RNA Auslesen des Fluoreszenzsignals Chipzelle Oligonukleotid

5

6 ... PM MM probe pair probe set probe cell... TGTGATGGTGGGAATGGGTCAGAAGGACTCCTATGTGGGTGACGAGGCC TTACCCAGTCTTCCTGAGGATACACCCAC TTACCCAGTCTTGCTGAGGATACACCCAC Vorverarbeitung von Microarray Daten: Beispiel: Affymetrix PM MM Bildzelle Oligopaar Saturierte Zelle (A) (B)

7 Vorverarbeitung von Microarray Daten: Beispiel: Affymetrix Lokalisation Intensität Annotation PM-MM Sequenz...

8 (1) Hintergrund (2) PM / MM (perfect match / mismatch) (3) Summary statistics ?... PM MM Vorverarbeitung von Microarray Daten: Probleme

9 Vorverarbeitung von Microarray Daten: Beispiele: MAS 5.0 ( Affymetrix Microarray Suite, Affymetrix Software) Li/Wong: PNAS 2001 vol 98 (1), pp31-36 RMA: Robust Multiarray Analysis, Irizarry/Bolstad/Speed (NAR, (4), e15)

10 (1 - u 2 ) 2 for |u| <= 1 0else Vorab: Was ist Tukeys Biweight ? Angabe der Tendenz Maß für den Mittelwert sehr robust gegenüber Ausreißern Vektor: X = (x 1,...,x n ) Berechne Tukey´s Biweight von X: T(X) (1)Berechne die absolute Distanz von jedem Datenpunkt zum Median (2)Berechne S = Median der absoluten Abweichungen (MAD) (3)Definiere u = (Datenpunkt-Median(Datenpunkte) )/(Konstante*S + ) (4)Konstante = 5; = (5)Gewichtsfunktion: w(u) = T(x) = i w(u) x i / i w(u)

11 Vorab: Was ist Tukeys Biweight ? xx x xxx X = 1,2,3,2,4,20 Median 2.5 Mittelwert 5.3 Tukeys Biweight 2.3

12 Vorverarbeitung von Microarray Daten: Beispiel 1: MAS 5.0 Array: k = 16 (zB) Kontrollzellen und leere Spots werden nicht weiter beachtet

13 Vorverarbeitung von Microarray Daten: Beispiel 1: MAS 5.0 Alle Zellen eines Sub-Arrays (=Zone) werden der Größe nach geordnet Jeder Zelle wird ein Rang zugeordnet C1 C2 C3 C4 … Cn Definition von Hintergrund eines Sub- Arrays: Z bg = niedrigsten 2% des jeweiligen Subarrays.

14 Vorverarbeitung von Microarray Daten: Beispiel 1: MAS 5.0 Problem: Bei dieser Definition von Hintergrund (Z bg ) gibt es scharfe Grenzen zwischen den einzelnen Subarrays Lösung: Glättung der Übergänge

15 d k (x,y) = Distanz vom Mittelpunkt (.) des k-ten Segments zu einem Punkt mit den Koordinaten (x,y) Gewichtung: w k (x,y)=1/(d k 2 + s) (default s=100) Vorverarbeitung von Microarray Daten: Beispiel 1: MAS 5.0 Glättung der Übergänge..

16 Neuer Hintergrund: b(x,y) = k w k (x,y) Z bg / k w k (x,y).. Vorverarbeitung von Microarray Daten: Beispiel 1: MAS 5.0

17 Vorverarbeitung von Microarray Daten: Beispiel 1: MAS 5.0 Perfect match und Mismatch (PM MM)... PM MM Definitionen: Adjustierte Intensität: A(x,y) = max Int(x,y) – b(x,y) | NoiseFrac * n(x,y) NoiseFrac = 0.5 default n(x,y) = 1 / w(x,y) * (w(x,y) n Z k ) n Z k = Standardabweichung (niedrigste 2% Intensitäten) Int(x,y) = max Int(x,y), 0.5

18 Vorverarbeitung von Microarray Daten: Beispiel 1: MAS 5.0 Perfect match und Mismatch (PM MM)... PM MM Definitionen: Idealer Mismatch: IM i,j = PM i,j / 2 Sbi MM i,j > PM i,j ; Sbi > MM i,j MM i,j < PM i,j PM i,j / 2 a MM i,j > PM i,j ; Sbi <= a = / (1+(( - Sbi )/ ))) = 0.03 = 10 Sbi = biweight specific background

19 Vorverarbeitung von Microarray Daten: Beispiel 1: MAS 5.0 Perfect match und Mismatch (PM MM)... PM MM Definitionen: Neuer Signalwert (Intensität): i = 1,…,n probe pair j = 1,…,m array probe set V i,j = max(PM i,j - IM i,j, ) = 2 –20 PV i,j = log(V i,j ) für alle j Neuer Signalwert = Tbi (PV i1, …, PV in )

20 Li/Wong (PNAS 2001 vol 98 (1), pp31-36) Modell: MM ij = j + i j + PM ij = j + i j + i j + j Baseline i Expression eines Gens in der i ten Probe j Anstiegsrate: MM im j ten probe pair j zuätzliche Anstiegsrate im korrespondierenden PM Wert Zufälliger Fehler Vorverarbeitung von Microarray Daten: Beispiel 2: Li/Wong

21 Vorverarbeitung von Microarray Daten: Beispiel 2: Li/Wong Vorab: Was ist Least Square Fit (= Methode kleinster Fehlerquadrate)

22 Vorverarbeitung von Microarray Daten: Beispiel 2: Li/Wong Vorab: Was ist Least Square Fit (= Methode kleinster Fehlerquadrate) Summe der Fehlerquadrate ist minimal

23 Vorverarbeitung von Microarray Daten: Beispiel 2: Li/Wong Vorab: Was ist Least Square Fit (= Methode kleinster Fehlerquadrate) X=(1,2,3,4,5) Y=(1,1,2,2,4)

24 Vorab: Was ist Least Square Fit (= Methode kleinster Fehlerquadrate) X=(1,2,3,4,5); Y=(1,1,2,2,4) Y= ß 0 + ß 1 *x Es werden ß 1 und ß 0 so geschätzt, daß die Summe der Quadrate der Residuen minimal werden: Min

25 Vorab: Was ist Least Square Fit (= Methode kleinster Fehlerquadrate) ixixi yiyi (x i ) 2 x i * y i 12…n12…n x1 x2 … xn y1 y2 … yn y1 2 y2 2 … yn 2 x1y1 x2y2 … xnyn x i y i (x i ) 2 x i * y i

26 ixixi yiyi (x i ) 2 x i * y i x i = 15 y i = 10 (x i ) 2 = 55 x i * y i = 37 Vorab: Was ist Least Square Fit (= Methode kleinster Fehlerquadrate)

27 Vorab: Was ist Least Square Fit (= Methode kleinster Fehlerquadrate)

28 Modell: MM ij = j + i j + PM ij = j + i j + i j + => PM ij - MM ij = i j + ij Angenommen: ij ~ N(0, 2 ) Least Square Fit von PM ij - MM ij = i j + ij Li/Wong: Vorverarbeitung von Microarray Daten: Beispiel 2: Li/Wong

29 RMA: Irizarry/Bolstad/Speed (NAR, (4), e15) Modellannahme: Signal PM = Hintergrund + Signal = hg + s = + = Optisches Rauschen + unspezifische Bindung Hintergrund Korrektur: B(PM) = E(s|PM) s ~ exponential hg ~ normal Vorverarbeitung von Microarray Daten: Beispiel 3: RMA

30 PM, MM: Forget about MM Grund: was immer da auch gemessen wird; momentan laesst sich das nicht sinnvoll in biologische Interpretationen fassen ev. kann man in der Zukunft die Hintergrundkorrektur etwas besser durchführen, indem man die MM-Werte benutzt. RMA Vorverarbeitung von Microarray Daten: Beispiel 3: RMA

31 RMA Summary Statistic: Y ijn = jn + jn + ijn i=1,...,I(chips) j=1,...,J(probes) n=1,...,n(probe set) jn probe affinity effect jn log scale expression level ijn error iid N(0, 2 ) j j = 0 n -> median polish Vorverarbeitung von Microarray Daten: Beispiel 3: RMA

32 Vorverarbeitung von Microarray Daten: Beispiel 3: RMA RMA Was ist Median Polish: An eine Matrix M wird ein additives Modell gefittet: Konstante + Spalten + Zeilen. Im Algorithmus werden abwechselnd Zeilen- bzw Spalten Mediane entfernt und wird solange durchgefuehrt, bis die proportionale Reduktion in der Summe der absoluten Residuen kleiner epsilon ist oder bis zu einem Max von Iterationsschritten.

33 all spots MAS 5.0 Li/Wong pm only Li/Wong pm-mmRMA Av Diff pm only bgMAS+Av Diff pm only Av Diff pm - mm Macht es etwas aus, welche Methode ich wähle?

34 Reference distribution is normal for the log fold change from: Terry Speed, Summarizing and comparing GeneChip data Macht es etwas aus, welche Methode ich wähle?

35 Vergleich von mehreren Proben cDNA ArraysOligonucleotide Arrays

36 Vergleich von mehreren Proben G C A C G C A C Patient Kontrolle G C A C G C A C Patient Kontrolle

37 Vergleich von mehreren Proben Affymetrix in MAS5.0: - nicht einzeln auswerten der Chips sondern direkter paarweiser Vergleich: Balancing factors Wilcoxon Ranksummen Test

38 Open source-open development software Projekt seit 2001 erste Bioconductor software release, May 2002 R basiert Software

39

40 library(affy) x=ReadAffy(celfile.path="/project/gene_expression/spikein/") data.rma = express (x, subset = NULL, bg.correct = bg.correct.rma, pmcorrect.method="pmonly", summary.stat = medianpolish, normalize=F, verbose = TRUE) Software


Herunterladen ppt "Vorlesung: Vorverarbeitung von Affymetrix-Daten 28.10.2003."

Ähnliche Präsentationen


Google-Anzeigen