Vorlesung: Vorverarbeitung von Affymetrix-Daten 28.10.2003.

Slides:



Advertisements
Ähnliche Präsentationen
Primary Data for Chemistry
Advertisements

Genexpressionsanalyse
1 Workshop: Grundlagen des IT-Projektmanagements - Version /2004Modul: Aufwand – Ergänzung FP Copyright: Dr. Klaus Röber Modul Ergänzungen zur.
O-Notation in der Informatik
Fluoreszenzpolarisation
Arbeitsbereich Technische Aspekte Multimodaler Systeme Universität Hamburg Fachbereich Informatik Oberseminar TAMS Grundlagen omnidirektionaler Sichtsysteme.
Übung 6.6Schranken 1.Angenommen, Ihr Algorithmus habe einen Aufwand von g(n) = 5n 3 + n für alle n a)Geben sie eine obere Schranke O(g(n)) an. b)Beweisen.
Seminar Fortgeschrittene Algorithmische Bioinformatik
Kinesin und Myosin: Molekulare Schrittmotoren bei der Arbeit
Mixed Models Jonathan Harrington library(ez) library(lme4)
Nobumichi Hozumi Susumu Tonegawa
Forschungsstatistik II
WS Algorithmentheorie 13 - Kürzeste (billigste) Wege Prof. Dr. Th. Ottmann.
1 Vorlesung Informatik 2 Algorithmen und Datenstrukturen (03 – Verschiedene Algorithmen für dasselbe Problem) Prof. Dr. Th. Ottmann.
Algorithmen und Datenstrukturen
Computerkurs: Quantitative Auswertung biochemischer Experimente Guten Morgen.
Nicht-Lineare Regression
Konfidenzintervalle für Parameter
Modellvergleich.
Framework für ein Intrusion Detection System
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil 5.
Evidenz für kardiotoxische bzw. kardioprotektive Wirkungen?“
V7 Genexpression - Microarrays
V7 Genexpression - Microarrays
V7 Genexpression - Microarrays
SQL 2 Order by null Aggregatfunktionen group by Join subselect.
Experimentaufbau und -design
1 Reverse Engineering WS 07 / 08 A. Zündorf. Fachgebiet Software Engineering Übersicht © Albert Zündorf, Kassel University 2 Organisatorisches.
A. Zündorf, SE Group Reverse Engineering K2 1 Übersicht 1.Quelltextanalyse mit regulären Ausdrücken 2.Compilertechniken 3.Prozessanalyse 4.Dynamische Analyse.
SELDI-TOF Function and Reproducability
Vorlesung: Einführung in der Bioinformatik
Methoden & Tools für die Expressionsdatenanalyse
Approximationsalgorithmen Facility Location K-Median Cheng, Wei 12. Juli.
Vorlesung: ANOVA I
Vorlesung: ANOVA II.
Termin Thema 20. Okt Microarray-Technologien, Grundlagen der Datenanalyse 27. Okt Normalisierung von Microarrays I Normalisierung von Microarrays II 3.
Die Zelle – ein komplexes Ding. RNA-Polymerasen PM MM FeatureProbe Pair Wilcoxon test nicht-parametrisch gepaart Testet PM > MM Gesättigter Wert Berechnung.
Erdbebenlokalisierung
Agenda Motivation Grundlagen der Matrix-Vektor-Multiplikation
Passive Angriffe ... invasiv.
Event-Specific Detection of Seven Genetically Modified Soybean and Maizes Using Multiplex-PCR Coupled with Olignucleotide Microarray Jia Xu, Shuifang Zhu,
Wissenschaftliche Programmierung mit Python - für Meteorologie und Atmosphärenforschung Martin G. Schultz Teil 3: Numpy.
Agenda 13: Begrüßung & Einführung in das Thema
Technische Informatik Reihungen – Felder - Arrays.
Modul Statistische Datenanalyse
SStotal SStotal SStreat SSerror SStreat SSerror Biomasse (g) wenig
Affymetrix GeneChips ® Ein bis ins Detail patentiertes Produkt Kurzvortrag Marion Koch, Philipp Stiefel Patent- und Lizenzvertragsrecht.
Einführung in das Wissenschaftliche Arbeiten Andreas Hechenblaickner Programmiersprache Eiffel
VL Algorithmische BioInformatik (19710)
CuP - Java Neunte Vorlesung Entspricht Kapitel 4.2 und 5 des Skriptums
Microarrays – Prinzip Unprozessiertes Microarray: Probenzugabe:
RZPD Deutsches Ressourcenzentrum für Genomforschung GmbH DESPRAD-Meeting 02/09/2003 Steffen Schulze-Kremer (until 7/2003) Bernd Drescher (since 8/2003)
Externspeicher- Algorithmen:Teil 2
Prof. Dr. Helmut Erdmann Flensburg University of Applied Sciences
SOTA Andrej Gisbrecht
Präzise Vorhersage der Rechnerkapazität bei Mehrzweckdiensten Gruppe 5 Modellierungswoche Lambrecht 23. Juni bis 28. Juni 2002.
Was muss der Nutzer tun? Für die Projektplanung ist es essentiell, sich vorher Gedanken über folgende Punkte zu machen: experimentelles Design RNA-Isolation.
Statistical Parametric Mapping
Die Parochipanalyse Institut für orale Mikrobiologie Univers.-Prof. Dr. rer. nat. G. Conrads c.m.d. Wiebke Schulthoff.
Swiss Nano-Cube Lerchenfeldstrasse 5, 9014 St.Gallen Tel. +41 (0) , Bildungsplattform zur Mikro-
Mag. Thomas Hilpold, Universität Linz, Institut für Wirtschaftsinformatik – Software Engineering 1 Algorithmen und Datenstrukturen 1 SS 2002 Mag.Thomas.
Johann Wolfgang Goethe Universität Frankfurt am Main Fachbereich 15: Biologie und Informatik Junior Prof. Dr. Dirk Metzler Sebastian Bremm 1 Größenbestimmung.
Die einfache/multiple lineare Regression
Datenmatrix HKI Proseminar Philipp Cielen.
Nachweis von B 0 s -Oszillationen mit dem ATLAS Detektor am LHC B. Epp 1, V.M. Ghete 2, E. Kneringer 1, D. Kuhn 1, A. Nairz 3 1 Institut für Experimentalphysik,
Outline Collaborators HgTe as a 3D topological insulator Sample design
ALICE T2 KPI Status GSI ALICE T2 KPI Woche KPI SE Availability Job Efficiency Wall Time Delivered Error Rate GSIReferenceRel. Diff GSIReferenceRel.
Hochschule Anhalt FB Informatik und Sprache Master Informationsmanagement Dayun Xu Slide 1 Adjustment of ECG Signals by using linear geometric transformation.
Projektarbeit.
eSciDoc als Plattform für die Wissenschaft Anwendungen und Szenarien
 Präsentation transkript:

Vorlesung: Vorverarbeitung von Affymetrix-Daten 28.10.2003

? ! Vorverarbeitung von Microarray Daten: Beispiel: Affymetrix Biologie Diagnostik Therapie ... ? Experiment- Design Experiment (Microarray) Bildverarbeitung ! Rohe Intensitätswerte Vom “Tiff” zum Expressions Level Biologische Verifikation Normalisierung Expressions Level Analyse: Clustering; Class Discovery; Klassifikation; Differentielle Gene; ....

Bild eines hybridisierten Arrays Vorverarbeitung von Microarray Daten: Beispiel: Affymetrix * GeneChip Probe Array Single stranded, labeled RNA target Oligonucleotide probe 18µm 106-107 copies of a specific oligonucleotide probe per feature 1.28cm >450,000 different probes Bild eines hybridisierten Arrays Compliments of D. Gerhold

Extraktion der Poly-A - RNA Chip-hybridisierung Zellpool aus Gewebeproben oder Zellkulturen Amplifikation und Markierung der RNA Auslesen des Fluoreszenzsignals Chipzelle Oligonukleotid

Vorverarbeitung von Microarray Daten: Beispiel: Affymetrix ... TGTGATGGTGGGAATGGGTCAGAAGGACTCCTATGTGGGTGACGAGGCC TTACCCAGTCTTCCTGAGGATACACCCAC TTACCCAGTCTTGCTGAGGATACACCCAC probe cell probe pair ... PM MM 1 2 3 4 ... 17 18 19 20 probe set PM MM Bildzelle Oligopaar Saturierte Zelle (A) (B)

Vorverarbeitung von Microarray Daten: Beispiel: Affymetrix Lokalisation Intensität Annotation PM-MM Sequenz ...

Vorverarbeitung von Microarray Daten: Probleme (1) Hintergrund (2) PM / MM (perfect match / mismatch) (3) “Summary statistics” ? ... PM MM 1.5 2.4 10.4 0.1 ... 1.3 3.4

Vorverarbeitung von Microarray Daten: Beispiele: MAS 5.0 (Affymetrix Microarray Suite, Affymetrix Software) Li/Wong: PNAS 2001 vol 98 (1), pp31-36 RMA: Robust Multiarray Analysis, Irizarry/Bolstad/Speed (NAR, 2003 31(4), e15)

Vorab: Was ist Tukeys Biweight ? Angabe der Tendenz Maß für den Mittelwert sehr robust gegenüber Ausreißern Vektor: X = (x1,...,xn) Berechne Tukey´s Biweight von X: T(X) Berechne die absolute Distanz von jedem Datenpunkt zum Median Berechne S = Median der absoluten Abweichungen (MAD) Definiere u = (Datenpunkt-Median(Datenpunkte) )/(Konstante*S + ) Konstante = 5;  = 0.00001 Gewichtsfunktion: w(u) = (1 - u2)2 for |u| <= 1 0 else T(x) = i w(u) xi / i w(u)

x x x x x x Vorab: Was ist Tukeys Biweight ? X = 1,2,3,2,4,20 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 x x x x x x X = 1,2,3,2,4,20 Median 2.5 Mittelwert 5.3 Tukeys Biweight 2.3

Vorverarbeitung von Microarray Daten: Beispiel 1: MAS 5.0 k = 16 (zB) Kontrollzellen und leere Spots werden nicht weiter beachtet

Vorverarbeitung von Microarray Daten: Beispiel 1: MAS 5.0 Alle Zellen eines Sub-Arrays (=Zone) werden der Größe nach geordnet Jeder Zelle wird ein Rang zugeordnet C1 C2 C3 C4 … Cn Definition von Hintergrund eines Sub- Arrays: Zbg = niedrigsten 2% des jeweiligen Subarrays .

Vorverarbeitung von Microarray Daten: Beispiel 1: MAS 5.0 Problem: Bei dieser Definition von Hintergrund (Zbg) gibt es “scharfe” Grenzen zwischen den einzelnen “Subarrays” Lösung: Glättung der Übergänge

Vorverarbeitung von Microarray Daten: Beispiel 1: MAS 5.0 Glättung der Übergänge dk(x,y) = Distanz vom Mittelpunkt (.) des k-ten Segments zu einem Punkt mit den Koordinaten (x,y) Gewichtung: wk(x,y)=1/(dk2 + s) (default s=100) . .

Vorverarbeitung von Microarray Daten: Beispiel 1: MAS 5.0 Neuer Hintergrund: b(x,y) = k wk(x,y) Zbg / k wk(x,y) . .

Vorverarbeitung von Microarray Daten: Beispiel 1: MAS 5.0 Perfect match und Mismatch (PM MM) ... PM MM Definitionen: Adjustierte Intensität: A(x,y) = maxInt(x,y) – b(x,y) | NoiseFrac * n(x,y) NoiseFrac = 0.5 default n(x,y) = 1 / w(x,y) * (w(x,y) n Zk) n Zk = Standardabweichung (niedrigste 2% Intensitäten) Int(x,y) = max Int(x,y) , 0.5 

Vorverarbeitung von Microarray Daten: Beispiel 1: MAS 5.0 Perfect match und Mismatch (PM MM) ... PM MM Definitionen: Idealer Mismatch: IM i,j = PM i,j / 2 Sbi MM i,j > PM i,j ; Sbi >  MM i,j MM i,j < PM i,j PM i,j / 2 a MM i,j > PM i,j ; Sbi <=  a =  / (1+(( -Sbi)/ ’)))  = 0.03 ’ = 10 Sbi = biweight specific background

Vorverarbeitung von Microarray Daten: Beispiel 1: MAS 5.0 Perfect match und Mismatch (PM MM) ... PM MM Definitionen: Neuer Signalwert (Intensität): i = 1,…,n probe pair j = 1,…,m array probe set V i,j = max(PM i,j - IM i,j , )  = 2 –20 PV i,j = log(V i,j) für alle j Neuer Signalwert = Tbi (PV i1, … , PV in )

Vorverarbeitung von Microarray Daten: Beispiel 2: Li/Wong Li/Wong (PNAS 2001 vol 98 (1), pp31-36) Modell: MMij = j + i j +  PMij = j + i j + i j +  j Baseline i Expression eines Gens in der i ten Probe j Anstiegsrate: MM im j ten “probe pair” j zuätzliche Anstiegsrate im korrespondierenden PM Wert  Zufälliger Fehler

Vorverarbeitung von Microarray Daten: Beispiel 2: Li/Wong Vorab: Was ist “Least Square Fit” (= Methode kleinster Fehlerquadrate)

Vorverarbeitung von Microarray Daten: Beispiel 2: Li/Wong Vorab: Was ist “Least Square Fit” (= Methode kleinster Fehlerquadrate) Summe der Fehlerquadrate ist minimal

Vorverarbeitung von Microarray Daten: Beispiel 2: Li/Wong Vorab: Was ist “Least Square Fit” (= Methode kleinster Fehlerquadrate) X=(1,2,3,4,5) Y=(1,1,2,2,4)

Vorab: Was ist “Least Square Fit” (= Methode kleinster Fehlerquadrate) X=(1,2,3,4,5); Y=(1,1,2,2,4) Y= ß0+ ß1*x Es werden ß1 und ß0 so geschätzt, daß die Summe der Quadrate der Residuen minimal werden: Min

Vorab: Was ist “Least Square Fit” (= Methode kleinster Fehlerquadrate) xi yi (xi)2 xi * yi 1 2 … n x1 x2 xn y1 y2 yn y12 y22 yn2 x1y1 x2y2 xnyn    xi  yi  (xi)2  xi * yi

Vorab: Was ist “Least Square Fit” (= Methode kleinster Fehlerquadrate) xi yi (xi)2 xi * yi 1 2 3 4 5 9 16 25 6 8 20    xi = 15  yi = 10  (xi)2 = 55  xi * yi = 37

Vorab: Was ist “Least Square Fit” (= Methode kleinster Fehlerquadrate)

Vorverarbeitung von Microarray Daten: Beispiel 2: Li/Wong Modell: MMij = j + i j +  PMij = j + i j + i j +  => PMij - MMij = i j + ij Angenommen: ij ~ N(0,2) Least Square Fit von PMij - MMij = i j + ij

unspezifische Bindung Vorverarbeitung von Microarray Daten: Beispiel 3: RMA RMA: Irizarry/Bolstad/Speed (NAR, 2003 31(4), e15) Modellannahme: Signal PM = Hintergrund + Signal = hg + s = + = Optisches Rauschen + unspezifische Bindung Hintergrund Korrektur: B(PM) = E(s|PM) s ~ exponential hg ~ normal

Vorverarbeitung von Microarray Daten: Beispiel 3: RMA PM, MM: “Forget about MM” Grund: was immer da auch gemessen wird; momentan laesst sich das nicht sinnvoll in biologische Interpretationen fassen ev. kann man in der Zukunft die Hintergrundkorrektur etwas besser durchführen, indem man die MM-Werte benutzt.

Vorverarbeitung von Microarray Daten: Beispiel 3: RMA Summary Statistic: Yijn = jn + jn + ijn i=1,...,I (chips) j=1,...,J (probes) n=1,...,n (probe set) jn “probe affinity effect” jn “log scale expression level” ijn error iid N(0, 2) j j= 0  n -> median polish

Vorverarbeitung von Microarray Daten: Beispiel 3: RMA Was ist “Median Polish”: An eine Matrix M wird ein additives Modell gefittet: Konstante + Spalten + Zeilen. Im Algorithmus werden abwechselnd Zeilen- bzw Spalten Mediane entfernt und wird solange durchgefuehrt, bis die proportionale Reduktion in der Summe der absoluten Residuen kleiner epsilon ist oder bis zu einem Max von Iterationsschritten.

Macht es etwas aus, welche Methode ich wähle? all spots Av Diff pm only “MAS 5.0” Li/Wong pm only bgMAS+Av Diff pm only Li/Wong pm-mm RMA Av Diff pm - mm

Macht es etwas aus, welche Methode ich wähle? Reference distribution is normal for the log fold change from: Terry Speed, Summarizing and comparing GeneChip data

Vergleich von mehreren Proben cDNA Arrays Oligonucleotide Arrays

Vergleich von mehreren Proben Patient Kontrolle Patient G C A Kontrolle G C A G C A G C A

Vergleich von mehreren Proben Affymetrix in MAS5.0: - nicht einzeln auswerten der Chips sondern direkter paarweiser Vergleich: “Balancing factors” Wilcoxon Ranksummen Test

Software Open source-open development software Projekt seit 2001 erste Bioconductor software release, May 2002 R basiert http://www.bioconductor.org

Software library(affy) x = ReadAffy(celfile.path="/project/gene_expression/spikein/") data.rma = express ( x, subset = NULL , bg.correct = bg.correct.rma , pmcorrect.method="pmonly" , summary.stat = medianpolish , normalize=F , verbose = TRUE )