Varianzstabilisierung von Genexpressionsdaten

Slides:



Advertisements
Ähnliche Präsentationen
Modellprämissen der linearen Regression
Advertisements

Masterstudiengang IE (Industrial Engineering)
Faltung Entfaltung Bestimmung der (unbekannten) Funktion f aus den (bekannten) Funktionen h und g. Bezeichnung h(x) … Messdaten f(y) … Physikalisches Profil.
Forschungsstrategien Johannes Gutenberg Universität Mainz
Regression und Korrelation
Law of comparative judgement
Klassische Testtheorie
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2006 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-18.
Nicht-Lineare Regression
Mehrfachregressionen
K. Desch - Statistik und Datenanalyse SS05
Was steht in einer ANOVA - Tabelle?
Statistische Methoden II SS 2007 Vorlesung:Prof. Dr. Michael Schürmann Zeit:Freitag (Pause: ) Ort:Hörsaal Loefflerstraße Übungen.
Statistische Methoden II SS 2008
Nachholung der Vorlesung vom Freitag
Konfidenzintervalle Intervallschätzung
Ab nächster Woche wird die Übungsgruppe Gruppe 2: Henrike Berg Di SR 222 wegen Personalmangel eingestellt.
Statistische Methoden II SS 2007 Vorlesung:Prof. Dr. Michael Schürmann Zeit:Freitag (Pause: ) Ort:Hörsaal Loefflerstraße Übungen.
Chi-Quadrat-Test auf Unabhängigkeit I
Statistische Methoden I SS 2005 Vorlesung:Prof. Dr. Michael Schürmann Zeit:Freitag (Pause: ) Ort:Hörsaal Loefflerstraße Übungen.
Kolmogorov-Smirnov-Test. A. N. Kolmogorov Geboren in Tambov, Russland. Begründer der modernen Wahrscheinlichkeitstheorie.
Statistische Methoden I WS 2007/2008 Donnerstag, 31. Januar 2008 und Freitag, 1. Februar 2008 Probeklausur nächste Woche - statt Vorlesungen -
Maximum-Likelihood-Schätzer ( diskreter Fall) Likelihood-Funktion mit oder M-L-Schätzer.
II. Wahrscheinlichkeitstheorie
Die Vorlesung am 14. Mai (Tag nach Himmelfahrt) wird auf Montag, den 17. Mai verlegt! Zeit: 16 Uhr Ort: Kiste Nächste Woche!!!!
Statistische Methoden II SS 2003 Vorlesung:Prof. Dr. Michael Schürmann Zeit:Freitag (Pause: ) Ort:Hörsaal Loefflerstraße Übungen.
III. Induktive Statistik
Die Vorlesung am 14. Mai (Tag nach Himmelfahrt) wird verlegt. Der Nachholtermin wird noch bekannt gegeben.
Test auf Normalverteilung
Klausur am :00 bis 13:00 Hörsaal Loefflerstraße und Hörsaal Makarenkostraße.
Maximum-Likelihood-Schätzer ( diskreter Fall) Likelihood-Funktion mit oder M-L-Schätzer.
Tutorium
Stetige Zufallsgrößen
Vorlesung Biometrie für Studierende der Veterinärmedizin Begriff der Zufallsgröße Ergebnisse von Zufallsexperimenten werden als Zahlen dargestellt:
Binomialverteilung: Beispiel
Vorlesung: ANOVA II.
Eigenschaften der OLS-Schätzer
Einfache Regressionsgleichung
Multikollinearität Wann spricht man von Multikollinearität?
Kapitel 7 Lineare Restriktionen
Logistische Regression
Globale Interpolations- und Prädiktionsverfahren
Seminar: Datenerhebung
Seminar: Datenerhebung
Statistik: Mehr zur Regression.
Kapitel 2 Das klassische Regressionsmodell
Lineare Restriktionen
Konfidenzintervall und Testen für den Mittelwert und Anteile
Kapitel 18 Dynamische Modelle: Schätzen der Parameter
Kapitel 5 Statistische Bewertung von Regressionsbezie-hungen
Kapitel 3 Lineare Regression: Schätzverfahren
Bewertung von Regressionsbeziehungen
OLS-Schätzer und seine Eigenschaften
Annahmen des lineare Regressionsmodells
Ökonometrie I Modellvergleich (Übersicht) Ökonometrie I2 Vergleich von Modellen Fragestellungen für Modellvergleich 1.Fehlende Regressoren.
Kapitel 18 Dynamische Modelle: Schätzen der Parameter.
STATISIK LV Nr.: 0021 WS 2005/ November 2005.
Strategie der Modellbildung
Klassifikation und Regression mittels neuronaler Netze
Begriff der Zufallsgröße
setzt Linearität des Zusammenhangs voraus
Der Binomialtest Man habe einen wahren Anteil P. Kann man aufgrund von p sagen, daß in der Population tatsächlich der Anteil P zugrunde liegt? [Beispiele]
SS 2009Maschinelles Lernen und Neural Computation 133 Kapitel 7: Ensemble Methoden.
K. Desch - Statistik und Datenanalyse SS05
Einführung in Microarray Genexpressionsdaten
Prüft ebenfalls die Annahme der Varianzhomogenität (exakter)
Geoinformationssysteme
Spärliche Kodierung von Videos natürlicher Szenen Vortragender: Christian Fischer.
Prognose von Zeitreihen Hans Nübel Hans Nübel Prognose von Zeitreihen Aufbau 1.Motivation 2.Holt-Winters-Verfahren 3.Prognose.
Varianzfortpflanzung
 Präsentation transkript:

Varianzstabilisierung von Genexpressionsdaten Ewgenij Proschak Yusuf Tanrikulu Varianzstabilisierung von Genexpressionsdaten Seminar: Aktuelle Themen der Bioinformatik 27.05.2004 Organizer: Prof. Dr. D. Metzler Tutor: Lin Himmelmann

Varianzstabilisierung von Genexpressionsdaten Inhalt Problemstellung und Grundbegriffe Modell nach Chen Modell nach Huber Fehlermodell nach Rocke und Durbin Transformation zur Varianzstabilisierung Parameterabschätzung 27.05.2004 Varianzstabilisierung von Genexpressionsdaten

Problemstellung – Datenformat Vorverarbeitete Daten, die in einer Matrix vorliegen 27.05.2004 Varianzstabilisierung von Genexpressionsdaten

Problemstellung - Begriffsdefinition Heteroskedastizität Varianz nicht konstant Homoskedastizität Varianz konstant Transformation 27.05.2004 Varianzstabilisierung von Genexpressionsdaten

Problemstellung – Wieso ist das wichtig? Signifikanz verringert sich mit wachsender Varianz Ziel: Unterschiede in der Genexpressionsrate feststellen. Problem: Wenn aber die Varianz zu hoch ist, kann man nicht genau sagen, ob es ein Unterschied oder eine varianzbedingte Schwankung ist. 27.05.2004 Varianzstabilisierung von Genexpressionsdaten

Varianzstabilisierung von Genexpressionsdaten Modell nach Chen Annahme: Varianz steigt linear mit dem Erwartungswert. Chen‘s Folgerung: Logarithmieren der Daten. 27.05.2004 Varianzstabilisierung von Genexpressionsdaten

Modell nach Chen – Nachteile 27.05.2004 Varianzstabilisierung von Genexpressionsdaten

Modell nach Chen – Nachteile Singularität der Logarithmusfunktion bei 0. Transformation von negativen Werten nicht möglich. Kleine Werte werden nach der Transformation groß. 27.05.2004 Varianzstabilisierung von Genexpressionsdaten

Modell nach Huber Fehlermodell von R&D (2001) Transformation Tibshirani (1988) Fehlermodell R&D (2001) Parameterabschätzung LTS – Rousseuw & LeRoy (1987) MLA – Murphy & Van der Vaart (2000) 27.05.2004 Varianzstabilisierung von Genexpressionsdaten

Modell nach Huber – Fehlermodell von R&D Additiver Fehler Multiplikativer Fehler Offset Tatsächlicher Expressionslevel 27.05.2004 Varianzstabilisierung von Genexpressionsdaten

Modell nach Huber – Fehlermodell von R&D Die Fehlerterme η und ν sind voneinander unabhängig und normalverteilt um den Erwartungswert 0. 27.05.2004 Varianzstabilisierung von Genexpressionsdaten

Modell nach Huber – Fehlermodell von R&D Konsequenzen: Quadratische Abhängigkeit der Varianz zum Erwartungswert 27.05.2004 Varianzstabilisierung von Genexpressionsdaten

Modell nach Huber – Fehlermodell von R&D 27.05.2004 Varianzstabilisierung von Genexpressionsdaten

Modell nach Huber – Transformation Delta-Methode = Taylor-Approximation von um 27.05.2004 Varianzstabilisierung von Genexpressionsdaten

Modell nach Huber – Vorteile der Transformation Keine Singularität bei 0 Linearer Verlauf im Bereich der niedrigen Intensitäten 27.05.2004 Varianzstabilisierung von Genexpressionsdaten

Modell nach Huber – Vorteile der Transformation Maß für die unterschiedliche Expression 27.05.2004 Varianzstabilisierung von Genexpressionsdaten

Modell nach Huber – Parameterabschätzung Die Parameter müssen aus den Daten geschätzt werden Methode: Maximum Likelihood Schätzer + LTS(Least Trimmed Sum of Squares) Regression 27.05.2004 Varianzstabilisierung von Genexpressionsdaten

Modell nach Huber – Parameterabschätzung Modell nach der Transformation: K die Menge aller Gene ist, die gleichen Erwartungswert über alle samples i aufweisen 27.05.2004 Varianzstabilisierung von Genexpressionsdaten

Modell nach Huber – Parameterabschätzung Die Wahrscheinlichkeitsfunktion soll maximiert werden: 27.05.2004 Varianzstabilisierung von Genexpressionsdaten

Modell nach Huber – Parameterabschätzung Logarithmieren der ML-Funktion und einsetzen von und führt zu: 27.05.2004 Varianzstabilisierung von Genexpressionsdaten

Modell nach Huber – Parameterabschätzung Bestimmen der Menge K mit Least Trimmed Sum of Squares (LTS): Schätze die Initialparameter über alle n Gene Sortiere die Gene nach dem Erwartungswert und teile in 10 Quantile auf Berechne für alle Gene eines Quantils den quadratischen Fehler und sortiere danach Verwende für die nächste Iteration das erste qlts-Anteil der Gene, für qlts = geschätzter Anteil der nicht unterschiedlich exprimierten Gene. 27.05.2004 Varianzstabilisierung von Genexpressionsdaten

Varianzstabilisierung von Genexpressionsdaten Ergebnisse 27.05.2004 Varianzstabilisierung von Genexpressionsdaten

Ewgenij Proschak Yusuf Tanrikulu The End