Varianzstabilisierung von Genexpressionsdaten Ewgenij Proschak Yusuf Tanrikulu Varianzstabilisierung von Genexpressionsdaten Seminar: Aktuelle Themen der Bioinformatik 27.05.2004 Organizer: Prof. Dr. D. Metzler Tutor: Lin Himmelmann
Varianzstabilisierung von Genexpressionsdaten Inhalt Problemstellung und Grundbegriffe Modell nach Chen Modell nach Huber Fehlermodell nach Rocke und Durbin Transformation zur Varianzstabilisierung Parameterabschätzung 27.05.2004 Varianzstabilisierung von Genexpressionsdaten
Problemstellung – Datenformat Vorverarbeitete Daten, die in einer Matrix vorliegen 27.05.2004 Varianzstabilisierung von Genexpressionsdaten
Problemstellung - Begriffsdefinition Heteroskedastizität Varianz nicht konstant Homoskedastizität Varianz konstant Transformation 27.05.2004 Varianzstabilisierung von Genexpressionsdaten
Problemstellung – Wieso ist das wichtig? Signifikanz verringert sich mit wachsender Varianz Ziel: Unterschiede in der Genexpressionsrate feststellen. Problem: Wenn aber die Varianz zu hoch ist, kann man nicht genau sagen, ob es ein Unterschied oder eine varianzbedingte Schwankung ist. 27.05.2004 Varianzstabilisierung von Genexpressionsdaten
Varianzstabilisierung von Genexpressionsdaten Modell nach Chen Annahme: Varianz steigt linear mit dem Erwartungswert. Chen‘s Folgerung: Logarithmieren der Daten. 27.05.2004 Varianzstabilisierung von Genexpressionsdaten
Modell nach Chen – Nachteile 27.05.2004 Varianzstabilisierung von Genexpressionsdaten
Modell nach Chen – Nachteile Singularität der Logarithmusfunktion bei 0. Transformation von negativen Werten nicht möglich. Kleine Werte werden nach der Transformation groß. 27.05.2004 Varianzstabilisierung von Genexpressionsdaten
Modell nach Huber Fehlermodell von R&D (2001) Transformation Tibshirani (1988) Fehlermodell R&D (2001) Parameterabschätzung LTS – Rousseuw & LeRoy (1987) MLA – Murphy & Van der Vaart (2000) 27.05.2004 Varianzstabilisierung von Genexpressionsdaten
Modell nach Huber – Fehlermodell von R&D Additiver Fehler Multiplikativer Fehler Offset Tatsächlicher Expressionslevel 27.05.2004 Varianzstabilisierung von Genexpressionsdaten
Modell nach Huber – Fehlermodell von R&D Die Fehlerterme η und ν sind voneinander unabhängig und normalverteilt um den Erwartungswert 0. 27.05.2004 Varianzstabilisierung von Genexpressionsdaten
Modell nach Huber – Fehlermodell von R&D Konsequenzen: Quadratische Abhängigkeit der Varianz zum Erwartungswert 27.05.2004 Varianzstabilisierung von Genexpressionsdaten
Modell nach Huber – Fehlermodell von R&D 27.05.2004 Varianzstabilisierung von Genexpressionsdaten
Modell nach Huber – Transformation Delta-Methode = Taylor-Approximation von um 27.05.2004 Varianzstabilisierung von Genexpressionsdaten
Modell nach Huber – Vorteile der Transformation Keine Singularität bei 0 Linearer Verlauf im Bereich der niedrigen Intensitäten 27.05.2004 Varianzstabilisierung von Genexpressionsdaten
Modell nach Huber – Vorteile der Transformation Maß für die unterschiedliche Expression 27.05.2004 Varianzstabilisierung von Genexpressionsdaten
Modell nach Huber – Parameterabschätzung Die Parameter müssen aus den Daten geschätzt werden Methode: Maximum Likelihood Schätzer + LTS(Least Trimmed Sum of Squares) Regression 27.05.2004 Varianzstabilisierung von Genexpressionsdaten
Modell nach Huber – Parameterabschätzung Modell nach der Transformation: K die Menge aller Gene ist, die gleichen Erwartungswert über alle samples i aufweisen 27.05.2004 Varianzstabilisierung von Genexpressionsdaten
Modell nach Huber – Parameterabschätzung Die Wahrscheinlichkeitsfunktion soll maximiert werden: 27.05.2004 Varianzstabilisierung von Genexpressionsdaten
Modell nach Huber – Parameterabschätzung Logarithmieren der ML-Funktion und einsetzen von und führt zu: 27.05.2004 Varianzstabilisierung von Genexpressionsdaten
Modell nach Huber – Parameterabschätzung Bestimmen der Menge K mit Least Trimmed Sum of Squares (LTS): Schätze die Initialparameter über alle n Gene Sortiere die Gene nach dem Erwartungswert und teile in 10 Quantile auf Berechne für alle Gene eines Quantils den quadratischen Fehler und sortiere danach Verwende für die nächste Iteration das erste qlts-Anteil der Gene, für qlts = geschätzter Anteil der nicht unterschiedlich exprimierten Gene. 27.05.2004 Varianzstabilisierung von Genexpressionsdaten
Varianzstabilisierung von Genexpressionsdaten Ergebnisse 27.05.2004 Varianzstabilisierung von Genexpressionsdaten
Ewgenij Proschak Yusuf Tanrikulu The End