Präsentation herunterladen
Veröffentlicht von:Oskar Schmitt Geändert vor über 8 Jahren
1
Varianzstabilisierung von Genexpressionsdaten
Ewgenij Proschak Yusuf Tanrikulu Varianzstabilisierung von Genexpressionsdaten Seminar: Aktuelle Themen der Bioinformatik Organizer: Prof. Dr. D. Metzler Tutor: Lin Himmelmann
2
Varianzstabilisierung von Genexpressionsdaten
Inhalt Problemstellung und Grundbegriffe Modell nach Chen Modell nach Huber Fehlermodell nach Rocke und Durbin Transformation zur Varianzstabilisierung Parameterabschätzung Varianzstabilisierung von Genexpressionsdaten
3
Problemstellung – Datenformat
Vorverarbeitete Daten, die in einer Matrix vorliegen Varianzstabilisierung von Genexpressionsdaten
4
Problemstellung - Begriffsdefinition
Heteroskedastizität Varianz nicht konstant Homoskedastizität Varianz konstant Transformation Varianzstabilisierung von Genexpressionsdaten
5
Problemstellung – Wieso ist das wichtig?
Signifikanz verringert sich mit wachsender Varianz Ziel: Unterschiede in der Genexpressionsrate feststellen. Problem: Wenn aber die Varianz zu hoch ist, kann man nicht genau sagen, ob es ein Unterschied oder eine varianzbedingte Schwankung ist. Varianzstabilisierung von Genexpressionsdaten
6
Varianzstabilisierung von Genexpressionsdaten
Modell nach Chen Annahme: Varianz steigt linear mit dem Erwartungswert. Chen‘s Folgerung: Logarithmieren der Daten. Varianzstabilisierung von Genexpressionsdaten
7
Modell nach Chen – Nachteile
Varianzstabilisierung von Genexpressionsdaten
8
Modell nach Chen – Nachteile
Singularität der Logarithmusfunktion bei 0. Transformation von negativen Werten nicht möglich. Kleine Werte werden nach der Transformation groß. Varianzstabilisierung von Genexpressionsdaten
9
Modell nach Huber Fehlermodell von R&D (2001) Transformation
Tibshirani (1988) Fehlermodell R&D (2001) Parameterabschätzung LTS – Rousseuw & LeRoy (1987) MLA – Murphy & Van der Vaart (2000) Varianzstabilisierung von Genexpressionsdaten
10
Modell nach Huber – Fehlermodell von R&D
Additiver Fehler Multiplikativer Fehler Offset Tatsächlicher Expressionslevel Varianzstabilisierung von Genexpressionsdaten
11
Modell nach Huber – Fehlermodell von R&D
Die Fehlerterme η und ν sind voneinander unabhängig und normalverteilt um den Erwartungswert 0. Varianzstabilisierung von Genexpressionsdaten
12
Modell nach Huber – Fehlermodell von R&D
Konsequenzen: Quadratische Abhängigkeit der Varianz zum Erwartungswert Varianzstabilisierung von Genexpressionsdaten
13
Modell nach Huber – Fehlermodell von R&D
Varianzstabilisierung von Genexpressionsdaten
14
Modell nach Huber – Transformation
Delta-Methode = Taylor-Approximation von um Varianzstabilisierung von Genexpressionsdaten
15
Modell nach Huber – Vorteile der Transformation
Keine Singularität bei 0 Linearer Verlauf im Bereich der niedrigen Intensitäten Varianzstabilisierung von Genexpressionsdaten
16
Modell nach Huber – Vorteile der Transformation
Maß für die unterschiedliche Expression Varianzstabilisierung von Genexpressionsdaten
17
Modell nach Huber – Parameterabschätzung
Die Parameter müssen aus den Daten geschätzt werden Methode: Maximum Likelihood Schätzer + LTS(Least Trimmed Sum of Squares) Regression Varianzstabilisierung von Genexpressionsdaten
18
Modell nach Huber – Parameterabschätzung
Modell nach der Transformation: K die Menge aller Gene ist, die gleichen Erwartungswert über alle samples i aufweisen Varianzstabilisierung von Genexpressionsdaten
19
Modell nach Huber – Parameterabschätzung
Die Wahrscheinlichkeitsfunktion soll maximiert werden: Varianzstabilisierung von Genexpressionsdaten
20
Modell nach Huber – Parameterabschätzung
Logarithmieren der ML-Funktion und einsetzen von und führt zu: Varianzstabilisierung von Genexpressionsdaten
21
Modell nach Huber – Parameterabschätzung
Bestimmen der Menge K mit Least Trimmed Sum of Squares (LTS): Schätze die Initialparameter über alle n Gene Sortiere die Gene nach dem Erwartungswert und teile in 10 Quantile auf Berechne für alle Gene eines Quantils den quadratischen Fehler und sortiere danach Verwende für die nächste Iteration das erste qlts-Anteil der Gene, für qlts = geschätzter Anteil der nicht unterschiedlich exprimierten Gene. Varianzstabilisierung von Genexpressionsdaten
22
Varianzstabilisierung von Genexpressionsdaten
Ergebnisse Varianzstabilisierung von Genexpressionsdaten
23
Ewgenij Proschak Yusuf Tanrikulu The End
Ähnliche Präsentationen
© 2024 SlidePlayer.org Inc.
All rights reserved.