Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Varianzstabilisierung von Genexpressionsdaten Ewgenij Proschak Yusuf Tanrikulu Seminar:Aktuelle Themen der Bioinformatik 27.05.2004 Organizer:Prof. Dr.

Ähnliche Präsentationen


Präsentation zum Thema: "Varianzstabilisierung von Genexpressionsdaten Ewgenij Proschak Yusuf Tanrikulu Seminar:Aktuelle Themen der Bioinformatik 27.05.2004 Organizer:Prof. Dr."—  Präsentation transkript:

1 Varianzstabilisierung von Genexpressionsdaten Ewgenij Proschak Yusuf Tanrikulu Seminar:Aktuelle Themen der Bioinformatik Organizer:Prof. Dr. D. Metzler Tutor:Lin Himmelmann

2 Varianzstabilisierung von Genexpressionsdaten2 Inhalt zProblemstellung und Grundbegriffe zModell nach Chen zModell nach Huber yFehlermodell nach Rocke und Durbin yTransformation zur Varianzstabilisierung yParameterabschätzung

3 Varianzstabilisierung von Genexpressionsdaten3 Problemstellung – Datenformat zVorverarbeitete Daten, die in einer Matrix vorliegen

4 Varianzstabilisierung von Genexpressionsdaten4 Problemstellung - Begriffsdefinition zHeteroskedastizität yVarianz nicht konstant zHomoskedastizität yVarianz konstant Transformation

5 Varianzstabilisierung von Genexpressionsdaten5 Problemstellung – Wieso ist das wichtig? zSignifikanz verringert sich mit wachsender Varianz zZiel: Unterschiede in der Genexpressionsrate feststellen. zProblem: Wenn aber die Varianz zu hoch ist, kann man nicht genau sagen, ob es ein Unterschied oder eine varianzbedingte Schwankung ist.

6 Varianzstabilisierung von Genexpressionsdaten6 Modell nach Chen zAnnahme: yVarianz steigt linear mit dem Erwartungswert. zChen‘s Folgerung: yLogarithmieren der Daten.

7 Varianzstabilisierung von Genexpressionsdaten7 Modell nach Chen – Nachteile

8 Varianzstabilisierung von Genexpressionsdaten8 Modell nach Chen – Nachteile zSingularität der Logarithmusfunktion bei 0. zTransformation von negativen Werten nicht möglich. zKleine Werte werden nach der Transformation groß.

9 Varianzstabilisierung von Genexpressionsdaten9 Modell nach Huber Fehlermodell von R&D (2001) Fehlermodell R&D (2001) Transformation Tibshirani (1988) Parameterabschätzung LTS – Rousseuw & LeRoy (1987) MLA – Murphy & Van der Vaart (2000)

10 Varianzstabilisierung von Genexpressionsdaten10 Modell nach Huber – Fehlermodell von R&D Offset Multiplikativer Fehler Additiver Fehler Tatsächlicher Expressionslevel

11 Varianzstabilisierung von Genexpressionsdaten11 Modell nach Huber – Fehlermodell von R&D z Die Fehlerterme η und ν sind voneinander unabhängig und normalverteilt um den Erwartungswert 0.

12 Varianzstabilisierung von Genexpressionsdaten12 Modell nach Huber – Fehlermodell von R&D zKonsequenzen: zQuadratische Abhängigkeit der Varianz zum Erwartungswert

13 Varianzstabilisierung von Genexpressionsdaten13 Modell nach Huber – Fehlermodell von R&D

14 Varianzstabilisierung von Genexpressionsdaten14 Modell nach Huber – Transformation zDelta-Methode = Taylor-Approximation von um

15 Varianzstabilisierung von Genexpressionsdaten15 Modell nach Huber – Vorteile der Transformation zKeine Singularität bei 0 zLinearer Verlauf im Bereich der niedrigen Intensitäten

16 Varianzstabilisierung von Genexpressionsdaten16 Modell nach Huber – Vorteile der Transformation zMaß für die unterschiedliche Expression

17 Varianzstabilisierung von Genexpressionsdaten17 Modell nach Huber – Parameterabschätzung Die Parameter müssen aus den Daten geschätzt werden Methode: Maximum Likelihood Schätzer + LTS(Least Trimmed Sum of Squares) Regression

18 Varianzstabilisierung von Genexpressionsdaten18 Modell nach Huber – Parameterabschätzung zModell nach der Transformation: K die Menge aller Gene ist, die gleichen Erwartungswert über alle samples i aufweisen

19 Varianzstabilisierung von Genexpressionsdaten19 Modell nach Huber – Parameterabschätzung zDie Wahrscheinlichkeitsfunktion soll maximiert werden:

20 Varianzstabilisierung von Genexpressionsdaten20 Modell nach Huber – Parameterabschätzung zLogarithmieren der ML-Funktion und einsetzen von und führt zu:

21 Varianzstabilisierung von Genexpressionsdaten21 Modell nach Huber – Parameterabschätzung  Bestimmen der Menge K mit Least Trimmed Sum of Squares (LTS): 1.Schätze die Initialparameter über alle n Gene 2.Sortiere die Gene nach dem Erwartungswert und teile in 10 Quantile auf 3.Berechne für alle Gene eines Quantils den quadratischen Fehler und sortiere danach 4.Verwende für die nächste Iteration das erste q lts -Anteil der Gene, für q lts = geschätzter Anteil der nicht unterschiedlich exprimierten Gene.

22 Varianzstabilisierung von Genexpressionsdaten22 Ergebnisse

23 Ewgenij Proschak The End Yusuf Tanrikulu


Herunterladen ppt "Varianzstabilisierung von Genexpressionsdaten Ewgenij Proschak Yusuf Tanrikulu Seminar:Aktuelle Themen der Bioinformatik 27.05.2004 Organizer:Prof. Dr."

Ähnliche Präsentationen


Google-Anzeigen