Programmierprojekt: Genexpressionsanalyse

Slides:



Advertisements
Ähnliche Präsentationen
Der Foliensatz ist unter einer Creative Commons-Lizenz lizenziert:
Advertisements

Stichwortverzeichnis
Heute Mathe, morgen DLR! Dr. Margrit Klitz
Einführung in Web- und Data-Science Grundlagen der Stochastik
gemeinsam.innovativ.nachhaltig.
Wissenschaftliche Methodik
3. Schafft das Internet neue Transaktionsdesign?
Umweltbezogene Entscheidungen - multidimensionale Bewertungsverfahren -
Michael Artin: Geometric Algebra
Stichwortverzeichnis
8 Zündung/Motormanagement
2 Elektrische Maschinen in Kraftfahrzeugen
Herstellung von kristallinen Metalloxiden über die Schmelze mit einem Spiegelofen Gruppe 8: Yuki Meier, Vivien Willems, Andrea Scheidegger, Natascha Gray.
Kapitel 4 Traveling Salesman Problem (TSP)
Markus Lips März 2017 ETH-Vorlesung, 6. Sem. Agrarwissenschaft BSc Agrartechnik II.
Einführung in die Wahrscheinlichkeitsrechnung
Motoremissionen mobiler Anlagen – Stand der Technik
Einführung in Web- und Data-Science
Algorithmen und Datenstrukturen
Algorithmen und Datenstrukturen
Industrie 4.0 für die Ausbildung 4.0
Entwicklung epistemologischer Überzeugungen
Das Verdauungssystem Präsentiert von Theresa
MasterBAV© Die neue Generation BAV
Algorithmen und Datenstrukturen
Rehwild die richtige Altersbestimmung
PSG II Neuer Pflegebedürftigkeitsbegriff und dessen Begutachtung (NBA)
Medientechnische Infrastrukturen für virtuelle und lokale Lernräume
«Wir bereiten uns auf die Deutschlandreise vor»
GABI UND BEN.
Pflege & Finanzierung 01. Juni 2017 Dr. Sonja Unteregger
Das Arbeitgebermodell in Zeiten des
Microsoft® Office PowerPoint® 2007-Schulung
Einführung in Web- und Data-Science
Mathematik 10.
Betriebliche Gesundheitsförderung 2
Amand Fäßler 3. Januar 2017; RC Bregenz
Eine kleine Einführung in das Projekt „Mausefallenauto“
Innovation durch Genie
Vorlesung Wasserwirtschaft & Hydrologie I
Vorlesung Eigenspannungen in Bauteilen und Werkstoffen
Forschung trifft Schule CERN Summer School Auffrischung: Das Standardmodell im Schulunterricht Philipp Lindenau u. Michael Kobel CERN |
Abiturprüfung Mathematik 2017 Baden-Württemberg Allgemeinbildende Gymnasien Wahlteil Stochastik Aufgabe C 1 - Lösungen
Oracle 12.2 Neue Features für das Data Warehouse
Das große Standbild und die Herausforderung des Glaubens
Einführung in Web- und Data-Science
Schaltfunktionen und Logik
Einführung in die KI – Aussagenlogik
Hochschule für Technik und Wirtschaft
Vorlesung Eigenspannungen in Bauteilen und Werkstoffen
Wahlteil 2016 – Aufgabe B 2 Aufgabe B 2.1
Ökonometrie und Statistik Fraud Detection
Non-Standard-Datenbanken
Wasaskolan ist ein Gymnasium in der schwedischen Kleinstadt Tingsryd.
Haus 7: Gute Aufgaben Modul 7.5 „Inter-Netzzo“ Im Kopf unterwegs zwischen Netzen, Schachteln und Würfeln Kommentar zu Folie 1: Bevor ich Ihnen einen.
Nachhaltige globale Energiesysteme –
Datenschutz in kirchlichen Kindertageseinrichtungen
Kinder des Lichts sein (1. Thess 5,4-8)
AUSTRIA´s ANGIOGRAPHY and PCI - CENTRES 2015
Jugendbeteiligung in Meckenbeuren.
Haltet fest an der Wahrheit
Chancen und Stolpersteine der aktuellen Asylgesetzrevision
«Ob man einen Nachbarn mag oder nicht, das merkt man oft erst, wenn der Möbelwagen vor seiner Türe steht.« (Autor unbekannt)
Tutorium der Vorlesung Lebensmittelphysik Strömende Fluide.
Berufs- und Studienorientierung
Blick nach innen – Innere Motivation und Antrieb
Beiräte in Franchise-Systemen
Informationen zum Auslandssemester
Auffrischung – Das Standardmodell
Widerstand Kapitel Fragen TC101 bis TC115 Michael Funke – DL4EAX.
 Präsentation transkript:

Programmierprojekt: Genexpressionsanalyse R-Kurs 2017-11-16

Datensatz: lymphoma_data.RData 220 Lymphomfälle Affymetrix hgu133a Array 4457 Probesets mit höchster Streuung selektiert Annotation der Fälle (case_annotation): MPINR (CHIP_ID) AGE GENDER Diagnose (PANELDIAG1) MYC-Transokation (MYC_STATUS: IG-MYC; non-IG-MYC; neg) Genexpressionsbasierte Klassifikatoren: GCBABC (GCB; ABC; unclassified) MOLDIAG (mBL; non-mBL; intermediate) COMAP (BL-PAP; mind-L; PAP-1; PAP-2; PAP-3; PAP-4) Daten entstammen der Publikation: „A biologic definition of Burkitt's lymphoma from transcriptional and genomic profiling” Hummel M. et al. NEJM 2006

Visualisierung der Daten mit heatmap(): heatmap(GE_MMML,Rowv=NA) Rowv=NA verhindert Clustering der Zeilen (zeitaufwendig) Fälle sind hierarchisch geclustert cl<-rep("2",dim(case_annotation)[1]) cl[case_annotation$MOLDIAG=="intermediate"] <-"8" cl[case_annotation$MOLDIAG=="non-mBL"] <-"4" heatmap(GE_MMML,Rowv=NA,ColSideColors=cl, labCol="",labRow="") Färbung der Fälle gemäß Molekularer Diagnose rot=mBL, grau=intermediate,blau=non-mBL labCol/labRow Labels für Zeilen und Spalten Gene Fälle

Einfache Clusterverfahren: K-Means: library(cluster) x<-kmeans(t(GE_MMML),centers=2) table(x$cluster,case_annotation$MOLDIAG) intermediate mBL non-mBL 1 36 0 127 2 12 44 1 PAM: x<-pam(t(GE_MMML),2) table(x$clustering,case_annotation$MOLDIAG) intermediate mBL non-mBL 1 14 43 1 2 34 1 127

Differentielle Genexpression: p_values<-rep(NA,dim(GE_MMML)[1]) for (i in 1:dim(GE_MMML)[1]){ p_values[i]<-t.test(GE_MMML[i,case_annotation$MOLDIAG=="mBL"], GE_MMML[i,case_annotation$MOLDIAG=="non-mBL"])$ p.value } hist(p_values,breaks=30)

Differentielle Genexpression II: #Zufällige Gruppen p_values_random<-rep(NA,dim(GE_MMML)[1]) for (i in 1:dim(GE_MMML)[1]){ sel<-sample(1:dim(GE_MMML)[2],round(dim(GE_MMML)[2]/2), replace=F) p_values_random[i]<-t.test(GE_MMML[i,sel], GE_MMML[i,-sel])$ p.value } hist(p_values_random,breaks=30)

Deskription differentielle Gene: #Adjustierung für mult. Testen adjp=p.adjust(p_values, method="bonferroni") #Darstellen differentieller Gene (adjustierter p-Wert<0.0001) heatmap(GE_MMML[adjp<0.0001,],ColSideColors=cl) #Ausschluss von „intermediate“ Fällen heatmap(GE_MMML[adjp<0.0001,case_annotation$MOLDIAG!="intermediate"], ColSideColors=cl[case_annotation$MOLDIAG!="intermediate"])

Aufgaben: Beschreibe „deskriptiv“ und „induktiv“ (Testen) den Zusammenhang der Gruppe mBL mit Alter, Geschlecht, MYC-Status, GCBABC, COMAP und Paneldiagnose. Durch welche Eigenschaften kann die mBL Gruppe charakterisiert werden? Untersuche innerhalb der non-mBL Gruppe den Kontrast ABC gegen GCB. Unterschieden sich die Subgruppen bezüglich Genexpression? Korrelieren die Gruppe ABC und GCB mit anderen Merkmalen (vgl. Aufgabe 1)? Achtung, für diese Aufgabe nur die Fälle mit non-mBL Signatur betrachten! Zerlegen den kompletten Datensatz in 2 Teile, so dass mBL, intermediate und non-mBL möglichst gleich auf die Gruppen verteilt werden. Entwickle mit Hilfe des ersten Datensatzes eine einfache Klassifikationsregel, die die Fälle in 2 Gruppen (mBL und non-mBL) einteilt. Validiere die Regel im 2. Datensatz. Erweitere die Klassifikationsregel, so dass unsichere Fälle (intermediate) in eine 3. Gruppe eingeteilt werden. Validiere erneut mit dem 2. Datensatz und schätze die Sensitivität/Spezifität für die Detektion von mBL mit dem Klassifikator ab.