Präsentation herunterladen
1
2tes Projekttreffen Januar 2008
MetaSTEM 2tes Projekttreffen Januar 2008
2
Die Menschen des Datenanalyse-Teils im METASTEM-Projekt
Thomas Villmann Frank-Michael Schleif Arbeitsgruppe Computational Intelligence Medizinische Fakultät Universität Leipzig
3
Projektzeitplan – aktueller Stand
4
Automatische Analyse von NMR-Metabolitenspektren
Fouriertransformation Phasenkorrektur Wasserpeakentfernung 1 Basislinienkorrektur Alignierung per DSS – Referenzsignals Peaklistenbestimmung 2 Simulationsspektren + Peaklisten Metabolitenidentifikation über passende Peaks oder Differenzspektren Quantifizierung 3
5
NMR-Analysis – Prototypisches Tool
6
Spektrendarstellung Fouriertransformiert ohne H2O Signal Einzelspektrum Basislinienkorrigiert mit gepickten Peaks Mehrspektrensicht
7
Automatisch annotierte Peaks (Farbe), Untergrund (blau)
DSS Zoom in prozessiertes Signal im Frequenzbereich von 2200 – 3400 Hz
8
Automatische Metabolitenidentifikation
Myo Inositol (gemessen) Myo Inositol (simuliert)
9
Automatische Metabolitenidentifikation - Fit
10
Automatische Metabolitenidentifikation
Laktat-Signale, die in der FDCPMix-Messung (wahrscheinlich) wieder gefunden wurden Messung bzw. Simulation Peakliste FDCPMix - Messung (5 mM Glucose) Simulationsmessung (Lacktat)
11
Zusammenfassung – NMR Tool
Vollautomatische Vorverarbeitung – H1 + DSS (FFT, Phasing, Wasserpeakentfernung, Smoothing, Baseline, Peakdetektion) Verschiedene Visualisierungsmöglichkeiten Identifikation der Metabolite ueber Peaklisten oder Shape (reine Quantifizierung) Manuell : geführt via Ident-Dialog Automatisch: Durchsatzprozessierung Elementare Peakshape-Modellierung möglich Exports (als txt oder xml): Roh / prozessiertes Spektrum Peaklisten – Single Spektrum Identifikationsergebnisse
12
Glucose-Test (Peak basiert) - Beispiel
Mess Metabolit Konz. Kommentar M11 Citric-Ac ~2 Peakmatch, aber in Multiplet Lactate ~6 Quartet hat falsche Ratios M12 ~3 Wie f. M11 / 1 Peak fehlt Glutamine ?? 71% match – sieht gut aus Glycine ~7 Peakmatch – aber einf. Met. ~9 Quartet besser als bei M11 M13 ~5 Extrem schmale Peaks Schlechte Auflösung der Peaks Succinate
13
Sparse-Coding f. NMR Analyse
Identifikation von Metaboliten möglich durch Differenzspektrenanalyse aller Kombinationen (i.A. manuell) durch Peakbasierte Identifikation auf Linienspektren Aufwendige Vorverarbeitung Differenzspektren mühsam (Peakshape) Peaklisten: Codierung-Peaklisten schwierig – „keine“ Shape nötig Alternative – Sparsecoding* (Ähnlichkeiten zu PCA) (Codierung mit wenig „Basisfunktionen“) Generiere erzeugenden System (Modellierung aus gemessenen und simulierten Daten) „Basisfunktionen“ aus Metaboliten Lerne Modell für Koeffizienten d. Basisfunktionen (Klassifikation) Mischkonzentrationen – durch Fuzzyassignments zwischen Basisklassen detektierbar *Details siehe Olshausen et al. Letters to Nature, 381, 1996
14
Erste Ergebnisse – auf Synthesen
Trainingsdaten (D) 4 Metabolite (Alanine, Glutamine, Glycine, Serine) ~160 Spek Testdaten (T) Reine Metabolite (Ala, Glu, Gly, Ser) und paarweise Mischungen 10 Gruppen – insgesamt ca. 400 Spektren Prozedure Trainingsdaten für Sparse-Coding-Modell-Gen. D / T werden sparse kodiert (Koeffizienten) D für Lernen eines Klassifikationsmodells D / T zum Testen des Klassifikationsmodells = Metabolitenidentifikation
15
Schema für Sparsecoding in NMR
Basic Prep D D* Sparse Coding Model-Gen D* SC-Model SC-Model C Sparse coder D* DTest* CTest
16
Schema für SC-Identifikation
Classifier C M Modell C Modell applier M R Results CTest Klassifikationsmatrix für C R Fuzzyassignments für C,CTest Toplogische Visualisierung (Klassenähnlichkeiten)
17
Sparse-Coding – Ergebnisse 1
Hohe Zuordnung für Alanin (4) M: FLSOM Abbildung von D und T M Fuzziness für Alanin – Klasse 1 Fuzziness für Glutamine (2) Fuzziness für Glycine (3) Fuzziness für Serine (4)
18
Sparse-Coding – Ergebnisse 2
Ala Gln Gly Ser 1/2 1/3 1/4 2/3 2/4 3/4 0.74 1.0 0.4 0.95 0.77 0.03 XXX 0.25 0.05 0.7 0.3 0.23 0.97 0.6 87% korrekt 4 bek. Klassen Unbek. (47% korr – 6 unbek. Klassen)
19
Peak-Coding – Ergebnisse 3
Ala Gln Gly Ser 1/2 1/3 1/4 2/3 2/4 3/4 0.9 0.03 0.1 0.82 1.0 0.18 0.92 0.97 Keine Fehlklassifikation bei Ala,Gln,Gly,Ser – nur missing classification (no match) Fehler primär wegen niedriger Intensitäten ca unter 5 selten korrekt 91% korrekt 4 bek. Klassen Unbek. (90% korr – 6 unbek. Klassen)
20
Zusammenfassung 1te Analyse (sehr w. Proben) – Vorgehen so machbar
Plausibilität der Ergebnisse schwierig Peakverhältnisse beachten – aber dafür exakte Messungen / Mehrfachmessungen nötig Sehr niedrige Intensitäten – Peakpicking schwierig / Rauschprobleme Standardisierte Messung + hohe Messqualität + Mehrfachmessungen wichtig Shape basierter Match alternativ möglich (liefert prinzipiell einen Quantiätswert) Sparsecoding interessante Alternative – aber noch sehr experimentell + offene Probleme
21
Danke für die Aufmerksamkeit
Ähnliche Präsentationen
© 2024 SlidePlayer.org Inc.
All rights reserved.