Ein Virtuelles Zentrum für Text Mining in der Biomedizin

Slides:



Advertisements
Ähnliche Präsentationen
interdisciplinary joint projects method-oriented platforms
Advertisements

Anzahl der ausgefüllten und eingesandten Fragebögen: 211
Folienserie des Fonds der Chemischen Industrie
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil3.
Einführung in die Informatik: Programmierung und Software-Entwicklung
Vorteile der Online-Produkte
Telefonnummer.
CPCP Institute of Clinical Pharmacology AGAH Annual Meeting, 29. Februar 2004, Berlin, Praktischer Umgang mit den Genehmigungsanträgen gemäß 12. AMG Novelle.
Modelle und Methoden der Linearen und Nichtlinearen Optimierung (Ausgewählte Methoden und Fallstudien) U N I V E R S I T Ä T H A M B U R G November 2011.
Modelle und Methoden der Linearen und Nichtlinearen Optimierung (Ausgewählte Methoden und Fallstudien) U N I V E R S I T Ä T H A M B U R G November 2011.
Die Deutschen im Herbst 2008
„Netzwerk Medizin und Geschlecht“ an der Medizinischen Hochschule Hannover Projektleitung: Dr. phil. Bärbel Miemietz Projektkoordination: Larissa Burruano,
Workshop zur Medienarbeit der katholischen Kirche Aspekte des Religionsmonitors Berlin, 02. April 2008.
1 JIM-Studie 2010 Jugend, Information, (Multi-)Media Landesanstalt für Kommunikation Baden-Württemberg (LFK) Landeszentrale für Medien und Kommunikation.
-17 Konjunkturerwartung Europa September 2013 Indikator > +20 Indikator 0 a +20 Indikator 0 a -20 Indikator < -20 Europäische Union gesamt: +6 Indikator.
Scratch Der Einstieg in das Programmieren. Scatch: Entwicklungsumgebung Prof. Dr. Haftendorn, Leuphana Universität Lüneburg,
© 2006 W. Oberschelp, G. Vossen Rechneraufbau & Rechnerstrukturen, Folie 2.1.
Grundkurs Theoretische Informatik, Folie 2.1 © 2006 G. Vossen,K.-U. Witt Grundkurs Theoretische Informatik Kapitel 2 Gottfried Vossen Kurt-Ulrich Witt.
Internet facts 2008-II Graphiken zu dem Berichtsband AGOF e.V. September 2008.
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil2.
Betreuerin: Kathleen Jerchel
Der Spendenmarkt in Deutschland
Rechneraufbau & Rechnerstrukturen, Folie 12.1 © W. Oberschelp, G. Vossen W. Oberschelp G. Vossen Kapitel 12.
1. 2 Schreibprojekt Zeitung 3 Überblick 1. Vorstellung ComputerLernWerkstatt 2. Schreibprojekt: Zeitung 2.1 Konzeption des Kurses 2.2 Projektverlauf.
Bild 1.1 Copyright © Alfred Mertins | Signaltheorie, 2. Auflage Vieweg+Teubner PLUS Zusatzmaterialien Vieweg+Teubner Verlag | Wiesbaden.
20:00.
SK / , , in Hochkössen und der Wildschönau flow Ski- und Snowboardschule Intersport Menzel.
Inhalt Was ist A-Plan? Einsatzgebiete Organisation der Daten
Eine Einführung in die CD-ROM
Reise-Bilder Ditmar Schädel (DGPh)
...ich seh´es kommen !.
Where Europe does business Lück, JDZB | Seite © GfW NRW 252 a.
1 Ein kurzer Sprung in die tiefe Vergangenheit der Erde.
Das 19. Jahrhundert: John Ruskin ( ) und die Kunsterziehungsbewegung in England.
Präsentation läuft auch vollautomatisch ab … wie du möchtest
Auslegung eines Vorschubantriebes
NEU! 1 2. Wo kommt diese Art von Rezeptor im Körper vor?
PROCAM Score Alter (Jahre)
XML Clearinghouse für Berlin und Brandenburg Das Wissensforum zu XML Technologien in Berlin und Brandenburg.
Vorlesung Mai 2000 Konstruktion des Voronoi-Diagramms II
Nestor Workshop im Rahmen der GES 2007 Digitale Langzeitarchivierung und Grid: Gemeinsam sind wir stärker? nestor und Grid Jens Ludwig Baden-Baden, 2.
Symmetrische Blockchiffren DES – der Data Encryption Standard
PARTENARIAT ÉDUCATIF GRUNDTVIG PARTENARIAT ÉDUCATIF GRUNDTVIG REPERES KULTURELLER ZUSAMMENHALT UND AUSDEHNUNG DER IDEEN AUF EUROPÄISCHEM.
Wer ist die KNX Swiss V
Großer Altersunterschied bei Paaren fällt nicht auf!
1 (C)2006, Hermann Knoll, HTW Chur, FHO Quadratische Reste Definitionen: Quadratischer Rest Quadratwurzel Anwendungen.
Analyseprodukte numerischer Modelle
2014 Januar 2014 So Mo Di Mi Do Fr Sa So
+21 Konjunkturerwartung Europa Dezember 2013 Indikator > +20 Indikator 0 bis +20 Indikator 0 bis -20 Indikator < -20 Europäische Union gesamt: +14 Indikator.
Pigmentierte Läsionen der Haut
Erstversorgung sehr kleiner Frühgeborener „NEU“ am AKH Wien
Basisdokumentation Erhebungszeitraum Rehabilitationsträger Zuweiser
Schutzvermerk nach DIN 34 beachten 20/05/14 Seite 1 Grundlagen XSoft Lösung :Logische Grundschaltung IEC-Grundlagen und logische Verknüpfungen.
Vortrag von Rechtsanwältin Verena Nedden, Fachanwältin für Steuerrecht zur Veranstaltung Wege zum bedingungslosen Grundeinkommen der Piratenpartei Rhein-Hessen.
GenoMik: Funding of Genome Research on Bacteria 2001 – 2006 Network 1 Topic:Genome Research on Bacteria relevant for Agriculture, Environment and Biotechnology.
1 Mathematical Programming Nichtlineare Programmierung.
Ertragsteuern, 5. Auflage Christiana Djanani, Gernot Brähler, Christian Lösel, Andreas Krenzin © UVK Verlagsgesellschaft mbH, Konstanz und München 2012.
Titelmasterformat durch Klicken bearbeiten Textmasterformate durch Klicken bearbeiten Zweite Ebene Dritte Ebene Vierte Ebene Fünfte Ebene 1 Rising energy.
Der Erotik Kalender 2005.
Bildergalerie PRESEASON CAMP Juni 2014 Romanshorn Get ready for the Season!
Kw MoDiMiDoFrSaSo 14 1 Semester- beginn: SS Vorlesungs- beginn: SS April 2008.
Es war einmal ein Haus
Datum:17. Dezember 2014 Thema:IFRS Update zum Jahresende – die Neuerungen im Überblick Referent:Eberhard Grötzner, EMA ® Anlass:12. Arbeitskreis Internationale.
Kompetenztraining Jura Martin Zwickel / Eva Julia Lohse / Matthias Schmid ISBN: © 2014 Walter de Gruyter GmbH, Berlin/Boston Abbildungsübersicht.
1 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt Wie.
1 Medienpädagogischer Forschungsverbund Südwest KIM-Studie 2014 Landesanstalt für Kommunikation Baden-Württemberg (LFK) Landeszentrale für Medien und Kommunikation.
Monatsbericht Ausgleichsenergiemarkt Gas – Oktober
Monatsbericht Ausgleichsenergiemarkt Gas – November
 Präsentation transkript:

Ein Virtuelles Zentrum für Text Mining in der Biomedizin Skizze für einen Themenverbund Udo Hahn, Martin Hofmann und Rüdiger Klar Joachim Wermter, Juliane Fluck und Stefan Schulz

Was ist „Text Mining“ ? Warum eine nationale Initiative ? Die Gesamtheit aller Technologien, die es ermöglichen, relevante und „neue“ Information in unstrukturierten Texten automatisch zu erkennen und zu extrahieren Eine neue Schlüsseltechnologie für die Life Sciences: Wissensmanagement International bereits laufende F&E-Aktivitäten möchten wir mit unserer Initiative aufgreifen und auf der Grundlage einer nationalen Anforderungsanalyse und Prioritätensetzung konstruktiv mitgestalten

Das Wachstum von Life-Science-Daten übertrifft Moore´s Gesetz Datenexplosion am Beispiel von Sequenzdaten Das Wachstum von Life-Science-Daten übertrifft Moore´s Gesetz An update every second Megabases Moore’s Law Quelle: http://www.nlm.nih.gov/pubs/factsheets/medline.html

Datenexplosion am Beispiel von biomedizinischen Publikationen und Wachstum der Nachfrage nach biomedizinischen Texten (eigentlich: Wissen) Anfragen an PubMed Zuwachs in MEDLINE: seit 2002 kommen täglich 1,500-3,500 neue Daten- sätze hinzu. aktuell: ca. 13 Mio. BEs Quelle: http://www.nlm.nih.gov/pubs/factsheets/medline.html

Datenexplosion am Beispiel klinischer Texte nur für das Universitätsklinikum Freiburg (p.a.) 280.000 Arztbriefe 140.000 Radiologiebefunde 55.000 Pathologiebefunde 40.000 Operationsberichte 70.000 sonstige Texte (Endoskopien,Funktionsuntersuchungen Lunge, EKG, EEG etc.) 600.000

Je komplexer die Sachverhalte, … …, desto eher sind sie nur in unstrukturierten Texten zu finden

unstrukturiert (Text) strukturiert (DBs) Datenvolumen Vermarktung Quelle: Prabhakar, Raghavan, Verity (2002)

Textbeispiele Histologisches Gutachten Makroskopie: Eine 8 cm lange, fokal etwas aufgetriebene Appendix mit gestauten Gefäßen und fokalen Fibrinbelägen. ... Bei gleichmäßiger Verteilung der Fettzellen auf 40% des Markraumes, üblicher Architektur des Gitterfasernetzes und deutlich gesteigertem Ferritineisengehalt der phagozytären Retikulumzellen, die übrigens zum Teil eine durchaus floride Erythrozytenphagozytose betreiben, sind normoblastisch ausreifende Erythropoese etwas linksverschoben, Megakaryozyten und Granulozytopoese mit allen Reifungsstufen regulär vertreten und dabei allenfalls grenzwertig hyperplastisch entwickelt. PubMed Abstract E2F-1 and a cyclin-like DNA repair enzyme, uracil-DNA glycosylase, provide evidence for an autoregulatory mechanism for transcription. The cell cycle-dependent transcription factor, E2F-1, regulates the cyclin-like species of the [[DNA repair enzyme] uracil-DNA glycosylase (UDG) gene] in human osteosarcoma (Saos-2) cells.

Zentrale Herausforderungen Riesige, weiterhin schnell wachsende Textmengen (Publikationen, Sequenz- annotationen, klinische Befundberichte) Biomedizinisches Wissen ist in Texten natürlichsprachlich kodiert; es mangelt an der Strukturierung komplexer Sachverhalte in Texten für Computer Geringe Vernetzung von Patientendaten, Literaturdaten und Genomdaten Multilingualität der Wissensdomänen und der Textkollektionen Schlussfolgerung: Probleme sind nur im Rahmen interdisziplinärer Aktivitäten zu lösen unter Einschluss aller beteiligten Disziplinen (Bioinformatik, Computerlinguistik, Medizin, Biologie, Informatik)

Deutsches Virtuelles Zentrum für Text Mining in der Biomedizin BioTeM

Aufgabenschwerpunkte und Programmatik für ein Deutsches Virtuelles Zentrum für Text Mining in der Biomedizin Koordination (analog NoE der EU) Ressourcen (generell: Ontologien, Lexika, Korpora, eBooks) Standardisierung Clearing House für Codes und Algorithmen Zugang zu Texten (pseudonymisierte EPA, Patente, Leitlinien usw.) Workshops Training / Dissemination von Wissen Zusammenarbeit auf internationaler Ebene (z.B. mit UK National Centre for Text Mining) Gemeinsame Forschung (analog IP der EU) Sprachtechnologie: koordinierte Methodenentwicklung Repräsentation biomedizinischen Wissens: Ontologieentwicklung und –pflege Interdisziplinäre Verknüpfung zwischen klinischem und molekularbiologischem Wissen Multilinguale Quelltexte: Begriffliche Äquivalenz in verschiedenen Sprachen Systemevaluation

BioTeM vereinigt Kernkompetenzen Medizin- Informatik / Medizin http://www.imbi.uni-freiburg.de/medinf/ Bio- Informatik / Genomik http://www.scai.fhg.de/bio.0.html Computer- Linguistik / Sprach- technologie http://www.uni-jena.de/coling.html BioTeM

Geleistete Vorarbeiten Oktober 2003: 1. Symposium „Text Mining in the Life Sciences“ in St. Augustin April 2004: Workshop in St. Augustin. Entscheidung zur Abfassung eines Positionspapiers zum Stand der Wissenschaft Mai 2004: Treffen des Kernteams in Freiburg August 2004: Treffen am Rande der COLING-Konferenz in Genf Oktober 2004: 2. Symposium „Text Mining in the Life Sciences“ in St. Augustin Dezember 2004: Konstituierendes Treffen der BioTeM-Interessenten in Heidelberg [Vertreter von 12 Forschungsgruppen aus Deutschland]

Partner Universität Rostock BioBASE GmbH Hannover Prof. Dr. Ulf Leser Humboldt Universität Berlin Prof. Dr. Dietmar Schomburg Universität Köln Prof. Dr. Udo Hahn Universität Jena Dr. Martin Hofmann Fraunhofer SCAI St. Augustin Dr. Paul Buitelaar DFKI, Saarbrücken Dr. Isabel Rojas European Media Lab Heidelberg Prof. Dr. Uwe Reyle Universität Stuttgart TEMIS Deutschland GmbH Heidelberg Prof. Dr. Rüdiger Klar Universität Freiburg

Vorarbeiten und Planung für die Zukunft Gemeinsame, koordinierte Forschung Ausbau- phase Pilotprojekt 2003 2004 2005 2006 2007 Ressourcenaufbau / Koordination 1. Symposium Konstituierende Versammlung Workshop COLING Meeting / 2. Symposium Organisation und Infrastruktur

Das Pilotprojekt

Ziele des Pilotprojekts „Proof of Concept“ für die Anwendbarkeit von Text Mining auf interdisziplinäre Fragestellungen Informationsgewinn durch Kombination medizinischer Phänotypbeschreibungen und genom-orientierter biologischer Forschung Kombination von Text Mining für deutsche und englische Texte Nachweis der Relevanz eines deutschen virtuellen Text-Mining-Zentrums in der Biomedizin

Wissenschaftliche Publikationen Überblick über das Pilotprojekt Öffentliche Domäne Nichtöffentliche Domäne Krankheits- Phänotyp-Beschreibung Deutsch-Englisch-Index 2 Kombin. Netzwerk: Krankheits-Phänotyp- Gen/Protein-Netz 4 Krankheits- Phänotyp-Beschreibung 1 Gen/Protein-Netzwerk 3 Arztbriefe Deutsch Gene/Proteine Wissenschaftliche Publikationen Englisch Experimentelle Daten

Wissenschaftliche Publikationen Überblick über das Pilotprojekt Nichtöffentliche Domäne Öffentliche Domäne Krankheits- Phänotyp-Beschreibung Deutsch-Englisch-Index Kombin. Netzwerk: Krankheits-Phänotyp- Gen/Protein-Netz 1 Krankheits- Phänotyp-Beschreibung Gen/Protein-Netzwerk Gene/Proteine Arztbriefe Wissenschaftliche Publikationen Experimentelle Daten Deutsch Englisch

Überblick über das Pilotprojekt Nichtöffentliche Domäne 1 Krankheits- Phänotyp-Beschreibung Arztbriefe Deutsch

Elektronische Patientenakte num. Daten (Labor) Stammdaten 1 Elektronische Patientenakte Administrative Daten Freitexte Arztbriefe, Befundberichte, OP-Berichte, Arzneiverordnungen 459300402 GGT ALAT ASAT 2004-09-02 12 2,5 3,4 2004-09-03 13 1,9 1,8 2004-09-03 13 0,6 0,7 HL7 sich wahrscheinlich im Stadium der Ausheilung der Hepatitis-B-Virusinfektion. Nach Rücksprache mit dem Hepatologen Prof. Leber haben wir der Patientin die nochmalige Kontrolle der Hepatitis- Serologie im Dezember 2004 nahegelegt. Von der von Frau Lüdenscheid gewünschten Nachsorge in der Schwarzwaldklinik haben wir ihr strikt abgeraten. mit freundlichen, kollegialen Grüßen Prof. Dr. Baum, Dr. Herz ID: 459300402 Lüdenscheid, Iris * 12.12.1961 79138 Waldkirch AOK Südl. Oberrhein 459300402 Falldaten manuell kodierte Diagnosen+ Prozeduren sich wahrscheinlich im Stadium der Ausheilung der Hepatitis-B-Virusinfektion. Nach Rücksprache mit dem Hepatologen Prof. Hagedorn haben wir der Patientin die nochmalige Kontrolle der Hepatitis- Serologie im Dezember 2004 nahegelegt. Von der von Frau Schindler gewünschten Nachsorge in der Nordseeklinik haben wir ihr strikt abgeraten. mit freundlichen, kollegialen Grüßen Prof. Dr. Klaus, Dr. Fuchs num. Daten (Labor) B16.9 F32.0 K70.0 Freitexte Arztbriefe, Befundberichte, OP-Berichte, Arzneiverordnungen ID: 333400112 Schindler, Elisabeth * 13.01.1959 33733 Bielefeld AOK Westfalen-Lippe Falldaten 2004-09-02 12 2,5 3,4 2004-09-03 13 1,9 1,8 2004-09-03 13 0,6 0,7 GGT ALAT ASAT (semi)automatische Pseudonymisierung Stammdaten 333400112 B16.9 F32.0 K70.0 Text-Mining- System

Architektur eines Biomedizinischen Textanalyse-Kernsystems 1 A severe infection ended the pregnancy endV + edPastTen ended infection pregnancy a severe the Ending Pregnancy Infection severe E-patient E-agent I-degree Lexikon Grammatik/ Baumbank Proposition Bank Medizinische Ontologie Wortanalyse [morpholgisch,NER] Satzstruktur- Analyse Semantik Interpreter

Text Mining aus medizinischen Befundberichten 1 Fakten- & Phänotypen- Tabelle Elektronische Patientenakte(n) Befundberichte Diagnose ICD-10 M15.9 Aufgrund des klinischen und sonographischen Leberbefundes war von einer Steatose (DD: Zirrhose) ausgegangen am Aufnahmetag worden. Beides konnte feinnadelbioptisch so gut wie ausgeschlossen werden Diagnose Polyarthrose Aufgrund des klinischen und sonographischen Leberbefundes war von einer Steatose (DD: worden. Beides konnte Zirrhose) ausgegangen am Aufnahmetag feinnadelbioptisch so gut wie ausgeschlossen werden Aufgrund des klinischen und sonographischen Leberbefundes war von einer Steatose (DD: Zirrhose) ausgegangen worden. Beides konnte am Aufnahmetag feinnadelbioptisch so gut wie ausgeschlossen werden Lokalisation Handgelenk Fingergelenk Kniegelenk Fußgelenk Aufgrund der Röntgen- befunde vom 10.12. muss von einer Polyarthrose mit Manifestation im Bereich der Hand-, Finger-, Knie-, und Fußgelenke ausgegangen werden Aufgrund des klinischen und sonographischen Leberbefundes war von einer Steatose (DD: Zirrhose) ausgegangen worden. Beides konnte am Aufnahmetag feinnadelbioptisch so gut wie ausgeschlossen werden Sicherheit 95% Status positiv . . . Arztbriefe (Entlassungsberichte) z.B. Diagnosen, Medikationen, Laborbefunde, Tumordokumentation

Wissenschaftliche Publikationen Überblick über das Pilotprojekt Nichtöffentliche Domäne Öffentliche Domäne 2 Krankheits- Phänotyp-Beschreibung Deutsch-Englisch-Index Kombin. Netzwerk: Krankheits-Phänotyp- Gen/Protein-Netz 1 Krankheits- Phänotyp-Beschreibung 4 3 Gen/Protein-Netzwerk Gene/Proteine Arztbriefe Wissenschaftliche Publikationen Experimentelle Daten Deutsch Englisch

Wissenschaftliche Publikationen Überblick über das Pilotprojekt Nichtöffentliche Domäne Öffentliche Domäne 2 Krankheits- Phänotyp-Beschreibung Deutsch-Englisch-Index Kombin. Netzwerk: Krankheits-Phänotyp- Gen/Protein-Netz Krankheits- Phänotyp-Beschreibung Gen/Protein-Netzwerk Gene/Proteine Arztbriefe Wissenschaftliche Publikationen Experimentelle Daten Deutsch Englisch

Überblick über das Pilotprojekt Nichtöffentliche Domäne 2 Krankheits- Phänotyp-Beschreibung Deutsch-Englisch-Index Krankheits- Phänotyp-Beschreibung Arztbriefe Deutsch

Normalisierung multilingualer Texte 2 High TSH values suggest the diagnosis of primary hypo-thyroidism ... high tsh values suggest the diagnosis of primary hypo-thyroidism ... erhoehte tsh-werte erlauben die diagnose einer primaeren hypothyreose ... Orthografische Normalisierung Erhöhte TSH-Werte erlauben die Diagnose einer primären Hypothyreose ... Originaltexte high tsh value s suggest the diagnos is of primar y hypo thyroid ism er hoeh te tsh wert e erlaub en die diagnos e einer primaer en hypo thyre ose Zerlegungsalgorithmus #up tsh #value #suggest #diagnost #primar #small #thyre Inhaltsrepräsentation #up tsh #value #permit #diagnost #primar #small #thyre Semantische Normalisierung

Wissenschaftliche Publikationen Überblick über das Pilotprojekt Nichtöffentliche Domäne Öffentliche Domäne 2 Krankheits- Phänotyp-Beschreibung Deutsch-Englisch-Index Kombin. Netzwerk: Krankheits-Phänotyp- Gen/Protein-Netz 1 Krankheits- Phänotyp-Beschreibung 4 3 Gen/Protein-Netzwerk Gene/Proteine Arztbriefe Wissenschaftliche Publikationen Experimentelle Daten Deutsch Englisch

Wissenschaftliche Publikationen Überblick über das Pilotprojekt Nichtöffentliche Domäne Öffentliche Domäne Krankheits- Phänotyp-Beschreibung Deutsch-Englisch-Index Kombin. Netzwerk: Krankheits-Phänotyp- Gen/Protein-Netz Krankheits- Phänotyp-Beschreibung 3 Gen/Protein-Netzwerk Gene/Proteine Arztbriefe Wissenschaftliche Publikationen Experimentelle Daten Deutsch Englisch

Wissenschaftliche Publikationen Überblick über das Pilotprojekt Nichtöffentliche Domäne Öffentliche Domäne 3 Gen/Protein-Netzwerk Gene/Proteine Wissenschaftliche Publikationen Experimentelle Daten Englisch

Gen/Protein-Netzwerk: Aufgaben 3 Neuronectin, GMEM, tenascin, HXB, cytotactin, hexabrachion F12A WAS, STEP, iCE, StAR Interleukin 1 alpha Tumor necrosis factor beta p21, EPO, large T antigen Collagen, type I, alpha 1 Collagen alpha 1(I) chain Alpha 1 collagen Alpha-1 type I collagen COL1A1 TNF receptor 1 collagen, type I, alpha receptor regulates E2F-1 UDG the transcription factor gene Namens-erkennung (ProMiner) Satzstruktur- Analyse/Semantik ToPNet Grammatik/ Interaktions- Konzepte Abbildung auf experimentelle Daten Gen/Protein- Wörterbuch Visuali- sierung

Protein-Protein- Interaktions-Netzwerk 3 PMID 9886399: In both T cells and NK cells, IL-2 induces the activation of STAT1, STAT3, and STAT5. PMID1850360: Interleukin 2 stimulates serine phosphorylation of CD45 in CTLL-2.4 cells. Rot: differenziell exprimiert Weiß: keine Änderung in der Expression PMID 10428849:Egr-1 mediates extracellular matrix-driven transcription of membrane type 1 matrix metalloproteinase in endothelium.

Wissenschaftliche Publikationen Überblick über das Pilotprojekt Nichtöffentliche Domäne Öffentliche Domäne 2 Krankheits- Phänotyp-Beschreibung Deutsch-Englisch-Index Kombin. Netzwerk: Krankheits-Phänotyp- Gen/Protein-Netz 1 Krankheits- Phänotyp-Beschreibung 4 3 Gen/Protein-Netzwerk Gene/Proteine Arztbriefe Wissenschaftliche Publikationen Experimentelle Daten Deutsch Englisch

Wissenschaftliche Publikationen Überblick über das Pilotprojekt Nichtöffentliche Domäne Öffentliche Domäne Krankheits- Phänotyp-Beschreibung Deutsch-Englisch-Index Kombin. Netzwerk: Krankheits-Phänotyp- Gen/Protein-Netz Krankheits- Phänotyp-Beschreibung 4 Gen/Protein-Netzwerk Gene/Proteine Arztbriefe Wissenschaftliche Publikationen Experimentelle Daten Deutsch Englisch

Beispiel Osteoarthrose: Beziehung zwischen Krankheit und Protein als Netzwerk 4 Benutze Kookkurrenz zwischen Krankheit (MESH Terme) und Genen Benutze statistische Methoden um einen Relevanzwert zu ermitteln. Extrahierte Protein-Protein- Interaktionen für die 70 relevantesten Proteine Rot: signifikante Assoziation Weiß: keine signifikante Assoziation

Osteoarthrose Sub-Netzwerk 4 Osteoarthrose Sub-Netzwerk Krankheitskontext-spezifisches Protein-Protein-Interaktions- Netzwerk

Gewinn für die biomedizinische Forschung Phänotyp-Information kann für empirische Datenanalyse genutzt werden Kontextspezifische Analyse von Expressionsdaten und anderen experimentellen Daten Verknüpfung von genomischen (molekularen) Funktionsnetzwerken und klinischen Daten

BioTeM: Bedeutung für öffentliche und industrielle Nutzergruppen automatische Bereitstellung von Informationen für genomische und biologische Datenbanken (Biotechnologie-Industrie; Beispiele BRENDA und BioBASE) „Target-Validierung“ für die pharmazeutische Industrie (Aventis, JenaPharm) automatische Informationsgewinnung über biologische Prozesse, Krankheitshypothesen, Medikamente, Patente; Kompetitive Intelligenz automatische Dokumentation für Klinische Informations- und Dokumentationssysteme automatische Krankheits- und Prozedurenkodierung für Krankenkassen (Kostensenkung) automatische Entdeckung von und ggf. Warnung vor unerwünschten Nebenwirkungen ( Pharma-Industrie)

Ein konkretes Anwendungsszenario Risikoabschätzung von Tumorentstehung durch Genotyp-Phänotyp-Korrelationen bei Epidermolysis bullosa dystrophica Epidermolysis bullosa: Gruppe von genetischen Hautkrankheiten mit Mutationen in Genen für Strukturproteine der dermo-epidermalen Basalmembranzone. Inzidenz: 1 / 100.000 Geburten. Minimale Traumata führen zu Blasenbildung an Haut und hautnahen Schleim- häuten, Abheilung der dadurch entstandenen Wunden führt oft zur Narben- bildung und ggf. zu Verwachsungen, die auch Kontrakturen bedingen können.

Ein konkretes Anwendungsszenario Milde und Schwere Verlaufsformen: EB simplex (EBS), EB dystrophica (EBD) Netzwerk Epidermolysis Bullosa: www.netzwerk-eb.de, befasst sich mit den Ursachen, der Diagnose, Prophylaxe und Behandlung (gefördert vom BMBF).

Ein konkretes Anwendungsszenario EB dystrophica (EBD) mehr als 300 unterschiedliche Mutationen des Kollagen VII Gens publiziert und/oder in den Mutations-Datenbanken, mehrere Hundert weitere, noch nicht bekannte Mutationen. Universitäts-Hautklinik Freiburg: Diagnostik, klinischer Betreuung und Grundlagen- forschung, internationaler Patientenstamm Ziel des Text Minings: Verbesserung der Prognosestellung — Auffinden bislang unentdeckter Korrelationen zwischen Art und Lokalisation der Genmutation und des klinischen Langzeitverlaufs sowie der Erkennung des Krebses Abgleichen der Daten in der Literatur, in den Mutations-Datenbanken, in eigenen Laborbefunden (Immunfluoreszenz, Mutationsanalysen etc.) in eigenen und anderen klinischen Dokumenten

Planung für die Zukunft Gemeinsame, koordinierte Forschung Ausbauphase II Ausbauphase I Pilotprojekt 2009 2005 2006 2007 2008 Ressourcenaufbau (Generierung von Testkorpora / Benchmarks / Tools) Verbreitung von Wissen (Dissemination) durch Workshops / Training Nationaler Aufbau der „Scientific Community“ und internationale Einbindung Organisation und Infrastruktur

Förderbedarf für die Pilotphase (2 Jahre) des Deutschen Virtuellen Zentrums für Text Mining (BioTeM) 2 + 2 + 2 Wissenschaftlerstellen für J / BN / FR + 1 Koordinationsstelle (J) Hilfskräfte Training / Reisen / Workshops / Web-Präsenz Eigenleistungen: ergänzende Stellen (Expertise im Kontext der einzelnen Forschungsgruppen) Hardware Organisations-Infrastruktur

Partner Universität Rostock BioBASE GmbH Hannover Prof. Dr. Ulf Leser Humboldt Universität Berlin Prof. Dr. Dietmar Schomburg Universität Köln Prof. Dr. Udo Hahn Universität Jena Dr. Martin Hofmann Fraunhofer SCAI St. Augustin Dr. Paul Buitelaar DFKI, Saarbrücken Dr. Isabel Rojas European Media Lab Heidelberg Prof. Dr. Uwe Reyle Universität Stuttgart TEMIS Deutschland GmbH Heidelberg Prof. Dr. Rüdiger Klar Universität Freiburg

Nachhaltigkeit Nachhaltigkeit aus eigenen Mitteln im Bereich der vorhandenen Stellenpläne UK National Centre for Text Mining  Zusammenarbeit im Rahmen der EU National Library of Medicine (USA) Japanische Aktivitäten Pharma/BioTech – Industriekonsortium?