Quantitativer Mustererkennungsansatz Sebastian Kreß Ruprecht-Karls-Universität Heidelberg Seminar für Computerlinguistik.

Slides:



Advertisements
Ähnliche Präsentationen
Steffen Maretzke October 2010 pers com
Advertisements

Seminar Textmining WS 06/07 Themen Übung 8 Stemming Crawling.
Seminar Textmining WS 06/07 Themen Übung 8 Diskussion über Erkennung von Eigennamen Question Answering Stemming.
Art der Arbeit (Projekt-/Studien-/Diplomarbeit/
Lancing: What is the future? Lutz Heinemann Profil Institute for Clinical Research, San Diego, US Profil Institut für Stoffwechselforschung, Neuss Science.
Augenbewegungen Zentrale Aspekte.
Abkürzungen mit Präpositionen German Prepositional Contractions
Infinitivkonstruktionen
K INDER K RANKENHAUS AUF DER B ULT für Kinder und Jugendliche Akademisches Lehrkrankenhaus Thomas Danne Kinderkrankenhaus auf der Bult, Hannover, Germany.
Clean Code Software-Entwicklung als Handwerkskunst Thomas Nagel, November 2011.
Using latent semantic analysis to find different names for the same entity in free text Präsentation und Diskussion des Papers Im Rahmen des PS Web-Information.
To be able to give and understand information about smoking
Sprachverstehen Anatomie. Harvard-MIT Division of Health Sciences and Technology HST.725: Music Perception and Cognition Prof. Peter Cariani.
Using Relative Clauses
Coordinating Conjunctions Why we need them & how to use them deutschdrang.com.
Lust auf Lesen Treffpunkt Deutsch Sixth Edition. Relative Pronoun object of a preposition Recall from chapter 9 that relative clauses describe people,
1IWF/ÖAW GRAZ Data Combination David Fischer, Rumi Nakamura (IWF/OeAW)  Fluxgate: noise + distortion gets worse than the searchcoil at ~ 6 Hz.  Searchcoil:
1 Nur für internen Gebrauch © WEINMANN GERÄTE FÜR MEDIZIN GMBH+CO.KG  FOT (Forced Oscillation Technique) = OPS (Oscillating Pressure Signal) First study1999:
Jonathan Harrington: "Die phonetischen Grundlagen des Lautwandels“
Rauchen, Alkohol und Drogen
Stephanie Müller, Rechtswissenschaftliches Institut, Universität Zürich, Rämistrasse 74/17, 8001 Zürich, Criminal liability.
Deutsch 1 G Stunde. Dienstag, der 13. November 2012 Deutsch 1, G Stunde Heute ist ein G- Tag Unit: Family & home Familie & Zuhause Question: Who / How.
..
Die Übersetzung von “Diskursdialekten” für die Suche: Das Mapping zwischen Fachsprachen und Indexierungssprachen Vivien Petras Vortrag im Berliner Bibliothekswissenschaftlichen.
Inhaltserschliessung ein Beispiel A Bibliographic Search by Computer Updating plasma-physics data was a chance to experiment with information and programs.
Die Kombination von linguistischen und heuristischen Methoden für die Extraktion von Mehrwort-Termen Bastian Bolender, Sebastian Kreß, Jannik Strötgen.
Experimental design. Variables Independent variable Dependent variable Levels Responses.
Sprachprodukttechnologie SS 2001G. Heyer 1 Sprachstatistik  Grundlegende Definitionen  Alphabet Sei NL eine natürliche Sprache und sei A eine Menge von.
What is a “CASE”? in English: pronouns, certain interrogatives
What is a “CASE”? in English: pronouns, certain interrogatives
type / function / form type of words:
Schreiben Sie fünf Sätze aus diesen Elementen. [Beispiel
Probesystem Gym 4 Prüfungen pro Schuljahr, in der 2. Klasse 4 ½ Prüfungen. Jeweils ganze Lektion, keine Fragemöglichkeit am Anfang der Prüfungslektion.
Magnetenzephalogramm, MEG
Kapitel 4 Grammar INDEX 1.Ordinal Numbers 2.Relative Pronouns and Relative Clauses 3.Conditional Sentences 4.Posessive: Genitive Case.
COST working group 2 – EMM Erreichbarkeitsatlas
Qualität in der Geriatrie und Gerontologie Folie 1 Effects of audit and feedback on professional practice in Geriatric Acute Care Units, European Journal.
Kapitel 2 Grammar INDEX 1.Subjects & Verbs 2.Conjugation of Verbs 3.Subject Verb Agreement 4.Person and Number 5.Present Tense 6.Word Order: Position of.
Kapitel 7 Grammar INDEX 1.Comparison 2.Adjectives 3.Adjective Endings Following Ein-Words.
Kapitel 8 Grammar INDEX 1.Command Forms: The Du-Command Form & Ihr- Command 2.Sentences & Clauses.
Komparativ und Superlativ German 2. zum Beispiel … Ein VW ist schnell. Ein BMW ist schneller. Ein Porsche ist am Schnellsten. There are 2 levels of comparison:
Johann Michael Sattler Born in 1786 in Lower Austria Died in 1847 at the age of 61 in Salzburg He is one of the most famous painters in Austria.
Kapitel 9 Grammar INDEX 1.Formal Sie- Command 2.There Is/There Are 3.Negation: Nicht/Klein.
Das Wetter Lernziele: Heute: The „Wenn“ clause! - To describe and report the weather - To discuss activities done in different types of weather - To compare.
The PageRank Axioms Johannes Zaunschirm. Überblick / Outline  Alon Altman and Moshe Tennenholtz. “Ranking Systems: The PageRank Axioms”., 2005  Basisstruktur.
Felix Rosenbusch FLA 2009/10.
Sentence Structure Questions
2B Interview Übung WS 2016/17.
Challenges & Opportunities in Predicting Acute Coronary Events
Van der Meer AJ, Feld JJ, Hofer H J. Hepatol Oct 22
Grundlagen Englisch Passive voice HFW Bern.
Sentence Structure Connectives
A person who has not studied German
Volume 1, Chapter 2.
A person who has not studied German
Jetzt machen Venues aufmachen!!! Geh zu
Jetzt machen Venues aufmachen!!! Geh zu
Das Taschentuch-Spiel
Past tense As confusing as it may be, there are different kinds of past tense. Both simple past and present perfect are used to talk or write about the.
Weihnachten in Deut sch land.
Intraoperative Imaging with MRI and CT
THE PERFECT TENSE IN GERMAN
Ferrite Material Modeling (1) : Kicker principle
Uranus. Uranus is the seventh in terms of distance from the Sun, the third in diameter and the fourth in mass of the planet of the Solar System. It was.
ELECTR IC CARS Karim Aly University of Applied Sciences.
type / function / form type of words:
Practical Exercises and Theory
Definate article - the: der, die, das
Die tiere Share: Introduce the session and PDSA.
Objectives Say what kind of house you live in
 Präsentation transkript:

Quantitativer Mustererkennungsansatz Sebastian Kreß Ruprecht-Karls-Universität Heidelberg Seminar für Computerlinguistik

X-On: Automatische Extraktion von Mehrwort- Termen 2 Agenda Analyse und Zerlegung der MeSH-Thesaurus-Daten Lattice-Entstehung aus Pubmed-Abstracts Erweiterte Mustererkennung in verschiedenen Präzisionen und Beispiele Verbesserung der Präzision durch  Gewichtung von Eingabewörtern mit tf-idf  Abschätzung mit semantischer Distanz Probleme und Ausblick

X-On: Automatische Extraktion von Mehrwort- Termen 3 MeSH: Analyse und Zerlegung Abbildung von  Einzelworten von multiword terms in MeSH- Headings und Entry Terms..auf  MeSH-Headings MeSH-Heading Magnetic Resonance Imaging Entry Terms Chemical Shift Imaging MR Tomography Magnetization Transfer Contrast Imaging [..] chemical-> MRI(1) shift-> MRI(1) imaging-> MRI(0,1,3) mr-> MRI(2) tomography-> MRI(2) magnetization-> MRI(3) transfer-> MRI(3) contrast-> MRI(3)

X-On: Automatische Extraktion von Mehrwort- Termen 4 Lattice-Entstehung Mögliche MeSH-Headings für jedes (Teil)wort Leerstellen für Funktionswörter um Über- und Fehlinformation zu vermeiden Magnetic resonance (MR) imaging revealed an anteromedial temporal..

X-On: Automatische Extraktion von Mehrwort- Termen 5 Erweiterte Mustererkennung.. Quantitative Analyse statt Erlauben von Abweichungen Definition eines Fensters Entfernung aller MeSH Headings mit geringerem Vorkommen im Fenster als der Anzahl der Wörter im zugehörigen Entry Term (Entfernung von MeSH Headings nach syntaktischen oder semantischen Regeln) Diabetes Mellitus, Type 1 Diabetes Mellitus, Type 2 - im Satz -im Abstract-Text - im Abstract-Text und -Titel

X-On: Automatische Extraktion von Mehrwort- Termen 6 …mit relativ engem Fenster im Satz [..] Biofilms are a major concern for clinicians in the treatment of infectious disease because of their resistance to a wide range of antibiotics. Arbekacin, an aminoglycoside antibiotic, is the drug of choice for the treatment of infection caused by methicillin-resistant Staphylococcus aureus (MRSA). However, it has not yet been defined whether arbekacin tends to penetrate into the biofilm structure induced by MRSA infection.[..] (from: Pubmed 2004, PMID ) Lattice: … x x => Bacterial Infections and Mycoses - Bacterial Infections - Gram-Positive Bacterial Infections - Staphylococcus Infections

X-On: Automatische Extraktion von Mehrwort- Termen 7 …mit weitem Fenster im Satz [..] The authors sought to determine whether the risk of congenital heart disease (CHD) was greater for the children of mothers who lived close to a hazardous waste site (HWS) than for those who lived farther away. All cases (n = 1283) of confirmed CHD, and a random sample of 2,292 controls, born in Dallas County, Texas, from were linked with 276 HWSs present during the study. The authors ascertained locations of households and determined the distance to the nearest HWS. [..] (from: Pubmed 2004, PMID ) Lattice: 1 x x … 30 x => Investigative Techniques - Epidemologic Methods - Epidemologic Study Characteristics - Epidemologic Studies - Case Control Studies

X-On: Automatische Extraktion von Mehrwort- Termen 8 …über den ganzen Abstract [..] Cortical motor organization/reorganization was studied in patients with malformation of cortical development (MCD) by applying two noninvasive motor mapping techniques : transcranial magnetic stimulation (TMS) and functional magnetic resonance (fMR) imaging. METHODS: Eight patients (age range 6-22 years), all suffering from congenital hemiparesis of similar severity, were included. Underlying lesions were schizencephalies in four cases, nonschizencephalic polymicrogyria in one, and complex hemispheric malformations in three. All MCDs involved rolandic cortex of the hemisphere contralateral to the hemiparesis. Transcranial magnetic stimulation was used to search, in both hemispheres, for brain regions with corticospinal projections to the paretic hand, and cortical activation during simple repetitive movements of the paretic hand was monitored using fMR imaging. [..] (from: Pubmed 2004, PMID ) Lattice: … x 21 … x …=> Investigative Techniques - Brain Mapping

X-On: Automatische Extraktion von Mehrwort- Termen 9 Verbesserung der Präzision Mit der bisherigen Methode  Recall für unabstrahierte MeSH-Headings bei großem Fenster fast 100%  Precision sehr schlecht Verbesserungsvorschläge  Reduzierung und Konkretisierung der Eingabewörter mit tf-idf (versucht, aber problematisch)  Reduzierung der identifizierten MeSH-Headings per semantic distance

X-On: Automatische Extraktion von Mehrwort- Termen 10 Reduzierung der Eingabewörter Durch Festlegung von Wörtern, die dauerhaft ignoriert werden Durch tf-idf  Idee: wichtigste Terme sind die, die häufig in individuellen Dokumenten auftreten und selten im gesamten Korpus  Reduzierung auf Schwellwert hier problematisch, weil im Korpus auch häufige Wortteile signifikant sind

X-On: Automatische Extraktion von Mehrwort- Termen 11 Semantische Distanz Annahme 1: die MeSH-Headings in einem Abstract sind semantisch nah (bzw. es gibt Gruppen von semantisch nahen MHs) Annahme 2: es gibt eindeutig identifizierbare MeSH-Headings (singleword terms oder kontinuierliche multiword terms)  Die Wahrscheinlichkeit für unsichere MeSH- Headings kann aus der semantischen Distanz zu sicheren MeSH-Headings abgeleitet werden

X-On: Automatische Extraktion von Mehrwort- Termen 12 Berechnung (in Taxonomien) Lin (1998) Leacock and Chodorow (1998) lowest super ordinate Wahrscheinlichkeit der Elemente im Vergleich zum nächsten gemeinsamen Elternelement kürzeste Distanz zwischen c 1 und c 2 Tiefe der Taxonomie

X-On: Automatische Extraktion von Mehrwort- Termen 13 Probleme semantic distance erfordert Disambiguierung der MeSH-Headings zu Knoten Vorgehensweise erzwingt Treffer Fenstergröße muss abhängig von der Länge des Entry terms sein Identische Teile von Entry terms Magnetic Resonance Imaging -> Magnetic Resonance Imaging Perfusion Magnetic Resonance Imaging -> Magnetic Resonance Angiography Lung Neoplasms Neoplasms / Neoplasms by Site / Thoracic Neoplasms / Respiratory Tract Neoplasms / Bronchial Neoplasms / Lung Neoplasms [C ] Respiratory Tract Diseases / Lung Diseases / Lung Neoplasms [C ] Respiratory Tract Diseases / Respiratory Tract Neoplasms / Lung Neoplasms [C ]