Die Kombination von linguistischen und heuristischen Methoden für die Extraktion von Mehrwort-Termen Bastian Bolender, Sebastian Kreß, Jannik Strötgen.

Slides:



Advertisements
Ähnliche Präsentationen
Metaanlysen klinischer Studien Rainer Schalnus
Advertisements

Agent based computational economics Das Konzept rationalen Verhaltens im Umfeld maschineller Akteure Spezielles Seminar Wirtschaftsinformatik SS2001 Frankfurt.
TECHNISCHE UNIVERSITÄT DARMSTADT Naive Bayes for Ranking
Suche in Texten (Stringsuche )
Seminar Textmining WS 06/07 Themen Übung 11 unsupervised vs. supervised Symbolfolgen, Kunstsprachen Page Rank.
Seminar Textmining WS 06/07 Aufgaben I 1.Metadaten 2.Einfache Inverse Liste 3.Modifizierte Inverse Liste für komplexere Anfragen 4.Boolsches Retrieval.
WS 05/06Automatische Akquisition linguistischen Wissens1 Partielles Wissen erweitern 1.Zusammenhang mit bisherigen Algorithmen 2.Vom offensichtlichen zum.
Inhaltlich orientierter Zugriff auf unstrukturierte Daten
Konzeption und Realisierung eines Text- Analysesystems zur Automatisierung der Bewerberauswahl von diesem Datenformat jede beliebige Anwendung adaptieren.
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/8 Thesauren In gewisser Weise bilden Thesauren (Singular Thesaurus, Plural auch Thesauri)
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/5 Grundtechniken des Information Retrieval Deskribierung Hierunter versteht man eine manuelle.
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/4 Manuelle Verfahren Klassifizierung Hier werden Dokumente in ein fest vorgegebenes System.
DOM (Document Object Model)
Flaches Parsing mit endlichen Automaten Referat und Implementierung Jutta Jäger
SQL/XML. © Prof. T. Kudraß, HTWK Leipzig 2 2 Motivation Speicherung von XML in allen großen kommerziellen DBMS vorhanden proprietäre Lösungen für die.
Grammatik als Deduktionssystem
Support.ebsco.com Lernprogramm zur einfachen Suche in wissenschaftlichen Bibliotheken.
Was ist Lemmatisierung und wie wird sie maschinell durchgeführt?
NPGrammar NPGrammar. Nominalphrasenextraktion.
Seminar Biometrie Brehme Kewenig SS2006 H. Hundacker Institut für Wirtschafts- Verwaltungsinformatik Allgemeines Verarbeitungspipeline Vorverarbeitung.
Qualitätskriterien zur Beurteilung von Dokumentationen
Indexierung - Verschlagwortung
MeiNetz-Suche Wie kann man in meiNetz etwas suchen? 1.durch Gruppen browsen 2.Suchfunktion.
Digitales Arbeiten im Deutsch- unterricht Einblick in verschiedene
Diplomarbeitsvortrag Ontologien, Information Extraction und Information Retrieval – eine Synthese Marcus Heidmann in Zusammenarbeit mit AIFB &
Maschinelles Lernen und automatische Textklassifikation
Entitäten Extraktion Einführung
Entitäten Extraktion Wichtige Schritte Petra Maier WS 05/06.
2 Beispiele von Wissensorganisation 2.0 del.icio.us und BibSonomy vorgestellt von Sylvia Fabricius-Wiese 08. April 2008.
Die standardisierte Reife- und Diplomprüfung (SRDP)
Komponenten eines Information Retrieval Systems
1 Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)
9. Information Retrieval und Medizinische Literaturdatenbanken
Wortarten-Tagging für Nomen
Automatic composition of UI mashups Vortrag zum Seminar Webengineering 2011 Michael Reißner.
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Übersicht Grundlegende Begriffe Recherchestrategie
Grammatik auf Deutsch.
Übung zu Einführung in die LDV I
Dieser nicht Fehler finden Algorithmus enthält einfach einen gravierenden welcher zu ist.
Using latent semantic analysis to find different names for the same entity in free text Präsentation und Diskussion des Papers Im Rahmen des PS Web-Information.
1 Albert-Ludwigs-Universität Freiburg Rechnernetze und Telematik Prof. Dr. Christian Schindelhauer Informatik III Christian Schindelhauer Wintersemester.
Agenda Aufgabe/Probleme Vorgehen Demo Methodik Ergebnisse
Eike Schallehn, Martin Endig
Das Adjektiv Das Adjektiv steht entweder in engster Verbindung bei Nomen und wird mit diesem dekliniert ( das hohe Haus ), oder es steht in aussagender.
Vor an auf über PRÄPOSITIONEN unter neben zwischen hinter in.
Aufgaben zur Kombinatorik
Erweiterung bzgl. der Kardinalität. (1|9)
Seminar Computing with words WS2001/02 1 Linguistische Hecken Simon Meyer.
 Sortigkeit oder Arität
Quantitativer Mustererkennungsansatz Sebastian Kreß Ruprecht-Karls-Universität Heidelberg Seminar für Computerlinguistik.
Diabetes und Genetik (Diabetes Sensor)
Deutsche zusammengesetze Wörter
Kapitel 2 Grammar INDEX 1.Subjects & Verbs 2.Conjugation of Verbs 3.Subject Verb Agreement 4.Person and Number 5.Present Tense 6.Word Order: Position of.
Semesterprojekt Präsentation Thema 1 Test-Arten
Formale Methoden Semesterprojekt Präsentation Thema 1 Test-Arten Fernstudium Master WI, MWI 10F Jan te Kock,
Arbeiten mit WordSmith 4. Inhalt 1. Arbeiten mit der Funktion Wortliste (im getaggten Korpus) 1. Arbeiten mit der Funktion Wortliste (im getaggten Korpus)
Operatoren Ein Operator zeigt an, welchen Teilbereich und in welcher Tiefe der Sachverhalt dargestellt werden soll. Je nachdem, welcher Operator verwendet.
Jugend-in-dresden.de medienetage- dresden.de Alles Google oder was? Recherche im Internet… suchet, so werdet Ihr finden, googelt, so werdet Ihr irren oder.
MEDLINE MEDLINE = MEDLARS online = Medical Literature Analysis Retrieval System.
13.Dezember 2006–1Elektronisches Publizieren: Schemasprachen — Relax NG Schemasprachen für XML — Relax NG — Anne Brüggemann-Klein TU München.
Trainingscamp Leseverstehen Katharina Leiss 2016.
Bildungs- und Fachsprache: Beispiele
Rechtschreibstrategien
“Malaysia‘s Foreign Policy”
Bildungs- und Fachsprache: Beispiele
Kontextualisierte Wortschatzvermittlung mit Hilfe des AWL Highlighters
Terminologie-Extraktion
Einführung: Statistische Verfahren der automatischen Indexierung
 Präsentation transkript:

Die Kombination von linguistischen und heuristischen Methoden für die Extraktion von Mehrwort-Termen Bastian Bolender, Sebastian Kreß, Jannik Strötgen Studienprojekt an der Ruprecht-Karls-Universität Heidelberg Seminar für Computerlinguistik

Heidelberg Sebastian Kreß, Bastian Bolender Jannik Strötgen, “Automatische Extraktion von Mehrwort-Termen“ 2 Agenda Was sind Mehrwort-Terme Projektbechreibung Foundations: Terminology ---raus Beispiel: Der MeSH Thesaurus Automatisches Indexieren Teilprojekte  Regelbasierter linguistischer Ansatz (Jannik)  Pattern Matching Ansatz (Sebastian)  Evaluierung (Bastian)

Heidelberg Sebastian Kreß, Bastian Bolender Jannik Strötgen, “Automatische Extraktion von Mehrwort-Termen“ 3 Was sind Mehrwort-Terme (MWT) Mehrere Wörter gehören zu einem Ausdruck Keine Probleme, wenn die MWT so in Texten vorkommen, wie sie bekannt sind Unsere Aufgabe: diskontinuierliche MWT

Heidelberg Sebastian Kreß, Bastian Bolender Jannik Strötgen, “Automatische Extraktion von Mehrwort-Termen“ 4 Projektbeschreibung - Einblick Automatisches Indexieren von Textdokumenten mit Termen eines kontollierten Vokabulars Temis entwickelt Software für automatisches Indexieren Frage: Kann die Qualität / Abdeckung durch zusätzliche Methoden verbessert werden  Linguistische Methoden  Pattern Matching Methoden

Heidelberg Sebastian Kreß, Bastian Bolender Jannik Strötgen, “Automatische Extraktion von Mehrwort-Termen“ 5 Thesaurus: MeSH MeSH (Medical Subject Headings): Standard zum Indexieren biomedizinischer Dokumente National Institute of Health, Maryland, USA Mehrere hunderttausend Terme in komplexer hierarchischer Struktur Vgl.

Heidelberg Sebastian Kreß, Bastian Bolender Jannik Strötgen, “Automatische Extraktion von Mehrwort-Termen“ 6 MeSH

Heidelberg Sebastian Kreß, Bastian Bolender Jannik Strötgen, “Automatische Extraktion von Mehrwort-Termen“ 7 Anwendung kontrollierten Vokabulars Ziel: Automatsches Indexieren: Welche Terme sind Deskriptoren fuer ein gegebenes Dokument?  Homogenität des Indexierungsprozesses Herausforderung  Terme werden oft nicht wörtlich in den Texten gefunden.

Heidelberg Sebastian Kreß, Bastian Bolender Jannik Strötgen, “Automatische Extraktion von Mehrwort-Termen“ 8 MeSH Terms Diabetes Mellitus, Type 2 Diabetes Mellitus, Adult-Onset Diabetes Mellitus, Ketosis-Resistant Diabetes Mellitus, Maturity-Onset Diabetes Mellitus, Non-Insulin-Dependent Diabetes Mellitus, Slow-Onset Diabetes Mellitus, Stable MODY Maturity-Onset Diabetes Mellitus NIDDM Diabetes Mellitus, Non Insulin Dependent Diabetes Mellitus, Noninsulin Dependent Diabetes Mellitus, Type II Type 2 Diabetes Mellitus MeSH beinhaltet viele Synonyme aber was ist mit: „Type II Diabetes Mellitus“ „Diabetes Mellitus (Slow-Onset)“.... MeSH Term Synonyme

Heidelberg Sebastian Kreß, Bastian Bolender Jannik Strötgen, “Automatische Extraktion von Mehrwort-Termen“ 9 Erweiterungen I Singular / Plural  „substance“ / „substances“ Verschiedene Orthographien  „Diabetes Mellitus“ / „diabetes mellitus“  „TNF-alpha“ / „TNF alpha“ / „TNF-α“ Syntaktische Variationen  Modifikationen mit Adjektiven, Attributen, usw.

Heidelberg Sebastian Kreß, Bastian Bolender Jannik Strötgen, “Automatische Extraktion von Mehrwort-Termen“ 10 Erweiterungen II Weitere Erweiterungen sind notwendig: „... conducted a structural and functional analysis...“  „structural analysis“ „... developed different types of cancer. Especially the colon was affected....“  „colon cancer“  Dies ist das Thema unseres Studienprojektes in Zusammenarbeit mit TEMIS / Fraunhofer SCAI

Regelbasierter linguistischer Ansatz Jannik Strötgen Ruprecht-Karls-Universität Heidelberg Seminar für Computerlinguistik

Heidelberg Sebastian Kreß, Bastian Bolender Jannik Strötgen, “Automatische Extraktion von Mehrwort-Termen“ 12 Regelbasierter linguistischer Ansatz Grundlagen für regelbasierte linguistische Anwendungen Beschreibung der Input-Texte und der MeSH- Datenbank Drei Hauptprobleme  Permutationen  Insertionen (mit Permutationen)  Enumerationen (Aufzählungen) Beschreibung des Regelapparats Beispiele Erste manuelle Evaluierung Pro und Contra

Heidelberg Sebastian Kreß, Bastian Bolender Jannik Strötgen, “Automatische Extraktion von Mehrwort-Termen“ 13 Grundlagen für regelbasierte linguistische Verfahren Part of Speech (POS) Tagger (Xelda ® ):  Jedem Wort wird seine Wortart (POS-Tag) zugewiesen (z.B. Nomen, Artikel, …) Lemmatizer (Xelda ® ):  Jedes Wort bekommt seine Grundform (Lemma) zugewiesen (z.B. played  play; plays  play)

Heidelberg Sebastian Kreß, Bastian Bolender Jannik Strötgen, “Automatische Extraktion von Mehrwort-Termen“ 14 Die Input-Texte Die Input-Texte werden getaggt und lemmatisiert Positionsangaben werden hinzugefügt … … A 14-year-old male presented with abdominal pain, diarrhoea and a sensation of something prolapsing through the anus during defecation, ….. …. a 14-year-old male present with abdominal pain …

Heidelberg Sebastian Kreß, Bastian Bolender Jannik Strötgen, “Automatische Extraktion von Mehrwort-Termen“ 15 Die MeSH-Datenbank Mesh-Datenbank: Die Terme werden lemmatisiert, damit ein einfacherer Abgleich möglich ist. (z.B. Singular / Plural muss nicht berücksichtigt werden) *NEWRECORD … MH = Adrenal Gland Neoplasms PRINT ENTRY = Adrenal Cancer ENTRY = Adrenal Gland Cancer …. MN = C MN = C MN = C adrenal gland neoplasm adrenal cancer adrenal gland cancer …

Heidelberg Sebastian Kreß, Bastian Bolender Jannik Strötgen, “Automatische Extraktion von Mehrwort-Termen“ 16 Drei Hauptprobleme 1. Permutationen “… analogue visual scale …”  Die Kombinationen müssen errechnet werden  Sehr rechenaufwändig,  Beschränkung durch maximale Länge 2. Insertionen (mit Permutationen) “… injury of brain region …”  mögliche Kombinationen müssen errechnet werden  unter anderem Präpositionen verbinden Teile des Mehrwort-Terms (MWT) brain injury brain region injury analogue scale visual visual analogue scale

Heidelberg Sebastian Kreß, Bastian Bolender Jannik Strötgen, “Automatische Extraktion von Mehrwort-Termen“ 17 Drei Hauptprobleme 3. Aufzählungen “… structural and functional analysis …”  Teil eines Ausdrucks gehört zu mehreren Termen  anderer Teil zwischen Anfang und Ende des Ausdrucks muss für neues MWT ignoriert werden structural analysis

Heidelberg Sebastian Kreß, Bastian Bolender Jannik Strötgen, “Automatische Extraktion von Mehrwort-Termen“ 18 Regelapparat - Permutationen - Insertionen - Enumerationen - Tags für MWT Der Regelapparat MeSH – Datenbank … neoplasm ovary ovarian cancer ovarian neoplasm … mit Position, POS-Tag, lemmatisierten Input-Wörtern … ovarian and lung cancer Input-Texte MWT aus: #NOUN #ADJ #CARD … Enumeration: aus #COORD #COSUB #NOT + Kombinationsregeln Insertion: #PREP #PREP #DET … +Kombinationsregeln mögliche MWT - ovarian cancer Ergebnis ovarian cancer { } Permutation: aus MWT-Tags + Permutations- regeln

Heidelberg Sebastian Kreß, Bastian Bolender Jannik Strötgen, “Automatische Extraktion von Mehrwort-Termen“ 19 Beispiele – Enumeration... agent in the salvage setting in ovarian, non- small cell lung, breast and colorectal cancers. (PubMed-ID )  ovarian cancer in MeSH (C )  breast cancer in MeSH (C )  non-small cell lung cancer cell lung cancer lung cancer Ausgabe entweder „found MWT“oder „possible MWT“ “lung cancer” in MeSH“non-small cell lung cancer” (C ) mögliche Kombinationen

Heidelberg Sebastian Kreß, Bastian Bolender Jannik Strötgen, “Automatische Extraktion von Mehrwort-Termen“ 20 Beispiele – Insertion mit Permutation Malignant tumors of the peripheral nerve sheath are most commonly … (PM-ID )  Malignant peripheral nerve sheath tumor  Gefunden in MeSH (C ) Malignant of the peripheral nerve sheath Insertion Permutation tumor

Heidelberg Sebastian Kreß, Bastian Bolender Jannik Strötgen, “Automatische Extraktion von Mehrwort-Termen“ 21 Erste Evaluierung I 100 zufällig ausgewählte Abstracts von Pubmed 2004 (ø 214 Wörter und Satzzeichen) Recall: ? (nicht abschätzbar, da keine Annotation) Precision: ~ 100% bei exaktem Abgleich mit MeSH  Unberücksichtigt: richtige MWT, die nicht in Mesh-DB sind MWT gefundenwörtlich in Mesh- DB Synonym aus DB im Text vorhanden richtigneuer Index Enumer.: 20 Insertion:

Heidelberg Sebastian Kreß, Bastian Bolender Jannik Strötgen, “Automatische Extraktion von Mehrwort-Termen“ 22 Erste Evaluierung II Enumerationen  Relativ feste Regeln  gute Ergebnisse allgemein: sehr viele richtige MWTs, die nicht in MeSH-DB stehen  mit Abgleich in Mesh weniger Ergebnisse, aber “nur” richtige MWT Insertionen / Permutationen  einzelne Regeln komplex, nicht so eindeutig wie bei Enumerationen  Ohne Mesh-Abgleich viele falsche MWTs, wegen viel mehr Kombinationsmöglichkeiten  Regeln und mögliche Kombinationen noch zu verbessern

Heidelberg Sebastian Kreß, Bastian Bolender Jannik Strötgen, “Automatische Extraktion von Mehrwort-Termen“ 23 Pro und Contra Contra  Nur Konstruktionen, die sich in Regeln ausdrücken lassen, können gefunden werden  Taggen und Lemmatisieren kostet Zeit Pro  Möglichkeit zur linguistischen Weiterverarbeitung gefundene MWT können wegen Positionsangaben und syntaktischen Umformungen weiterverarbeitet werden  Wenig false positives, denn die neuen MWT resultieren aus regelbasierten linguistischen Umstellungen und werden mit der Mesh-Datenbank abgeglichen.