Ralph Grishman Information Extraction: Techniques and Challenges Referat von Felix Jungermann 12.11.2002.

Slides:



Advertisements
Ähnliche Präsentationen
Cadastre for the 21st Century – The German Way
Advertisements

Developing your Business to Success We are looking for business partners. Enterprise Content Management with OS|ECM Version 6.
E-Solutions mySchoeller.com for Felix Schoeller Imaging
Programmieren im Großen von Markus Schmidt und Benno Kröger.
On the Criteria to Be Used in Decomposing Systems into Modules
Matherechnungen Alles im Kopf ausrechnen… …und zwar so schnell wie möglich!
Pflege der Internetdienste
Peter Marwedel TU Dortmund, Informatik 12
Untersuchung und szenariobasierte Entwicklung von Websites zur Orientierung in Universitätsstudiengängen unter Berücksichtigung von Prinzipien des Web.
LoanBroker w/ BizTalk Statuspräsentation – 26. Mai 2011 Referenten: Allgeier, Isenmann, Kopp.
Stärken-Schwächen- Chancen-Risken Lernziele: to talk about future job possibilities to develop the ability to compare and contrast to confidently use present,
Standortfaktoren INTERN - Ausdrucksstark präsentieren.
Wozu die Autokorrelationsfunktion?
Friedhelm Meyer auf der Heide 1 HEINZ NIXDORF INSTITUTE University of Paderborn Algorithms and Complexity Algorithmen und Komplexität Teil 1: Grundlegende.
Programmiermethodik SS2010 © 2010 Albert Zündorf, University of Kassel 1 Gesamtvorgehen 1. Textuelle Szenarios 2. Objektdiagramme 3. Klassendiagramm 4.
Inhalte und Maßnahmen eingegeben haben,
Ralf KüstersDagstuhl 2008/11/30 2 Ralf KüstersDagstuhl 2008/11/30 3.
The future tense..
01 Installation / Support. © beas group 2011 / Page 2 This documentation and training is provided to you by beas group AG. The documents are neither approved.
Bild 1.1 Copyright © Alfred Mertins | Signaltheorie, 2. Auflage Vieweg+Teubner PLUS Zusatzmaterialien Vieweg+Teubner Verlag | Wiesbaden.
So, ein paar Fragen.. Wo sind mehr Bälle? Wo sind mehr Steine?
20:00.
Die Geschichte von Rudi
1 Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)
is easy as H M Boddy I you (singular) she /it it du er ich he/it sie es.
[ 1 "People say climate change is something for our kids to worry about. No. It's now. Dr. A. Carroll, Victoria/Kanada.
Tag um Tag, Jahr um Jahr, Tag um Tag, Jahr um Jahr, Day by day, year by year, Wenn ich durch diese Straßen geh', When I go through these streets, Seh ich.
Relative clauses What is a relative clause?
1 Fachtagung am Seniorenorientiertes Design und Marketing ThyssenKrupp Immobilien Design for all - Anpassungen im Wohnungsbestand 1.Demographie.
Was kann HTML? EINLEITUNG EINLEITUNG Bsp Main Title First Subtitle.
Eine Einführung in die CD-ROM
...ich seh´es kommen !.
The German verb werden has many uses: Full verb (to become) Futur Passive voice Konjunktiv.
Generalisierung/Spezialisierung Subtypisierung/Vererbung
9/23-9/27 AGENDAS & NOTES Week RMS Glöckner (Translate): Wie heisst du? Wie heissen Sie? Wie alt bist du? Ich bin Ursula. Er ist Brian. Hausaufgaben.
bei in seit mit auf hinter von nach aus zu für vor.
Präsentation läuft auch vollautomatisch ab … wie du möchtest
You need to use your mouse to see this presentation © Heidi Behrens.
Auslegung eines Vorschubantriebes
HORIZONT 1 XINFO ® Das IT - Informationssystem HORIZONT Software für Rechenzentren Garmischer Str. 8 D München Tel ++49(0)89 /
Publikation auf Knopfdruck Judith Riegelnig Michael Grüebler 19. Oktober 2010 / Statistiktage Neuenburg.
Modal Verbs Modal verbs are not action verbs!
Template v5 October 12, Copyright © Infor. All Rights Reserved.
Staatsballett Berlin Ein Verbesserungskonzept für den Social- Media Auftritt Your picture here.
Digital Dashboard Toolkit 2001 SharePoint Portal Server released targeting portal market SharePoint Team Services (STS) released as free add-
Das IT - Informationssystem
Alltagsleben Treffpunkt Deutsch Sixth Edition
Analyseprodukte numerischer Modelle
Two-part conjunctions
2014 Januar 2014 So Mo Di Mi Do Fr Sa So
So ist das Leben Treffpunkt Deutsch Sixth Edition
Schutzvermerk nach DIN 34 beachten 20/05/14 Seite 1 Grundlagen XSoft Lösung :Logische Grundschaltung IEC-Grundlagen und logische Verknüpfungen.
Pflanzenlernkartei 3 Autor: Rudolf Arnold. Pflanze 1 Gattung Merkmale Schädigung Bekämpfung.
Pflanzenlernkartei 2 Autor: Rudolf Arnold. Pflanze 1 Gattung Merkmale Schädigung Bekämpfung.
Vortrag von Rechtsanwältin Verena Nedden, Fachanwältin für Steuerrecht zur Veranstaltung Wege zum bedingungslosen Grundeinkommen der Piratenpartei Rhein-Hessen.
Launch ON Global.vi System ID object name classname Services to suscribe Observer Control Ref vi-path Service name Step 1 : Objects register to the Global.vi´s,
Anmerkungen: Schriftgröße Überschriften immer einheiltich 32. Text bei HR Check Up Präsentation 33, bei Akademie 44. Textfarbe unterschiedliche Blautöne.
Instrumente und Unterhaltung End of Unit Assessment.
By Martin L. Loeffler.  The basic sentence has a subject and a verb.  The subject and verb need to be together.  The subject and verb need to agree.
Lust auf Lesen Treffpunkt Deutsch Sixth Edition
Der Erotik Kalender 2005.
Landkarten Landkarten sind Tesselationen mit folgenden Eigenschaften:
3 2 1 Rot:0; Grün: 128; Blau: 128 Schriftgröße: 32
Einfaches Erstellen von Präsentationen aus Einzelfolien heraus.
Das IT - Informationssystem
1 Medienpädagogischer Forschungsverbund Südwest KIM-Studie 2014 Landesanstalt für Kommunikation Baden-Württemberg (LFK) Landeszentrale für Medien und Kommunikation.
Monatsbericht Ausgleichsenergiemarkt Gas – Oktober
What is a “CASE”? in English: pronouns, certain interrogatives
 Präsentation transkript:

Ralph Grishman Information Extraction: Techniques and Challenges Referat von Felix Jungermann

Ralph Grishman – Information Extraction: Techniques and Challenges Felix Jungermann 1. Einleitung 1.1 Über den Artikel - Autor Ralph Grishman - Professor an der Universität von New York - Mitbegründer des Proteus Projekts - Verfasst im Jahr

Ralph Grishman – Information Extraction: Techniques and Challenges Felix Jungermann - Gezielt Informationen aus grossen Textbeständen - Identifikationen von Ereignissen und Beziehungen - Strukturierte Repräsentation (ähnlich Datenbank) Was versteht man unter I.E.? - Grosses Interesse durch MUC - MUC-3: Terrorismus - Wer, was, wann, wo, mit welchen Folgen?

Ralph Grishman – Information Extraction: Techniques and Challenges Felix Jungermann March – A bomb went off this morning near a power tower in San Salvador leaving a large part of the city without energy, but no casualties have been reported. According to unofficial sources, the bomb – allegedly detonated by urban guerrilla commandos – blew up a power tower in the northwestern part of San Salvador at 0650 (1250 GMT). INCIDENT TYPEbombing DATEMarch 19 LOCATIONEl Salvador: San Salvador (city) PERPETRATORurban guerrilla commandos PHYSICAL TARGETpower tower HUMAN TARGET- EFFECT ON PHYSICAL TARGETdestroyed EFFECT ON HUMAN TARGETno injury or death INSTRUMENTbomb

Ralph Grishman – Information Extraction: Techniques and Challenges Felix Jungermann - Keineswegs volles Textverständnis - Volles Textverständnis = alle Informationen - I.E. : Bestimmung von Semantik der Ausgabe Andere MUC: JointVentures oder Positionswechsel

Ralph Grishman – Information Extraction: Techniques and Challenges Felix Jungermann - Viele Informationen NUR in natürlichsprachlichen Texten - Aktuelle Möglichkeiten: Textarchiv, Internet - Aktuelle Möglichkeiten stossen auf Grenzen! Wieso besteht Interesse an I.E.? - Grosse Vorteile bei Verarbeitung techn. Texte - Beispiel Krankenblatt

Ralph Grishman – Information Extraction: Techniques and Challenges Felix Jungermann - Effizienz immer noch schlecht! -7- von Vorteil - Systeme mit schlechter Performanz trotzdem - Informationen müssen gut vorliegen, damit aktuelle Systeme gut arbeiten

Ralph Grishman – Information Extraction: Techniques and Challenges Felix Jungermann 2. I.E. am Beispiel MUC - Erhalt des training corpus - Systeme werden bearbeitet - Abgabe des test corpus - Vergleich zwischen answer key und test corpus - precision und recall ( F-Note = (2*p*r)/(p+r) ) -8-

Ralph Grishman – Information Extraction: Techniques and Challenges Felix Jungermann 3. Grundlegende Techniken der I.E. 3.1 Einführung - Prozess besteht aus zwei grundlegenden Teilen - Lokale Textanalyse - Analyse der erarbeiteten Bestandteile - Fakten ins Ausgabeformat konvertieren -9-

Ralph Grishman – Information Extraction: Techniques and Challenges Felix Jungermann - Muster dürfen keinen konkreten Wortstücken oder -abfolgen entsprechen - Daher: Strukturierung der Eingabe! Fakten werden mithilfe von Mustern extrahiert - Namenserkennung - Syntaxanalyse - Lexikalische Analyse

Ralph Grishman – Information Extraction: Techniques and Challenges Felix Jungermann - Beispiel: Sam Schwartz retired as executive vice president of the famous hot dog manufacturer, Hupplewhite Inc. He will be succeeded by Harry Himmelfarb Mustererkennung und Strukturaufbau

Ralph Grishman – Information Extraction: Techniques and Challenges Felix Jungermann -12- man semantische Strukturen - entity - event - Um endgültiges template zu generieren, benötigt - Diese werden aus der Syntax extrahiert

Ralph Grishman – Information Extraction: Techniques and Challenges Felix Jungermann - Zerlegung des Textes in Sätze - Worte der Sätze werde im Lexikon nachgeschlagen - Proteus benutzt Complex Syntax dictionary Lexikalische Analyse und andere Lexika

Ralph Grishman – Information Extraction: Techniques and Challenges Felix Jungermann - Erkennung echter Namen sowie anderer spezieller Formen, wie z.B. Datumsangaben - Verschiedene Merkmale für Namenserkennung - Personennamen <> Firmennamen Namenserkennung - Firmenlexikon ist hilfreich!

Ralph Grishman – Information Extraction: Techniques and Challenges Felix Jungermann -15- [ name type: person Sam Schwartz] retired as executive vice president of the famous hot dog manufacturer, [ name type: company Hupplewhite Inc.] He will be succeeded by [ name type: person Harry Himmelfarb]. - Erkennen von Aliasnamen - Aliasnamen sind hilfreich als Referenz für Namen - Das Beispiel momentan:

Ralph Grishman – Information Extraction: Techniques and Challenges Felix Jungermann - Komplette Syntaxidentifikation ist problematisch - Einige Systeme bilden komplette Syntaxstrukturen - Proteus (und andere) gehen Kompromisse ein: - Substantive und linke nähere Bestimmung Syntaktische Struktur - Prädikatgruppen mit Hilfsverben

Ralph Grishman – Information Extraction: Techniques and Challenges Felix Jungermann Prädikatgruppen (vg) : [ ng entity: e1 Sam Schwartz] [ vg retired] as [ ng entity e2 executive vice president] of [ ng entity: e3 the famous hot dog manufacturer], [ ng entity: e4 Hupplewhite Inc.] [ ng entity: e5 He] [vg will be succeeded] by [ ng entity: e6 Harry Himmelfarb] Das Beispiel unterteilt in Substantiv- (ng) und - Informationen der Gruppen werden noch untersucht

Ralph Grishman – Information Extraction: Techniques and Challenges Felix Jungermann semantische entity erstellt entity e1type: person name: Sam Schwartz entity e2type: position value: executive vice president entity e3type: manufacturer entity e4type: company name: Hupplewhite Inc. entity e5type: person entity e6type: person name: Harry Himmelfarb Für jede Substantiv-Gruppe wird eine sogenannte

Ralph Grishman – Information Extraction: Techniques and Challenges Felix Jungermann - Verbindung von zwei Gruppen - Entity enthält dann hinzugefügte Informationen - Aufstellen der isa-Hierarchie Grössere Substantiv-Gruppen werden gebildet

[ ng entity: e1 Sam Schwartz] [ vg retired] as [ ng entity e2 executive vice president of the famous hot dog manufacturer Hupplewhite Inc.] [ ng entity: e5 He] [ vg will be succeeded] by [ ng entity: e6 Harry Himmelfarb] Ralph Grishman – Information Extraction: Techniques and Challenges Felix Jungermann Beispiel: Es ergibt sich folgende Markierung für das

Ralph Grishman – Information Extraction: Techniques and Challenges Felix Jungermann entity e1type: person name: Sam Schwartz entity e2type: position value: executive vice president company: e3 entity e3type: manufacturer name: Hupplewhite Inc. entity e5type: person entity e6type: person name: Harry Himmelfarb Nun ergeben sich die entities wie folgt:

Ralph Grishman – Information Extraction: Techniques and Challenges Felix Jungermann - Bis jetzt Vorbereitung für Szenario-Mustererkenn. - Dem zu untersuchenden Positionswechsel liegen zwei Muster zugrunde: - person retires as position Szenario-Mustererkennung - person is succeeded by person

Ralph Grishman – Information Extraction: Techniques and Challenges Felix Jungermann Ereignis-Klauseln (events) werden aufgestellt [ clause event: e7 Sam Schwartz retired as executive vice president of the famous hot dog manufacturer Hupplewhite Inc.] [ clause event: e8 He will be succeeded by Harry Himmelfarb.]

Ralph Grishman – Information Extraction: Techniques and Challenges Felix Jungermann entity e1type: person name: Sam Schwartz entity e2type: position value: executive vice president company: e3 entity e3type: manufacturername: Hupplewhite Inc. entity e5type: person entity e6type: person name: Harry Himmelfarb event e7type: leave-job person: e1 position: e2 event e8type: succeedperson: e6person2: e Nun werden die events zusätzlich verzeichnet:

Ralph Grishman – Information Extraction: Techniques and Challenges Felix Jungermann - Verbindungen des Pronomens werden auf eine eine kurz zuvor benutzte entity des Typs person übertragen Pronomen werden geprüft

Ralph Grishman – Information Extraction: Techniques and Challenges Felix Jungermann -26- entity e1type: person name: Sam Schwartz entity e2type: position value: executive vice president company: e3 entity e3type: manufacturername: Hupplewhite Inc. entity e6type: person name: Harry Himmelfarb event e7type: leave-job person: e1 position: e2 event e8type: succeedperson: e6person2: e1 - Also folgt:

Ralph Grishman – Information Extraction: Techniques and Challenges Felix Jungermann - Über mehrere Sätze verstreute Informationen müssen kombiniert werden - Schlussfolgerungen über Informationen - Was impliziert zum Beispiel succeed? Weiteres Nutzen der isa-Hierarchie

Ralph Grishman – Information Extraction: Techniques and Challenges Felix Jungermann event e7type: leave-job person: e1 position: e2 event e8type: succeedperson: e6person2: e1 event e9type: start-jobperson: e6position: e2 - leave-job(X-person, Y-job) & succeed(Z-person, X-person) -> start-job(Z-person, Y-job) - start-job(X-person, Y-job) & succeed(X-person, Z-person) -> leave-job(Z-person, Y-job) -Beispiele: Sam was president. He was succeeded by Harry. Sam will be president; he succeeds Harry.

Ralph Grishman – Information Extraction: Techniques and Challenges Felix Jungermann 4. Probleme im Aufbau 4.1 Partielle oder vollständige Analyse - Frühere Systeme führten komplette syntaktische Analysen durch - Man benötigt jedoch nur Struktur in Hinsicht aufs Szenario! -29-

Ralph Grishman – Information Extraction: Techniques and Challenges Felix Jungermann - subject=company verb=hired object=person Proteus arbeitet mit Metaregeln Beispiel-Syntaxbaum

- Diese werden dann von dem System erstellt: hired company person? company hired person person was hired by company person, who was hired by company person, hired by company etc. - Aktuelle Systeme arbeiten mit Werten um 80% Ralph Grishman – Information Extraction: Techniques and Challenges Felix Jungermann Folgende Strukturen sind denkbar: v ng1 ng2? ng1 v ng2 ng2 v ng1 etc. (mit handgeklammerten Texten trainiert!!!)

Ralph Grishman – Information Extraction: Techniques and Challenges Felix Jungermann - Umstellen der Systeme ist problematisch! - Umstellen muss leichter und automatisiert werden - AutoSlog für MUC-4 - Systeme mithilfe ML wurden entwickelt Portabilität - Viele Beispiele <> wenige bearbeitete Beispiele - Proteus arbeitet mit interaktivem Tool

Ralph Grishman – Information Extraction: Techniques and Challenges Felix Jungermann - MUC-6: beste Systeme erreichten F von nur Ähnliches Design - Mittlerer Level schnell zu erreichen - Steigerungen sehr teuer Performanz-Probleme - Unwissen über aktuelles Szenario - Je mehr Extraktionen, umso besser