Informationsekstraktion Wettbewerbe und Kongresse Daniel Liem
TIPSTER 1991 ins Leben gerufen durch DARPA von unter anderem DoD, NIST, CIA und SPARWAR gesponsort Ziel: die Entwicklung eines effizienteren und effektiveren Verfahrens zur Verarbeitung von Informationen in textueller Form 1998 wegen mangelder Finanzierung eingestellt
TIPSTER(2) die drei Schwerpunkte der Untersuchungen Dokument Detection Information Extraction Summarization
Phase 1 des TIPSTER Algorithmenentwicklung für Dokumenten- detektion und Informationsekstraktion Entwicklung von Bewertungs- bzw. Messungsverfahren Ergebnisse: Dokumentendetektion: von 30% zu 75% Informationsextraktion: Recall: von 49% zu 65% Precission: von 55% zu 59%
Phase 2 des TIPSTER Software Architektur Entwicklung: Standardisierung von technischen Komponenten “plug and play” von unterschiedlichen Werkzeugen ermöglichen das Software-sharing vorantreiben MET (Multilingual Entity Task) – und die dazu gehörigen Werkzeuge
Phase 3 des TIPSTER Weiterentwicklung in Grundlagenforschung der Textverarbeitung Detektion: Suchalgorithmus, Ergebnisfusion verschiedener Maschine Extraktion: Abstimmung für neue Domain, erhöhte Treffsicherheit Summarizing: Textzusammenfassung
Phase3 des TIPSTER(2) Mehrsprachigkeit: Portabilität von Werkzeugen und Techniken in eine andere Sprache Technische Schnittstelle: gemeinsame Informationsnutzung von Dokumentenfindung und Extraktion
TREC(Text Retrieval Conference) Von ARPA initiiert und von NIST organisiert Ziel: Evaluation von Text Retrieval Systemen und Benutzer Evaluation durch sogenanntes “Cranfield Paradigm” Teilung in Arbeitsbereiche (“Tracks”)
TREC(2) Tracks : Cross-Language Track Filtering Track Genome Track (neu) HARD Track Novelty Track ...
MUC (Message Understanding Conference) Ziel: Förderung und Abdeckung der Forschung in automatische Analyse der militärischen Nachrichten mit Informationsinhalt in Form von Texten von NOSC initiiert, von NRAD, RDT&E .... gesponsort 1998 (MUC 7) eingestellt
MUC – Historische Entwicklung Erkundungsphase Kein gemeinsames Ergebnisformat Selbstbewertung 1989: MUC 2 Einführung von Templates als Ergebnisformat (10 Slots) Auseindersetzung mit den Bewertungskriterien (recall and precision) Aufgabe: Militärische Meldungen
MUC – Historische Entwicklung (2) Aufgabenbereich : terroristische Ereignisse 18 slots 1992: MUC 4 24 slots
MUC – Historische Entwicklung Teil des TIPSTER Projekts der Regierung zwei Tasks: (International Joint Venture und Electonic Circuit Fabrication) Multilingualität Komplexität: (für Joint Venture Task) 11 Templates und 47 Slots Einführung von verschachtelten Templates (hierarchisch) Ergebnisse: 57% Recall und 64%Precision, 73% Recall und 74% in den vier “core tasks”
MUC 6 Ziel: aufgabenunabhängige technische Komponenten der IE, die bald ausgenutzt werden können Portabilität der IE Systeme Einarbeitung in das “tiefere Verständnis” der Systeme
MUC 6(2) Aufgabenbereich : Kurzfristige Aufgabe: praktische Komponenten zu erkennen; named entity tasks (ENAMEX und NUMEX) Portabilität; Einfachere Templates
MUC 6 (3) Verständnis auf Basis Technologien; SemEval: Coreference Word sense disambiguation Predicate-argument structure
MUC 7 Systeme (von IE Task): American University in Cairo's System SIFT System (BBN) Lockheed Martin's NLToolset (AATM7) Proteus/PET System (NYU) IE2 System (SRA) TASC System
senseval Ziel : Evaluation von WSD EntscheidungsProgramme (bzgl. unterschiedliche Wörter, Sprachdialekten und unterschiedliche Sprache) Sponsoren : ACL-SIGLEX, EURALEX, ELSNET und EU Projekten ECRAN und SPARKLE
senseval (historisch) SIGLEX-97: “Tagging Text with Lexical Semantics” SIGLEX-99: “Standardising Lexical Resources” senseval – 1 senseval – 2 ACL-02 Workshop
ACE (Automatic Content Extraction) Ziel: Entwicklung von ACE Systeme zur Unterstützung der automatischen Verarbeitung der natürlichen Sprache in textuellem Format ACE Systeme: Detektion und Charakterisierung von Entitäten, Relation und Ereignisse Drei Eingaben: newswire broadcast news newspaper
ACE Teilnehmer: BBN MITRE LDC NIST NYU SRI
Phasen der ACE Phase 1 (99-00): Entity Detection and Tracking Phase 2 (01-02): Entity Detection and Tracking + RDC (Relationen) evtl. Einstellung wegen mangelnder Finanzierung
Quelle http://trec.nist.gov http://www.itl.nist.gov/iad/894.02/related_project s/muc/proceedings/muc_7_toc.html http://www.itl.nist.gov/iaui/894.02/related_project s/tipster/ http://www.senseval.org/ http://www.itl.nist.gov/iad/894.01/tests/ace/