Präsentation herunterladen
Die Präsentation wird geladen. Bitte warten
Veröffentlicht von:Alke Blohm Geändert vor über 10 Jahren
1
Informationsekstraktion Wettbewerbe und Kongresse Daniel Liem
2
TIPSTER 1991 ins Leben gerufen durch DARPA
von unter anderem DoD, NIST, CIA und SPARWAR gesponsort Ziel: die Entwicklung eines effizienteren und effektiveren Verfahrens zur Verarbeitung von Informationen in textueller Form 1998 wegen mangelder Finanzierung eingestellt
3
TIPSTER(2) die drei Schwerpunkte der Untersuchungen Dokument Detection
Information Extraction Summarization
4
Phase 1 des TIPSTER Algorithmenentwicklung für Dokumenten- detektion und Informationsekstraktion Entwicklung von Bewertungs- bzw. Messungsverfahren Ergebnisse: Dokumentendetektion: von 30% zu 75% Informationsextraktion: Recall: von 49% zu 65% Precission: von 55% zu 59%
5
Phase 2 des TIPSTER Software Architektur Entwicklung:
Standardisierung von technischen Komponenten “plug and play” von unterschiedlichen Werkzeugen ermöglichen das Software-sharing vorantreiben MET (Multilingual Entity Task) – und die dazu gehörigen Werkzeuge
6
Phase 3 des TIPSTER Weiterentwicklung in Grundlagenforschung der Textverarbeitung Detektion: Suchalgorithmus, Ergebnisfusion verschiedener Maschine Extraktion: Abstimmung für neue Domain, erhöhte Treffsicherheit Summarizing: Textzusammenfassung
7
Phase3 des TIPSTER(2) Mehrsprachigkeit: Portabilität von Werkzeugen und Techniken in eine andere Sprache Technische Schnittstelle: gemeinsame Informationsnutzung von Dokumentenfindung und Extraktion
8
TREC(Text Retrieval Conference)
Von ARPA initiiert und von NIST organisiert Ziel: Evaluation von Text Retrieval Systemen und Benutzer Evaluation durch sogenanntes “Cranfield Paradigm” Teilung in Arbeitsbereiche (“Tracks”)
9
TREC(2) Tracks : Cross-Language Track Filtering Track
Genome Track (neu) HARD Track Novelty Track ...
10
MUC (Message Understanding Conference)
Ziel: Förderung und Abdeckung der Forschung in automatische Analyse der militärischen Nachrichten mit Informationsinhalt in Form von Texten von NOSC initiiert, von NRAD, RDT&E gesponsort 1998 (MUC 7) eingestellt
11
MUC – Historische Entwicklung
Erkundungsphase Kein gemeinsames Ergebnisformat Selbstbewertung 1989: MUC 2 Einführung von Templates als Ergebnisformat (10 Slots) Auseindersetzung mit den Bewertungskriterien (recall and precision) Aufgabe: Militärische Meldungen
12
MUC – Historische Entwicklung (2)
Aufgabenbereich : terroristische Ereignisse 18 slots 1992: MUC 4 24 slots
13
MUC – Historische Entwicklung
Teil des TIPSTER Projekts der Regierung zwei Tasks: (International Joint Venture und Electonic Circuit Fabrication) Multilingualität Komplexität: (für Joint Venture Task) 11 Templates und 47 Slots Einführung von verschachtelten Templates (hierarchisch) Ergebnisse: 57% Recall und 64%Precision, 73% Recall und 74% in den vier “core tasks”
14
MUC 6 Ziel: aufgabenunabhängige technische Komponenten der IE, die bald ausgenutzt werden können Portabilität der IE Systeme Einarbeitung in das “tiefere Verständnis” der Systeme
15
MUC 6(2) Aufgabenbereich :
Kurzfristige Aufgabe: praktische Komponenten zu erkennen; named entity tasks (ENAMEX und NUMEX) Portabilität; Einfachere Templates
16
MUC 6 (3) Verständnis auf Basis Technologien; SemEval: Coreference
Word sense disambiguation Predicate-argument structure
17
MUC 7 Systeme (von IE Task): American University in Cairo's System
SIFT System (BBN) Lockheed Martin's NLToolset (AATM7) Proteus/PET System (NYU) IE2 System (SRA) TASC System
18
senseval Ziel : Evaluation von WSD EntscheidungsProgramme (bzgl. unterschiedliche Wörter, Sprachdialekten und unterschiedliche Sprache) Sponsoren : ACL-SIGLEX, EURALEX, ELSNET und EU Projekten ECRAN und SPARKLE
19
senseval (historisch)
SIGLEX-97: “Tagging Text with Lexical Semantics” SIGLEX-99: “Standardising Lexical Resources” senseval – 1 senseval – 2 ACL-02 Workshop
20
ACE (Automatic Content Extraction)
Ziel: Entwicklung von ACE Systeme zur Unterstützung der automatischen Verarbeitung der natürlichen Sprache in textuellem Format ACE Systeme: Detektion und Charakterisierung von Entitäten, Relation und Ereignisse Drei Eingaben: newswire broadcast news newspaper
21
ACE Teilnehmer: BBN MITRE LDC NIST NYU SRI
22
Phasen der ACE Phase 1 (99-00): Entity Detection and Tracking
Phase 2 (01-02): Entity Detection and Tracking + RDC (Relationen) evtl. Einstellung wegen mangelnder Finanzierung
23
Quelle http://trec.nist.gov
s/muc/proceedings/muc_7_toc.html s/tipster/
Ähnliche Präsentationen
© 2024 SlidePlayer.org Inc.
All rights reserved.