Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Informationsekstraktion Wettbewerbe und Kongresse Daniel Liem

Ähnliche Präsentationen


Präsentation zum Thema: "Informationsekstraktion Wettbewerbe und Kongresse Daniel Liem"—  Präsentation transkript:

1 Informationsekstraktion Wettbewerbe und Kongresse Daniel Liem

2 TIPSTER 1991 ins Leben gerufen durch DARPA
von unter anderem DoD, NIST, CIA und SPARWAR gesponsort Ziel: die Entwicklung eines effizienteren und effektiveren Verfahrens zur Verarbeitung von Informationen in textueller Form 1998 wegen mangelder Finanzierung eingestellt

3 TIPSTER(2) die drei Schwerpunkte der Untersuchungen Dokument Detection
Information Extraction Summarization

4 Phase 1 des TIPSTER Algorithmenentwicklung für Dokumenten- detektion und Informationsekstraktion Entwicklung von Bewertungs- bzw. Messungsverfahren Ergebnisse: Dokumentendetektion: von 30% zu 75% Informationsextraktion: Recall: von 49% zu 65% Precission: von 55% zu 59%

5 Phase 2 des TIPSTER Software Architektur Entwicklung:
Standardisierung von technischen Komponenten “plug and play” von unterschiedlichen Werkzeugen ermöglichen das Software-sharing vorantreiben MET (Multilingual Entity Task) – und die dazu gehörigen Werkzeuge

6 Phase 3 des TIPSTER Weiterentwicklung in Grundlagenforschung der Textverarbeitung Detektion: Suchalgorithmus, Ergebnisfusion verschiedener Maschine Extraktion: Abstimmung für neue Domain, erhöhte Treffsicherheit Summarizing: Textzusammenfassung

7 Phase3 des TIPSTER(2) Mehrsprachigkeit: Portabilität von Werkzeugen und Techniken in eine andere Sprache Technische Schnittstelle: gemeinsame Informationsnutzung von Dokumentenfindung und Extraktion

8 TREC(Text Retrieval Conference)
Von ARPA initiiert und von NIST organisiert Ziel: Evaluation von Text Retrieval Systemen und Benutzer Evaluation durch sogenanntes “Cranfield Paradigm” Teilung in Arbeitsbereiche (“Tracks”)

9 TREC(2) Tracks : Cross-Language Track Filtering Track
Genome Track (neu) HARD Track Novelty Track ...

10 MUC (Message Understanding Conference)
Ziel: Förderung und Abdeckung der Forschung in automatische Analyse der militärischen Nachrichten mit Informationsinhalt in Form von Texten von NOSC initiiert, von NRAD, RDT&E gesponsort 1998 (MUC 7) eingestellt

11 MUC – Historische Entwicklung
Erkundungsphase Kein gemeinsames Ergebnisformat Selbstbewertung 1989: MUC 2 Einführung von Templates als Ergebnisformat (10 Slots) Auseindersetzung mit den Bewertungskriterien (recall and precision) Aufgabe: Militärische Meldungen

12 MUC – Historische Entwicklung (2)
Aufgabenbereich : terroristische Ereignisse 18 slots 1992: MUC 4 24 slots

13 MUC – Historische Entwicklung
Teil des TIPSTER Projekts der Regierung zwei Tasks: (International Joint Venture und Electonic Circuit Fabrication) Multilingualität Komplexität: (für Joint Venture Task) 11 Templates und 47 Slots Einführung von verschachtelten Templates (hierarchisch) Ergebnisse: 57% Recall und 64%Precision, 73% Recall und 74% in den vier “core tasks”

14 MUC 6 Ziel: aufgabenunabhängige technische Komponenten der IE, die bald ausgenutzt werden können Portabilität der IE Systeme Einarbeitung in das “tiefere Verständnis” der Systeme

15 MUC 6(2) Aufgabenbereich :
Kurzfristige Aufgabe: praktische Komponenten zu erkennen; named entity tasks (ENAMEX und NUMEX) Portabilität; Einfachere Templates

16 MUC 6 (3) Verständnis auf Basis Technologien; SemEval: Coreference
Word sense disambiguation Predicate-argument structure

17 MUC 7 Systeme (von IE Task): American University in Cairo's System
SIFT System (BBN) Lockheed Martin's NLToolset (AATM7) Proteus/PET System (NYU) IE2 System (SRA) TASC System

18 senseval Ziel : Evaluation von WSD EntscheidungsProgramme (bzgl. unterschiedliche Wörter, Sprachdialekten und unterschiedliche Sprache) Sponsoren : ACL-SIGLEX, EURALEX, ELSNET und EU Projekten ECRAN und SPARKLE

19 senseval (historisch)
SIGLEX-97: “Tagging Text with Lexical Semantics” SIGLEX-99: “Standardising Lexical Resources” senseval – 1 senseval – 2 ACL-02 Workshop

20 ACE (Automatic Content Extraction)
Ziel: Entwicklung von ACE Systeme zur Unterstützung der automatischen Verarbeitung der natürlichen Sprache in textuellem Format ACE Systeme: Detektion und Charakterisierung von Entitäten, Relation und Ereignisse Drei Eingaben: newswire broadcast news newspaper

21 ACE Teilnehmer: BBN MITRE LDC NIST NYU SRI

22 Phasen der ACE Phase 1 (99-00): Entity Detection and Tracking
Phase 2 (01-02): Entity Detection and Tracking + RDC (Relationen) evtl. Einstellung wegen mangelnder Finanzierung

23 Quelle http://trec.nist.gov
s/muc/proceedings/muc_7_toc.html s/tipster/


Herunterladen ppt "Informationsekstraktion Wettbewerbe und Kongresse Daniel Liem"

Ähnliche Präsentationen


Google-Anzeigen