Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Informationsekstraktion Wettbewerbe und Kongresse Daniel Liem.

Ähnliche Präsentationen


Präsentation zum Thema: "Informationsekstraktion Wettbewerbe und Kongresse Daniel Liem."—  Präsentation transkript:

1 Informationsekstraktion Wettbewerbe und Kongresse Daniel Liem

2 TIPSTER 1991 ins Leben gerufen durch DARPA von unter anderem DoD, NIST, CIA und SPARWAR gesponsort Ziel: die Entwicklung eines effizienteren und effektiveren Verfahrens zur Verarbeitung von Informationen in textueller Form 1998 wegen mangelder Finanzierung eingestellt

3 TIPSTER(2) die drei Schwerpunkte der Untersuchungen Dokument Detection Information Extraction Summarization

4 Phase 1 des TIPSTER Algorithmenentwicklung für Dokumenten- detektion und Informationsekstraktion Entwicklung von Bewertungs- bzw. Messungsverfahren Ergebnisse: – Dokumentendetektion: von 30% zu 75% – Informationsextraktion: Recall: von 49% zu 65% Precission: von 55% zu 59%

5 Phase 2 des TIPSTER Software Architektur Entwicklung: – Standardisierung von technischen Komponenten – plug and play von unterschiedlichen Werkzeugen ermöglichen – das Software-sharing vorantreiben MET (Multilingual Entity Task) – und die dazu gehörigen Werkzeuge

6 Phase 3 des TIPSTER Weiterentwicklung in Grundlagenforschung der Textverarbeitung – Detektion: Suchalgorithmus, Ergebnisfusion verschiedener Maschine – Extraktion: Abstimmung für neue Domain, erhöhte Treffsicherheit – Summarizing: Textzusammenfassung

7 Phase3 des TIPSTER(2) Mehrsprachigkeit: Portabilität von Werkzeugen und Techniken in eine andere Sprache Technische Schnittstelle: gemeinsame Informationsnutzung von Dokumentenfindung und Extraktion

8 TREC(Text Retrieval Conference) Von ARPA initiiert und von NIST organisiert Ziel: Evaluation von Text Retrieval Systemen und Benutzer Evaluation durch sogenanntes Cranfield Paradigm Teilung in Arbeitsbereiche (Tracks)

9 TREC(2) Tracks : – Cross-Language Track – Filtering Track – Genome Track (neu) – HARD Track – Novelty Track...

10 MUC (Message Understanding Conference) Ziel: Förderung und Abdeckung der Forschung in automatische Analyse der militärischen Nachrichten mit Informationsinhalt in Form von Texten von NOSC initiiert, von NRAD, RDT&E.... gesponsort 1998 (MUC 7) eingestellt

11 MUC – Historische Entwicklung 1987: MUC 1 – Erkundungsphase – Kein gemeinsames Ergebnisformat – Selbstbewertung 1989: MUC 2 – Einführung von Templates als Ergebnisformat (10 Slots) – Auseindersetzung mit den Bewertungskriterien (recall and precision) – Aufgabe: Militärische Meldungen

12 MUC – Historische Entwicklung (2) 1991: MUC 3 – Aufgabenbereich : terroristische Ereignisse – 18 slots 1992: MUC 4 – 24 slots

13 MUC – Historische Entwicklung 1993: MUC 5 – Teil des TIPSTER Projekts der Regierung – zwei Tasks: (International Joint Venture und Electonic Circuit Fabrication) – Multilingualität – Komplexität: (für Joint Venture Task) 11 Templates und 47 Slots – Einführung von verschachtelten Templates (hierarchisch) – Ergebnisse: 57% Recall und 64%Precision, 73% Recall und 74% in den vier core tasks

14 MUC 6 Ziel: – aufgabenunabhängige technische Komponenten der IE, die bald ausgenutzt werden können – Portabilität der IE Systeme – Einarbeitung in das tiefere Verständnis der Systeme

15 MUC 6(2) Aufgabenbereich : – Kurzfristige Aufgabe: praktische Komponenten zu erkennen; named entity tasks (ENAMEX und NUMEX) – Portabilität; Einfachere Templates

16 MUC 6 (3) Verständnis auf Basis Technologien; SemEval: – Coreference – Word sense disambiguation – Predicate-argument structure

17 MUC 7 Systeme (von IE Task): – American University in Cairo's System – SIFT System (BBN) – Lockheed Martin's NLToolset (AATM7) – Proteus/PET System (NYU) – IE2 System (SRA) – TASC System

18 senseval Ziel : Evaluation von WSD EntscheidungsProgramme (bzgl. unterschiedliche Wörter, Sprachdialekten und unterschiedliche Sprache) Sponsoren : ACL-SIGLEX, EURALEX, ELSNET und EU Projekten ECRAN und SPARKLE

19 senseval (historisch) – SIGLEX-97: Tagging Text with Lexical Semantics – SIGLEX-99: Standardising Lexical Resources – senseval – 1 – senseval – 2 – ACL-02 Workshop

20 ACE (Automatic Content Extraction) Ziel: Entwicklung von ACE Systeme zur Unterstützung der automatischen Verarbeitung der natürlichen Sprache in textuellem Format ACE Systeme: Detektion und Charakterisierung von Entitäten, Relation und Ereignisse Drei Eingaben: – newswire – broadcast news – newspaper

21 ACE Teilnehmer: BBN MITRE LDC NIST NYU SRI

22 Phasen der ACE Phase 1 (99-00): Entity Detection and Tracking Phase 2 (01-02): Entity Detection and Tracking + RDC (Relationen) evtl. Einstellung wegen mangelnder Finanzierung

23 Quelle s/muc/proceedings/muc_7_toc.html ts/tipster/


Herunterladen ppt "Informationsekstraktion Wettbewerbe und Kongresse Daniel Liem."

Ähnliche Präsentationen


Google-Anzeigen