Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

FASTUS Ein System zur Informations- und Faktenextraktion.

Ähnliche Präsentationen


Präsentation zum Thema: "FASTUS Ein System zur Informations- und Faktenextraktion."—  Präsentation transkript:

1 FASTUS Ein System zur Informations- und Faktenextraktion

2 Entstehung Message Understanding conference (MUC) Austragung der Wettbewerbe in IE Untersuchung einer großen Anzahl von Texten auf bestimmte Inhalte Anschließende Speicherung in vordefinierter Templates oder DB FASTUS ab MUC-3 (1991) dabei (integriert in TACITUS)

3 Texte und Templates Incident: Date - 19 Apr 89 Incident: Location El Salvador: San Salvador (CITY) Incident: Type Bombing Perpetrator: Individual ID "urban guerrillas„ Perpetrator: Organization ID "FMLN„ Perpetrator: Organization Suspected or Accused by Authorities: "FMLN„ Confidence Physical Target: Description "vehicle" Physical Target: Effect Some Damage: "vehicle" Human Target: Name "Roberto Garcia Alvarado" Human Target: Description "attorney general": "Roberto Garcia Alvarado" "driver" "bodyguards" Human Target: Effect Death: "Roberto Garcia Alvarado" No Injury: "driver" Injury: "bodyguards" San Salvador, 19 Apr 89 (ACAN-EFE) -- [TEXT] Salvadoran President-elect Alfredo Cristiani condemned the terrorist killing of Attorney General Roberto Garcia Alvarado and accused the Farabundo Marti National Liberation Front (FMLN) of the crime.... Garcia Alvarado, 56, was killed when a bomb placed by urban guerrillas on his vehicle exploded as it came to a halt at an intersection in downtown San Salvador.... Vice President-elect Francisco Merino said that when the attorney general's car stopped at a light on a street in downtown San Salvador, an individual placed a bomb on the roof of the armored vehicle.... According to the police and Garcia Alvarado's driver, who escaped unscathed, the attorney general was traveling with two bodyguards. One of them was injured.

4 NEA-Modell – ausreichend für IE? Natürliche Sprachen (Englisch, Deutsch) bis auf wenige Konstrukte mit kontextfreien Grammatiken beschreibbar Durch die Verwendung von NEA nur reguläre Ausdrücke erkennbar Church (1980): Endliche Automaten sind adäquate Approximationen des Modells der menschlichen Sprache Systematische Annäherungen von kontextfreien durch reguläre Grammatiken

5 Konzeptionelles Design Kette von NEA Jedes Glied für eine Stufe der Satzanalyse verantwortlich Am Anfang Analyse einfacher sprachlicher Elemente und Konstrukte Nutzung des linguistischen Wissens und daher anwendungsübergreifend Später Analyse der gefundenen Sprach-und Satzformen Suche nach anwendungsinternen Mustern

6 Einzelne Stufen der Verarbeitung 1.Erkennung von Eigennamen und zusammengesetzten Wörtern 2.Gliederung der Sätze in noun groups, verb groups und andere Einheiten 3.Komplexe noun groups und verb groups 4.Untersuchung von Sequenzen gefundener syntaktischer Formen auf relevante Patterns und Bildung der entsprechenden Strukturen 5.Zusammenführung von Strukturen (Templates), die das gleiche Ereignis oder Objekt beschreiben

7 Erkennung von Eigennamen und zusammengesetzten Wörtern Auffinden von Namen der Menschen, Ortschaften, Firmennamen, Daten, Zeiten etc. Mehrdeutige Eigennamen werden jedoch erst im 2. Schritt erkannt: XYZ‘s sales Erkennung von festen Wortverbindungen und Kollokationen: set up, joint venture, new Taiwan dollars

8 Kategorisierung der Nominalformen

9 Syntaktische Grundformen Problem der syntaktischen Mehrdeutigkeit ist „KI- vollständig“ Noun phrases sind nicht eindeutig erkennbar, dafür noun groups - Substantive mit beschreibenden Adjektiven und Adverbien (Deskriptoren) Verb groups – Verben mit ihren Hilfsverben und charakterisierenden Adverbien Präpositionen, Konjunktionen, Relativpronomen, Wörter „ago“ und „that“ Wenn eine Form ein Teil einer anderen ist, wird die größere berücksichtigt

10 Reguläre Grammatiken als Werkzeug für das syntaktische Parsing Erkennung von noun groups mit Hilfe einer regulären Grammatik Zahlen, numerische Deskriptoren, Partizipien in Adjektivrolle, Komparative und Superlative Adjektivformen, Adjektive in Substantivrolle Grammatik für Verbgruppen kennzeichnet sie als Active, Passive, Gerund und Infinitive Unbekannte oder nicht zugeordnete Wörter werden im Weiteren ignoriert

11 Vollständige syntaktische Gliederung

12 Schritt 3: Komplexe syntaktische Formen Anfügen von Artikeln: the formerly established joint venture Phrasen, die Quantität beschreiben: 20000 iron wheels, several hundred cows Anfügen präpositionaler Formen von „of“ und „for“: production of 20000 iron wheels Konjunktion der noun groups: a local concern and a Japanese trading house

13 Schritt 3: Bildung von Templates Während der Schritte 2 und 3 können relevante Ereignisse und Entitäten gefunden werden: The joint venture, Bridgestone Sports Taiwan Co.,... Relationship: TIE-UP Entities: -- Joint Venture Company: Bridgestone Sports Taiwan Co. Activity: -- Amount : --

14 Schritt 3: Bewältigung der Sprachvielfalt GM formed a joint venture with Toyota. GM announced it was forming a joint venture with Toyota. GM signed an agreement forming a joint venture with Toyota. GM announced it was signing an agreement to form a joint venture with Toyota. Unterschiedliche Ausdrucksformen werden auf standardisierte Normalform gebracht, indem entsprechende komplexe verb groups gefunden und aufgelöst werden

15 Schritt 3: Beispiel

16 Erkennung von Fakten und Ereignissen Spezifizierung durch Patterns Reguläre Ausdrücke, Erkennung mit NEA Zustandsübergänge durch Paare von Anfangswörtern (Terminalsymbolen) und Typen der komplexen Formen ausgelöst: ‚company‘-NounGroup‚ ‚formed‘-PassiveVerbGroup‚ ‚bargaining‘-PresentParticipleVerbGroup'

17 Erkennung von Fakten und Ereignissen {Company/ies} {Set-up} {Joint-Venture} with {Company/ies} {Company} {Capitalized} at {Currency} Matching von syntaktisch gegliedertem Text mit anwendungsinternen Patterns:

18 Syntaktische Verfeinerungen Patterns ermöglichen genaue Fokussierung auf relevante syntaktische Konstrukte Vermeidung unnötiger Verarbeitung Subject {Preposition NounGroup}* VerbGroup Subject Relpro {NounGroup | Other}* VerbGroup {NounGroup | Other}* VerbGroup

19 Zusammenführung von Templates Erste 4 Schritte verarbeiten einen Satz, dieser - ganzen Text Auffindung und Zusammenfügung sämtlicher Informationen über ein Ereignis 3 Kriterien für die Entscheidung über die Zusammenschmelzung zweier Entitäten: - interne Struktur der enthaltenen noun groups - Nähe gemäß einer definierten Metrik - Kompatibilität zweier Strukturen

20 Zusammensetzen der Teile eines Fakts

21 Anwendungen von FASTUS Analyse von Wirtschaftsnachrichten (Fusionen, Arbeitgeberverhandlungen) Globale politische Nachrichten (Terroranschläge) Militärnachrichten Integration in OCR-Systeme


Herunterladen ppt "FASTUS Ein System zur Informations- und Faktenextraktion."

Ähnliche Präsentationen


Google-Anzeigen