FASTUS Ein System zur Informations- und Faktenextraktion.

Slides:



Advertisements
Ähnliche Präsentationen
Semantik und Wissensrepräsentation
Advertisements

Datenmodellierung Externe Phase Informationsstruktur
Maschinelle Lernverfahren für IE und TM 1 Topic Detection.
8. Formale Sprachen und Grammatiken
Christian A. Kopf Institut für Informatik FU Berlin Episode Recognizer Framework - Rahmenwerk zur Episodenerkennung.
Kapitel 4 Syntaktische Analyse: LR Parsing.
Parser generieren Yet Another Compiler – Compiler YACC.
Prolog Grundkurs WS 98/99 Christof Rumpf
Informationsextraktion mit endlichen Automaten
Flaches Parsing mit endlichen Automaten Referat und Implementierung Jutta Jäger
- Die wichtigsten Wortarten im Überblick -
CIDOC CRM aus der Sicht von Ontologienutzern. CIDOC CRM - (Formale) Ontologie für die Dokumentation in den Kulturwissenschaften – ISO 21127: A Reference.
Titelmasterformat durch Klicken bearbeiten Formatvorlage des Untertitelmasters durch Klicken bearbeiten Die formalen Sprachen bei ETAP Teil II.
Entitäten Extraktion Einführung
Spezifikation von Anforderungen
Wechselpräpositionen
Separable Verbs There is a group of verbs in German called separable verbs = trennbare Verben.
If you finish early, translate the sentences into English.
You need to use your mouse to see this presentation © Heidi Behrens.
You need to use your mouse to see this presentation © Heidi Behrens.
Donnerstag: LZ: Relative Pronouns
Formale Sprachen Grammatiken und die Chomsky-Hierarchie
Context-awareness Andreas Bossard, Matthias Hert.
Niklas: Was möchte ___________ (your) Schwester denn zum Geburtstag?
Negation is when you dont have or dont do something.
Using latent semantic analysis to find different names for the same entity in free text Präsentation und Diskussion des Papers Im Rahmen des PS Web-Information.
Noam CHOMSKY, Sheila GREIBACH
Automaten, formale Sprachen und Berechenbarkeit II SoSe 2004 Prof. W. Brauer Teil 3: Potenzreihen und kontextfreie Sprachen (Vgl. Buch von A. Salomaa)
Der formelle Imperativ – the Imperative
Institut für Softwarewissenschaft – Universität WienP.Brezany 1 Beispiele (Frist: ) Beispiel 1: Sei  = {a, b} ein Alphabet und Q = {q 0, q 1 } eine.
Konjugier,,sein”! ichwir du ihr er, sie,essie, Sie.
Linking sentences or phrases together
The prepositions in and an Two way prepositions. What are two-way prepositions? 0 A set of prepositions can take the dative or the accusative case: "an",
Nominative & Accusative Basic Rules for Relative Pronouns in German:
Inhalt Einordnung und Funktion der lexikalische Analyse Grundlagen
Name: ___________________________________________ Hör verstehen: (______/10) Mark whether you hear a “du”, an “ihr” or a “Sie” command Wer sagt.
Lexikalische Semantik
What is a “CASE”? in English: pronouns, certain interrogatives
What is a “CASE”? in English: pronouns, certain interrogatives
GERMAN 1013 Kapitel 5 Review. terminology Word types: –nouns, pronouns, verbs, adjectives, prepositions … Functions: –subject, predicate, object … Form.
type / function / form type of words:
Komm Mit! 1 Kapitel 8 Einkaufen gehen.
Kapitel 9 Grammar INDEX 1.Prepositions 2.Dative Prepositions 3.Accusative Prepositions.
Kapitel 4 Grammar INDEX 1.Ordinal Numbers 2.Relative Pronouns and Relative Clauses 3.Conditional Sentences 4.Posessive: Genitive Case.
Kapitel 1 Grammar INDEX 1.Questions 2.Nouns 3.Definite Articles 4.Subjects 5.Subject Pronouns & Sein.
Kapitel 2 Grammar INDEX 1.Subjects & Verbs 2.Conjugation of Verbs 3.Subject Verb Agreement 4.Person and Number 5.Present Tense 6.Word Order: Position of.
Kapitel 7 Grammar INDEX 1.Comparison 2.Adjectives 3.Adjective Endings Following Ein-Words.
Kapitel 3 Grammar INDEX 1.Modal Verbs: Möchten 2.3 rd Person Pronoun.
German Verb Conjugation
Kapitel 8 Grammar INDEX 1.Command Forms: The Du-Command Form & Ihr- Command 2.Sentences & Clauses.
Komparativ und Superlativ German 2. zum Beispiel … Ein VW ist schnell. Ein BMW ist schneller. Ein Porsche ist am Schnellsten. There are 2 levels of comparison:
10.3 Lektion 10 Geschichte und Gesellschaft STRUKTUREN © and ® 2012 Vista Higher Learning, Inc Der Konjunktiv I and indirect speech —Ich komme.
Kapitel 9 Grammar INDEX 1.Formal Sie- Command 2.There Is/There Are 3.Negation: Nicht/Klein.
Guten Morgen! Mittwoch den Aufgabe bis Freitag den LB 4.4 M (Aufsatz, 8 Sätze) Culture worksheet Quiz 4.4.
On the case of German has 4 cases NOMINATIVE ACCUSATIVE GENITIVE DATIVE.
Adjektiven und Adverbien Endungen. Das prädikativ gebrauchte Adjektiv Predicate adjectives follow the verbs sein, werden or bleiben. The modify the subject.
D EUTSCH IV 26. Februar V OR WIR BEGINNEN... Am Freitag werden wir ein kleines Quiz über Vokabeln, das Genativ und das Passiv schreiben. Während.
Wortstellung: die finite Verbform im Aussagesatz Conjugated verb is always 2 nd “normal” word order = subject in the 1 st position, verb in the 2 nd “inverted”
DAS VIERTE DEUTSCHE KASUS Genitiv. Kasus ● What is a case? A case shows the grammatical function of a word. ● There are four cases in German. Up to now.
Interrogatives and Verbs
Dom zu Lübeck The Lübeck Cathedral (German: Dom zu Lübeck, or colloquially Lübecker Dom) is a large brick Lutheran cathedral in Lübeck, Germany and part.
Freizeit Thema 5 Kapitel 1 (1)
Grundlagen Englisch Passive voice HFW Bern.
Type / function / form Type of words:
Vorlesung Völkerrecht Diplomatischer Schutz
Synonyms are two or more words belonging to the same part of speech and possessing one or more identical or nearly identical denotational meanings, interchangeable.
Kapitel 7.
Deutsch I für Anfänger Beginning German I
9 Two-Way Prepositions über in an neben vor auf hinter zwischen unter.
type / function / form type of words:
 Präsentation transkript:

FASTUS Ein System zur Informations- und Faktenextraktion

Entstehung Message Understanding conference (MUC) Austragung der Wettbewerbe in IE Untersuchung einer großen Anzahl von Texten auf bestimmte Inhalte Anschließende Speicherung in vordefinierter Templates oder DB FASTUS ab MUC-3 (1991) dabei (integriert in TACITUS)

Texte und Templates Incident: Date - 19 Apr 89 Incident: Location El Salvador: San Salvador (CITY) Incident: Type Bombing Perpetrator: Individual ID "urban guerrillas„ Perpetrator: Organization ID "FMLN„ Perpetrator: Organization Suspected or Accused by Authorities: "FMLN„ Confidence Physical Target: Description "vehicle" Physical Target: Effect Some Damage: "vehicle" Human Target: Name "Roberto Garcia Alvarado" Human Target: Description "attorney general": "Roberto Garcia Alvarado" "driver" "bodyguards" Human Target: Effect Death: "Roberto Garcia Alvarado" No Injury: "driver" Injury: "bodyguards" San Salvador, 19 Apr 89 (ACAN-EFE) -- [TEXT] Salvadoran President-elect Alfredo Cristiani condemned the terrorist killing of Attorney General Roberto Garcia Alvarado and accused the Farabundo Marti National Liberation Front (FMLN) of the crime.... Garcia Alvarado, 56, was killed when a bomb placed by urban guerrillas on his vehicle exploded as it came to a halt at an intersection in downtown San Salvador.... Vice President-elect Francisco Merino said that when the attorney general's car stopped at a light on a street in downtown San Salvador, an individual placed a bomb on the roof of the armored vehicle.... According to the police and Garcia Alvarado's driver, who escaped unscathed, the attorney general was traveling with two bodyguards. One of them was injured.

NEA-Modell – ausreichend für IE? Natürliche Sprachen (Englisch, Deutsch) bis auf wenige Konstrukte mit kontextfreien Grammatiken beschreibbar Durch die Verwendung von NEA nur reguläre Ausdrücke erkennbar Church (1980): Endliche Automaten sind adäquate Approximationen des Modells der menschlichen Sprache Systematische Annäherungen von kontextfreien durch reguläre Grammatiken

Konzeptionelles Design Kette von NEA Jedes Glied für eine Stufe der Satzanalyse verantwortlich Am Anfang Analyse einfacher sprachlicher Elemente und Konstrukte Nutzung des linguistischen Wissens und daher anwendungsübergreifend Später Analyse der gefundenen Sprach-und Satzformen Suche nach anwendungsinternen Mustern

Einzelne Stufen der Verarbeitung 1.Erkennung von Eigennamen und zusammengesetzten Wörtern 2.Gliederung der Sätze in noun groups, verb groups und andere Einheiten 3.Komplexe noun groups und verb groups 4.Untersuchung von Sequenzen gefundener syntaktischer Formen auf relevante Patterns und Bildung der entsprechenden Strukturen 5.Zusammenführung von Strukturen (Templates), die das gleiche Ereignis oder Objekt beschreiben

Erkennung von Eigennamen und zusammengesetzten Wörtern Auffinden von Namen der Menschen, Ortschaften, Firmennamen, Daten, Zeiten etc. Mehrdeutige Eigennamen werden jedoch erst im 2. Schritt erkannt: XYZ‘s sales Erkennung von festen Wortverbindungen und Kollokationen: set up, joint venture, new Taiwan dollars

Kategorisierung der Nominalformen

Syntaktische Grundformen Problem der syntaktischen Mehrdeutigkeit ist „KI- vollständig“ Noun phrases sind nicht eindeutig erkennbar, dafür noun groups - Substantive mit beschreibenden Adjektiven und Adverbien (Deskriptoren) Verb groups – Verben mit ihren Hilfsverben und charakterisierenden Adverbien Präpositionen, Konjunktionen, Relativpronomen, Wörter „ago“ und „that“ Wenn eine Form ein Teil einer anderen ist, wird die größere berücksichtigt

Reguläre Grammatiken als Werkzeug für das syntaktische Parsing Erkennung von noun groups mit Hilfe einer regulären Grammatik Zahlen, numerische Deskriptoren, Partizipien in Adjektivrolle, Komparative und Superlative Adjektivformen, Adjektive in Substantivrolle Grammatik für Verbgruppen kennzeichnet sie als Active, Passive, Gerund und Infinitive Unbekannte oder nicht zugeordnete Wörter werden im Weiteren ignoriert

Vollständige syntaktische Gliederung

Schritt 3: Komplexe syntaktische Formen Anfügen von Artikeln: the formerly established joint venture Phrasen, die Quantität beschreiben: iron wheels, several hundred cows Anfügen präpositionaler Formen von „of“ und „for“: production of iron wheels Konjunktion der noun groups: a local concern and a Japanese trading house

Schritt 3: Bildung von Templates Während der Schritte 2 und 3 können relevante Ereignisse und Entitäten gefunden werden: The joint venture, Bridgestone Sports Taiwan Co.,... Relationship: TIE-UP Entities: -- Joint Venture Company: Bridgestone Sports Taiwan Co. Activity: -- Amount : --

Schritt 3: Bewältigung der Sprachvielfalt GM formed a joint venture with Toyota. GM announced it was forming a joint venture with Toyota. GM signed an agreement forming a joint venture with Toyota. GM announced it was signing an agreement to form a joint venture with Toyota. Unterschiedliche Ausdrucksformen werden auf standardisierte Normalform gebracht, indem entsprechende komplexe verb groups gefunden und aufgelöst werden

Schritt 3: Beispiel

Erkennung von Fakten und Ereignissen Spezifizierung durch Patterns Reguläre Ausdrücke, Erkennung mit NEA Zustandsübergänge durch Paare von Anfangswörtern (Terminalsymbolen) und Typen der komplexen Formen ausgelöst: ‚company‘-NounGroup‚ ‚formed‘-PassiveVerbGroup‚ ‚bargaining‘-PresentParticipleVerbGroup'

Erkennung von Fakten und Ereignissen {Company/ies} {Set-up} {Joint-Venture} with {Company/ies} {Company} {Capitalized} at {Currency} Matching von syntaktisch gegliedertem Text mit anwendungsinternen Patterns:

Syntaktische Verfeinerungen Patterns ermöglichen genaue Fokussierung auf relevante syntaktische Konstrukte Vermeidung unnötiger Verarbeitung Subject {Preposition NounGroup}* VerbGroup Subject Relpro {NounGroup | Other}* VerbGroup {NounGroup | Other}* VerbGroup

Zusammenführung von Templates Erste 4 Schritte verarbeiten einen Satz, dieser - ganzen Text Auffindung und Zusammenfügung sämtlicher Informationen über ein Ereignis 3 Kriterien für die Entscheidung über die Zusammenschmelzung zweier Entitäten: - interne Struktur der enthaltenen noun groups - Nähe gemäß einer definierten Metrik - Kompatibilität zweier Strukturen

Zusammensetzen der Teile eines Fakts

Anwendungen von FASTUS Analyse von Wirtschaftsnachrichten (Fusionen, Arbeitgeberverhandlungen) Globale politische Nachrichten (Terroranschläge) Militärnachrichten Integration in OCR-Systeme