Flaches Parsing mit endlichen Automaten Referat und Implementierung Jutta Jäger 24.06.2002.

Slides:



Advertisements
Ähnliche Präsentationen
Präsentiert von Torben Pastuch
Advertisements

XML-Programmierung mit XDuce
Vorlesung Compilertechnik Sommersemester 2008
Semantik und Wissensrepräsentation
Lexikalisch-Funktionale-Grammatik
Übung Datenbanksysteme WS 2003/ Übung Datenbanksysteme Entwurf eines Bibliothekssystems
Seminar Textmining WS 06/07 Themen Übung 11 unsupervised vs. supervised Symbolfolgen, Kunstsprachen Page Rank.
8. Formale Sprachen und Grammatiken
Lösung 7.1 Syntax und Semantik
Christian A. Kopf Institut für Informatik FU Berlin Episode Recognizer Framework - Rahmenwerk zur Episodenerkennung.
Zum Nutzen der kontrastiven Linguistik
Grammatiken, Definitionen
Kapitel 4 Syntaktische Analyse: LR Parsing.
Maschinelle Übersetzung I
FH-Hof Extensible Markup Language Richard Göbel. FH-Hof Extensible Markup Language XML XML ist universeller Ansatz für die Strukturierung von Zeichenketten.
MBT: A Memory-Based Part of Speech Tagger-Generator
Grammatikentwicklung
Strukturen. In einer Struktur kann eine beliebige Anzahl von Komponenten (Daten) mit unterschiedlichen Datentypen (im Gegensatz zu Feldern) zusammengefaßt.
Vorlesung Informatik 3 Einführung in die Theoretische Informatik (05 – Reguläre Ausdrücke) Prof. Dr. Th. Ottmann.
Prolog Grundkurs WS 98/99 Christof Rumpf
1 Automatische Klassifikation von Nomen nach Begriffstyp Christof Rumpf Heinrich-Heine-Universität
1 Endliche Automaten in der Sprachtechnologie Einführung Karin Haenelt
1 Abstrakte Operatoren für komplexe reguläre Ausdrücke Karin Haenelt
Reguläre Ausdrücke Karin Haenelt
Informationsextraktion mit endlichen Automaten
© Karin Haenelt, Modellierung Menschlicher.Sprachen mit Regulären Ausdrücken, Modellierung menschlicher Sprachen mit Regulären Ausdrücken.
Parsing regulärer Ausdrücke
© Karin Haenelt 2006, Operationen auf Akzeptoren und Transduktoren, ( ) 1 Operationen auf endlichen Akzeptoren und Transduktoren.
© Karin Haenelt 2005, Endliche Automaten: Alphabet, Zeichenreihe, Sprache, Endliche Automaten Grundlagen: Alphabet, Zeichenreihe, Sprache.
Sprachwissenschaftliches Institut Einführung in die HPSG Grammatiktheorie 4./11. Mai 2004.
SYSTRAN Information and translation technologies.
Grammatik als Deduktionssystem
Lexikalisch-Funktionale-Grammatik
NP-Bewegung & wh-Bewegung
Christian Schindelhauer
Lexikalisch-Funktionale Grammatik
Wie arbeitet der Brill-Tagger und warum macht er Fehler? Der Brill-Tagger basiert auf der Kombination von regelbasierten und statistischen Verfahren. Er.
NPGrammar NPGrammar. Nominalphrasenextraktion.
-LABORPRAKTIKUM- SOMMERSEMESTER 2005
Was bedeutet "Weiche drei schalten"?
Concurrent Versions System
Grammatikentwicklung
Intelligentes Crawling im WWW mit Hilfe intuitiver Suchbedingungen
Theoretische Informatik 2
Theoretische Informatik 2
Semantik und Pragmatik Übung 4 Fragment 2 Skopusambiguitäten Frank Schilder.
Titelmasterformat durch Klicken bearbeiten Formatvorlage des Untertitelmasters durch Klicken bearbeiten Die formalen Sprachen bei ETAP Teil II.
Entitäten Extraktion Einführung
Objektorientierte Modellierung
Überführung regulärer Ausdrücke in endliche Automaten Der Algorithmus von Glushkov und McNaughton/Yamada Karin Haenelt
Projektarbeit PHP 5.3 / MySQL & Content Management Systems
A Social Tagging Environment for Web Information Extraction
Jabber Seminar XML Technologien SS 2002 Mark Kunzmann.
Kultur Seite 106 A 2 B Nikolaus. Kapitel IV Vokabeln Sortieren PhrasenNomenVerbenAdjektiven /Adverben.
Wohlgeformtheit und Gültigkeit Grundlagen der Datenmodellierung Anke Jackschina.
Formale Sprachen Reguläre Sprachen Rudolf FREUND, Marian KOGLER.
Automaten, formale Sprachen und Berechenbarkeit II SoSe 2004 Prof. W. Brauer Teil 1: Wiederholung (Vor allem Folien von Priv.-Doz. Dr. Kindler vom WS 2001/02.
Why Connectionism? Friedrich & Assadollahi. Satz Fritz geht nach Hause.
Teil II: Phrasen und Phrasenstruktur
Die Länder, die Deutschen leben. Die Länder, die man Deutsch als Offiziell spricht. Außer den West-Europa spricht man Deutsch in der USA, Südafrika, Asian,
7. Formale Sprachen und Grammatiken
Artificial Intelligience
Inhalt Einordnung und Funktion der lexikalische Analyse Grundlagen
Programmierungssprache PERL
Grammatik als Deduktionssystem Theorie, Grammatik, Grammatiktheorie Grammatik Sprache Hypothese Sprachtheorie Theorie Erklärung Theoretisches Konstrukt.
Lexikalisch-Funktionale-Grammatik  Formaler Aufbau der F-Strukturen  Funktionale Beschreibungen  Funktionale Annotationen  Von der K-Struktur zur F-Struktur.
Der PATR II Formalismus
Arbeiten mit WordSmith 4. Inhalt 1. Arbeiten mit der Funktion Wortliste (im getaggten Korpus) 1. Arbeiten mit der Funktion Wortliste (im getaggten Korpus)
13.Dezember 2006–1Elektronisches Publizieren: Schemasprachen — Relax NG Schemasprachen für XML — Relax NG — Anne Brüggemann-Klein TU München.
 Präsentation transkript:

Flaches Parsing mit endlichen Automaten Referat und Implementierung Jutta Jäger

Übersicht Einführung Einführung Vorhandene Systeme/Ansätze Vorhandene Systeme/Ansätze Implementierung Implementierung

Partielles oder Flaches Parsing Anwendungsbereiche z.B. Information Retrieval oder Information Extraction Anwendungsbereiche z.B. Information Retrieval oder Information Extraction Implementierung durch endliche Automaten bzw. Reguläre Ausdrücke statt kontextfreier Grammatiken Implementierung durch endliche Automaten bzw. Reguläre Ausdrücke statt kontextfreier Grammatiken

Eigenschaften Keine Baumstrukturen, sondern inkrementelles Erkennen von Teilstrukturen Keine Baumstrukturen, sondern inkrementelles Erkennen von Teilstrukturen Keine Rekursion Keine Rekursion

Eigenschaften Robust Robust Schnell Schnell Leichtes Entwerfen und Anpassen des Parsers Leichtes Entwerfen und Anpassen des Parsers Keine 100%ige Abdeckung Keine 100%ige Abdeckung

Reguläre Ausdrücke Symbolea Symbolea Konkatenationab Konkatenationab Vereinigunga|b Vereinigunga|b Sternbildunga* Sternbildunga*usw.

Weitere Operatoren Rechter und linker Kontext Rechter und linker Kontext A => L _ R A => L _ R Left-to right, longest match mark up Left-to right, longest match mark up B... C B... C Perl: andere Notation Perl: andere Notation

Vorgehensweisen Tokenizierung Tokenizierung POS-Tagging POS-Tagging Mehrere einfache Finite State Transducer werden aufeinander bezogen Mehrere einfache Finite State Transducer werden aufeinander bezogen Von einfachen Strukturen (NPs oder NounGroups) zu syntaktischen Rollen (z.B. Subjekt) Von einfachen Strukturen (NPs oder NounGroups) zu syntaktischen Rollen (z.B. Subjekt)

Abney – Finite State Cascades Phrasen auf einem höheren Level werden durch Phrasen aus einem niedrigeren Level zusammengesetzt Phrasen auf einem höheren Level werden durch Phrasen aus einem niedrigeren Level zusammengesetzt Es werden keine Tags in den Text gesetzt, sondern die erkannten Sequenzen des Inputs werden durch ein Label ersetzt Es werden keine Tags in den Text gesetzt, sondern die erkannten Sequenzen des Inputs werden durch ein Label ersetzt

Philosophie Easy-first parsing Easy-first parsing Islands of certainty Islands of certainty Containment of ambiguity Containment of ambiguity

Grefenstette – Finite State Filters Noun- und Verb-Groups Noun- und Verb-Groups HeadNouns werden markiert HeadNouns werden markiert Syntaktische Funktionen werden herausgefiltert Syntaktische Funktionen werden herausgefiltert

Implementierung fürs Deutsche Perl Perl 2 Ansätze: 2 Ansätze: Parsre.pl Parsre.pl Subj_filter.pl Subj_filter.pl

Ansatz 1 (Parsre.pl) Freier, nicht tokenisierter oder getaggter Text Freier, nicht tokenisierter oder getaggter Text NP-Detector NP-Detector Reguläre Ausdrücke beschreiben einfache NPs Reguläre Ausdrücke beschreiben einfache NPs Alles, was matcht, wird ausgegeben (Filter) Alles, was matcht, wird ausgegeben (Filter)

Reguläre Ausdrücke Geschlossene Wortartenklassen aus dem Negra-Korpus => vorkompilierte Pattern z.B. z.B. $ART = qr/das|dem|den|der|des|die|einem|einen |einer|eines|eine|ein/;

Regulärer Ausdruck für NP Vereinfacht: ($ART | $PPOSAT)? ($ADJE (\, | ([\n ] $KON)) ? )* $SUBST

Evaluierung Ersten 100 Sätze aus Negra-Korpus Ersten 100 Sätze aus Negra-Korpus Im Korpus getaggte NPs: Im Korpus getaggte NPs: Durch den regulären Ausdruck erkannte: Durch den regulären Ausdruck erkannte:

Ansatz 2 – Mark up Nutzen der POS-Tags Nutzen der POS-Tags Regulärer Ausdruck für NPs Regulärer Ausdruck für NPs NP-Tags werden eingefügt NP-Tags werden eingefügt PP-Tags werden eingefügt PP-Tags werden eingefügt

Diskontinuität Mit Mark-up kann man diskontinuierliche Konstituenten (z.B. Prädikate) nicht erfassen, da Einfügen von Klammern oder Tags unmöglich Mit Mark-up kann man diskontinuierliche Konstituenten (z.B. Prädikate) nicht erfassen, da Einfügen von Klammern oder Tags unmöglich Im Deutschen sind viele Prädikate diskontinuierlich, z.B. Passivkonstruktionen, Perfekt, Verbzusatz Im Deutschen sind viele Prädikate diskontinuierlich, z.B. Passivkonstruktionen, Perfekt, Verbzusatz Lösung: Filter (?) Lösung: Filter (?)

Ansatz 2 – Filter (Subj_filter.pl) Erste NP vor einem finiten Verb => Subjekt Erste NP vor einem finiten Verb => Subjekt ABER: Im Deutschen sind verschiedene Satzbaupläne möglich, z.B. ABER: Im Deutschen sind verschiedene Satzbaupläne möglich, z.B. Adverb – finites Verb – NP (=SUBJ) Kongruenzprüfung nötig

Regulärer Ausdruck für Subjekt und Prädikat NP (=SUBJ) (NP|PP|ADV)* VVFIN (=PRÄD) ODER NP (=SUBJ) (NP|PP|ADV)* VAFIN (=PRÄD) (NP|PP|ADV)* (ADJD|VVPP) (=PRÄD) unvollständig, da Testcharakter unvollständig, da Testcharakter

Diskontinuität II Perl bietet Möglichkeit, Teile einer RegEx zu speichern Perl bietet Möglichkeit, Teile einer RegEx zu speichern Keine Möglichkeit, komplexe Teilausdrücke zu negieren, etwa [^(ADJD|VVPP) ], um auf diese Art Konstituenten zu überspringen, also: positive und fast zwangsläufig unvollständige Aufzählung Keine Möglichkeit, komplexe Teilausdrücke zu negieren, etwa [^(ADJD|VVPP) ], um auf diese Art Konstituenten zu überspringen, also: positive und fast zwangsläufig unvollständige Aufzählung

Evaluierung NP/PP-Erkennung NP/PP-Erkennung im Negra-Korpus getaggte im Negra-Korpus getaggte NPs und PPs 349 NPs und PPs 349 davon PPs 144 davon PPs 144 durch die Transducer getaggte durch die Transducer getaggte NPs 321 NPs 321 davon PPs 120 davon PPs 120

Resümee Verschachtelte Strukturen sind durch einen Regulären Ausdruck nicht zu beschreiben z.B. eine PP innerhalb einer NP [NP die [PP vom Baum ] gefallene Katze] Verschachtelte Strukturen sind durch einen Regulären Ausdruck nicht zu beschreiben z.B. eine PP innerhalb einer NP [NP die [PP vom Baum ] gefallene Katze] diskontinuierliche Konstituenten sind problematisch, Verben bzw. Prädikate sind im Deutschen sehr häufig diskontinuierlich diskontinuierliche Konstituenten sind problematisch, Verben bzw. Prädikate sind im Deutschen sehr häufig diskontinuierlich Für das Herausfiltern von Chunks sehr geeignet, aber kein komplettes Parsen Für das Herausfiltern von Chunks sehr geeignet, aber kein komplettes Parsen

Links & Literatur Steven Abney, Partial Parsing via Finite State Cascades Steven Abney, Partial Parsing via Finite State Cascades Gregory Grefenstette, Light Parsing as Finite State Filtering Gregory Grefenstette, Light Parsing as Finite State Filtering Negra-Korpus Negra-Korpus Xerox-Seite analysis/fsCompiler/home.en.html Xerox-Seite analysis/fsCompiler/home.en.html