Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Flaches Parsing mit endlichen Automaten Referat und Implementierung Jutta Jäger 24.06.2002.

Ähnliche Präsentationen


Präsentation zum Thema: "Flaches Parsing mit endlichen Automaten Referat und Implementierung Jutta Jäger 24.06.2002."—  Präsentation transkript:

1 Flaches Parsing mit endlichen Automaten Referat und Implementierung Jutta Jäger

2 Übersicht Einführung Einführung Vorhandene Systeme/Ansätze Vorhandene Systeme/Ansätze Implementierung Implementierung

3 Partielles oder Flaches Parsing Anwendungsbereiche z.B. Information Retrieval oder Information Extraction Anwendungsbereiche z.B. Information Retrieval oder Information Extraction Implementierung durch endliche Automaten bzw. Reguläre Ausdrücke statt kontextfreier Grammatiken Implementierung durch endliche Automaten bzw. Reguläre Ausdrücke statt kontextfreier Grammatiken

4 Eigenschaften Keine Baumstrukturen, sondern inkrementelles Erkennen von Teilstrukturen Keine Baumstrukturen, sondern inkrementelles Erkennen von Teilstrukturen Keine Rekursion Keine Rekursion

5 Eigenschaften Robust Robust Schnell Schnell Leichtes Entwerfen und Anpassen des Parsers Leichtes Entwerfen und Anpassen des Parsers Keine 100%ige Abdeckung Keine 100%ige Abdeckung

6 Reguläre Ausdrücke Symbolea Symbolea Konkatenationab Konkatenationab Vereinigunga|b Vereinigunga|b Sternbildunga* Sternbildunga*usw.

7 Weitere Operatoren Rechter und linker Kontext Rechter und linker Kontext A => L _ R A => L _ R Left-to right, longest match mark up Left-to right, longest match mark up B... C B... C Perl: andere Notation Perl: andere Notation

8 Vorgehensweisen Tokenizierung Tokenizierung POS-Tagging POS-Tagging Mehrere einfache Finite State Transducer werden aufeinander bezogen Mehrere einfache Finite State Transducer werden aufeinander bezogen Von einfachen Strukturen (NPs oder NounGroups) zu syntaktischen Rollen (z.B. Subjekt) Von einfachen Strukturen (NPs oder NounGroups) zu syntaktischen Rollen (z.B. Subjekt)

9 Abney – Finite State Cascades Phrasen auf einem höheren Level werden durch Phrasen aus einem niedrigeren Level zusammengesetzt Phrasen auf einem höheren Level werden durch Phrasen aus einem niedrigeren Level zusammengesetzt Es werden keine Tags in den Text gesetzt, sondern die erkannten Sequenzen des Inputs werden durch ein Label ersetzt Es werden keine Tags in den Text gesetzt, sondern die erkannten Sequenzen des Inputs werden durch ein Label ersetzt

10 Philosophie Easy-first parsing Easy-first parsing Islands of certainty Islands of certainty Containment of ambiguity Containment of ambiguity

11 Grefenstette – Finite State Filters Noun- und Verb-Groups Noun- und Verb-Groups HeadNouns werden markiert HeadNouns werden markiert Syntaktische Funktionen werden herausgefiltert Syntaktische Funktionen werden herausgefiltert

12 Implementierung fürs Deutsche Perl Perl 2 Ansätze: 2 Ansätze: Parsre.pl Parsre.pl Subj_filter.pl Subj_filter.pl

13 Ansatz 1 (Parsre.pl) Freier, nicht tokenisierter oder getaggter Text Freier, nicht tokenisierter oder getaggter Text NP-Detector NP-Detector Reguläre Ausdrücke beschreiben einfache NPs Reguläre Ausdrücke beschreiben einfache NPs Alles, was matcht, wird ausgegeben (Filter) Alles, was matcht, wird ausgegeben (Filter)

14 Reguläre Ausdrücke Geschlossene Wortartenklassen aus dem Negra-Korpus => vorkompilierte Pattern z.B. z.B. $ART = qr/das|dem|den|der|des|die|einem|einen |einer|eines|eine|ein/;

15 Regulärer Ausdruck für NP Vereinfacht: ($ART | $PPOSAT)? ($ADJE (\, | ([\n ] $KON)) ? )* $SUBST

16 Evaluierung Ersten 100 Sätze aus Negra-Korpus Ersten 100 Sätze aus Negra-Korpus Im Korpus getaggte NPs: Im Korpus getaggte NPs: Durch den regulären Ausdruck erkannte: Durch den regulären Ausdruck erkannte:

17 Ansatz 2 – Mark up Nutzen der POS-Tags Nutzen der POS-Tags Regulärer Ausdruck für NPs Regulärer Ausdruck für NPs NP-Tags werden eingefügt NP-Tags werden eingefügt PP-Tags werden eingefügt PP-Tags werden eingefügt

18 Diskontinuität Mit Mark-up kann man diskontinuierliche Konstituenten (z.B. Prädikate) nicht erfassen, da Einfügen von Klammern oder Tags unmöglich Mit Mark-up kann man diskontinuierliche Konstituenten (z.B. Prädikate) nicht erfassen, da Einfügen von Klammern oder Tags unmöglich Im Deutschen sind viele Prädikate diskontinuierlich, z.B. Passivkonstruktionen, Perfekt, Verbzusatz Im Deutschen sind viele Prädikate diskontinuierlich, z.B. Passivkonstruktionen, Perfekt, Verbzusatz Lösung: Filter (?) Lösung: Filter (?)

19 Ansatz 2 – Filter (Subj_filter.pl) Erste NP vor einem finiten Verb => Subjekt Erste NP vor einem finiten Verb => Subjekt ABER: Im Deutschen sind verschiedene Satzbaupläne möglich, z.B. ABER: Im Deutschen sind verschiedene Satzbaupläne möglich, z.B. Adverb – finites Verb – NP (=SUBJ) Kongruenzprüfung nötig

20 Regulärer Ausdruck für Subjekt und Prädikat NP (=SUBJ) (NP|PP|ADV)* VVFIN (=PRÄD) ODER NP (=SUBJ) (NP|PP|ADV)* VAFIN (=PRÄD) (NP|PP|ADV)* (ADJD|VVPP) (=PRÄD) unvollständig, da Testcharakter unvollständig, da Testcharakter

21 Diskontinuität II Perl bietet Möglichkeit, Teile einer RegEx zu speichern Perl bietet Möglichkeit, Teile einer RegEx zu speichern Keine Möglichkeit, komplexe Teilausdrücke zu negieren, etwa [^(ADJD|VVPP) ], um auf diese Art Konstituenten zu überspringen, also: positive und fast zwangsläufig unvollständige Aufzählung Keine Möglichkeit, komplexe Teilausdrücke zu negieren, etwa [^(ADJD|VVPP) ], um auf diese Art Konstituenten zu überspringen, also: positive und fast zwangsläufig unvollständige Aufzählung

22 Evaluierung NP/PP-Erkennung NP/PP-Erkennung im Negra-Korpus getaggte im Negra-Korpus getaggte NPs und PPs 349 NPs und PPs 349 davon PPs 144 davon PPs 144 durch die Transducer getaggte durch die Transducer getaggte NPs 321 NPs 321 davon PPs 120 davon PPs 120

23 Resümee Verschachtelte Strukturen sind durch einen Regulären Ausdruck nicht zu beschreiben z.B. eine PP innerhalb einer NP [NP die [PP vom Baum ] gefallene Katze] Verschachtelte Strukturen sind durch einen Regulären Ausdruck nicht zu beschreiben z.B. eine PP innerhalb einer NP [NP die [PP vom Baum ] gefallene Katze] diskontinuierliche Konstituenten sind problematisch, Verben bzw. Prädikate sind im Deutschen sehr häufig diskontinuierlich diskontinuierliche Konstituenten sind problematisch, Verben bzw. Prädikate sind im Deutschen sehr häufig diskontinuierlich Für das Herausfiltern von Chunks sehr geeignet, aber kein komplettes Parsen Für das Herausfiltern von Chunks sehr geeignet, aber kein komplettes Parsen

24 Links & Literatur Steven Abney, Partial Parsing via Finite State Cascades Steven Abney, Partial Parsing via Finite State Cascades Gregory Grefenstette, Light Parsing as Finite State Filtering Gregory Grefenstette, Light Parsing as Finite State Filtering Negra-Korpus Negra-Korpus Xerox-Seite analysis/fsCompiler/home.en.html Xerox-Seite analysis/fsCompiler/home.en.html


Herunterladen ppt "Flaches Parsing mit endlichen Automaten Referat und Implementierung Jutta Jäger 24.06.2002."

Ähnliche Präsentationen


Google-Anzeigen