Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

6.7.2005NPGrammar NPGrammar. Nominalphrasenextraktion.

Ähnliche Präsentationen


Präsentation zum Thema: "6.7.2005NPGrammar NPGrammar. Nominalphrasenextraktion."—  Präsentation transkript:

1 6.7.2005NPGrammar NPGrammar. Nominalphrasenextraktion.

2 6.7.2005NPGrammar Ziel. Automatische Gewinnung von Nominalphrasen aus Nachrichtentexten. Extraktion von key-words und key-phrases, also Nominalphrasen größtmöglicher Länge; bspws. der Innenminister von Bayern der Kampf um neue Stellen

3 6.7.2005NPGrammar Relation zwischen Head-NP & Attributen Bisher folgende Relationsarten definiert: –GEN(für Genitivattribute) –Prep(Name der Präposition für Präpositionalattribute) –NAME(für Eigennamen) –Kon(Name der koordinierenden Konjunktion) Ausgabe in eine Datei mit folgenden Angaben zu einer komplexen Phrase: –Phrase als String. –Head der Phrase. –Relation zwischen Head und Attribut. –Differenzbegriff. –Baumstruktur zur Darstellung der Abhängigkeiten.

4 6.7.2005NPGrammar Beispiel. Phrase als String eine Stärkung der Binnennachfrage Head der Phrase Stärkung Relation zwischen Head und Attribut GEN Differenzbegriff Binnennachfrage Baumstruktur (Stärkung (eine) (GEN (der) (Binnennachfrage))

5 6.7.2005NPGrammar Überlegungen zur Realisierung. Syntaktische Analyse partielles wörterbuchunabhängiges Parsing. Segmentierung des Textes in positive und negative Folgen. Vorteil: –nicht sehr aufwendig. –nur solche Textstellen werden berücksichtigt bzw. analysiert, die zu speziellen Sprachmustern passen.

6 6.7.2005NPGrammar Realisierung. Definition der Sprachmuster (Regelset) zur NP-Erkennung durch Verwendung des am Fraunhofer Institut entwickelten Parsingtools XGrammar (endlicher Automat, reguläre Ausdrücke). Programmiersprache: Smalltalk.

7 6.7.2005NPGrammar Programmgerüst.

8 6.7.2005NPGrammar NPGrammar Klassenaufbau.

9 6.7.2005NPGrammar Programmablauf.

10 6.7.2005NPGrammar Vorbereitung der Texte für die Analyse Setzen der erforderlichen Tags – –Segmentierung des Textes in seine Sätze; nach jedem Satz folgt tag Startmethode NPGrammarSentenceSplitter setMarker: aFilename (NPGrammarSentenceSplitter setMarker: 'C:\ studienprojekt\texte\text4.txt' asFilename) Rückgabewert: Text als getaggter String NPGrammarSentenceSplitter.

11 6.7.2005NPGrammar NPGrammarXtract. Einlesen der externen Wortlisten, Anlegen der Ausgabedateien und Ordner. Start des Parsevorgangs parseFromFile: aString1 startSymbol: aSymbol dir: aString2 Durchlaufen der definierten Regeln. Hierarchisierung, Relationsbestimmung und Ausgabe positiver Folgen

12 6.7.2005NPGrammar Methodik. Syntaxgraphen.

13 6.7.2005NPGrammar Allgemeine Struktur der NPs. Eine Nominalphrase besteht aus: –linkem Kontext (Adjektive und Determinationen) –Kern-NP –rechtem Kontext (Genitivattribute, Präpositionalattribute und Appositionen)

14 6.7.2005NPGrammar

15 6.7.2005NPGrammar Nichtterminale Methoden. Knoten rufen weitere Regeln auf. Erkennbar an roter Umrandung.

16 6.7.2005NPGrammar

17 6.7.2005NPGrammar Terminale Methoden ohne Parameterübergabe. Erkennbar an blauer Umrandung. Methoden befinden sich in NPGrammarXtract, Baumstrukturen werden in NPTree erzeugt. Methoden setzen Variablenwerte und/oder erzeugen eine Baumstruktur.

18 6.7.2005NPGrammar

19 6.7.2005NPGrammar Terminale Methoden mit Parameterübergabe. Erkennbar an schwarzer Umrandung und an Doppelpunkt. Methoden befinden sich in NPGrammarXtract; rufen Methoden in NPGrammar, NPGrammarArrays u. NPGrammarLemmatize auf. testen übergebenes Wort auf verschiedene morphologische Merkmale und ordnen es lexikalisch zu (u.a. mit Hilfe von Wortlisten)

20 6.7.2005NPGrammar Ausgabe. Je nach Struktur werden die Phrasen in folgende Dateien geschrieben: simpleNP.tab Auflistung aller einfachen Nominalphrasen, die lediglich aus einem Substantiv bestehen (key word) complexNP.tab Auflistung aller komplexeren und längeren Nominalphrasen, die aus einem o. mehreren Adjektiven und/oder Genitivattribut und/oder Präpositionalattribut bestehen. xmlExpressions.txt Auflistung aller Links, die im Text enthalten sind.

21 6.7.2005NPGrammar Linguistische Probleme.

22 6.7.2005NPGrammar Eigennamen. In NPGrammar gelöst durch Abgleich mit externer Datei, in der Vor- und Nachnamen aufgelistet sind.

23 6.7.2005NPGrammar Präpositionalphrasen-Anbindung. Problem der Disambiguierung von Präpositionalphrasen. Lösungsansatz: korpusunabhängiger Ansatz

24 6.7.2005NPGrammar korpusabhängige Zuordnung. Grundlage: Langenscheidts Wörterbuch: Deutsch als Fremdsprache. Liste unter www.uni-essen.de/yaziwerkstatt/praeposition/. Arrays: Jeder Präposition werden die Substantive zugeordnet, die diese Präposition regieren können Beim Parsen: Test auf Enthaltensein des Head-Substantivs im präpositionsspezifischen Array. (Bedingung: Lemmatisierung des Substantivs)

25 6.7.2005NPGrammar Ausblick und weitere Schritte.

26 6.7.2005NPGrammar a. Regelsystem. Spezifizieren bestehender und Definieren neuer Regeln. Bsp.1 Durch und / oderzusammengesetzte NPs werden nicht erkannt, wenn das zweite Substantiv durch ein Adjektiv attribuiert (z.B. der Mann und die kluge Frau). Bsp. 2 Nominalphrasen der Struktur Nominalphrase + Genitivattribut + Präpositionalattribut werden nicht erkannt, da bisher nur das letzte Substantiv gespeichert wird und als Abfrage zur Rektion der Präposition dient. Lösung: Einführung einer zweiter Variablem, in der das Substantiv der Kern-NP speichert.

27 6.7.2005NPGrammar b. Relationsangabe. Bisher: Relationsangabe zwischen Head-NP und direkt folgendem Attribut. Besser: Relationsangabe für alle der Head- NP zugeordneten rechte Attribut Die Antwort des Richters auf die Frage nach dem Schuldigen

28 6.7.2005NPGrammar c. Benutzeroberfläche. Erzeugung eines runtime Images mit benutzerfreundlicher Oberfläche


Herunterladen ppt "6.7.2005NPGrammar NPGrammar. Nominalphrasenextraktion."

Ähnliche Präsentationen


Google-Anzeigen