NPGrammar NPGrammar. Nominalphrasenextraktion.
NPGrammar Ziel. Automatische Gewinnung von Nominalphrasen aus Nachrichtentexten. Extraktion von key-words und key-phrases, also Nominalphrasen größtmöglicher Länge; bspws. der Innenminister von Bayern der Kampf um neue Stellen
NPGrammar Relation zwischen Head-NP & Attributen Bisher folgende Relationsarten definiert: –GEN(für Genitivattribute) –Prep(Name der Präposition für Präpositionalattribute) –NAME(für Eigennamen) –Kon(Name der koordinierenden Konjunktion) Ausgabe in eine Datei mit folgenden Angaben zu einer komplexen Phrase: –Phrase als String. –Head der Phrase. –Relation zwischen Head und Attribut. –Differenzbegriff. –Baumstruktur zur Darstellung der Abhängigkeiten.
NPGrammar Beispiel. Phrase als String eine Stärkung der Binnennachfrage Head der Phrase Stärkung Relation zwischen Head und Attribut GEN Differenzbegriff Binnennachfrage Baumstruktur (Stärkung (eine) (GEN (der) (Binnennachfrage))
NPGrammar Überlegungen zur Realisierung. Syntaktische Analyse partielles wörterbuchunabhängiges Parsing. Segmentierung des Textes in positive und negative Folgen. Vorteil: –nicht sehr aufwendig. –nur solche Textstellen werden berücksichtigt bzw. analysiert, die zu speziellen Sprachmustern passen.
NPGrammar Realisierung. Definition der Sprachmuster (Regelset) zur NP-Erkennung durch Verwendung des am Fraunhofer Institut entwickelten Parsingtools XGrammar (endlicher Automat, reguläre Ausdrücke). Programmiersprache: Smalltalk.
NPGrammar Programmgerüst.
NPGrammar NPGrammar Klassenaufbau.
NPGrammar Programmablauf.
NPGrammar Vorbereitung der Texte für die Analyse Setzen der erforderlichen Tags – –Segmentierung des Textes in seine Sätze; nach jedem Satz folgt tag Startmethode NPGrammarSentenceSplitter setMarker: aFilename (NPGrammarSentenceSplitter setMarker: 'C:\ studienprojekt\texte\text4.txt' asFilename) Rückgabewert: Text als getaggter String NPGrammarSentenceSplitter.
NPGrammar NPGrammarXtract. Einlesen der externen Wortlisten, Anlegen der Ausgabedateien und Ordner. Start des Parsevorgangs parseFromFile: aString1 startSymbol: aSymbol dir: aString2 Durchlaufen der definierten Regeln. Hierarchisierung, Relationsbestimmung und Ausgabe positiver Folgen
NPGrammar Methodik. Syntaxgraphen.
NPGrammar Allgemeine Struktur der NPs. Eine Nominalphrase besteht aus: –linkem Kontext (Adjektive und Determinationen) –Kern-NP –rechtem Kontext (Genitivattribute, Präpositionalattribute und Appositionen)
NPGrammar
NPGrammar Nichtterminale Methoden. Knoten rufen weitere Regeln auf. Erkennbar an roter Umrandung.
NPGrammar
NPGrammar Terminale Methoden ohne Parameterübergabe. Erkennbar an blauer Umrandung. Methoden befinden sich in NPGrammarXtract, Baumstrukturen werden in NPTree erzeugt. Methoden setzen Variablenwerte und/oder erzeugen eine Baumstruktur.
NPGrammar
NPGrammar Terminale Methoden mit Parameterübergabe. Erkennbar an schwarzer Umrandung und an Doppelpunkt. Methoden befinden sich in NPGrammarXtract; rufen Methoden in NPGrammar, NPGrammarArrays u. NPGrammarLemmatize auf. testen übergebenes Wort auf verschiedene morphologische Merkmale und ordnen es lexikalisch zu (u.a. mit Hilfe von Wortlisten)
NPGrammar Ausgabe. Je nach Struktur werden die Phrasen in folgende Dateien geschrieben: simpleNP.tab Auflistung aller einfachen Nominalphrasen, die lediglich aus einem Substantiv bestehen (key word) complexNP.tab Auflistung aller komplexeren und längeren Nominalphrasen, die aus einem o. mehreren Adjektiven und/oder Genitivattribut und/oder Präpositionalattribut bestehen. xmlExpressions.txt Auflistung aller Links, die im Text enthalten sind.
NPGrammar Linguistische Probleme.
NPGrammar Eigennamen. In NPGrammar gelöst durch Abgleich mit externer Datei, in der Vor- und Nachnamen aufgelistet sind.
NPGrammar Präpositionalphrasen-Anbindung. Problem der Disambiguierung von Präpositionalphrasen. Lösungsansatz: korpusunabhängiger Ansatz
NPGrammar korpusabhängige Zuordnung. Grundlage: Langenscheidts Wörterbuch: Deutsch als Fremdsprache. Liste unter Arrays: Jeder Präposition werden die Substantive zugeordnet, die diese Präposition regieren können Beim Parsen: Test auf Enthaltensein des Head-Substantivs im präpositionsspezifischen Array. (Bedingung: Lemmatisierung des Substantivs)
NPGrammar Ausblick und weitere Schritte.
NPGrammar a. Regelsystem. Spezifizieren bestehender und Definieren neuer Regeln. Bsp.1 Durch und / oderzusammengesetzte NPs werden nicht erkannt, wenn das zweite Substantiv durch ein Adjektiv attribuiert (z.B. der Mann und die kluge Frau). Bsp. 2 Nominalphrasen der Struktur Nominalphrase + Genitivattribut + Präpositionalattribut werden nicht erkannt, da bisher nur das letzte Substantiv gespeichert wird und als Abfrage zur Rektion der Präposition dient. Lösung: Einführung einer zweiter Variablem, in der das Substantiv der Kern-NP speichert.
NPGrammar b. Relationsangabe. Bisher: Relationsangabe zwischen Head-NP und direkt folgendem Attribut. Besser: Relationsangabe für alle der Head- NP zugeordneten rechte Attribut Die Antwort des Richters auf die Frage nach dem Schuldigen
NPGrammar c. Benutzeroberfläche. Erzeugung eines runtime Images mit benutzerfreundlicher Oberfläche