6.7.2005NPGrammar NPGrammar. Nominalphrasenextraktion.

Slides:



Advertisements
Ähnliche Präsentationen
Zur Rolle der Sprache bei der Modellierung von Datenbanken
Advertisements

Frame-Logik Eine Einführung Andreas Glausch.
8. Formale Sprachen und Grammatiken
Christian A. Kopf Institut für Informatik FU Berlin Episode Recognizer Framework - Rahmenwerk zur Episodenerkennung.
Multivariate Datenanalyse Datum: Betreuer: Dr. Bellmann Quellen: Multivariate Statistik, Hartung/Elpelt 1989 Stochastik für Ingenieure und Naturwissenschaftler,
Grammatiken, Definitionen
Friedhelm Meyer auf der Heide 1 HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Grammatiken beschreiben Sprachen L µ *, indem.
Parser generieren Yet Another Compiler – Compiler YACC.
Universität Stuttgart Institut für Kernenergetik und Energiesysteme Was ist Refactoring? Bevor man die Integration angeht, mag es angebracht sein, den.
FH-Hof Extensible Markup Language Richard Göbel. FH-Hof Extensible Markup Language XML XML ist universeller Ansatz für die Strukturierung von Zeichenketten.
Java: Objektorientierte Programmierung
FH-Hof Grammatiken Richard Göbel. FH-Hof Begriffe Eine Grammatik definiert die Struktur (Syntax) einer Zeichenkette Eine Grammatik definiert nicht die.
FH-Hof Optimierungsverfahren für kombinatorische Probleme Richard Göbel.
Java: Grundlagen der Objektorientierung
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/5 Grundtechniken des Information Retrieval Deskribierung Hierunter versteht man eine manuelle.
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/4 Manuelle Verfahren Klassifizierung Hier werden Dokumente in ein fest vorgegebenes System.
DOM (Document Object Model)
Algorithmentheorie 04 –Hashing
Vorlesung Informatik 2 Algorithmen und Datenstrukturen Halbzeit: Was haben wir bisher gelernt? Prof. Th. Ottmann.
Vorlesung Informatik 3 Einführung in die Theoretische Informatik (06 – Reduktion endlicher Automaten) Prof. Dr. Th. Ottmann.
XML - Abfragesprache Xpath. Problemstellung Unsere XML-Datei steht und wir wollen alle 1. Titel aller vergangenen Sendungen automatisch aus den Playlists.
Datenbankentwurf mit Hilfe des ER-Modells entwickeln
Agenda Einführung Haskell QuickCheck Zusammenfassung
Flaches Parsing mit endlichen Automaten Referat und Implementierung Jutta Jäger
Sprachwissenschaftliches Institut Einführung in die HPSG Grammatiktheorie 4./11. Mai 2004.
Beispiele für Ausdrucksalgebren
SYSTRAN Information and translation technologies.
Lexikalisch-Funktionale-Grammatik
PKJ 2005/1 Stefan Dissmann Zusammenfassung Bisher im Kurs erarbeitete Konzepte(1): Umgang mit einfachen Datentypen Umgang mit Feldern Umgang mit Referenzen.
GROOVE Graphs for Object-Oriented Verification Seminar: SEFSIS Sommersemester 2006 Basil Becker
NPGrammar NPGrammar. Abschlussvortrag.. NPGrammar Programmgerüst.
EDV1 - Komplexe Datentypen
Einführung in Visual C++
DVG Klassen und Objekte
- Die wichtigsten Wortarten im Überblick -
FH-Hof HTML - Einführung Richard Göbel. FH-Hof Komponenten des World Wide Webs WWW Browser HyperText Transfer Protocol (HTTP) via Internet WWW Server.
Titelmasterformat durch Klicken bearbeiten Formatvorlage des Untertitelmasters durch Klicken bearbeiten Die formalen Sprachen bei ETAP Teil II.
Welche Funktion hat die php.ini? -Beinhaltet wichtige Einstellungen für PHP. Genannt seien hier u.a. der Speicherort von Cookies, Parameter der Kompilierung,
Anlegen von Ordnern, speichern und Öffnen von Bildern und Briefen
Interpreter Seminar Entwurfsmuster Tobias Webelsiep
Gleichungen und Gleichungssysteme
Einführung in die Programmiersprache C 4
HORIZONT 1 XINFO ® Das IT - Informationssystem PL/1 Scanner HORIZONT Software für Rechenzentren Garmischer Str. 8 D München Tel ++49(0)89 / 540.
Wohlgeformtheit und Gültigkeit Grundlagen der Datenmodellierung Anke Jackschina.
C-Einstieg. Agenda 1Vorbereitung 2Aufbau eines Programms 2.1Header 2.2 Methoden 2.3Main 3Datentypen & Variablen 4Operatoren(+, -, *, /) 5Logik 5.1IF 5.2Switch.
ADAT©2004 Dipl. - Ing. Walter SabinSeite: 1 Version 1.0a Einführung in Reguläre Ausdrücke.
Hilfe Dokumente.
Übung zu Einführung in die LDV I
Städtisches Gymnasium Beverungen Friedel Berlage
PHP: Operatoren und Kontrollstrukturen
Kursarbeit Informatik
Vortrag: Frames & Javascript.
Christian Schindelhauer Wintersemester 2006/07 6. Vorlesung
Paul, Morten, Yannick Blue J. Entwicklungsumgebung  versteht Java Programmcode  Für die Entwicklung eigener Software  Durch die Programmierung.
CSS Cascading Style Sheets
Der Hund jagt die Katze. Theoretische Informatik Satz S P O
Institut für Softwarewissenschaft – Universität WienP.Brezany 1 Beispiele (Frist: ) Beispiel 1: Sei  = {a, b} ein Alphabet und Q = {q 0, q 1 } eine.
7. Formale Sprachen und Grammatiken
Inhalt Einordnung und Funktion der lexikalische Analyse Grundlagen
Kapitel 4:Die Chomsky Hierarchie
Merkmale und Merkmalstrukturen
Institut für Kartographie und Geoinformation Prof. Dr. L. Plümer, Dipl.-Ing. D. Dörschlag, Dr. G. Gröger Einführung in die Programmierung mit Java 13.
2. Vorlesungseinheit: Grammatik-Übersetzungsmethode
Programmiersprachen II Fortsetzung Datenstrukturen Einfache Bäume Übung 13 Prof. Dr. Reiner Güttler Fachbereich GIS HTW.
Arbeiten mit WordSmith 4. Inhalt 1. Arbeiten mit der Funktion Wortliste (im getaggten Korpus) 1. Arbeiten mit der Funktion Wortliste (im getaggten Korpus)
Tutorium Software-Engineering SS14 Florian Manghofer.
Anforderungen an die neue Datenstruktur
Gliederung 0. Motivation und Einordnung 1. Endliche Automaten
Arrays in Java Ein Array ist eine Variable, die aus einer An-zahl von Elementen des gleichen Datentyps besteht, die aufeinanderfolgend im Speicher liegen.
1. Die rekursive Datenstruktur Liste 1.5 Das Entwurfsmuster Kompositum
 Präsentation transkript:

NPGrammar NPGrammar. Nominalphrasenextraktion.

NPGrammar Ziel. Automatische Gewinnung von Nominalphrasen aus Nachrichtentexten. Extraktion von key-words und key-phrases, also Nominalphrasen größtmöglicher Länge; bspws. der Innenminister von Bayern der Kampf um neue Stellen

NPGrammar Relation zwischen Head-NP & Attributen Bisher folgende Relationsarten definiert: –GEN(für Genitivattribute) –Prep(Name der Präposition für Präpositionalattribute) –NAME(für Eigennamen) –Kon(Name der koordinierenden Konjunktion) Ausgabe in eine Datei mit folgenden Angaben zu einer komplexen Phrase: –Phrase als String. –Head der Phrase. –Relation zwischen Head und Attribut. –Differenzbegriff. –Baumstruktur zur Darstellung der Abhängigkeiten.

NPGrammar Beispiel. Phrase als String eine Stärkung der Binnennachfrage Head der Phrase Stärkung Relation zwischen Head und Attribut GEN Differenzbegriff Binnennachfrage Baumstruktur (Stärkung (eine) (GEN (der) (Binnennachfrage))

NPGrammar Überlegungen zur Realisierung. Syntaktische Analyse partielles wörterbuchunabhängiges Parsing. Segmentierung des Textes in positive und negative Folgen. Vorteil: –nicht sehr aufwendig. –nur solche Textstellen werden berücksichtigt bzw. analysiert, die zu speziellen Sprachmustern passen.

NPGrammar Realisierung. Definition der Sprachmuster (Regelset) zur NP-Erkennung durch Verwendung des am Fraunhofer Institut entwickelten Parsingtools XGrammar (endlicher Automat, reguläre Ausdrücke). Programmiersprache: Smalltalk.

NPGrammar Programmgerüst.

NPGrammar NPGrammar Klassenaufbau.

NPGrammar Programmablauf.

NPGrammar Vorbereitung der Texte für die Analyse Setzen der erforderlichen Tags – –Segmentierung des Textes in seine Sätze; nach jedem Satz folgt tag Startmethode NPGrammarSentenceSplitter setMarker: aFilename (NPGrammarSentenceSplitter setMarker: 'C:\ studienprojekt\texte\text4.txt' asFilename) Rückgabewert: Text als getaggter String NPGrammarSentenceSplitter.

NPGrammar NPGrammarXtract. Einlesen der externen Wortlisten, Anlegen der Ausgabedateien und Ordner. Start des Parsevorgangs parseFromFile: aString1 startSymbol: aSymbol dir: aString2 Durchlaufen der definierten Regeln. Hierarchisierung, Relationsbestimmung und Ausgabe positiver Folgen

NPGrammar Methodik. Syntaxgraphen.

NPGrammar Allgemeine Struktur der NPs. Eine Nominalphrase besteht aus: –linkem Kontext (Adjektive und Determinationen) –Kern-NP –rechtem Kontext (Genitivattribute, Präpositionalattribute und Appositionen)

NPGrammar

NPGrammar Nichtterminale Methoden. Knoten rufen weitere Regeln auf. Erkennbar an roter Umrandung.

NPGrammar

NPGrammar Terminale Methoden ohne Parameterübergabe. Erkennbar an blauer Umrandung. Methoden befinden sich in NPGrammarXtract, Baumstrukturen werden in NPTree erzeugt. Methoden setzen Variablenwerte und/oder erzeugen eine Baumstruktur.

NPGrammar

NPGrammar Terminale Methoden mit Parameterübergabe. Erkennbar an schwarzer Umrandung und an Doppelpunkt. Methoden befinden sich in NPGrammarXtract; rufen Methoden in NPGrammar, NPGrammarArrays u. NPGrammarLemmatize auf. testen übergebenes Wort auf verschiedene morphologische Merkmale und ordnen es lexikalisch zu (u.a. mit Hilfe von Wortlisten)

NPGrammar Ausgabe. Je nach Struktur werden die Phrasen in folgende Dateien geschrieben: simpleNP.tab Auflistung aller einfachen Nominalphrasen, die lediglich aus einem Substantiv bestehen (key word) complexNP.tab Auflistung aller komplexeren und längeren Nominalphrasen, die aus einem o. mehreren Adjektiven und/oder Genitivattribut und/oder Präpositionalattribut bestehen. xmlExpressions.txt Auflistung aller Links, die im Text enthalten sind.

NPGrammar Linguistische Probleme.

NPGrammar Eigennamen. In NPGrammar gelöst durch Abgleich mit externer Datei, in der Vor- und Nachnamen aufgelistet sind.

NPGrammar Präpositionalphrasen-Anbindung. Problem der Disambiguierung von Präpositionalphrasen. Lösungsansatz: korpusunabhängiger Ansatz

NPGrammar korpusabhängige Zuordnung. Grundlage: Langenscheidts Wörterbuch: Deutsch als Fremdsprache. Liste unter Arrays: Jeder Präposition werden die Substantive zugeordnet, die diese Präposition regieren können Beim Parsen: Test auf Enthaltensein des Head-Substantivs im präpositionsspezifischen Array. (Bedingung: Lemmatisierung des Substantivs)

NPGrammar Ausblick und weitere Schritte.

NPGrammar a. Regelsystem. Spezifizieren bestehender und Definieren neuer Regeln. Bsp.1 Durch und / oderzusammengesetzte NPs werden nicht erkannt, wenn das zweite Substantiv durch ein Adjektiv attribuiert (z.B. der Mann und die kluge Frau). Bsp. 2 Nominalphrasen der Struktur Nominalphrase + Genitivattribut + Präpositionalattribut werden nicht erkannt, da bisher nur das letzte Substantiv gespeichert wird und als Abfrage zur Rektion der Präposition dient. Lösung: Einführung einer zweiter Variablem, in der das Substantiv der Kern-NP speichert.

NPGrammar b. Relationsangabe. Bisher: Relationsangabe zwischen Head-NP und direkt folgendem Attribut. Besser: Relationsangabe für alle der Head- NP zugeordneten rechte Attribut Die Antwort des Richters auf die Frage nach dem Schuldigen

NPGrammar c. Benutzeroberfläche. Erzeugung eines runtime Images mit benutzerfreundlicher Oberfläche