Die formalen Sprachen bei ETAP

Slides:



Advertisements
Ähnliche Präsentationen
Bräuche und Feste Einleitung Aufgabe www-Recherche Präsentation
Advertisements

Algorithmen und Datenstrukturen
Semantik und Wissensrepräsentation
spezielle Nutzersichten formale Ebene (deskriptive Regeln)
Eingebettete Systeme Qualität und Produktivität
Zugehörigkeitsfunktion (Wahrheitsfunktion) m
Kapitel 6: Klassifizierung von Sortiertechniken
7. Natürliche Binärbäume
Institut für Informatik Abt. Intelligente Systeme
R. Der - Vorlesung Algorithmen und Datenstrukturen (Magister)
8. Formale Sprachen und Grammatiken
Kapitel 4 Datenstrukturen
Imperative Programmierung
Maschinelle Übersetzung I
Software-Engineering II Eingebettete Systeme, Softwarequalität, Projektmanagement Prof. Dr. Holger Schlingloff Institut für Informatik der Humboldt.
Parser generieren Yet Another Compiler – Compiler YACC.
C- Syntax. Bestandteile der Sprache C: Ausdrücke Anweisungen.
Java- Syntax.
WS Algorithmentheorie 05 - Treaps Prof. Dr. Th. Ottmann.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (27 – Kürzeste Wege) Prof. Th. Ottmann.
Informatik II, SS 2008 Algorithmen und Datenstrukturen Vorlesung 2 Prof. Dr. Thomas Ottmann Algorithmen & Datenstrukturen, Institut für Informatik Fakultät.
Vorlesung Informatik 3 Einführung in die Theoretische Informatik (17 –Turingmaschinen) Prof. Dr. Th. Ottmann.
Prof. Dr. rer.nat. Ralph Großmann Fakultät Informatik / Mathematik Sommersemester 2012 Internet-Technologien XML-basierte Techniken Teil Metasprache der.
Sprachwissenschaftliches Institut Einführung in die HPSG Grammatiktheorie 4./11. Mai 2004.
Prof. Dr. T. Kudraß1 Relationenkalkül. Prof. Dr. T. Kudraß2 Relationenkalkül Zwei Ausprägungen: Tupelrelationenkalkül (TRK) und Domänenrelationenkalkül.
Sprachkonstruktion I Konstruktion einer neuen Sprache Einladung zu einem Sprachexperiment Sie sind eingeladen, sich an einem Sprachexperiment zu beteiligen.
Beispiele für Ausdrucksalgebren
SYSTRAN Information and translation technologies.
Grammatik als Deduktionssystem
PKJ 2005/1 Stefan Dissmann Zusammenfassung Vorwoche Programm besteht aus mehreren Bestandteilen: Schlüsselwörter Sonderzeichen Bezeichner Kommentare Texte.
Relationentheorie AIFB SS Algorithmen zur Bildung von 3NF-Relationsschemata Algorithmen zur Bildung von 3NF-Relationsschemata (2|8) (2)Synthese.
Hinweise zum 10. Übungsblatt zu GIN1b, WS04/05 Prof. Dr. W. Conen (Version 1.0alpha, )
Die verschiedenen Arten von Dependenzen zwischen Wordformen Ludwig-Maximilians-Universität München Hauptseminar: Syntaxanalyse des Russischen im maschinellen.
Grundelemente der Dependenzsyntax
Titelmasterformat durch Klicken bearbeiten Formatvorlage des Untertitelmasters durch Klicken bearbeiten Die formalen Sprachen bei ETAP Teil II.
Verfahren zur Stammformreduktion
Eignung von Grammatik-basiertem Layout für grafische Programmiersprachen Seminar Layout-Algorithmen für Graphen Institut für Informatik Christian-Albrechts.
Algorithmen Gruppe 4.
Effiziente Algorithmen
Einführung in die Informatik für Naturwissenschaftler und Ingenieure
Einführung in die Informatik für Naturwissenschaftler und Ingenieure (alias Einführung in die Programmierung) (Vorlesung) Prof. Dr. Günter Rudolph Fachbereich.
Einführung in die Informatik für Naturwissenschaftler und Ingenieure (alias Einführung in die Programmierung) (Vorlesung) Prof. Dr. Günter Rudolph Fachbereich.
Einführung in die Programmierung
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Übung zu Einführung in die LDV I
Algorithmen und Datenstrukturen SS 2005
Automaten, formale Sprachen und Berechenbarkeit II SoSe 2004 Prof. W. Brauer Teil 1: Wiederholung (Vor allem Folien von Priv.-Doz. Dr. Kindler vom WS 2001/02.
Agenda für heute, 20. April, 2006 Wiederholte ProgrammausführungWiederholte Programmausführung Algorithmische Grundlagen Bedingungen zum Abbruch von Programmschleifen.
Agenda für heute, 28. April, 2005 Strukturierte VariablenStrukturierte Variablen Arrays.
Agenda für heute, 7. April, 2005 Bedingte ProgrammausführungBedingte Programmausführung Algorithmische Grundlagen Vergleichsoperatoren, Wahrheitswerte.
Agenda für heute, 14. April, 2005 Wiederholte ProgrammausführungWiederholte Programmausführung Algorithmische Grundlagen Bedingungen zum Abbruch von Programmschleifen.
Übung 4.1 Strukturierte Datentypen
PHP: Operatoren und Kontrollstrukturen
Informatik Formale Sprachen 1.2 Grammatiken formaler Sprachen
Meta-Modell für Story-Diagramme und Expressions
F362.01, 04 Excel Kopf- und Fußzeilen Bearbeitungsansicht 1 Die folgenden Vorgaben gelten für jedes Excel-Blatt separat.
Agenda Motivation und Einordnung Syntaxgerichtete Übersetzung
Tasks UNDERSTAND KNOW COMPREHEND know comprehend understandit ž, n, d, c, r, s, t, a, n, d w, t žn dcr stan dwt [žn] – [dcr] – [stan] – [dwt] SELECTION.
Grammatik als Deduktionssystem Theorie, Grammatik, Grammatiktheorie Grammatik Sprache Hypothese Sprachtheorie Theorie Erklärung Theoretisches Konstrukt.
Wann ist eine Funktion (über den natürlichen Zahlen) berechenbar?
Programmiersprachen II Fortsetzung Datenstrukturen Balancierte Bäume 3 Prof. Dr. Reiner Güttler Fachbereich GIS HTW.
Laura Benčíková Laura Benčíková 2.Bc 2.Bc NjHi NjHi 2014/ /2015.
Das Zahlwort. Die Zahlwörter bezeichnen: -eine Zahl oder (in Verbindung mit Substantiven) eine bestimmte Anzahl von Gegenständen: Grundzahlwörter; -Den.
1) Das Wort als sprachliche Grundeinheit; 2) Das Problem der Grundeinheit der Sprache 3) Die Definition des Wortes;
VORLESUNG 1 Sprachbau Sememe Sätze Redeteilen Wortformen Wortgruppe Morpheme (Begriffe)
FAKULTÄT WIRTSCHAFTS- UND SOZIALWISSENSCHAFTEN INSTITUT FÜR MARKETING & MANAGEMENT Modalitäten zur Anmeldung  Seminarangebot: Lehrstuhl für Unternehmensführung.
WISSENSREPRÄSENTATION IN ACTIVEMATH Theoretische Grundlagen – Teil 1.
Logisches Datenmodell
Sommersemester 2016 Dr. Ileana-Maria RATCU
 Präsentation transkript:

Die formalen Sprachen bei ETAP Kurs: Syntaxanalyse des Russischen im maschinellen Übersetzungssytem ETAP-3 Dozent: Prof. Dr. Franz Günthner, Robert Zangenfeind Referentin: Nataliya Chapysheva Datum: 05. Juni 2008

Agenda Was ist eine formale Sprache (nach Ю.Д. Апресян)? 3 Typen von linguistischen Informationen Regeln in ETAP-3 Elementare Regeln Verallgemeinerte Regeln Signatur der formalen Sprachen Terme Prädikate (elementare Prädikate, zusammengesetzte Prädikate) Bedingungen in der CHECK-Zone Gruppen von Bedingungen Anweisungen in der DO-Zone Beispiel

Formale Sprachen Eine formale Sprache soll sowohl den Bedürfnissen der Linguisten als auch der Programmierer entsprechen. Linguisten brauchen eine formale Sprache, die eine große Auswahl an aussagekräftige Mitteln hat, die ziemlich frei und gleichzeitig nah zu einer natürlichen Sprache ist.  Die Hauptanforderung der Programmierer an die formale Sprache – maximal einfache Arbeit des Algorithmus mit den Aussagen dieser Sprache. Diese Anforderungen widersprechen sich und der Erfolg eines Übersetzungssystems hängt davon ab, ob man einen tragbaren Kompromiss zwischen diesen Widersprüchen findet.

Die formalen Sprachen zur Notierung von linguistischen Informationen in ETAP Man verwendet formale Sprachen zur Notierung von 3 Basistypen der linguistischen Informationen: 1. Einträge im morphologischen Wörterbuch 2. Einträge im kombinatorischen Wörterbuch 3. Syntaktische Regeln und Transformationsregeln

Regeln in ETAP 3 Es gibt 2 Typen von Regeln im System: Elementare Verallgemeinerte

Elementare Regeln Die elementare Regel besteht aus zwei Zonen: CHECK (enthält die Liste von Bedingungen) DO (enthält die Liste von Aktionen)

Verallgemeinerte Regeln Die verallgemeinerte Regel besteht aus: einer Zone von allgemeinen Bedingungen und einigen elementaren Unter-Regeln Die verallgemeinerte Regel funktioniert folgendermaßen: Zuerst werden die allgemeinen Bedingungen der Regeln überprüft Die elementaren Unter-Regeln werden erst dann geprüft, wenn alle allgemeine Bedingungen erfüllt sind

Signatur der formalen Sprachen Bedingungen in Check-Zone sind prädikatenlogische Ausdrücke Aktionen in Do-Zone werden als Anweisungen notiert Terme: Prädikative Konstante Prädikative Variable: Kontext-Variable Term-Variable (ALPHA, BETA, R, R1, R2, ..., - für die nicht wiederholbare Variablen; RALPHA, RBETA, ..., RR, RR1, RR2, ... – für die wiederholbaren Variablen)

Signatur der formalen Sprachen Prädikate: Elementare Prädikate Prädikate zur Identifizierung Prädikate der linearen Anordnung Dominanz-Prädikate Kongruenz-Prädikate Prädikate des RM Zusammengesetzte Prädikate: Elementare Prädikate der linearen Anordnung Elementare Dominanz-Prädikate Elementare Prädikate zur Identifizierung

Elementare Prädikate Notierung: Prädikate zur Identifizierung: Kontext-Variablen: Z, Z1, Z2, ... Prädikative Konstante / Term-Variablen: t1, t2, ..., l1, l2, ..., n, r Prädikate zur Identifizierung: z.B. =(Z, t1, ..., tk) oder EQU(Z, t1, ..., tk) , mit k≥1. Wortform Z besitzt alle Charakteristika t1, ..., tk. Prädikate der linearen Anordnung: z.B. ORD(Z, Z1, Z2,...). Wort Z steht in der Phrase weiter links als Z1, Z1 steht weiter links als Z2 usw. Dominanz-Prädikate: z.B. DOM(Z, Z1, r). Knoten Z ist unmittelbarer syntaktischer Herr des Knotens Z1 über die Relation r. Kongruenz-Prädikate: z.B. COCAS(Z1, Z2). Beide Wortformen Z1 und Z2 verfügen über die Charakteristik Kasus, und diese Charakteristika stimmen überein. Prädikate des RM: VAL(n, Z, t1, ..., tk), mit k≥1. In der n-ten Spalte des RM von Lexem Z gibt es eine Eintragung, die alle Charakteristika t1, ..., tk enthält.

Zusammengesetzte Prädikate z.B. R-DEP-EQUN (X, Z, n, r, t1, t2, ..., tk) Rechts von X, in einer Entfernung von nicht mehr als n Wörter gibt es ein Wort Z und Z ist unmittelbarer syntaktischer Herr von X über die Relation R und enthält eine der Charakteristika t1, t2, ..., tk. z.B. ORD-DOM(Z, Z1, r) Wort Z steht in der Phrase weiter links als Z1 und Z ist unmittelbarer syntaktischer Herr von Z1 über die Relation r.

Notierung der Bedingungen in der CHECK-Zone Nötige Bedingungen Unmögliche Bedingungen

Gruppen von Bedingungen Alle Bedingungen unterteilt man in Gruppen. Jede Bedingung hat 2 Nummern: Die Nummer der Gruppe, zu der sie gehört Und ihre Ordinalnummer in dieser Gruppe Die Gruppen mit den Nummern 1, 3 enthalten nötige Bedingungen und die Gruppen mit den Nummern 2, 4 – unmögliche Bedingungen. Die Unterteilung in 4 Gruppen (und nicht in 2) gibt dem algorithmischen Prozess die zusätzliche Information.

Gruppen von Bedingungen Bedingungen der 1. Gruppe: Gruppe der nötigen linearen Bedingungen Bedingungen der 2. Gruppe: Gruppe der unmöglichen linearen Bedingungen Bedingungen der 3. Gruppe: Gruppe der nötigen Baum-Bedingungen Bedingungen der 4. Gruppe: Gruppe der unmöglichen Baum-Bedingungen

Notierung der Anweisungen in der DO-Zone Es gibt 45 Anweisung, die in 7 Gruppen unterteilt sind: Anweisungen zur Bearbeitung der Charakteristika von Wörtern Anweisungen zur Veränderung der syntaktischen Struktur einer Phrase Anweisungen zur Veränderung der linearen Anordnung von Wörtern und syntaktischer Gruppen einer Phrase Anweisungen zur Veränderung des Bestandes an Wörtern einer Phrase Anweisungen zur Bearbeitung von Satzzeichen Anweisungen zur Bearbeitung von Co-Referenz Hilfsanweisung

Notierung der Anweisungen in der DO-Zone Anweisungen zur Bearbeitung der Charakteristika von Wörtern z.B. DOBUZHAR:Z(t1,...,tk) - dem Knoten Z werden die Charakteristika t1, ..., tk hinzugefügt. Anweisungen zur Veränderung der syntaktischen Struktur einer Phrase z.B. SVUZOT:(Z,Z1,r) - Z (als synt. Herr) wird mit Z1 (als Abhängiger) durch die Relation r verbunden. Anweisungen zur Veränderung der linearen Anordnung von Wörtern und syntaktischer Gruppen einer Phrase z.B. IZNOM:Z(Z1) - Nummern der Wörter Z und Z1 werden verändert, so dass sie ihre Plätze in der Phrase tauschen.

Notierung der Anweisungen in der DO-Zone Anweisungen zur Veränderung des Bestandes an Wörtern einer Phrase z.B. DOBUZ:Z(Lang,l) - der Phrase wird der neue Knoten Z, der aus dem Lexem l der Sprache Lang besteht, hinzugefügt. Anweisungen zur Bearbeitung von Satzzeichen: z.B. STERPUN:(t1,...,tk) - die Satzzeichen t1, ..., tk werden aus der Phrase getilgt. Anweisungen zur Bearbeitung von Co-Referenz: z.B. IZREF.(Z1,Z2)-(U1,U2) – Ersetzten die Beziehung zwischen Z1 und Z2 durch die Beziehung U1 und U2. Hilfsanweisung: NIHIL: - nichts tun.

Beispiel REG:PRESYNT.D0        ПОСЛЕ ТОГО, КАК N:01 CHECK 1.1 R-LEXR(X,Z,0,ТО3)&=(Z,РОД,ЕД)&R-LEXR(Z,W,0,КАК1) DO 1 SVUZOTOK:(X,Z,ПРЕДЛ) 2 SVUZOTOK:(Z,W,ЭКСПЛЕТ)

Quelle Ю.Д. Апресян et al.: Лингвистический процессор для сложных информационных систем. Москва 1992, Kapitel 2 http://de.wikipedia.org/wiki/Formale_Sprache http://de.wikipedia.org/wiki/Formale_Grammatik