Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Die formalen Sprachen bei ETAP

Ähnliche Präsentationen


Präsentation zum Thema: "Die formalen Sprachen bei ETAP"—  Präsentation transkript:

1 Die formalen Sprachen bei ETAP
Kurs: Syntaxanalyse des Russischen im maschinellen Übersetzungssytem ETAP-3 Dozent: Prof. Dr. Franz Günthner, Robert Zangenfeind Referentin: Nataliya Chapysheva Datum: 05. Juni 2008

2 Agenda Was ist eine formale Sprache (nach Ю.Д. Апресян)?
3 Typen von linguistischen Informationen Regeln in ETAP-3 Elementare Regeln Verallgemeinerte Regeln Signatur der formalen Sprachen Terme Prädikate (elementare Prädikate, zusammengesetzte Prädikate) Bedingungen in der CHECK-Zone Gruppen von Bedingungen Anweisungen in der DO-Zone Beispiel

3 Formale Sprachen Eine formale Sprache soll sowohl den Bedürfnissen der Linguisten als auch der Programmierer entsprechen. Linguisten brauchen eine formale Sprache, die eine große Auswahl an aussagekräftige Mitteln hat, die ziemlich frei und gleichzeitig nah zu einer natürlichen Sprache ist.  Die Hauptanforderung der Programmierer an die formale Sprache – maximal einfache Arbeit des Algorithmus mit den Aussagen dieser Sprache. Diese Anforderungen widersprechen sich und der Erfolg eines Übersetzungssystems hängt davon ab, ob man einen tragbaren Kompromiss zwischen diesen Widersprüchen findet.

4 Die formalen Sprachen zur Notierung von linguistischen Informationen in ETAP
Man verwendet formale Sprachen zur Notierung von 3 Basistypen der linguistischen Informationen: 1. Einträge im morphologischen Wörterbuch 2. Einträge im kombinatorischen Wörterbuch 3. Syntaktische Regeln und Transformationsregeln

5 Regeln in ETAP 3 Es gibt 2 Typen von Regeln im System: Elementare
Verallgemeinerte

6 Elementare Regeln Die elementare Regel besteht aus zwei Zonen:
CHECK (enthält die Liste von Bedingungen) DO (enthält die Liste von Aktionen)

7 Verallgemeinerte Regeln
Die verallgemeinerte Regel besteht aus: einer Zone von allgemeinen Bedingungen und einigen elementaren Unter-Regeln Die verallgemeinerte Regel funktioniert folgendermaßen: Zuerst werden die allgemeinen Bedingungen der Regeln überprüft Die elementaren Unter-Regeln werden erst dann geprüft, wenn alle allgemeine Bedingungen erfüllt sind

8 Signatur der formalen Sprachen
Bedingungen in Check-Zone sind prädikatenlogische Ausdrücke Aktionen in Do-Zone werden als Anweisungen notiert Terme: Prädikative Konstante Prädikative Variable: Kontext-Variable Term-Variable (ALPHA, BETA, R, R1, R2, ..., - für die nicht wiederholbare Variablen; RALPHA, RBETA, ..., RR, RR1, RR2, ... – für die wiederholbaren Variablen)

9 Signatur der formalen Sprachen
Prädikate: Elementare Prädikate Prädikate zur Identifizierung Prädikate der linearen Anordnung Dominanz-Prädikate Kongruenz-Prädikate Prädikate des RM Zusammengesetzte Prädikate: Elementare Prädikate der linearen Anordnung Elementare Dominanz-Prädikate Elementare Prädikate zur Identifizierung

10 Elementare Prädikate Notierung: Prädikate zur Identifizierung:
Kontext-Variablen: Z, Z1, Z2, ... Prädikative Konstante / Term-Variablen: t1, t2, ..., l1, l2, ..., n, r Prädikate zur Identifizierung: z.B. =(Z, t1, ..., tk) oder EQU(Z, t1, ..., tk) , mit k≥1. Wortform Z besitzt alle Charakteristika t1, ..., tk. Prädikate der linearen Anordnung: z.B. ORD(Z, Z1, Z2,...). Wort Z steht in der Phrase weiter links als Z1, Z1 steht weiter links als Z2 usw. Dominanz-Prädikate: z.B. DOM(Z, Z1, r). Knoten Z ist unmittelbarer syntaktischer Herr des Knotens Z1 über die Relation r. Kongruenz-Prädikate: z.B. COCAS(Z1, Z2). Beide Wortformen Z1 und Z2 verfügen über die Charakteristik Kasus, und diese Charakteristika stimmen überein. Prädikate des RM: VAL(n, Z, t1, ..., tk), mit k≥1. In der n-ten Spalte des RM von Lexem Z gibt es eine Eintragung, die alle Charakteristika t1, ..., tk enthält.

11 Zusammengesetzte Prädikate
z.B. R-DEP-EQUN (X, Z, n, r, t1, t2, ..., tk) Rechts von X, in einer Entfernung von nicht mehr als n Wörter gibt es ein Wort Z und Z ist unmittelbarer syntaktischer Herr von X über die Relation R und enthält eine der Charakteristika t1, t2, ..., tk. z.B. ORD-DOM(Z, Z1, r) Wort Z steht in der Phrase weiter links als Z1 und Z ist unmittelbarer syntaktischer Herr von Z1 über die Relation r.

12 Notierung der Bedingungen in der CHECK-Zone
Nötige Bedingungen Unmögliche Bedingungen

13 Gruppen von Bedingungen
Alle Bedingungen unterteilt man in Gruppen. Jede Bedingung hat 2 Nummern: Die Nummer der Gruppe, zu der sie gehört Und ihre Ordinalnummer in dieser Gruppe Die Gruppen mit den Nummern 1, 3 enthalten nötige Bedingungen und die Gruppen mit den Nummern 2, 4 – unmögliche Bedingungen. Die Unterteilung in 4 Gruppen (und nicht in 2) gibt dem algorithmischen Prozess die zusätzliche Information.

14 Gruppen von Bedingungen
Bedingungen der 1. Gruppe: Gruppe der nötigen linearen Bedingungen Bedingungen der 2. Gruppe: Gruppe der unmöglichen linearen Bedingungen Bedingungen der 3. Gruppe: Gruppe der nötigen Baum-Bedingungen Bedingungen der 4. Gruppe: Gruppe der unmöglichen Baum-Bedingungen

15 Notierung der Anweisungen in der DO-Zone
Es gibt 45 Anweisung, die in 7 Gruppen unterteilt sind: Anweisungen zur Bearbeitung der Charakteristika von Wörtern Anweisungen zur Veränderung der syntaktischen Struktur einer Phrase Anweisungen zur Veränderung der linearen Anordnung von Wörtern und syntaktischer Gruppen einer Phrase Anweisungen zur Veränderung des Bestandes an Wörtern einer Phrase Anweisungen zur Bearbeitung von Satzzeichen Anweisungen zur Bearbeitung von Co-Referenz Hilfsanweisung

16 Notierung der Anweisungen in der DO-Zone
Anweisungen zur Bearbeitung der Charakteristika von Wörtern z.B. DOBUZHAR:Z(t1,...,tk) - dem Knoten Z werden die Charakteristika t1, ..., tk hinzugefügt. Anweisungen zur Veränderung der syntaktischen Struktur einer Phrase z.B. SVUZOT:(Z,Z1,r) - Z (als synt. Herr) wird mit Z1 (als Abhängiger) durch die Relation r verbunden. Anweisungen zur Veränderung der linearen Anordnung von Wörtern und syntaktischer Gruppen einer Phrase z.B. IZNOM:Z(Z1) - Nummern der Wörter Z und Z1 werden verändert, so dass sie ihre Plätze in der Phrase tauschen.

17 Notierung der Anweisungen in der DO-Zone
Anweisungen zur Veränderung des Bestandes an Wörtern einer Phrase z.B. DOBUZ:Z(Lang,l) - der Phrase wird der neue Knoten Z, der aus dem Lexem l der Sprache Lang besteht, hinzugefügt. Anweisungen zur Bearbeitung von Satzzeichen: z.B. STERPUN:(t1,...,tk) - die Satzzeichen t1, ..., tk werden aus der Phrase getilgt. Anweisungen zur Bearbeitung von Co-Referenz: z.B. IZREF.(Z1,Z2)-(U1,U2) – Ersetzten die Beziehung zwischen Z1 und Z2 durch die Beziehung U1 und U2. Hilfsanweisung: NIHIL: - nichts tun.

18 Beispiel REG:PRESYNT.D0        ПОСЛЕ ТОГО, КАК N:01 CHECK 1.1 R-LEXR(X,Z,0,ТО3)&=(Z,РОД,ЕД)&R-LEXR(Z,W,0,КАК1) DO 1 SVUZOTOK:(X,Z,ПРЕДЛ) 2 SVUZOTOK:(Z,W,ЭКСПЛЕТ)

19 Quelle Ю.Д. Апресян et al.: Лингвистический процессор для сложных информационных систем. Москва 1992, Kapitel 2


Herunterladen ppt "Die formalen Sprachen bei ETAP"

Ähnliche Präsentationen


Google-Anzeigen