Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Die formalen Sprachen bei ETAP Kurs: Syntaxanalyse des Russischen im maschinellen Übersetzungssytem ETAP-3 Dozent: Prof. Dr. Franz Günthner, Robert Zangenfeind.

Ähnliche Präsentationen


Präsentation zum Thema: "Die formalen Sprachen bei ETAP Kurs: Syntaxanalyse des Russischen im maschinellen Übersetzungssytem ETAP-3 Dozent: Prof. Dr. Franz Günthner, Robert Zangenfeind."—  Präsentation transkript:

1 Die formalen Sprachen bei ETAP Kurs: Syntaxanalyse des Russischen im maschinellen Übersetzungssytem ETAP-3 Dozent: Prof. Dr. Franz Günthner, Robert Zangenfeind Referentin: Nataliya Chapysheva Datum: 05. Juni 2008

2 Agenda Was ist eine formale Sprache (nach Ю.Д. Апресян )? 3 Typen von linguistischen Informationen Regeln in ETAP-3 –Elementare Regeln –Verallgemeinerte Regeln Signatur der formalen Sprachen –Terme –Prädikate (elementare Prädikate, zusammengesetzte Prädikate) Bedingungen in der CHECK-Zone Gruppen von Bedingungen Anweisungen in der DO-Zone Beispiel

3 Formale Sprachen Eine formale Sprache soll sowohl den Bedürfnissen der Linguisten als auch der Programmierer entsprechen. Linguisten brauchen eine formale Sprache, die eine große Auswahl an aussagekräftige Mitteln hat, die ziemlich frei und gleichzeitig nah zu einer natürlichen Sprache ist. Die Hauptanforderung der Programmierer an die formale Sprache – maximal einfache Arbeit des Algorithmus mit den Aussagen dieser Sprache. Diese Anforderungen widersprechen sich und der Erfolg eines Übersetzungssystems hängt davon ab, ob man einen tragbaren Kompromiss zwischen diesen Widersprüchen findet.

4 Die formalen Sprachen zur Notierung von linguistischen Informationen in ETAP Man verwendet formale Sprachen zur Notierung von 3 Basistypen der linguistischen Informationen: –1. Einträge im morphologischen Wörterbuch –2. Einträge im kombinatorischen Wörterbuch –3. Syntaktische Regeln und Transformationsregeln

5 Regeln in ETAP 3 Es gibt 2 Typen von Regeln im System: –Elementare –Verallgemeinerte

6 Elementare Regeln Die elementare Regel besteht aus zwei Zonen: –CHECK (enthält die Liste von Bedingungen) –DO (enthält die Liste von Aktionen)

7 Verallgemeinerte Regeln Die verallgemeinerte Regel besteht aus: einer Zone von allgemeinen Bedingungen und einigen elementaren Unter-Regeln Die verallgemeinerte Regel funktioniert folgendermaßen: –Zuerst werden die allgemeinen Bedingungen der Regeln überprüft –Die elementaren Unter-Regeln werden erst dann geprüft, wenn alle allgemeine Bedingungen erfüllt sind

8 Signatur der formalen Sprachen Bedingungen in Check-Zone sind prädikatenlogische Ausdrücke Aktionen in Do-Zone werden als Anweisungen notiert Terme: –Prädikative Konstante –Prädikative Variable: Kontext-Variable Term-Variable (ALPHA, BETA, R, R1, R2,..., - für die nicht wiederholbare Variablen; RALPHA, RBETA,..., RR, RR1, RR2,... – für die wiederholbaren Variablen)

9 Signatur der formalen Sprachen Prädikate: –Elementare Prädikate Prädikate zur Identifizierung Prädikate der linearen Anordnung Dominanz-Prädikate Kongruenz-Prädikate Prädikate des RM –Zusammengesetzte Prädikate: Elementare Prädikate der linearen Anordnung Elementare Dominanz-Prädikate Elementare Prädikate zur Identifizierung

10 Elementare Prädikate Notierung: –Kontext-Variablen: Z, Z1, Z2,... –Prädikative Konstante / Term-Variablen: t 1, t 2,..., l 1, l 2,..., n, r Prädikate zur Identifizierung: – z.B. =(Z, t 1,..., t k ) oder EQU(Z, t 1,..., t k ), mit k1. Wortform Z besitzt alle Charakteristika t 1,..., t k. Prädikate der linearen Anordnung: – z.B. ORD(Z, Z1, Z2,...). Wort Z steht in der Phrase weiter links als Z1, Z1 steht weiter links als Z2 usw. Dominanz-Prädikate: – z.B. DOM(Z, Z1, r). Knoten Z ist unmittelbarer syntaktischer Herr des Knotens Z1 ü ber die Relation r. Kongruenz-Prädikate: – z.B. COCAS(Z1, Z2). Beide Wortformen Z1 und Z2 verf ü gen ü ber die Charakteristik Kasus, und diese Charakteristika stimmen ü berein. Prädikate des RM: – VAL(n, Z, t 1,..., t k ), mit k1. In der n-ten Spalte des RM von Lexem Z gibt es eine Eintragung, die alle Charakteristika t 1,..., t k enth ä lt.

11 Zusammengesetzte Prädikate z.B. R-DEP-EQUN (X, Z, n, r, t 1, t 2,..., t k ) –Rechts von X, in einer Entfernung von nicht mehr als n Wörter gibt es ein Wort Z und Z ist unmittelbarer syntaktischer Herr von X ü ber die Relation R und enth ä lt eine der Charakteristika t 1, t 2,..., t k. z.B. ORD-DOM(Z, Z1, r) – Wort Z steht in der Phrase weiter links als Z1 und Z ist unmittelbarer syntaktischer Herr von Z1 ü ber die Relation r.

12 Notierung der Bedingungen in der CHECK-Zone Nötige Bedingungen Unmögliche Bedingungen

13 Gruppen von Bedingungen Alle Bedingungen unterteilt man in Gruppen. Jede Bedingung hat 2 Nummern: –Die Nummer der Gruppe, zu der sie gehört –Und ihre Ordinalnummer in dieser Gruppe Die Gruppen mit den Nummern 1, 3 enthalten nötige Bedingungen und die Gruppen mit den Nummern 2, 4 – unmögliche Bedingungen. Die Unterteilung in 4 Gruppen (und nicht in 2) gibt dem algorithmischen Prozess die zusätzliche Information.

14 Gruppen von Bedingungen Bedingungen der 1. Gruppe: – Gruppe der nötigen linearen Bedingungen Bedingungen der 2. Gruppe: – Gruppe der unmöglichen linearen Bedingungen Bedingungen der 3. Gruppe: –Gruppe der nötigen Baum-Bedingungen Bedingungen der 4. Gruppe: –Gruppe der unmöglichen Baum-Bedingungen

15 Notierung der Anweisungen in der DO-Zone Es gibt 45 Anweisung, die in 7 Gruppen unterteilt sind: –Anweisungen zur Bearbeitung der Charakteristika von Wörtern –Anweisungen zur Veränderung der syntaktischen Struktur einer Phrase –Anweisungen zur Veränderung der linearen Anordnung von Wörtern und syntaktischer Gruppen einer Phrase –Anweisungen zur Veränderung des Bestandes an Wörtern einer Phrase –Anweisungen zur Bearbeitung von Satzzeichen –Anweisungen zur Bearbeitung von Co-Referenz –Hilfsanweisung

16 Notierung der Anweisungen in der DO-Zone –Anweisungen zur Bearbeitung der Charakteristika von Wörtern z.B. DOBUZHAR:Z(t 1,...,t k ) - dem Knoten Z werden die Charakteristika t 1,..., t k hinzugef ü gt. –Anweisungen zur Veränderung der syntaktischen Struktur einer Phrase z.B. SVUZOT:(Z,Z1,r) - Z (als synt. Herr) wird mit Z1 (als Abh ä ngiger) durch die Relation r verbunden. –Anweisungen zur Veränderung der linearen Anordnung von Wörtern und syntaktischer Gruppen einer Phrase z.B. IZNOM:Z(Z1) - Nummern der W ö rter Z und Z1 werden ver ä ndert, so dass sie ihre Pl ä tze in der Phrase tauschen.

17 Notierung der Anweisungen in der DO-Zone –Anweisungen zur Veränderung des Bestandes an Wörtern einer Phrase z.B. DOBUZ:Z(Lang,l) - der Phrase wird der neue Knoten Z, der aus dem Lexem l der Sprache Lang besteht, hinzugef ü gt. –Anweisungen zur Bearbeitung von Satzzeichen: z.B. STERPUN:(t 1,...,t k ) - die Satzzeichen t 1,..., t k werden aus der Phrase getilgt. –Anweisungen zur Bearbeitung von Co-Referenz: z.B. IZREF.(Z1,Z2)-(U1,U2) – Ersetzten die Beziehung zwischen Z1 und Z2 durch die Beziehung U1 und U2. –Hilfsanweisung: NIHIL: - nichts tun.

18 Beispiel REG:PRESYNT.D0 ПОСЛЕ ТОГО, КАК N:01 CHECK 1.1 R-LEXR(X,Z,0,ТО3)&=(Z,РОД,ЕД)&R- LEXR(Z,W,0,КАК1) DO 1 SVUZOTOK:(X,Z,ПРЕДЛ) 2 SVUZOTOK:(Z,W,ЭКСПЛЕТ)

19 Quelle Ю.Д. Апресян et al.: Лингвистический процессор для сложных информационных систем. Москва 1992, Kapitel 2


Herunterladen ppt "Die formalen Sprachen bei ETAP Kurs: Syntaxanalyse des Russischen im maschinellen Übersetzungssytem ETAP-3 Dozent: Prof. Dr. Franz Günthner, Robert Zangenfeind."

Ähnliche Präsentationen


Google-Anzeigen