Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

© Fraunhofer FKIE Computerlinguistik apl. Professor Dr. Ulrich Schade Fraunhofer-Institut für Kommunikation, Informationstechnik und Ergonomie

Ähnliche Präsentationen


Präsentation zum Thema: "© Fraunhofer FKIE Computerlinguistik apl. Professor Dr. Ulrich Schade Fraunhofer-Institut für Kommunikation, Informationstechnik und Ergonomie"—  Präsentation transkript:

1 © Fraunhofer FKIE Computerlinguistik apl. Professor Dr. Ulrich Schade Fraunhofer-Institut für Kommunikation, Informationstechnik und Ergonomie ulrich.schade@fkie.fraunhofer.de 12. Vorlesung (19.01.2012)

2 © Fraunhofer FKIE Computerlinguistik Inhalt der Vorlesung Einführung Methoden Tagging Formale Methoden Parsing Ontologien Anwendungen Informationsextraktion Maschinelle Übersetzung Textanalyse

3 © Fraunhofer FKIE Computerlinguistik Wiederholung: Bei der maschinellen Übersetzung unterscheiden wir (ältere) regelbasierte Verfahren, (neuere) statistikbasierte Verfahren und (noch neuere) hybride Verfahren. Maschinelle Übersetzung

4 © Fraunhofer FKIE Computerlinguistik Bei den statistikbasierten Verfahren unterscheiden wir beispielbasierte Verfahren, Übersetzungshilfen (translation memory) und reine statistische Verfahren. Maschinelle Übersetzung

5 © Fraunhofer FKIE Computerlinguistik Bei der statistischen Übersetzung nutzen wir zwei Korpora: Ein bilinguales Korpus, aus dem wir das so genannte Übersetzungsmodell (translation model) gewinnen, und ein monolinguales Korpus der Zielsprache, aus dem wir das Sprachmodell (language model) der Zielsprache gewinnen. Im Notfall nehmen wir den Zielsprachenteil des bilingualen Korpus als monolinguales Korpus der Zielsprache. Statistik-basierte maschinelle Übersetzung

6 © Fraunhofer FKIE Computerlinguistik Statistik-basierte maschinelle Übersetzung Das Übersetzungsmodell (translation model) wird dazu genutzt, für die einzelnen Terme der Ausgangssprache gute Übersetzungen zu finden. Das Sprachmodell (language model) der Zielsprache wird dazu genutzt, die einzelnen übersetzten Terme so anzuordnen, dass insgesamt ein möglichst guter Zielsprachensatz entsteht.

7 © Fraunhofer FKIE Computerlinguistik Sprachmodelle Sprachmodelle werden normalerweise in Form von Statistiken über Trigramme (Drei-Wort-Abfolgen) repräsentiert. Man notiert dabei für jedes in einem Korpus vorkommende Wort x die Wahrscheinlichkeit, mit der dieses Wort auf zwei andere Wörter bzw. Token (dazu zählen insbesondere auch Satzzeichen) folgt. Statistik-basierte maschinelle Übersetzung

8 © Fraunhofer FKIE Computerlinguistik Sprachmodelle – Beispiel für Trigramme Rings um das mannigfaltig gegliederte Binnenmeer, das tief einschneidend in die Erdfeste den größten Busen des Ozeans bildet und, bald durch Inseln oder vorspringende Landfesten verengt, bald wieder sich in beträchtlicher Breite ausdehnend, die drei Teile der Alten Welt scheidet und verbindet, siedelten in alten Zeiten Völkerstämme sich an, welche, ethnographisch und sprachgeschichtlich betrachtet, verschiedenen Rassen angehörig, historisch ein Ganzes ausmachen. Trigramme:P(und | Ozeans bildet) = 0.33 P(und | Welt scheidet ) = 0.33 P(und |, ethnographisch) = 0.33 Statistik-basierte maschinelle Übersetzung

9 © Fraunhofer FKIE Computerlinguistik Sprachmodelle Hat man für einen zu übersetzenden Satz aufgrund des Übersetzungsmodells die Wörter gefunden, die im Satz der Zielsprache vorkommen sollen, so kann man mit dem Sprachmodell statistisch die Reihenfolge der Wörter festlegen. Dazu multipliziert man die entsprechenden Werte aus dem Sprachmodell. Wir schauen uns das am Beispiel der Wörter a, is, it und treean (um es einfacher zu halten in Bezug auf Bigramme). Statistik-basierte maschinelle Übersetzung

10 © Fraunhofer FKIE Computerlinguistik. a it tree. is Wert für It is a tree 0.0008 Wert für A tree it is 0.0001 Statistik-basierte maschinelle Übersetzung P(a|. ) = 0.2 P(a|is)= 0.2 P(it|. ) = 0.2 P(it|tree)= 0.05 P(is|it)= 0.5 P(is|tree)= 0.1 P(tree|a)= 0.4 P(. |tree)= 0.1 P(. |is)= 0.05

11 © Fraunhofer FKIE Computerlinguistik. a it tree. is Der Wert für It is a tree 0.0008 Der Wert für A tree it is 0.0001 Statistik-basierte maschinelle Übersetzung Man darf nicht vergessen, genutzte Wörter zu streichen. Sonst erhält man evtl. A tree is a tree.

12 © Fraunhofer FKIE Computerlinguistik Sprachmodelle Es gibt aber Probleme, wenn Lücken auftreten, wenn also P(z | x y ) = 0.0 ist. Das ist der Fall, wenn die Folge x y z nicht im Korpus auftritt, was allein schon dann geschieht, wenn ein Wort auftritt, welches überhaupt nicht im Korpus ist. Das Problem ergibt sich, weil dann alle Produkte Null sind. Aus diesem Grund arbeitet man nicht mit Folgen, die mehr als drei Wörter umfassen, was aber auch bedeutet, dass entfernte Abhängigkeiten nicht berücksichtigt werden. Statistik-basierte maschinelle Übersetzung

13 © Fraunhofer FKIE Computerlinguistik Sprachmodelle Sprachmodelle können – wie in der letzten Sitzung vorgeführt – auch bei der Auflösungen von Mehrdeutigkeiten helfen. In einem Modell für das Englische sollte etwa gelten P(backyard | in my) > P(backyard | on my), so dass das spanische en in dem backyard-Zusammenhang mit in und nicht mit on übersetzt wird. Statistik-basierte maschinelle Übersetzung

14 © Fraunhofer FKIE Computerlinguistik Das Übersetzungsmodell Das Übersetzungsmodell stellt die Wahrscheinlichkeiten zusammen, die dafür gelten, dass ein Wort x aus der einen Sprache eine gute Übersetzung des Wortes y aus der anderen Sprache ist. Das Übersetzungsmodell enthält also Einträge der Form P( x | y ). Statistik-basierte maschinelle Übersetzung

15 © Fraunhofer FKIE Computerlinguistik Das Übersetzungsmodell P(e | d) sei die Wahrscheinlichkeit, dass das englische Wort e eine gelungene Übersetzung von d ist. P(d | e) ist dann die Wahrscheinlichkeit, dass das deutsche Wort d eine gelungene Übersetzung von e ist. P(sky | Himmel) = 0.7P(heaven | Himmel) = 0.3 P(Himmel | sky) = 1.0P(Himmel | heaven) = 1.0 Statistik-basierte maschinelle Übersetzung

16 © Fraunhofer FKIE Computerlinguistik Das Übersetzungsmodell Wir wollen englische Sätze ins Deutsche übersetzen. An dieser Stelle beginnt es trickreich zu werden. Welche Wahrscheinlichkeiten benötigen wir? Statistik-basierte maschinelle Übersetzung

17 © Fraunhofer FKIE Computerlinguistik Das Übersetzungsmodell Mathematisch gilt (Bayessche Regel): P(D) P(E | D) P(D | E) = P(E) Weil der zu übersetzende Satz im Englischen vorliegt und damit korrekt ist, können wir P(E) ignorieren. Mathematisch ist also das Ziel, das Produkt P(D) P(E | D) zu maximieren. Statistik-basierte maschinelle Übersetzung

18 © Fraunhofer FKIE Computerlinguistik Das Übersetzungsmodell Wir müssen das Produkt P(D) P(E | D) maximieren, aber was genau bedeuten P(D) und P(E | D) in Bezug auf ganze Sätze? P(I see a tree | Ich sehe einen Baum) ist die Wahrscheinlichkeit dafür, dass I see a tree eine gelungene Übersetzung von Ich sehe einen Baum ist. Statistik-basierte maschinelle Übersetzung

19 © Fraunhofer FKIE Computerlinguistik Das Übersetzungsmodell Wenn ich den Satz E ins Deutsche übersetzen will, suche ich (so die Formel ) eigentlich nach deutschen Sätzen (oder besser Wortfolgen), deren Übersetzung im Englischen E ergeben hätte. Von diesen Wortfolgen wähle ich diejenige, die der deutschen Wortstellung (dem Sprachmodell des Deutschen) am besten entspricht. Kevin Knight: If it seems backwards, it is. Statistik-basierte maschinelle Übersetzung

20 © Fraunhofer FKIE Computerlinguistik Das Übersetzungsmodell Die eigentliche Frage aber ist, wie ich an die Wortübersetzungswahrscheinlichkeiten, also etwa P(sky | Himmel), gelange. Man könnte etwa alle Satzpaare nehmen, die Himmel enthalten und durch die Anzahl der englischen Sätze dieser Satzpaare teilen, die sky enthalten. Statistik-basierte maschinelle Übersetzung

21 © Fraunhofer FKIE Computerlinguistik Das Übersetzungsmodell Man könnte etwa alle Satzpaare nehmen, die Himmel enthalten und durch die Anzahl der englischen Sätze dieser Satzpaare teilen, die sky enthalten. Das Problem bei dieser Lösung ist, dass danach P( the | Himmel ) bzw. P( the | eigentlich_jedes_deutsche_Wort ) einen ziemlich hohen Wert zugesprochen bekommt. Statistik-basierte maschinelle Übersetzung

22 © Fraunhofer FKIE Computerlinguistik Das Übersetzungsmodell Wir benötigen also eine bessere Lösung, eine Lösung mit einem bootstrapping Algorithmus. Dieser existiert auch unter dem Namen estimation-maximization (EM). Baum, L.E. (1972). An inequality and associated maximization technique in statistical estimation of probalistic functions of a Marcov process. Inequalities, 3, 1-8. Statistik-basierte maschinelle Übersetzung

23 © Fraunhofer FKIE Computerlinguistik Das Übersetzungsmodell – EM EM funktioniert dahingehend, dass etwa in einem Deutsch- Englisch-Satzpaar jedem deutschen Wort kein, ein oder mehrere englische Wörter zugeordnet werden, so dass jedes englische Wort genau mit einem deutschen Wort verbunden ist. Der Leuchtturm reichte 80 Meter in den Himmel. The light tower shouldered 80 meter into the sky. Statistik-basierte maschinelle Übersetzung

24 © Fraunhofer FKIE Computerlinguistik Statistik-basierte maschinelle Übersetzung Das Übersetzungsmodell – EM Wir konstruieren also für die Satzpaare alle entsprechenden möglichen Alignments. Wir suchen dann für ein Satzpaar danach, wie viele der nachgefragten Übersetzungspaare (etwa [sky – Himmel]) in allen Sätzen existieren und teilen diese Zahl durch die Gesamtalignments für das Satzpaar. Dann summieren wir über alle Sätze auf. (Kurze Sätze tragen stärker zu dem letztendlichen Wert bei!)

25 © Fraunhofer FKIE Computerlinguistik Das Übersetzungsmodell – EM Wir gehen von den deutschen Wörtern aus und normalisieren. Wir eliminieren die unwahrscheinlichen Übersetzungen, das sind die, die nur einen geringen Wert haben, und arbeiten mit den übriggebliebenen Zuordnungen das ganze Verfahren erneut durch, bis wir für jeden Satz ein einziges Alignment haben. Die Zuordnung [ shouldered – Himmel ] wird etwa beim ersten Schritt als unwahrscheinlich entfernt. Statistik-basierte maschinelle Übersetzung

26 © Fraunhofer FKIE Computerlinguistik Das Übersetzungsmodell Letztlich haben wir Wortzuordnungen vorliegen, die wir dann zur Bestimmung des Übersetzungsmodells nutzen können. Das ist dann nur noch Abzählen. Statistik-basierte maschinelle Übersetzung

27 © Fraunhofer FKIE Computerlinguistik Die statistische Übersetzung Im Prinzip können wir jetzt aus den zur Verfügung stehenden Wörtern alle Sätze der Zielsprache aufstellen und für alle Sätze P(Zielsprache) P(Quellsprache | Zielsprache) berechnen. Der Satz mit dem höchsten Wert ist dann das Resultat. Statistik-basierte maschinelle Übersetzung

28 © Fraunhofer FKIE Computerlinguistik Die statistische Übersetzung Alle Sätze aufzustellen dauert zu lange, aber es gibt Verfahren, die effizient (aber nicht optimal) sind und die genutzt werden (siehe etwa, Brown et al., 1990). Statistik-basierte maschinelle Übersetzung

29 © Fraunhofer FKIE Literatur Computerlinguistik Baum, L.E. (1972). An inequality and associated maximization technique in statistical estimation of probalistic functions of a Marcov process. Inequalities, 3, 1-8. Brown, P., Della Pietra, S., Della Pietra, V., Goldsmith, M., Hajic, J., Mercer, R. & Mohanty, S. (1990). But dictionaries are data too. Proceedings of the ARPA Human Language Technology Workshop. Knight, Kevin (1997). Automatic Knowledge Acquisition for Machine Translation. AI Magazine 18 (4). Mitkov, R. (2003). The Oxford Handbook of Computational Linguistics. Oxford, UK: Oxford University Press.

30 © Fraunhofer FKIE Computerlinguistik Bei den statistik-basierten Verfahren unterscheidet man rein statistische Verfahren beispielbasierte Verfahren und Übersetzungshilfen (translation memory). Die nachfolgenden Ausführungen folgen zum Teil Somers & Fernandez Diaz (2004). Statistik-basierte maschinelle Übersetzung

31 © Fraunhofer FKIE Computerlinguistik Beispielbasierte Verfahren haben wir ja schon kennengelernt. Übersetzungshilfen (translation memory) sind im Prinzip Abspeicherungen von bereits vorgenommenen Übersetzungen, die ein menschlicher Übersetzer als Übersetzungsvorlage nutzen kann. Beide Verfahren greifen also auf ein Korpus von Übersetzungen zurück, um diese vorliegenden Übersetzungen für die anliegende Arbeit zu nutzen. Die folgenden beiden Folien zeigen die Ähnlichkeit der Verfahren. beispielbasierte maschinelle Übersetzung / translation memory

32 © Fraunhofer FKIE Computerlinguistik Beispiel für beispielbasierte Übersetzung Zu übersetzender Satz: George drinks coffee. Übersetzungsbeispiele: George drinks a glas of coke. – George trinkt ein Glas Cola. Coffee is great. – Kaffee wäre nett. Ergebnis: George drinks coffee. – George trinkt Kaffee. beispielbasierte maschinelle Übersetzung / translation memory

33 © Fraunhofer FKIE Computerlinguistik Beispiel für Übersetzungshilfe Zu übersetzender Satz: George drinks coffee. Übersetzungsvorschlag: George drinks a glas of coke. – George trinkt ein Glas Cola. Der Übersetzer nimmt den Vorschlag, löscht ein Glas Cola und fügt Kaffee hinzu: George drinks coffee. – George trinkt Kaffee. beispielbasierte maschinelle Übersetzung / translation memory

34 © Fraunhofer FKIE Computerlinguistik In beiden Ansätzen liegt ein Korpus vor, in dem relevante Teile gefunden werden müssen. Für TM-Ansätze geht man davon aus, dass sie (wenigstens / Tendenz steigend) 1.000.000 Einheiten (wobei die Frage nach der Größe der Einheiten bleibt) enthalten sollten. Allerdings können zu große Korpora auch Nachteile mit sich bringen. Insbesondere kann es zu zahlreichen nicht hilfreichen Übersetzungsvorschlägen kommen. Bowker, L. (2002). Computer-Aided Translation Technology: A Practical Introduction. Ottawa, Cananda: Univiersity of Ottawa Press. beispielbasierte maschinelle Übersetzung / translation memory

35 © Fraunhofer FKIE Computerlinguistik Als relevante Einheit für beispielbasierte Übersetzungen und für TM wird meist auf den Satz zurückgegriffen, obwohl menschliche Übersetzer eher mit Phrasen arbeiten. Simard, M. (2003). Mémoires de transduction sous-phrastiques. Dissertationsschrift. Universität Montreal. beispielbasierte maschinelle Übersetzung / translation memory

36 © Fraunhofer FKIE Computerlinguistik In TMs werden zumeist die Beispiele im plain text-Format gespeichert, wohingegen in EBMT-Systemen auch komplexere Formate genutzt werden (bis hin zu alignierten Baumstrukturen). beispielbasierte maschinelle Übersetzung / translation memory ikimasu kare fliegt erTokio Agent / ga, waZiel / eAgent /_Ziel / nach Kare wa Tōkyō e ikimasu. Tōkyō Er fliegt nach Tokio.

37 © Fraunhofer FKIE Computerlinguistik In EBMT-Systemen werden zum Teil auch generalisierte Schemata abgelegt: wa e ikimasu. fliegt nach. flies to. beispielbasierte maschinelle Übersetzung / translation memory

38 © Fraunhofer FKIE Computerlinguistik In EBMT-Systemen werden zum Teil auch generalisierte Schemata abgelegt: wa e ikimasu. Angela wa Kopenhagen e ikimasu. fliegt nach. Angela fliegt nach Kopenhagen. flies to. Angela flies to Kopenhagen. Die Personen- und die Ortsnamen werden dabei nicht übersetzt. beispielbasierte maschinelle Übersetzung / translation memory

39 © Fraunhofer FKIE Computerlinguistik In beiden Systemen muss ein Abgleich stattfinden, um im Korpus Beispiele zu finden, die möglichst gut zu dem zu übersetzenden Satz passen. Click on OK. beispielbasierte maschinelle Übersetzung / translation memory exact match full match

40 © Fraunhofer FKIE Computerlinguistik In beiden Systemen muss ein Abgleich stattfinden, um im Korpus Beispiele zu finden, die möglichst gut zu dem zu übersetzenden Satz passen. Beim Match kommt es auf Wörter und nicht auf Buchstaben an! The wild child is destroying his new toy. The wild chief is destroying his new tool. The wild children are destroying their new toy. beispielbasierte maschinelle Übersetzung / translation memory

41 © Fraunhofer FKIE Computerlinguistik Auch beim Match können generalisierte Schemata, die Nutzung von Lemmata statt Wortformen oder auch die Nutzung einer Ontologie von Vorteil sein: zu übersetzender Satz: Till eats vegetables. Beispiele aus dem Korpus Acid eats metal.... wa... o... okasu. He eats potatoes.... wa... o... taberu. beispielbasierte maschinelle Übersetzung / translation memory

42 © Fraunhofer FKIE Computerlinguistik Generell arbeiten die Systeme so, dass sie ein möglichst gutes Match-Ergebnis suchen. Das bedeutet, dass sie nach Ergebnissen suchen, die möglichst wenig vom zu übersetzenden Satz abweichen. Häufig wäre es aber besser, wenn man Phrasen-grenzen berücksichtigt. The operation was interrupted because the file was hidden. The operation was interrupted because the Ctrl-C key was pressed. The specified method failed because the file was hidden. beispielbasierte maschinelle Übersetzung / translation memory

43 © Fraunhofer FKIE Computerlinguistik Generell arbeiten die Systeme so, dass sie ein möglichst gutes Match-Ergebnis suchen. Das bedeutet, dass sie nach Ergebnissen suchen, die möglichst wenig vom zu übersetzenden Satz abweichen. Häufig wäre es aber besser, wenn man Phrasen-grenzen berücksichtigt. The farmer buys another young bull. The farmer buys another young sheep. The doctor examines another young bull. beispielbasierte maschinelle Übersetzung / translation memory

44 © Fraunhofer FKIE Computerlinguistik TM-Systeme können dem Nutzer (Übersetzer) mehrere gute Matches anbieten, aus denen dann der Nutzer den Match auswählt, mit dem er arbeiten will. EBMT-Systeme müssen statt dessen selbst die Matches auswählen, mit denen sie weiterarbeiten wollen. EBMT-Systeme müssen dann die Alignments korrekt ermitteln und anschließend die korrespondierenden Stücke zum Ergebnissatz zusammenfügen. EBMT-Systeme haben also die Arbeitsschritte Match, Alginment und Recombination. beispielbasierte maschinelle Übersetzung / translation memory

45 © Fraunhofer FKIE Computerlinguistik Auch beim Arbeitsschritt Recombination können Probleme auftreten, wie bereits angedeutet wurde. Ein Hauptproblem entsteht (wieder einmal) bei der Übersetzung in eine morphologisch reichere Sprache. Unter Umständen hilft auch hier wieder die Nutzung eines Sprachmodells, um evtl. notwendige Änderungen in der Wortabfolge etc. durchzuführen. beispielbasierte maschinelle Übersetzung / translation memory

46 © Fraunhofer FKIE Literatur Computerlinguistik Bowker, L. (2002). Computer-Aided Translation Technology: A Practical Introduction. Ottawa, Cananda: Univiersity of Ottawa Press. Simard, M. (2003). Mémoires de transduction sous-phrastiques. Dissertationsschrift. Universität Montreal. Somers, H. & Fernandez Diaz, G. (2004). Translation Memory vs. Example-based MT – Whats the difference? International Journal of Translation, 16 (2), 5-33.


Herunterladen ppt "© Fraunhofer FKIE Computerlinguistik apl. Professor Dr. Ulrich Schade Fraunhofer-Institut für Kommunikation, Informationstechnik und Ergonomie"

Ähnliche Präsentationen


Google-Anzeigen