Analyse multilingualer Korpora für übersetzungswissenschaftliche Fragestellungen Elke Teich FR 4.6, Angewandte Sprachwissenschaft, UdS Kolloquium „Exploitation of natural language corpora“ 12/7/02
Hintergrund I Gegenstand: Spezifische, möglicherweise universelle Eigenschaften von Übersetzungen/ Verdolmetschungen Hermeneutik: law of interference, law of growing standardization (Toury 95) Übersetzungswissenschaft: normalization, sanitization, simplification, explicitation, levelling out (Baker 95, 96; Kenny 95) Linguistik: Informationsdichte/Informationsverteilung (Fabricius-Hansen 96, Doherty 91, 93, 96, 99) Psycholinguistik: Verarbeitungsprozesse (Krings 86, Lörscher 91)
Hintergrund II Gegenstand: Interaktion Intonation und Grammatik Korrelationen bestimmter Tonhöhenverläufe mit bestimmten grammatischen Konstruktionen (z.B. continuation tone) Verhältnis stress und Informationsfokus Prosodiephänomene in Verdolmetschungen (z.B. Segmentierung im Dolmetschprodukt, Implikationen für die Sprachverarbeitung) Datenbanken gesprochener Sprache Einzelsätze: ToBI, SFG; EMU Dialoge: SFG (Dialogstruktur, Grammatik, Prosodie); EMU
Ziele des Vortrags Methodologie zur Untersuchung der spezifischen Eigenschaften von Übersetzungen Techniken der Korpusanreicherung und Extraktion/Query; Probleme: Abfragbarkeit des annotierten Korpus
Korpusbasierte Übersetzungswissenschaft Beobachtungen & Hypothesen: Übersetzungen sind länger (Anzahl der tokens/Wörter) als ihre QS-Texte explicitation haben kürzere Sätze (Anzahl der tokens/Wörter pro Satz) als vergleichbare ZS-Originaltexte haben mehr Sätze als vergleichbare ZS-Originaltexte haben eine niedrigere type-token ratio als vergleich- bare ZS-Originaltexte haben eine geringere lexikalische Dichte als vergleich- bare ZS-Originaltexte sind „normaler“ als vergleichbare ZS-Originaltexte normalization, standardization lassen QS durchscheinen interference, shining-through Korpusdesign: comparable corpus, z.B. englische Übersetzungen und englische Originaltexte simplification
Beispiel Übersetzungen D-E, E-D G-ORI E-TL E-ORI sentence length 11.55 12.54 15.36 number of sentences 544 588 366 type-token ratio 49.24 38.66 39.61 max min E-ORI G-TL G-ORI sentence length 15.36 13.26 11.55 number of sentences 366 411 544 type-token ratio 39.61 47.24 49.24 Beobachtungennicht bestätigt Effekte: zielsprachenspezifisch? quellsprachenabhängig?
Beispiel Übersetzung E-D BEDS come in all sizes – Single or double, Cot-size or cradle, King-size or trundle. Most Beds are Beds For sleeping or resting, But the best Beds are much More interesting! BETTEN gibt‘s in allen Größen – Einzel oder Doppel Feldbett oder Wiege Riesig oder rollend. Meist sind Betten: Betten Für den Schlaf und für die Ruh Die besten Betten aber sind: Viel interessanter – hör mal zu! Grün: Typologie (Existenzsatz, Artikel) Rot: Genre (Rhythmus – Anzahl der Silben, Reim); Anzahl der Silben: in D normalisiert; Hinzufügung: auch Register Zweite Strophe: Silbennormalisierung! Interpretation: explicitation?; Erklärung: Genre/Register (Silvia Plath, Das Bett-Buch; Übersetzung: Eva Demski) Übersetzung ist länger (E: 30 W/42 S, D: 36 W/55 S) Interpretation? Erklärung? Sprachtypologie Genre (+Register)
Kritikpunkte, Schlußfolgerungen andere ZS: Beobachtungen teilweise nicht bestätigt Ebene der Beobachtungen bei Baker et al. sehr shallow – Interpretation? Erklärungen? Alternativer Ansatz: Basis Kontrastive Linguistik Ebenen der Beobachtungen: Lexikogrammatik, Semantik, Text Theorie: Sprachtypologie, Kontrastive Registertheorie, (Verarbeitungsprozesse) Methoden: Korpusdesign + multilingual vergleichbares Korpus von Originaltexten + Parallelkorpus Techniken: automatische und halbautomatische Korpusanreicherung und Extraktion/Query
Methode: Korpus original texts translations English parallel corpus monolingually comparable corpus parallel corpus multilingually comparable corpus German translations English translations German original texts
Beispiel Korpusuntersuchung Übersetzungen von populärwissenschaftlichen Texten E-D, D-E Scientific American/Spektrum der Wissenschaft („Doherty-Korpus“) und populärwissenschaftliche Buchpublikationen ein Register: verschiedene fields, tenor: Experte – Laie Vergleichbarkeit „gute“ Übersetzungen pro Subkorpus: 10 samples à 1000 Wörter (ca. 10 000 Wörter); expositorisch Hypothesen & ihre Herleitung: Beispiel normalization, shining through – Wie „normal“ definieren? Resultate & Interpretation Techniken der Analyse
Theorie: Sprachtypologie, Registertheorie Sprachtypologie (cf. Hawkins 84, Doherty 91), z.B. E-ORI: Clinical experiments have also compared the mixture of interferons produced by white blood cells with single interferons produced by bacteria. G-TL1: Klinische Versuche haben auch das Interferongemisch der weißen Blutkörperchen mit den einzelnen bakteriellen Interferonarten verglichen. G-TL2: In klinischen Versuchen wurde auch das Interferongemisch der weißen Blutkörperchen mit den einzelnen bakteriellen Interferonarten verglichen. Kontrastive Registertheorie, z.B. Biber 95; Halliday 85, 88, 98; Fluck 90: relative Häufigkeit bestimmter lexikogrammatischer Merkmale (signifikant) z.B. in (populär)wissenschaftlichen Texten Passiv+Passivalternativen, komplexe Nominalgruppen, einfache Satzstruktur (relationale Prädikate)
Beispiel Passiv/Passivalternativen G-ORI – E-ORI Subkorpus G-ORI E-ORI active 389 278 passive 79 165 2 = 45.5; Signifikanz: 0.001 (1 df > 10.83) G-ORI E-ORI passive 79 165 passive 146 64 alternatives 2 = 62.1; Signifikanz: 0.001 (1 df > 10.83)
Hypothesen & ihre Herleitung: Passiv/Passivalternativen Hypothesenformulierung E-ORI—G-TL In Übersetzungen vom Englischen ins Deutsche liegt shining-through im Passivbereich vor, wenn in G-TL signifikant mehr Passive auftreten als in vergleichbaren deutschen Texten (G-ORI) In Übersetzungen vom Deutschen ins Englische liegt normalization im Passivbereich vor, wenn in G-TL signifikant mehr Passivalternativen auftreten als in vergleichbaren deutschen Texten (G-ORI)
Hypothesen & ihre Herleitung: Passiv/Passivalternativen Hypothesenformulierung G-ORI—E-TL In Übersetzungen vom Deutschen ins Englische liegt shining-through im Passivbereich vor, wenn in E-TL signifikant mehr Passivalternativen auftreten als in vergleichbaren englischen Texten (E-ORI) In Übersetzungen vom Deutschen ins Englische liegt normalization im Passivbereich vor, wenn in E-TL signifikant mehr Passive auftreten als in vergleichbaren englischen Texten (E-ORI)
Resultate & Interpretation E-ORI G-TL G-ORI active 278 357 389 165 100 79 passive G-ORI – G-TL: 2 = 3.6; Signifikanz: 0.10 (1 df > 2.71) schwaches shining-through (Passiv) in G-TL E-ORI G-TL G-ORI passive alternatives 64 163 146 passive 165 100 79 G-ORI – G-TL: 2 = 0.0; nicht signifikant kein normalization-Effekt (Passivalternativen) in G-TL
Resultate & Interpretation G-ORI E-TL E-ORI active 389 218 278 79 186 165 passive E-ORI – E-TL: 2 = 7.9; Signifikanz: 0.01 (1 df > 6.64) normalization (Passiv) in E-TL G-ORI E-TL E-ORI passive alternatives 146 62 64 passive 79 186 165 E-ORI – E-TL: 2 = 0.1; nicht signifikant kein shining-through-Effekt (Passivalternativen) in E-TL
Resultate & Interpretation E-TL G-TL 1) passive vs. active normalization shining through 2) passive vs. passive alternatives --- 3) material vs. relational (other factor) 4) attributive vs. predicative 5) premod vs. postmod 6) full relative vs. dense postmod 7) full relative vs. dense mod 8) effective vs. middle 9) unmarked vs. marked theme Bei komplementären Effekten: E-TL normalisiert, G-TL shining through od. schwachere Normalisierung Bei nicht-signifikanten Unterschieden zw. E-OR I- G-ORI: kein Effekt in TLs oder doch ein Effekt – kann dann aber nicht norm/shin sein, das ist dann ein Effekt, der NUR in Übersetzungen auftritt mehr Effekte in G-TL: mehr shining through in G-TL weniger Effekte in E-TL: mehr normalization in E-TL Effekte: komplementär (1, 9), bidirektional (4, 5), unidirektional (6) Effekte, die nicht auf normalization/shining through zurückzuführen sind (3, 7, 8)
Techniken: Basis German original texts T e x t / S a t z l ä n g e, S a t z a n z a h l German original texts T y p e – T o k e n R a t i o English translations
Techniken: Korpusannotation I PoS-tagging: TnT (Brants 2000); Englisch (Susanne; Sampson 95), Deutsch (STTS; Hinrichs et al. 95) TnT output (TSV): If CS however RR a AT1 rapid JJ , YC preferably RR instant JJ effect NN1 is VBZ desired VVN strophanthin PN1 will VM be VB0 needed VVN . YF
Techniken: Korpusquerying Extraktion von Instanzen der ausgewählten lexiko-grammatischen Merkmale: CQP/ XKWIC (Christ 94) Query-Syntax: reguläre Ausdrücke Query Konkordanz Batterie von queries zu allen möglichen Biber-features und anderen Register features; Auch als Parallelkonkordanz (CQP)
Techniken: Korpusannotation II Abstraktere Merkmale, z.B. funktional-grammatische Prädikatstypen (SFG: process types) Special/general-purpose tools wie TATOE (Alexa & Rostek 99), Coder (O‘Donnell 95) <codings> <header> <scheme file="D:/Elke/Coder3.4.1/Schemes/transitivity-g.scheme"></scheme> </header> <body> <segment features="clause relational circumstantial attributive" >Wo sind eigentlich die Organismen geblieben? </segment> <segment features="clause material middle-nonranged doing creative nonbenefactive" >In den letzten Jahren hat sich in der Biologie etwas sehr Sonderbares und Interessantes ereignet: <segment features="clause relational circumstantial attributive" >Die Organismen als Grundeinheiten des Lebens sind auf der Strecke geblieben. <segment features="clause material effective-nonranged doing dispositive nonbenefactive" >Sie wurden von den Genen abgelöst, <segment features="clause material effective-nonranged doing creative nonbenefactive" >die sämtliche Grundmerkmale annahmen, ... </body> Batterie von queries zu allen möglichen Biber-features (verschiedene Dimensionen) und anderen Register-features sowie eine Reihe von Parallelkonkordanzqueries
Techniken: Korpusquerying
Probleme Verschiedene Annotationen nicht gemeinsam querybar: heterogene Informationsquellen verschiedene Formate verschiedene Datenstrukturen Integrierte Repräsentation, z.B. XML Aber: Problem Query Our-XML: character offsets; spoken: time offsets Trade-off: Spezialsyntax (Mate, TigerSearch) „einfache“ Querysprache vs. SQL (AGs), XQuery, XSLT (XML) mehr Tools (Validierung etc) Fundierte requirements Analyse (Linguistik, informiert durch Informatik)
Beispiel Our-XML (Teich et al. 2001) <?xml version="1.0" encoding="UTF-16"?> <words> <word pos="NN2" start="1" end="10">Textbooks</word> <word pos="VV0" start="12" end="16">write</word> <word pos="DD1" start="18" end="21">this</word> <word pos="NN1" start="23" end="29">process</word> <word pos="II" start="31" end="32">as</word> <word pos="NP1" start="34" end="45">HCl H++ Cl-</word> <word pos="YC" start="46" end="46">.</word> </words> <clause semfeat="verbal"> <phrase synform="NP" synfunc="SB" start="1" end="10"> Textbooks</phrase> <phrase synform="VP" synfunc="HD" start="12" end="16"> write</phrase> <phrase synform="NP" synfunc="OA" start="18" end="29"> this process</phrase> <phrase synform="PP" synfunc="MO" start="31" end="45"> as HCl H++ Cl-</phrase> <text start="46" end="46">.</text> </clause> (Teich et al. 2001)
Probleme Integrierte Repräsentation verschiedener Annotationen (cf. multi-layer Problematik): Skripts: z.B. XML, Ags – aber query? CQP (Christ 94) TigerSearch (König & Lezius 2002) GSearch (Corley et al., 2001) Mate (Heid & Mengel, 99; McKelvie et al., 2001), aber: skaliert nicht (Stand: 2001); Nachfolgeprojekt: Nite (Bernsen et al., 2002)? Relationale DBMS, z.B. EMU (Cassidy & Harrington 2001); SQL Semistrukturierte Daten: XSLT, XQuery Intersecting hierarchies – ok; aber: overlapping segments? annotation graphs (Bird & Liberman 2001) Mate, stand-off markup (Thompson & McKelvie97), Our-XML aber: Query? AGs: ? (Scott & Bird 2001); XML: XQuery? special purpose general Our-XML: character offsets; spoken: time offsets Trade-off: Spezialsyntax (Mate, TigerSearch) „einfache“ Querysprache vs. SQL (AGs), XQuery, XSLT (XML) mehr Tools (Validierung etc) Fundierte requirements Analyse (Linguistik, informiert durch Informatik)
Zusammenfassung und Ausblick Annotierte Korpora als linguistische Datenbanken: Linguistik Welche Arten von Beziehungen? Dominanz, lineare Abfolge, binding, Kohäsion, semantische Relationen... Verschiedene Perspektiven auf ein Korpus Abfragen auf mehreren Annotierungsschichten Vergleich verschiedener Annotierungen desselben Korpus Informatische Techniken superimposed information Querysprachen Tool kit: Skripts „externe“ tools (TSV, Baum, AG, your-XML) – our-XML Definition von Querytypen (XQuery; XSLT) zusätzliche layers; mehr Daten your-xml: z.B. Tiger