Analyse multilingualer Korpora für übersetzungswissenschaftliche Fragestellungen Elke Teich FR 4.6, Angewandte Sprachwissenschaft, UdS Kolloquium.

Analyse multilingualer Korpora für übersetzungswissenschaftliche Fragestellungen Elke Teich FR 4.6, Angewandte Sprachwissenschaft, UdS Kolloquium „Exploitation of natural language corpora“ /7/02

Hintergrund I Gegenstand: Spezifische, möglicherweise universelle Eigenschaften von Übersetzungen/ Verdolmetschungen Hermeneutik: law of interference, law of growing standardization (Toury 95) Übersetzungswissenschaft: normalization, sanitization, simplification, explicitation, levelling out (Baker 95, 96; Kenny 95) Linguistik: Informationsdichte/Informationsverteilung (Fabricius-Hansen 96, Doherty 91, 93, 96, 99) Psycholinguistik: Verarbeitungsprozesse (Krings 86, Lörscher 91)

Hintergrund II Gegenstand: Interaktion Intonation und Grammatik
Korrelationen bestimmter Tonhöhenverläufe mit bestimmten grammatischen Konstruktionen (z.B. continuation tone) Verhältnis stress und Informationsfokus Prosodiephänomene in Verdolmetschungen (z.B. Segmentierung im Dolmetschprodukt, Implikationen für die Sprachverarbeitung) Datenbanken gesprochener Sprache Einzelsätze: ToBI, SFG; EMU Dialoge: SFG (Dialogstruktur, Grammatik, Prosodie); EMU

Ziele des Vortrags Methodologie zur Untersuchung der spezifischen Eigenschaften von Übersetzungen Techniken der Korpusanreicherung und Extraktion/Query; Probleme: Abfragbarkeit des annotierten Korpus

Korpusbasierte Übersetzungswissenschaft
Beobachtungen & Hypothesen: Übersetzungen sind länger (Anzahl der tokens/Wörter) als ihre QS-Texte  explicitation haben kürzere Sätze (Anzahl der tokens/Wörter pro Satz) als vergleichbare ZS-Originaltexte haben mehr Sätze als vergleichbare ZS-Originaltexte haben eine niedrigere type-token ratio als vergleich bare ZS-Originaltexte haben eine geringere lexikalische Dichte als vergleich bare ZS-Originaltexte sind „normaler“ als vergleichbare ZS-Originaltexte  normalization, standardization lassen QS durchscheinen  interference, shining-through Korpusdesign: comparable corpus, z.B. englische Übersetzungen und englische Originaltexte  simplification

Beispiel Übersetzungen D-E, E-D
G-ORI E-TL E-ORI sentence length 11.55 12.54 15.36 number of sentences 544 588 366 type-token ratio 49.24 38.66 39.61   max min E-ORI G-TL G-ORI sentence length 15.36 13.26 11.55 number of sentences 366 411 544 type-token ratio 39.61 47.24 49.24  Beobachtungennicht bestätigt Effekte: zielsprachenspezifisch? quellsprachenabhängig?

Beispiel Übersetzung E-D
BEDS come in all sizes – Single or double, Cot-size or cradle, King-size or trundle. Most Beds are Beds For sleeping or resting, But the best Beds are much More interesting! BETTEN gibt‘s in allen Größen – Einzel oder Doppel Feldbett oder Wiege Riesig oder rollend. Meist sind Betten: Betten Für den Schlaf und für die Ruh Die besten Betten aber sind: Viel interessanter – hör mal zu! Grün: Typologie (Existenzsatz, Artikel) Rot: Genre (Rhythmus – Anzahl der Silben, Reim); Anzahl der Silben: in D normalisiert; Hinzufügung: auch Register Zweite Strophe: Silbennormalisierung! Interpretation: explicitation?; Erklärung: Genre/Register (Silvia Plath, Das Bett-Buch; Übersetzung: Eva Demski)  Übersetzung ist länger (E: 30 W/42 S, D: 36 W/55 S) Interpretation? Erklärung? Sprachtypologie Genre (+Register)

Kritikpunkte, Schlußfolgerungen
andere ZS: Beobachtungen teilweise nicht bestätigt Ebene der Beobachtungen bei Baker et al. sehr shallow – Interpretation? Erklärungen? Alternativer Ansatz: Basis Kontrastive Linguistik Ebenen der Beobachtungen: Lexikogrammatik, Semantik, Text Theorie: Sprachtypologie, Kontrastive Registertheorie, (Verarbeitungsprozesse) Methoden: Korpusdesign + multilingual vergleichbares Korpus von Originaltexten + Parallelkorpus Techniken: automatische und halbautomatische Korpusanreicherung und Extraktion/Query

Methode: Korpus original texts translations English parallel corpus
monolingually comparable corpus parallel corpus multilingually comparable corpus German translations English translations German original texts

Beispiel Korpusuntersuchung
Übersetzungen von populärwissenschaftlichen Texten E-D, D-E Scientific American/Spektrum der Wissenschaft („Doherty-Korpus“) und populärwissenschaftliche Buchpublikationen ein Register: verschiedene fields, tenor: Experte – Laie  Vergleichbarkeit „gute“ Übersetzungen pro Subkorpus: 10 samples à 1000 Wörter (ca Wörter); expositorisch Hypothesen & ihre Herleitung: Beispiel normalization, shining through – Wie „normal“ definieren? Resultate & Interpretation Techniken der Analyse

Theorie: Sprachtypologie, Registertheorie
Sprachtypologie (cf. Hawkins 84, Doherty 91), z.B. E-ORI: Clinical experiments have also compared the mixture of interferons produced by white blood cells with single interferons produced by bacteria. G-TL1: Klinische Versuche haben auch das Interferongemisch der weißen Blutkörperchen mit den einzelnen bakteriellen Interferonarten verglichen. G-TL2: In klinischen Versuchen wurde auch das Interferongemisch der weißen Blutkörperchen mit den einzelnen bakteriellen Interferonarten verglichen. Kontrastive Registertheorie, z.B. Biber 95; Halliday 85, 88, 98; Fluck 90: relative Häufigkeit bestimmter lexikogrammatischer Merkmale (signifikant) z.B. in (populär)wissenschaftlichen Texten Passiv+Passivalternativen, komplexe Nominalgruppen, einfache Satzstruktur (relationale Prädikate)

Beispiel Passiv/Passivalternativen
G-ORI – E-ORI Subkorpus G-ORI E-ORI active 389 278 passive 79 165 2 = 45.5; Signifikanz: (1 df > 10.83) G-ORI E-ORI passive passive alternatives 2 = 62.1; Signifikanz: (1 df > 10.83)

Hypothesen & ihre Herleitung: Passiv/Passivalternativen
Hypothesenformulierung E-ORI—G-TL In Übersetzungen vom Englischen ins Deutsche liegt shining-through im Passivbereich vor, wenn in G-TL signifikant mehr Passive auftreten als in vergleichbaren deutschen Texten (G-ORI) In Übersetzungen vom Deutschen ins Englische liegt normalization im Passivbereich vor, wenn in G-TL signifikant mehr Passivalternativen auftreten als in vergleichbaren deutschen Texten (G-ORI)

Hypothesen & ihre Herleitung: Passiv/Passivalternativen
Hypothesenformulierung G-ORI—E-TL In Übersetzungen vom Deutschen ins Englische liegt shining-through im Passivbereich vor, wenn in E-TL signifikant mehr Passivalternativen auftreten als in vergleichbaren englischen Texten (E-ORI) In Übersetzungen vom Deutschen ins Englische liegt normalization im Passivbereich vor, wenn in E-TL signifikant mehr Passive auftreten als in vergleichbaren englischen Texten (E-ORI)

Resultate & Interpretation
E-ORI G-TL G-ORI active 278 357 389 165 100 79 passive G-ORI – G-TL: 2 = 3.6; Signifikanz: 0.10 (1 df > 2.71)  schwaches shining-through (Passiv) in G-TL E-ORI G-TL G-ORI passive alternatives 64 163 146 passive 165 100 79 G-ORI – G-TL: 2 = 0.0; nicht signifikant  kein normalization-Effekt (Passivalternativen) in G-TL

G-ORI E-TL E-ORI active 389 218 278 79 186 165 passive E-ORI – E-TL: 2 = 7.9; Signifikanz: 0.01 (1 df > 6.64)  normalization (Passiv) in E-TL G-ORI E-TL E-ORI passive alternatives 146 62 64 passive 79 186 165 E-ORI – E-TL: 2 = 0.1; nicht signifikant  kein shining-through-Effekt (Passivalternativen) in E-TL

E-TL G-TL 1) passive vs. active normalization shining through 2) passive vs. passive alternatives --- 3) material vs. relational (other factor) 4) attributive vs. predicative 5) premod vs. postmod 6) full relative vs. dense postmod 7) full relative vs. dense mod 8) effective vs. middle 9) unmarked vs. marked theme Bei komplementären Effekten: E-TL normalisiert, G-TL shining through od. schwachere Normalisierung Bei nicht-signifikanten Unterschieden zw. E-OR I- G-ORI: kein Effekt in TLs oder doch ein Effekt – kann dann aber nicht norm/shin sein, das ist dann ein Effekt, der NUR in Übersetzungen auftritt mehr Effekte in G-TL: mehr shining through in G-TL weniger Effekte in E-TL: mehr normalization in E-TL Effekte: komplementär (1, 9), bidirektional (4, 5), unidirektional (6) Effekte, die nicht auf normalization/shining through zurückzuführen sind (3, 7, 8)

Techniken: Basis German original texts
T e x t / S a t z l ä n g e, S a t z a n z a h l German original texts T y p e – T o k e n R a t i o English translations

Techniken: Korpusannotation I
PoS-tagging: TnT (Brants 2000); Englisch (Susanne; Sampson 95), Deutsch (STTS; Hinrichs et al. 95) TnT output (TSV): If CS however RR a AT1 rapid JJ , YC preferably RR instant JJ effect NN1 is VBZ desired VVN strophanthin PN1 will VM be VB0 needed VVN YF

Techniken: Korpusquerying
Extraktion von Instanzen der ausgewählten lexiko-grammatischen Merkmale: CQP/ XKWIC (Christ 94) Query-Syntax: reguläre Ausdrücke Query Konkordanz Batterie von queries zu allen möglichen Biber-features und anderen Register features; Auch als Parallelkonkordanz (CQP)

Techniken: Korpusannotation II
Abstraktere Merkmale, z.B. funktional-grammatische Prädikatstypen (SFG: process types) Special/general-purpose tools wie TATOE (Alexa & Rostek 99), Coder (O‘Donnell 95) <codings> <header> <scheme file="D:/Elke/Coder3.4.1/Schemes/transitivity-g.scheme"></scheme> </header> <body> <segment features="clause relational circumstantial attributive" >Wo sind eigentlich die Organismen geblieben? </segment> <segment features="clause material middle-nonranged doing creative nonbenefactive" >In den letzten Jahren hat sich in der Biologie etwas sehr Sonderbares und Interessantes ereignet: <segment features="clause relational circumstantial attributive" >Die Organismen als Grundeinheiten des Lebens sind auf der Strecke geblieben. <segment features="clause material effective-nonranged doing dispositive nonbenefactive" >Sie wurden von den Genen abgelöst, <segment features="clause material effective-nonranged doing creative nonbenefactive" >die sämtliche Grundmerkmale annahmen, ... </body> Batterie von queries zu allen möglichen Biber-features (verschiedene Dimensionen) und anderen Register-features sowie eine Reihe von Parallelkonkordanzqueries

Techniken: Korpusquerying

Probleme Verschiedene Annotationen nicht gemeinsam querybar: heterogene Informationsquellen verschiedene Formate verschiedene Datenstrukturen Integrierte Repräsentation, z.B. XML Aber: Problem Query Our-XML: character offsets; spoken: time offsets Trade-off: Spezialsyntax (Mate, TigerSearch)  „einfache“ Querysprache vs. SQL (AGs), XQuery, XSLT (XML)  mehr Tools (Validierung etc)  Fundierte requirements Analyse (Linguistik, informiert durch Informatik)

Beispiel Our-XML (Teich et al. 2001)
<?xml version="1.0" encoding="UTF-16"?> <words> <word pos="NN2" start="1" end="10">Textbooks</word> <word pos="VV0" start="12" end="16">write</word> <word pos="DD1" start="18" end="21">this</word> <word pos="NN1" start="23" end="29">process</word> <word pos="II" start="31" end="32">as</word> <word pos="NP1" start="34" end="45">HCl H++ Cl-</word> <word pos="YC" start="46" end="46">.</word> </words> <clause semfeat="verbal"> <phrase synform="NP" synfunc="SB" start="1" end="10"> Textbooks</phrase> <phrase synform="VP" synfunc="HD" start="12" end="16"> write</phrase> <phrase synform="NP" synfunc="OA" start="18" end="29"> this process</phrase> <phrase synform="PP" synfunc="MO" start="31" end="45"> as HCl H++ Cl-</phrase> <text start="46" end="46">.</text> </clause> (Teich et al. 2001)

Probleme Integrierte Repräsentation verschiedener Annotationen (cf. multi-layer Problematik): Skripts: z.B. XML, Ags – aber query? CQP (Christ 94) TigerSearch (König & Lezius 2002) GSearch (Corley et al., 2001) Mate (Heid & Mengel, 99; McKelvie et al., 2001), aber: skaliert nicht (Stand: 2001); Nachfolgeprojekt: Nite (Bernsen et al., 2002)? Relationale DBMS, z.B. EMU (Cassidy & Harrington 2001); SQL Semistrukturierte Daten: XSLT, XQuery Intersecting hierarchies – ok; aber: overlapping segments? annotation graphs (Bird & Liberman 2001) Mate, stand-off markup (Thompson & McKelvie97), Our-XML aber: Query? AGs: ? (Scott & Bird 2001); XML: XQuery? special purpose general Our-XML: character offsets; spoken: time offsets Trade-off: Spezialsyntax (Mate, TigerSearch)  „einfache“ Querysprache vs. SQL (AGs), XQuery, XSLT (XML)  mehr Tools (Validierung etc)  Fundierte requirements Analyse (Linguistik, informiert durch Informatik)

Zusammenfassung und Ausblick
Annotierte Korpora als linguistische Datenbanken: Linguistik Welche Arten von Beziehungen? Dominanz, lineare Abfolge, binding, Kohäsion, semantische Relationen... Verschiedene Perspektiven auf ein Korpus Abfragen auf mehreren Annotierungsschichten Vergleich verschiedener Annotierungen desselben Korpus Informatische Techniken superimposed information Querysprachen Tool kit: Skripts „externe“ tools (TSV, Baum, AG, your-XML) – our-XML Definition von Querytypen (XQuery; XSLT) zusätzliche layers; mehr Daten your-xml: z.B. Tiger

Analyse multilingualer Korpora für übersetzungswissenschaftliche Fragestellungen Elke Teich FR 4.6, Angewandte Sprachwissenschaft, UdS Kolloquium.

Ähnliche Präsentationen

Präsentation zum Thema: "Analyse multilingualer Korpora für übersetzungswissenschaftliche Fragestellungen Elke Teich FR 4.6, Angewandte Sprachwissenschaft, UdS Kolloquium."— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback

Anmelden

Anmeldung über soziales Netzwerk:

Analyse multilingualer Korpora für übersetzungswissenschaftliche Fragestellungen Elke Teich FR 4.6, Angewandte Sprachwissenschaft, UdS Kolloquium.

Ähnliche Präsentationen

Präsentation zum Thema: "Analyse multilingualer Korpora für übersetzungswissenschaftliche Fragestellungen Elke Teich FR 4.6, Angewandte Sprachwissenschaft, UdS Kolloquium."— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback