Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Analyse multilingualer Korpora für übersetzungswissenschaftliche Fragestellungen Elke Teich FR 4.6, Angewandte Sprachwissenschaft, UdS Kolloquium Exploitation.

Ähnliche Präsentationen


Präsentation zum Thema: "Analyse multilingualer Korpora für übersetzungswissenschaftliche Fragestellungen Elke Teich FR 4.6, Angewandte Sprachwissenschaft, UdS Kolloquium Exploitation."—  Präsentation transkript:

1 Analyse multilingualer Korpora für übersetzungswissenschaftliche Fragestellungen Elke Teich FR 4.6, Angewandte Sprachwissenschaft, UdS Kolloquium Exploitation of natural language corpora 12/7/02

2 Hintergrund I Gegenstand: Spezifische, möglicherweise universelle Eigenschaften von Übersetzungen/ Verdolmetschungen Hermeneutik: law of interference, law of growing standardization (Toury 95) Übersetzungswissenschaft: normalization, sanitization, simplification, explicitation, levelling out (Baker 95, 96; Kenny 95) Linguistik: Informationsdichte/Informationsverteilung (Fabricius-Hansen 96, Doherty 91, 93, 96, 99) Psycholinguistik: Verarbeitungsprozesse (Krings 86, Lörscher 91)

3 Hintergrund II Gegenstand: Interaktion Intonation und Grammatik –Korrelationen bestimmter Tonhöhenverläufe mit bestimmten grammatischen Konstruktionen (z.B. continuation tone) –Verhältnis stress und Informationsfokus –Prosodiephänomene in Verdolmetschungen (z.B. Segmentierung im Dolmetschprodukt, Implikationen für die Sprachverarbeitung) Datenbanken gesprochener Sprache –Einzelsätze: ToBI, SFG; EMU –Dialoge: SFG (Dialogstruktur, Grammatik, Prosodie); EMU

4 Ziele des Vortrags Methodologie zur Untersuchung der spezifischen Eigenschaften von Übersetzungen Techniken der Korpusanreicherung und Extraktion/Query; Probleme: Abfragbarkeit des annotierten Korpus

5 Korpusbasierte Übersetzungswissenschaft Beobachtungen & Hypothesen: Übersetzungen –sind länger (Anzahl der tokens/Wörter) als ihre QS-Texte explicitation –haben kürzere Sätze (Anzahl der tokens/Wörter pro Satz) als vergleichbare ZS-Originaltexte –haben mehr Sätze als vergleichbare ZS-Originaltexte –haben eine niedrigere type-token ratio als vergleich- bare ZS-Originaltexte –haben eine geringere lexikalische Dichte als vergleich- bare ZS-Originaltexte –sind normaler als vergleichbare ZS-Originaltexte normalization, standardization –lassen QS durchscheinen interference, shining-through Korpusdesign: comparable corpus, z.B. englische Übersetzungen und englische Originaltexte simplification

6 Beispiel Übersetzungen D-E, E-D G-ORI E-TLE-ORI sentence length number of sentences type-token ratio E-ORI G-TLG-ORI sentence length number of sentences type-token ratio max min Effekte: zielsprachenspezifisch? quellsprachenabhängig?

7 Beispiel Übersetzung E-D BEDS come in all sizes – Single or double, Cot-size or cradle, King-size or trundle. Most Beds are Beds For sleeping or resting, But the best Beds are much More interesting! BETTEN gibts in allen Größen – Einzel oder Doppel Feldbett oder Wiege Riesig oder rollend. Meist sind Betten: Betten Für den Schlaf und für die Ruh Die besten Betten aber sind: Viel interessanter – hör mal zu! Übersetzung ist länger (E: 30 W/42 S, D: 36 W/55 S) Interpretation? Erklärung? SprachtypologieGenre (+Register) (Silvia Plath, Das Bett-Buch; Übersetzung: Eva Demski)

8 Kritikpunkte, Schlußfolgerungen andere ZS: Beobachtungen teilweise nicht bestätigt Ebene der Beobachtungen bei Baker et al. sehr shallow – Interpretation? Erklärungen? Alternativer Ansatz: Basis Kontrastive Linguistik –Ebenen der Beobachtungen: Lexikogrammatik, Semantik, Text –Theorie: Sprachtypologie, Kontrastive Registertheorie, (Verarbeitungsprozesse) –Methoden: Korpusdesign + multilingual vergleichbares Korpus von Originaltexten + Parallelkorpus –Techniken: automatische und halbautomatische Korpusanreicherung und Extraktion/Query

9 Methode: Korpus English original texts German translations English translations German original texts monolingually comparable corpus multilingually comparable corpus parallel corpus

10 Beispiel Korpusuntersuchung Übersetzungen von populärwissenschaftlichen Texten E-D, D-E –Scientific American/Spektrum der Wissenschaft (Doherty-Korpus) und populärwissenschaftliche Buchpublikationen –ein Register: verschiedene fields, tenor: Experte – Laie Vergleichbarkeit – gute Übersetzungen –pro Subkorpus: 10 samples à 1000 Wörter (ca Wörter); expositorisch Hypothesen & ihre Herleitung: Beispiel normalization, shining through – Wie normal definieren? Resultate & Interpretation Techniken der Analyse

11 Theorie: Sprachtypologie, Registertheorie Sprachtypologie (cf. Hawkins 84, Doherty 91), z.B. E-ORI: Clinical experiments have also compared the mixture of interferons produced by white blood cells with single interferons produced by bacteria. G-TL1: Klinische Versuche haben auch das Interferongemisch der weißen Blutkörperchen mit den einzelnen bakteriellen Interferonarten verglichen. G-TL2: In klinischen Versuchen wurde auch das Interferongemisch der weißen Blutkörperchen mit den einzelnen bakteriellen Interferonarten verglichen. Kontrastive Registertheorie, z.B. Biber 95; Halliday 85, 88, 98; Fluck 90: –relative Häufigkeit bestimmter lexikogrammatischer Merkmale (signifikant) –z.B. in (populär)wissenschaftlichen Texten Passiv+Passivalternativen, komplexe Nominalgruppen, einfache Satzstruktur (relationale Prädikate)

12 Beispiel Passiv/Passivalternativen passive 278 active E-ORI 2 = 45.5; Signifikanz: (1 df > 10.83) G-ORI G-ORI – E-ORI Subkorpus passive passive alternatives E-ORI G-ORI 2 = 62.1; Signifikanz: (1 df > 10.83)

13 Hypothesen & ihre Herleitung: Passiv/Passivalternativen Hypothesenformulierung E-ORIG-TL In Übersetzungen vom Englischen ins Deutsche liegt shining-through im Passivbereich vor, wenn in G-TL signifikant mehr Passive auftreten als in vergleichbaren deutschen Texten (G-ORI) In Übersetzungen vom Deutschen ins Englische liegt normalization im Passivbereich vor, wenn in G-TL signifikant mehr Passivalternativen auftreten als in vergleichbaren deutschen Texten (G-ORI)

14 Hypothesen & ihre Herleitung: Passiv/Passivalternativen Hypothesenformulierung G-ORIE-TL In Übersetzungen vom Deutschen ins Englische liegt shining-through im Passivbereich vor, wenn in E-TL signifikant mehr Passivalternativen auftreten als in vergleichbaren englischen Texten (E-ORI) In Übersetzungen vom Deutschen ins Englische liegt normalization im Passivbereich vor, wenn in E-TL signifikant mehr Passive auftreten als in vergleichbaren englischen Texten (E-ORI)

15 Resultate & Interpretation schwaches shining-through (Passiv) in G-TL E-ORI passive active G-ORI G-TL G-ORI – G-TL: 2 = 3.6; Signifikanz: 0.10 (1 df > 2.71) E-ORI passive passive alternatives G-ORI G-TL G-ORI – G-TL: 2 = 0.0; nicht signifikant kein normalization-Effekt (Passivalternativen) in G-TL

16 Resultate & Interpretation normalization (Passiv) in E-TL G-ORI passive active E-ORI E-TL E-ORI – E-TL: 2 = 7.9; Signifikanz: 0.01 (1 df > 6.64) G-ORI passive passive alternatives E-ORI E-TL E-ORI – E-TL: 2 = 0.1; nicht signifikant kein shining-through-Effekt (Passivalternativen) in E-TL

17 Resultate & Interpretation E-TL G-TL 1) passive vs. active normalization shining through 2) passive vs. passive alternatives --- 3) material vs. relational (other factor) 4) attributive vs. predicative normalization 5) premod vs. postmod shining through 6) full relative vs. dense postmod --- normalization 7) full relative vs. dense mod --- (other factor) 8) effective vs. middle --- (other factor) 9) unmarked vs. marked theme normalization shining through mehr Effekte in G-TL: mehr shining through in G-TL weniger Effekte in E-TL: mehr normalization in E-TL Effekte: komplementär (1, 9), bidirektional (4, 5), unidirektional (6) Effekte, die nicht auf normalization/shining through zurückzuführen sind (3, 7, 8)

18 English translations German original texts T e x t / S a t z l ä n g e, S a t z a n z a h l T y p e – T o k e n R a t i o Techniken: Basis

19 Techniken: Korpusannotation I PoS-tagging: TnT (Brants 2000); Englisch (Susanne; Sampson 95), Deutsch (STTS; Hinrichs et al. 95) TnT output (TSV): IfCS howeverRR aAT1 rapidJJ,YC preferablyRR instantJJ,YC effectNN1 isVBZ desiredVVN,YC strophanthinPN1 willVM beVB0 neededVVN. YF

20 Techniken: Korpusquerying Extraktion von Instanzen der ausgewählten lexiko- grammatischen Merkmale: CQP/ XKWIC (Christ 94) Query-Syntax: reguläre Ausdrücke Query Konkordanz

21 Techniken: Korpusannotation II Abstraktere Merkmale, z.B. funktional-grammatische Prädikatstypen (SFG: process types) Special/general-purpose tools wie TATOE (Alexa & Rostek 99), Coder (ODonnell 95) Wo sind eigentlich die Organismen geblieben? In den letzten Jahren hat sich in der Biologie etwas sehr Sonderbares und Interessantes ereignet: Die Organismen als Grundeinheiten des Lebens sind auf der Strecke geblieben. Sie wurden von den Genen abgelöst, die sämtliche Grundmerkmale annahmen,...

22 Techniken: Korpusquerying

23 Probleme Verschiedene Annotationen nicht gemeinsam querybar: heterogene Informationsquellen –verschiedene Formate –verschiedene Datenstrukturen Integrierte Repräsentation, z.B. XML Aber: Problem Query

24 Beispiel Our-XML Textbooks write this process as HCl H++ Cl-. Textbooks write this process as HCl H++ Cl-. (Teich et al. 2001)

25 Probleme Integrierte Repräsentation verschiedener Annotationen (cf. multi-layer Problematik): Skripts: z.B. XML, Ags – aber query? –CQP (Christ 94) –TigerSearch (König & Lezius 2002) –GSearch (Corley et al., 2001) –Mate (Heid & Mengel, 99; McKelvie et al., 2001), aber: skaliert nicht (Stand: 2001); Nachfolgeprojekt: Nite (Bernsen et al., 2002)? –Relationale DBMS, z.B. EMU (Cassidy & Harrington 2001); SQL –Semistrukturierte Daten: XSLT, XQuery Intersecting hierarchies – ok; aber: overlapping segments? –annotation graphs (Bird & Liberman 2001) –Mate, stand-off markup (Thompson & McKelvie97), Our-XML –aber: Query? AGs: ? (Scott & Bird 2001); XML: XQuery? special purpose general purpose

26 Zusammenfassung und Ausblick Annotierte Korpora als linguistische Datenbanken : –Linguistik Welche Arten von Beziehungen? Dominanz, lineare Abfolge, binding, Kohäsion, semantische Relationen... Verschiedene Perspektiven auf ein Korpus –Abfragen auf mehreren Annotierungsschichten –Vergleich verschiedener Annotierungen desselben Korpus –Informatische Techniken superimposed information Querysprachen Tool kit: –Skripts externe tools (TSV, Baum, AG, your-XML) – our-XML –Definition von Querytypen (XQuery; XSLT) –zusätzliche layers; mehr Daten


Herunterladen ppt "Analyse multilingualer Korpora für übersetzungswissenschaftliche Fragestellungen Elke Teich FR 4.6, Angewandte Sprachwissenschaft, UdS Kolloquium Exploitation."

Ähnliche Präsentationen


Google-Anzeigen