Computergestützte Analyse multilingualer Korpora Elke Teich 3

Slides:



Advertisements
Ähnliche Präsentationen
Word Order in German Subordiante Clauses
Advertisements

Die deutsche Satzstellung
Seminar Textmining WS 06/07 Themen Übung 9 Multilingualität Weitere Termine: 13.7.Symbolfolgen und PageRank Findlinks mitstreiter gesucht!
Ziel: To learn how to form the future tense in German.
Die Registervariablen: Tenor of Discourse
Analyse multilingualer Korpora für übersetzungswissenschaftliche Fragestellungen Elke Teich FR 4.6, Angewandte Sprachwissenschaft, UdS Kolloquium.
Can you think of some KEY phrases which would be useful in multiple contexts? Take 2 minutes with a partner and come up with as many as you can!
Abkürzungen mit Präpositionen German Prepositional Contractions
Die Naturgesetze der Sprache
Infinitivkonstruktionen
Get the best grade you can in GCSE German speaking Anglia Ruskin University Tuesday 22 January 2013.
AufwÄrmung A look at the future…..Match the German phrases on the left to the English ones on the right. Do your best; I am grading on participation! Wie.
Montag den 16.Dezember Lernziel: To begin stage 2 of preparation for speaking assessment.
You need to use your mouse to see this presentation © Heidi Behrens.
Mittwoch: LT: Infinitive clauses
Engineering tools for the NEO engineer
Passiv What are these sentences expressing?
Q: Wer will die Zeit stoppen?
Repräsentation und Abfrage von multi-layer Korpora Elke Teich, FR 4
Der formelle Imperativ – the Imperative
Relativpronomen Der Mann ist mein Onkel. --Wir haben den Mann im Theater gesehen. You can express related ideas in separate sentences, or you can.
Coordinating Conjunctions Why we need them & how to use them deutschdrang.com.
 Every part in a sentence has a grammatical function. Some common functions are: - Subject - Verb - Direct object / accusative object - Indirect object.
Das Perfekt – past tense In German you use the perfect tense (das Perfekt) to say what you have done at a certain time in the past.
Konjunktionen & Indirekte Fragen {Conjunctions}
Institut für Angewandte Mikroelektronik und Datentechnik Phase 5 Architectural impact on ASIC and FPGA Nils Büscher Selected Topics in VLSI Design (Module.
1 Bauhaus-Universität Weimar ArchitekturProgrammierung Generative Entwurfsmethoden Processing Grundlagen Professur Informatik in der Architektur.
Jonathan Harrington: "Die phonetischen Grundlagen des Lautwandels“
I will be able to use the accusative pronouns in a sentence (Buch Seite 200)
Literary Machines, zusammengestellt für ::COLLABOR:: von H. Mittendorfer Literary MACHINES 1980 bis 1987, by Theodor Holm NELSON ISBN
Deutsch 3 Frau Snell.
Alltagsleben Treffpunkt Deutsch Sixth Edition
Name: ___________________________________________ Hör verstehen: (______/10) Mark whether you hear a “du”, an “ihr” or a “Sie” command Wer sagt.
Empirical Methods of Linguistic Research. What you will learn How to write an empirical research paper How to design an experiment / a questionnaire How.
Rules of Play - Game Design Fundamentals by Katie Salen and Eric Zimmerman Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung.
Es gibt there is (singular) or there are (plural)
Schreiben Sie fünf Sätze aus diesen Elementen. [Beispiel
Asking someone out in German.
COMMANDS imperative 1. you (formal): Sie 2. you (familiar plural): ihr
E STUNDE Deutsch AP. Dienstag, der 28. Mai 2013 Deutsch AP (E Stunde)Heute ist ein E Tag Goal: to understand authentic written text, audio material and.
Kapitel 4 Grammar INDEX 1.Ordinal Numbers 2.Relative Pronouns and Relative Clauses 3.Conditional Sentences 4.Posessive: Genitive Case.
EUROPÄISCHE GEMEINSCHAFT Europäischer Sozialfonds EUROPÄISCHE GEMEINSCHAFT Europäischer Fonds für Regionale Entwicklung Workpackage 5 – guidelines Tasks.
Imperfekt (Simple Past) Irregular or strong verbs
Kapitel 2 Grammar INDEX 1.Subjects & Verbs 2.Conjugation of Verbs 3.Subject Verb Agreement 4.Person and Number 5.Present Tense 6.Word Order: Position of.
Memorisation techniques
Kapitel 8 Grammar INDEX 1.Command Forms: The Du-Command Form & Ihr- Command 2.Sentences & Clauses.
E STUNDE Deutsch AP. Donnerstag, der 30. Mai 2013 Deutsch AP (E Stunde)Heute ist ein G Tag Goal: to understand authentic written text, audio material.
10.3 Lektion 10 Geschichte und Gesellschaft STRUKTUREN © and ® 2012 Vista Higher Learning, Inc Der Konjunktiv I and indirect speech —Ich komme.
Text complexity in and for literary studies. foundations.
Kapitel 9 Grammar INDEX 1.Formal Sie- Command 2.There Is/There Are 3.Negation: Nicht/Klein.
Das Wetter Lernziele: Heute: The „Wenn“ clause! - To describe and report the weather - To discuss activities done in different types of weather - To compare.
Großvater Großmutter Großvater Großmutter Tante/Onkel Vater Mutter.
Als ich mein Gesicht As I my face In der Wasserspiegelung sah, In the water’s reflection saw, Lachte ich über die Erinnerungen, I laughed about the memories.
Strukturen 4A.1 LEKTION 4A 4A.1-1© 2014 by Vista Higher Learning, Inc. All rights reserved. Das Plusquamperfekt Startblock Use the Plusquamperfekt tense.
Word order: 1.In a main clause the VERB is the second idea: Helgakommteben aus der Bäckerei This may not be the second word Meiner Meinung nachsind Hobbys.
Komm Mit! 1 Kapitel 4 Alles für die Schule!. ÜH, GH ÜH38, GH28.
B LOCKED DAY 1 OBJECTIVES: To consolidate vocabulary and structures within the theme of DIE UMWELT To further practise the techniques used in the prose.
How to play: Students are broken up into 2-3 teams (depending on class size). Students can see the game board and the categories, but not point values.
Coordinating Conjunctions but, however –aber* for, because –denn* or –oder but, rather –sondern and –und.
Interrogatives and Verbs
Partizipien genommengesungenbesuchtgebliebengeflogenbekommenaufgestandengeschwommenübernachtetgetrunkengegessengeschriebengekommengefundenbegonnen.
Grundlagen Englisch Passive voice HFW Bern.
Englisch Grundlagen, Modal Verbs
Frage des Tages Bin ich froh, wenn ich heute Abend ___ Hause bin!
You need to use your mouse to see this presentation
Jetzt machen Venues aufmachen!!! Geh zu
Students have revised SEIN and HABEN for homework
THE PERFECT TENSE IN GERMAN
Die Medien heute Montag, 19. November 2018 Lernziele
 Präsentation transkript:

Computergestützte Analyse multilingualer Korpora Elke Teich 3 Computergestützte Analyse multilingualer Korpora Elke Teich 3. Februar 2003

Was will man an multilingualen Korpora untersuchen? Beispiele: Wozu Korpora? empirische Grundlage bei linguistischen Fragestellungen Grundlage für computerlinguistische Modellierung: Trainieren statistischer Verfahren, machine learning (z.B. Parser, Grammatiken) Was will man an multilingualen Korpora untersuchen? Beispiele: Sprachunterschiede unter Berücksichtigung von Gebrauchsbedingungen (Sprachtypologie, Texttypologie) L2-Lehr/Lernmaterialien (kontrastive Linguistik) Maße für Übersetzungsqualität (Übersetzungswissenschaft) translation memories (Maschinelle Übersetzung) Wie geht man dabei vor? viele Daten (> zig tausend Wörter): computergestützte Analyse Korpora: zielgerichtete Textsammlungen (Text – speech, Sprachvarianten, mehrere Sprachen), elektronisch Erstmalig: grosse Datenmengen --- in allen Zweigen der Linguistik immer mehr!

Übersetzungen Was ist daran interessant? Textsorte, an der wir Multilingualität (z.B. Sprachtypologie, kontrastive Linguistik) „in action“ sehen können die wir im Alltag ständig antreffen Übersetzungen haben etwas „Spezielles“, das sie von Texten unterscheidet, die keine Übersetzungen sind. Wie kann man dieses „Spezielle“ herausarbeiten? Beobachtungen formulieren, an multilingualem Korpus überprüfen, computerlinguistische Techniken einsetzen. Mehrsprachigkeit betrifft uns im Alltag oder auch im Beruf meistens indirekt, aber ubiquitär! eine Art von Text, den viele von uns „konsumieren“und bei dem wir oft merken, dass er mit mehreren Sprachen zu tun hat: Übersetzung

Hydrogen burns to form water The secret strength of hydrogen Übersetzung: Alta Vista (Systran) Aller chemischen Elemente ist Wasserstoff in der Struktur und zuerst in der Verschiedenartigkeit seines chemischen Verhaltens das einfachste. Das Element selbst besteht als das Molekül H2, das als das hellste aller Gase weithin bekannt ist. Obgleich Industrie dieses Gas auf einer großen Skala benutzt, wird sie selten im täglichen Leben aus- genommen angetroffen, um Ballone zu füllen. Gleichwohl in 25 Jahren Zeit festsetzen sie, kann dieses das Gas sein, das in unsere Häuser zu den Kraftstoffdampfkesseln und -kochern geleitet wird – einmal haben wir herauf Versorgungsmaterialien des natürlichen Methangases verwendet, CH4. Wasserstoff brennt, um Wasser zu bilden, und ist folglich sauberer als die Gase, die Carbon enthalten. leichteste Gasgeräten Syntax Lexik Beobachtungen: Maßstäbe für falsch und richtig (Grammatik, Lexik) Subtilere Merkwürdigkeiten: Transitivität (QS scheint durch); Hydrogen burns to form water

The secret strength of hydrogen Original: Scientific American Of all the chemical elements, hydrogen is the simplest in structure, and first in the diversity of its chemical behaviour. The element Itself exists as the molecule H2 which is well known as the lightest of all gases. Although industry uses this gas on a large scale it is rarely encountered in everyday life except to fill balloons. However in 25 years time this may be the gas which is piped into our homes to fuel boilers and cookers - once we have used up supplies of natural methane gas, CH4. Hydrogen burns to form water, and hence is cleaner than gases containing carbon. Grün: Typologie (Existenzsatz, Artikel) Rot: Genre (Rhythmus – Anzahl der Silben, Reim); Anzahl der Silben: in D normalisiert; Hinzufügung: auch Register Zweite Strophe: Silbennormalisierung! [Handout]

Die geheime Kraft des Wasserstoffs Übersetzung: Spektrum der Wissenschaft Wasserstoff ist seinem Aufbau nach das einfachste, aber seinem Verhalten nach das vielseitigste von allen chemischen Elementen. Es existiert als Molekül H2, das als das leichteste aller Gase allgemein bekannt ist. Obwohl es industriell in großem Umfang genutzt wird, kommt es im täglichen Leben – außer beim Füllen von Ballons – kaum vor. Doch könnte gerade dieses Gas in einem Vierteljahrhundert, wenn die Vorräte an natürlichem Methangas, CH4, aufgebraucht sind, in den Gasgeräten unserer Haushalte Verwendung finden. Wasserstoff verbrennt zu Wasser und ist Somit weniger umweltbelastend als Gase, die Kohlenstoff enthalten. Grün: Typologie (Existenzsatz, Artikel) Rot: Genre (Rhythmus – Anzahl der Silben, Reim); Anzahl der Silben: in D normalisiert; Hinzufügung: auch Register Zweite Strophe: Silbennormalisierung! [Handout]

Art Spiegelman, Maus I Übersetzung: Christine Brinck, Josef Joffe Anderes Extrem: eine wirklich GUTE Übersetzung; Aber auch hier können wir beide Effekte beobachten: Auch wenn es den Übersetzern gelingt, den zielsprachlichen Text stark an die Zielsprache anzupassen (Idiolekt/Dialekt), also zu „normalisieren“, finden wir hier bei genauerem Hinsehen, dass die deutsche Variante nicht so stark markiert ist gegenüber der Standardsprache wie das in der englischen Variante der Fall ist – weil die QS durchscheint.

Übersetzungen & ihre spezifischen Eigenschaften (Auch gute) Übersetzungen haben spezifische Eigenschaften, die sie von Texten in derselben Sprache wie der Zielsprache (ZS) unterscheiden (vgl. Baker 95, 96; Toury 95, Teich 01) Spezifischen Produktionsbedingungen von Übersetzungen: induziert durch quellsprachlichen Text, zielsprachenorientiert; Hypothesen: Übersetzungen lassen die Quellsprache (QS) durchscheinen  shining through Übersetzungen gehorchen der ZS-Norm mehr als vergleichbare ZS-Originaltexte  normalization andere: explicitation, simplification, levelling-out Was ist denn „normal“? Was kann übertrieben normal gemacht werden? Was kann durchscheinen? Gut und schlecht: gut bedeutet mindestens richtig, aber trotzdem bleiben Unterscheide zu vergleichbaren Originaltexten, die KEINE Übersetzungen sind

Scientific American/Systran/ Spektrum der Wissenschaft (Original: Englisch) Hydrogen burns to form water, and hence is cleaner than gases containing carbon. Wasserstoff brennt, um Wasser zu bilden, und ist folglich sauberer als die Gase, die Carbon enthalten. Wasserstoff verbrennt zu Wasser und ist somit weniger umweltbelastend als Gase, die Kohlenstoff enthalten. Immer ein Thema: Übersetzungsqualität; Motivation für „gute“ Übersetzung Sprachtypologie: System (subject-forming properties E-D) (vgl. Doherty 93; Hawkins 84)  Sprachtypologie (System)

CAD/CAM User Manual; AutoCad (Original: Englisch) Englisch: To draw a polyline. Deutsch: So zeichnen Sie eine Polylinie. (Eine Polylinie zeichnen.) Russisch: Chtoby narisovatj poliliniju. IN-ORDER-TO DRAW POLYLINE Bulgarisch: Chertane na polilinija. DRAWING OF POLYLINE to-Infinitiv finiter Satz, deklarativ um zu + Infinitiv Nicht nur Dialekt, sonder auch REGISTER! Kontrastive Texttypologie (Register): Text Nominalisierung (vgl. Copernicus Project AGILE)  Texttypologie (Register)

Hypothesen & ihre Herleitung Sprachenpaar Englisch-Deutsch, Register populärwissenschaftlicher Texte Sprachtypologie (System): Prä/Postmodifikation der NP (E: Postmodifikation, D: Prämodifikation), Themaoptionen (E: grammatical word order, D: pragmatic word order), Transitivität (D: transitiv; E: ergativ) Texttypologie (registerspezifisch): Passiv, Nomina, komplexe Nominalgruppen, einfache Satzstruktur (relationale Prädikate)

Beispiele Sprachtypologie Transitivität (1) E: A material known as ionophore, which binds to membranes... (2) D: Eine Substanz, die als Ionophor wirkt. Sie setzt sich an der Membran fest. (3) E: Thus in water the hydrogen atoms exchange billions of times per second. (4) D: In Wasser etwa werden die Wasserstoffatome Milliardenmale pro Sekunde ausgetauscht. Prä/Postmodifikation (5) E: The voltages that would be expected to be produced in the cytoplasm of Fucus embryos, only 0.1 mm in length, would unfortunately be too close to the limits of microelectrode sensitivity to be measurable. (6) D: Die zu erwartenden Spannungen im Zellplasma würden bei den 0.1 mm lange Fucusembryonen leider schon unterhalb der für Mikroelektroden messbaren Grenze liegen.

Beispiele Texttypologie Einfache Satzstruktur, komplexe Nominalgruppen (1) E: So in Fucus, one of the events that translates asymmetry in the environment into asymmetry in the embryo is a polarised pumping of electric current, in the form of Ca++ ions. (2) D: Beim Fucus ist damit einer der Prozesse, der eine Asymmetrie aus der Umgebung in eine Asymmetrie des Embryos umsetzt, ein polarisierter elektrischer Strom von Ca++-Ionen. Nicht agentivische Darstellung (z.B. Passiv) (3) E: The behavior of acids is generally observed in water. (4) D: Gewöhnlich untersucht man das Verhalten von Säuren in Wasser. (5) D: Somit lassen sich auch bei diesen Spielen verschiedene Strategien in einer Auszahlungsmatrix gegenüberstellen und bewerten. (6) D: Dabei ist eine sehr bemerkenswerte Verlagerung zu verzeichnen. (7) D: In Lehrbüchern wird dieser Prozess oft durch die Gleichung HCl H++ Cl- dargestellt. (8) E: Text books often write this process as HCl H++ Cl-. (9) E: Thus in water the hydrogen atoms exchange billions of times per second.

Beispiel Passiv/Passivalternativen G-ORI – E-ORI Subkorpus 79 389 165 passive 278 active E-ORI 2 = 45.5; Signifikanz: 0.001 (1 df > 10.83) G-ORI Passiv typischer für E als für D passive 79 165 passive 146 64 alternatives E-ORI G-ORI 2 = 62.1; Signifikanz: 0.001 (1 df > 10.83) Passivalternativen typischer für D als für E

Hypothesen & ihre Herleitung: Passiv/Passivalternativen Hypothesenformulierung E-ORI—G-TL In Übersetzungen vom Englischen ins Deutsche liegt shining-through im Passivbereich vor, wenn in G-TL signifikant mehr Passive auftreten als in vergleichbaren deutschen Texten (G-ORI) In Übersetzungen vom Englischen ins Deutsche liegt normalization im Passivbereich vor, wenn in G-TL signifikant mehr Passivalternativen auftreten als in vergleichbaren deutschen Texten (G-ORI)

Hypothesen & ihre Herleitung: Passiv/Passivalternativen Hypothesenformulierung G-ORI—E-TL In Übersetzungen vom Deutschen ins Englische liegt shining-through im Passivbereich vor, wenn in E-TL signifikant mehr Passivalternativen auftreten als in vergleichbaren englischen Texten (E-ORI) In Übersetzungen vom Deutschen ins Englische liegt normalization im Passivbereich vor, wenn in E-TL signifikant mehr Passive auftreten als in vergleichbaren englischen Texten (E-ORI)

Korpus English original texts monolingually comparable corpus parallel corpus multilingually comparable corpus German translations English translations German original texts Pro Subkorpus: ca. 10 000 Wörter (10 samples, 1000 words); vergleichbar: pop-sci, expositorische Passagen (Register: populärwissenschaftliche Prosa; ca. 10 000 Wörter pro Subkorpus)

Analysetechniken & Methoden Korpusanreicherung: PoS (Part-of-Speech) tagging Korpusquery: reguläre Ausdrücke Resultate und Interpretation: Paare von Merkmalen, Chi-Quadrat Bewertung im Sinne von shining through, normalization

Techniken: Korpusanreicherung PoS-tagging: TnT (Brants 2000); Englisch (Susanne; Sampson 95), Deutsch (STTS; Hinrichs et al. 95) TnT output: If however a rapid , preferably instant effect is desired strophanthin will be needed . CS RR AT1 JJ YC NN1 VBZ VVN PN1 VM VB0 YF Passiv: VB* ... VVN

Techniken: Korpusquery Extraktion von Instanzen der ausgewählten lexiko-grammatischen Merkmale: CQP/ XKWIC (Christ 94) Query-Syntax: reguläre Ausdrücke Query Konkordanz

Resultate & Interpretation E-ORI G-TL G-ORI active 278 357 389 165 100 79 passive G-ORI – G-TL: 2 = 3.6; Signifikanz: 0.10 (1 df > 2.71)  schwaches shining-through (Passiv) in G-TL E-ORI G-TL G-ORI passive alternatives 64 163 146 passive 165 100 79 G-ORI – G-TL: 2 = 0.0; nicht signifikant  kein normalization-Effekt (Passivalternativen) in G-TL

Resultate & Interpretation G-ORI E-TL E-ORI active 389 218 278 79 186 165 passive E-ORI – E-TL: 2 = 7.9; Signifikanz: 0.01 (1 df > 6.64)  normalization (Passiv) in E-TL G-ORI E-TL E-ORI passive alternatives 146 62 64 passive 79 186 165 E-ORI – E-TL: 2 = 0.1; nicht signifikant  kein shining-through-Effekt (Passivalternativen) in E-TL

Resultate & Interpretation E-TL G-TL 1) passive vs. active normalization shining through 2) passive vs. passive alternatives --- 3) material vs. relational (other factor) 4) attributive vs. predicative 5) premod vs. postmod 6) full relative vs. dense postmod 7) full relative vs. dense mod 8) effective vs. middle 9) unmarked vs. marked theme Bei komplementären Effekten: E-TL normalisiert, G-TL shining through od. schwachere Normalisierung Bei nicht-signifikanten Unterschieden zw. E-OR I- G-ORI: kein Effekt in TLs oder doch ein Effekt – kann dann aber nicht norm/shin sein, das ist dann ein Effekt, der NUR in Übersetzungen auftritt Effekte: komplementär (1, 9), bidirektional (4, 5), unidirektional (6) mehr Effekte in G-TL; mehr shining through in G-TL, mehr normalization in E-TL Effekte, die nicht auf normalization/shining through zurückzuführen sind (3, 7, 8)

Resultate & Interpretation E-TL normalisiert mehr, G-TL lässt mehr durchscheinen (1) E-ORI: Thus, in water the hydrogen atoms exchange billions of times per second. G-TL: In Wasser etwa werden die Wasserstoffatome Milliardenmale pro Sekunde ausgetauscht. (2) E-ORI: ... this choice minimizes the risk of errors during translation G-TL: ...und damit die Gefahr von Übermittlungsfehlern verringert wird. (3) G-ORI: Für den praktischen Gebrauch benötigt man große Zahlen. E-TL: ...for practical application large numbers are needed. (4) G-ORI: Die Übermittlung einer Nachricht mit öffentlichen und geheimen Schlüsseln lässt sich auch in der Kryptologie verwircklichen. E-TL: Transmission of a signal with public and secret keys can be realized also in cryptology.  „habituelle“ Übersetzung TL kann Durchscheinen aus typologischen Gründen verkraften (TL-System macht spezifischere Unterscheidungen) TL muss aus typologischen Gründen kompensieren (geringere Spezifik des TL-Systems) – Normalisierung Kompensation von Lücken (i. Vgl. zu QS) mit immer wieder derselben Konstruktion Bei E-TL: Passiv kompensiert für die Passivalternativen Bei G-TL: Passiv kompensiert für weniger middle-Möglichkeiten

Zusammenfassung und Ausblick Übersetzungen „zwischen den Stühlen“: lassen QS durchscheinen, versuchen gleichzeitig ganz „normal“ für die ZS zu sein Anwendungen: Übersetzerische „Intuitionen“ beschreiben  differenzierte Maße für Übersetzungsqualität, Einfluß von Übersetzungen im Sprachwandel Theorie, z.B. Was ist „normal“? Registertheorie (Systemic Functional Linguistics; Halliday 85); wichtig für Hypothesen & Interpretation! Methoden/Techniken: Sprachtypologie, Texttypologie, Computerlinguistik, Korpuslinguistik

Zusammenfassung und Ausblick Methodologie zum Korpusvergleich; Beispiele: Abgrenzung verschiedener Register/Fachsprachen Entwicklung von Maßen für Textqualität in Abhängigkeit von Register/Genre multi-layer annotierte Korpora – längerfristiges Potenzial für Forschung und Lehre Linguistik: Theorie und Deskription auf Grundlage großer Datenmengen Informatik: Linguistische Datenbanken – Repräsentation und Abfrage Computerlinguistik: Training statistischer Verfahren auf Basis von annotierten Referenzkorpora (tree banks) Interdisziplinär: Anwendungen an der Schnittstelle Linguistik/Computerlinguistik/Informatik (content syndication, z.B. Informationsextraktion) Bezug zu Forschungsplan!!!

Übersetzungen, ML Texte Grammatik Sprachtypologie Texttypologie Sprache Text Grammatik-Text: durch Register verknüpft Systemwissenschaft – Textwissenschaft Übersetzungen sind extrem interessant für Linguisten!!! Übersetzungen, ML Texte Methoden: multi-layer annotierte Korpora, computerlinguistische Techniken

Thank you for your attention! Und ganz am Schluss... Synthetisieren von Thank god it‘s Friday? Roo + Sekt

Literatur (Baker 95) M. Baker, Corpora in translation studies: An overview and some suggestions for future research, Target 7(2):223-245. (Baker 96) M. Baker, Corpus-based translation studies: the challenges that lie ahead. In H. Somers (ed.), Terminology, LSP and Translation: Studies in Language Engineering in Honour of Juan C. Sager, Benjamins, Amsterdam, pp. 175-186. (Brants 00) T. Brants, TnT – A statistical part-of-speech tagger, Proceedings of the 6th Applied Natural Language Processing Conference (ANLP) 2000, Seattle, WA. (Christ 94) O. Christ, The IMS Corpus Workbench Technical Manual, Technical report, Institut für maschinelle Sprachverarbeitung, Universität Stuttgart. (Doherty 93) M. Doherty, Parametrisierte Perspektive, Zeitschrift für Sprach- wissenschaft 12(1):3-38. (Halliday 85) MAK Halliday, An Introduction to Functional Grammar. Edward Arnold, London. (Hawkins 84) J.A. Hawkins, A comparative typology of English and German. Croom Helm, London and Sydney. [Handout]

Literatur (Hinrichs et al 95) E. Hinrichs, Feldweg, H., Boyle-Hinrichs, M. and Hauser, R. Abschlußbericht ELWIS. Korpusunterstützte Entwicklung lexikalischer Wissens- basen für die Computerlinguistik, Technical report, Universität Tübingen. (Sampson 95) G. Sampson, English for the Computer. Oxford University Press, Oxford. (Teich 01) E. Teich, Contrast and commonality between English and German in system and text. A methodology for the investigation of cross-linguistic variation in translations and multilingually comparable texts. Habilitationsschrift, Universität des Saarlandes, Saarbrücken. (Toury 95) G. Toury, Descriptive translation studies and beyond. Benjamins, Amsterdam. [Handout]

German original texts A n z a h l T o k e n s English translations T y p e – T o k e n R a t i o [Handout]

Korpusvergleich    E-TL: länger, geringere Vokabularvariation G-ORI E-TL E-ORI sentence length 11.55 12.54 15.36 number of sentences 544 588 366 text length 10442 11051 10460 type-token ratio 49.24 38.66 39.61   max min E-ORI G-TL G-ORI sentence length 15.36 13.26 11.55 number of sentences 366 411 544 text length 10460 9927 10442 type-token ratio 39.61 47.24 49.24  E-TL: länger, geringere Vokabularvariation G-TL: „dazwischen“ [Handout]

Resultate & Interpretation Andere Effekte: explicitation, z.B. bei dense modification vs. full relative clauses E-ORI: At the heart of Rivest‘s asymmetric cypher is a one-way function based on the sort of modular functions described earlier... G-TL: Kern der asymmetrischen Verschlüsselung von Rivest ist eine Einwegfunktion, die auf oben beschriebenen Modulfunktionen beruht. G-TL: Kern der asymmetrischen Verschlüsselung von Rivest ist eine auf den oben beschriebenen Modulfunktionen beruhende Einwegfunktion. Effekte, die nur in Übersetzungen auftreten (nicht in G-ORI – E-ORI) E-ORI: Thus, the history of bioelectricity produced a discontinuity in scientific history. G-TL: So kam es, dass die Wissenschaftsgeschichte der Bioelektrizität diskontinuierlich verlaufen ist. G-TL: So produzierte die Geschichte der Bioelektrizität eine Diskontinuität in der Wissenschaftsgeschichte. (ungewollte Personifizierung!) bidirektionale Effekte: Kandidaten für universelle Merkmale? Übersetzungsprozessbedingte Erklärungen? Birektionaler Effekt: attributive Adjektive bei G-TL UND E-TL