Analyse multilingualer Korpora für übersetzungswissenschaftliche Fragestellungen Elke Teich FR 4.6, Angewandte Sprachwissenschaft, UdS Kolloquium.

Slides:

Advertisements

Ähnliche Präsentationen

Anzahl der ausgefüllten und eingesandten Fragebögen: 211

Advertisements

Hauptseminar im Sommersemester 2004

Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/ Berlin C. Fritze / O. Duntze : Das Deutsche Textarchiv Tag der.

LS 2 / Informatik Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)

Computergestützte Analyse multilingualer Korpora Elke Teich 3

eine Plattform für annotierte Korpora in XML

Seminar Textmining WS 06/07 Themen Übung 9 Multilingualität Weitere Termine: 13.7.Symbolfolgen und PageRank Findlinks mitstreiter gesucht!

Zusätzliche Lehrkräfte an der Schule (Schüler in Prozent) 6

Art der Arbeit (Projekt-/Studien-/Diplomarbeit/

Quantitative RT-PCR an nativen Prostatakarzinom-Biopsien: Etablierung der Technik und erste vergleichende Ergebnisse Medizinische Fakultät Universitätsklinikum.

Java: Grundlagen der Sprache

Die Registervariablen: Tenor of Discourse

MBT: A Memory-Based Part of Speech Tagger-Generator

MULI Multilinguale Informationsstruktur

Das AM Modell der Intonation

1. Satzbetonung, Töne, und Grundfrequenz

Die Prosodie Jonathan Harrington Felicitas Kleber.

Intonationsunterschiede zwischen dem Nord- und Süddeutschen

Rechneraufbau & Rechnerstrukturen, Folie 2.1 © W. Oberschelp, G. Vossen W. Oberschelp G. Vossen Kapitel 2.

1 Ein Computermodell zur Bestimmung von Begriffstypen Christof Rumpf Heinrich-Heine-Universität Tag der Forschung

1 Automatische Klassifikation von Nomen nach Begriffstyp Christof Rumpf Heinrich-Heine-Universität

Internet facts 2008-II Graphiken zu dem Berichtsband AGOF e.V. September 2008.

Grundkurs Linguistik Programm der Vorlesung Oktober

Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil2.

1Ausgewählte Themen des analogen Schaltungsentwurfs Zusammenfassung Einführung Teilchendetektore – Sensorstrukturen, Verstärker, Rauschen, Geschwindigkeit.

Prof. Dr. Bernhard Wasmayr

Vortrag III Hier in der Vorlesungszeit! Anwesenheitspflicht Jede Gruppe hat 6 Minuten! Stellt eure GUI vor –was ihr besonderes gemacht habt –Spektakuläre.

Studienverlauf im Ausländerstudium

Aufgabenstellung: Grunderhebung der MO-Struktur (direkte Zellzahlbestimmung; SSCP-Fingerprinting von amplifizierter 16S rDNS und rRNS) x Zeitliche.

Prof. Dr. Bernhard Wasmayr VWL 2. Semester

AWA 2007 Natur und Umwelt Natürlich Leben

Zerlegung von Quadraten und ????

Wiederholung Welche Registervariablen gibt es? Was sollen sie ausdrücken? Wie stehen sie in Beziehung zu den Metafunktionen?

Schnelles und effizientes Suchen. Was ist MPEG 7? Wie funktioniert MPEG? Was bietet MPEG 7? Wo wird MPEG 7 verwendet?

Prof. Dr. Günter Gerhardinger Soziale Arbeit mit Einzelnen und Familien Übersicht über die Lehrveranstaltung Grundlegende Bestimmungsfaktoren der Praxis.

Knowledge Discovery mit Wordnet und Alembic Workbench

1 Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)

Die Naturgesetze der Sprache

Eine Einführung in die CD-ROM

Physik Geschichte Geografie Chemie Biologie crede quod habes, et habes

Project Perseus Der volle Projektname lautet Perseus Digital Library Project. Das Projekt begann in 1985 als Experiment zur Digitalisierung von Bibliotheken.

Texttyp - Textsorte - Vertextungsmuster

Peter Grzybek Projekt # (FWF) Projekt # 43s9 (OEAD/SAIA) Graphem-Häufigkeiten.

Worüber Sie (nicht) sprechen entscheiden Sie Earnest Hemingway said that a good short story was like an iceberg: ninety percent of it was invisible. A.

Sachtexte schreiben & überarbeiten

Peter Grzybek Warum messen wir Wortlängen nicht in der Anzahl

LOGPAT ein webbasiertes Tool zur Analyse von Navigationsverläufen in Hypertexten Stephan Noller, humanIT Johannes Naumann, Universität zu Köln Tobias Richter,

Ertragsteuern, 5. Auflage Christiana Djanani, Gernot Brähler, Christian Lösel, Andreas Krenzin © UVK Verlagsgesellschaft mbH, Konstanz und München 2012.

MR-Mammographie beim vererbbaren Mammakarzinom

Szenisches Lernen Wie Theaterelemente den Unterricht bereichern

MINDREADER Ein magisch - interaktives Erlebnis mit ENZO PAOLO

Plötzlicher Herztod – Definition (I)

Beispiel 1.4 Ein Kreditinstitut bietet folgende Varianten für die vertragliche Gestaltung eines Kontokorrentkredits an: Nettozinssatz 10 % p.a Zinssatz.

Parkplatz-Orga Diese Version ist vom finale Version!

Folie Beispiel für eine Einzelauswertung der Gemeindedaten (fiktive Daten)

Kontrastive Untersuchung von Präpositionen (D-Fr)

Forschungsprojekt Statistik 2013 „Jugend zählt“ – Folie 1 Statistik 2013 „Jugend zählt“: Daten zur Arbeit mit Kindern und Jugendlichen.

Folie Einzelauswertung der Gemeindedaten

Repräsentation und Abfrage von multi-layer Korpora Elke Teich, FR 4

Jonathan Harrington: "Die phonetischen Grundlagen des Lautwandels“

GATE/Annie Zara Kanaeva, November 2002, Information Extraction.

Kapitel 2 Grammar INDEX 1.Subjects & Verbs 2.Conjugation of Verbs 3.Subject Verb Agreement 4.Person and Number 5.Present Tense 6.Word Order: Position of.

Academic writing in German Deutsche Wissenschaftssprache Transition Module 5a developed by Elisabeth Wielander.

Die klassischen Methoden der historisch-vergleichenden Forschung Universität Zürich Soziologisches Institut Seminar: Methoden des internationalen Vergleichs.

Amir Zeldes Korpuslinguistik Zusammenfassung.

Präsentation transkript:

Analyse multilingualer Korpora für übersetzungswissenschaftliche Fragestellungen Elke Teich FR 4.6, Angewandte Sprachwissenschaft, UdS Kolloquium „Exploitation of natural language corpora“ 12/7/02

Hintergrund I Gegenstand: Spezifische, möglicherweise universelle Eigenschaften von Übersetzungen/ Verdolmetschungen Hermeneutik: law of interference, law of growing standardization (Toury 95) Übersetzungswissenschaft: normalization, sanitization, simplification, explicitation, levelling out (Baker 95, 96; Kenny 95) Linguistik: Informationsdichte/Informationsverteilung (Fabricius-Hansen 96, Doherty 91, 93, 96, 99) Psycholinguistik: Verarbeitungsprozesse (Krings 86, Lörscher 91)

Hintergrund II Gegenstand: Interaktion Intonation und Grammatik Korrelationen bestimmter Tonhöhenverläufe mit bestimmten grammatischen Konstruktionen (z.B. continuation tone) Verhältnis stress und Informationsfokus Prosodiephänomene in Verdolmetschungen (z.B. Segmentierung im Dolmetschprodukt, Implikationen für die Sprachverarbeitung) Datenbanken gesprochener Sprache Einzelsätze: ToBI, SFG; EMU Dialoge: SFG (Dialogstruktur, Grammatik, Prosodie); EMU

Ziele des Vortrags Methodologie zur Untersuchung der spezifischen Eigenschaften von Übersetzungen Techniken der Korpusanreicherung und Extraktion/Query; Probleme: Abfragbarkeit des annotierten Korpus

Korpusbasierte Übersetzungswissenschaft Beobachtungen & Hypothesen: Übersetzungen sind länger (Anzahl der tokens/Wörter) als ihre QS-Texte  explicitation haben kürzere Sätze (Anzahl der tokens/Wörter pro Satz) als vergleichbare ZS-Originaltexte haben mehr Sätze als vergleichbare ZS-Originaltexte haben eine niedrigere type-token ratio als vergleichbare ZS-Originaltexte haben eine geringere lexikalische Dichte als vergleichbare ZS-Originaltexte sind „normaler“ als vergleichbare ZS-Originaltexte  normalization, standardization lassen QS durchscheinen  interference, shining-through Korpusdesign: comparable corpus, z.B. englische Übersetzungen und englische Originaltexte  simplification

Beispiel Übersetzungen D-E, E-D G-ORI E-TL E-ORI sentence length 11.55 12.54 15.36 number of sentences 544 588 366 type-token ratio 49.24 38.66 39.61   max min E-ORI G-TL G-ORI sentence length 15.36 13.26 11.55 number of sentences 366 411 544 type-token ratio 39.61 47.24 49.24  Beobachtungennicht bestätigt Effekte: zielsprachenspezifisch? quellsprachenabhängig?

Beispiel Übersetzung E-D BEDS come in all sizes – Single or double, Cot-size or cradle, King-size or trundle. Most Beds are Beds For sleeping or resting, But the best Beds are much More interesting! BETTEN gibt‘s in allen Größen – Einzel oder Doppel Feldbett oder Wiege Riesig oder rollend. Meist sind Betten: Betten Für den Schlaf und für die Ruh Die besten Betten aber sind: Viel interessanter – hör mal zu! Grün: Typologie (Existenzsatz, Artikel) Rot: Genre (Rhythmus – Anzahl der Silben, Reim); Anzahl der Silben: in D normalisiert; Hinzufügung: auch Register Zweite Strophe: Silbennormalisierung! Interpretation: explicitation?; Erklärung: Genre/Register (Silvia Plath, Das Bett-Buch; Übersetzung: Eva Demski)  Übersetzung ist länger (E: 30 W/42 S, D: 36 W/55 S) Interpretation? Erklärung? Sprachtypologie Genre (+Register)

Kritikpunkte, Schlußfolgerungen andere ZS: Beobachtungen teilweise nicht bestätigt Ebene der Beobachtungen bei Baker et al. sehr shallow – Interpretation? Erklärungen? Alternativer Ansatz: Basis Kontrastive Linguistik Ebenen der Beobachtungen: Lexikogrammatik, Semantik, Text Theorie: Sprachtypologie, Kontrastive Registertheorie, (Verarbeitungsprozesse) Methoden: Korpusdesign + multilingual vergleichbares Korpus von Originaltexten + Parallelkorpus Techniken: automatische und halbautomatische Korpusanreicherung und Extraktion/Query

Methode: Korpus original texts translations English parallel corpus monolingually comparable corpus parallel corpus multilingually comparable corpus German translations English translations German original texts

Beispiel Korpusuntersuchung Übersetzungen von populärwissenschaftlichen Texten E-D, D-E Scientific American/Spektrum der Wissenschaft („Doherty-Korpus“) und populärwissenschaftliche Buchpublikationen ein Register: verschiedene fields, tenor: Experte – Laie  Vergleichbarkeit „gute“ Übersetzungen pro Subkorpus: 10 samples à 1000 Wörter (ca. 10 000 Wörter); expositorisch Hypothesen & ihre Herleitung: Beispiel normalization, shining through – Wie „normal“ definieren? Resultate & Interpretation Techniken der Analyse

Theorie: Sprachtypologie, Registertheorie Sprachtypologie (cf. Hawkins 84, Doherty 91), z.B. E-ORI: Clinical experiments have also compared the mixture of interferons produced by white blood cells with single interferons produced by bacteria. G-TL1: Klinische Versuche haben auch das Interferongemisch der weißen Blutkörperchen mit den einzelnen bakteriellen Interferonarten verglichen. G-TL2: In klinischen Versuchen wurde auch das Interferongemisch der weißen Blutkörperchen mit den einzelnen bakteriellen Interferonarten verglichen. Kontrastive Registertheorie, z.B. Biber 95; Halliday 85, 88, 98; Fluck 90: relative Häufigkeit bestimmter lexikogrammatischer Merkmale (signifikant) z.B. in (populär)wissenschaftlichen Texten Passiv+Passivalternativen, komplexe Nominalgruppen, einfache Satzstruktur (relationale Prädikate)

Beispiel Passiv/Passivalternativen G-ORI – E-ORI Subkorpus G-ORI E-ORI active 389 278 passive 79 165 2 = 45.5; Signifikanz: 0.001 (1 df > 10.83) G-ORI E-ORI passive 79 165 passive 146 64 alternatives 2 = 62.1; Signifikanz: 0.001 (1 df > 10.83)

Hypothesen & ihre Herleitung: Passiv/Passivalternativen Hypothesenformulierung E-ORI—G-TL In Übersetzungen vom Englischen ins Deutsche liegt shining-through im Passivbereich vor, wenn in G-TL signifikant mehr Passive auftreten als in vergleichbaren deutschen Texten (G-ORI) In Übersetzungen vom Deutschen ins Englische liegt normalization im Passivbereich vor, wenn in G-TL signifikant mehr Passivalternativen auftreten als in vergleichbaren deutschen Texten (G-ORI)

Hypothesen & ihre Herleitung: Passiv/Passivalternativen Hypothesenformulierung G-ORI—E-TL In Übersetzungen vom Deutschen ins Englische liegt shining-through im Passivbereich vor, wenn in E-TL signifikant mehr Passivalternativen auftreten als in vergleichbaren englischen Texten (E-ORI) In Übersetzungen vom Deutschen ins Englische liegt normalization im Passivbereich vor, wenn in E-TL signifikant mehr Passive auftreten als in vergleichbaren englischen Texten (E-ORI)

Resultate & Interpretation E-ORI G-TL G-ORI active 278 357 389 165 100 79 passive G-ORI – G-TL: 2 = 3.6; Signifikanz: 0.10 (1 df > 2.71)  schwaches shining-through (Passiv) in G-TL E-ORI G-TL G-ORI passive alternatives 64 163 146 passive 165 100 79 G-ORI – G-TL: 2 = 0.0; nicht signifikant  kein normalization-Effekt (Passivalternativen) in G-TL

Resultate & Interpretation G-ORI E-TL E-ORI active 389 218 278 79 186 165 passive E-ORI – E-TL: 2 = 7.9; Signifikanz: 0.01 (1 df > 6.64)  normalization (Passiv) in E-TL G-ORI E-TL E-ORI passive alternatives 146 62 64 passive 79 186 165 E-ORI – E-TL: 2 = 0.1; nicht signifikant  kein shining-through-Effekt (Passivalternativen) in E-TL

Resultate & Interpretation E-TL G-TL 1) passive vs. active normalization shining through 2) passive vs. passive alternatives --- 3) material vs. relational (other factor) 4) attributive vs. predicative 5) premod vs. postmod 6) full relative vs. dense postmod 7) full relative vs. dense mod 8) effective vs. middle 9) unmarked vs. marked theme Bei komplementären Effekten: E-TL normalisiert, G-TL shining through od. schwachere Normalisierung Bei nicht-signifikanten Unterschieden zw. E-OR I- G-ORI: kein Effekt in TLs oder doch ein Effekt – kann dann aber nicht norm/shin sein, das ist dann ein Effekt, der NUR in Übersetzungen auftritt mehr Effekte in G-TL: mehr shining through in G-TL weniger Effekte in E-TL: mehr normalization in E-TL Effekte: komplementär (1, 9), bidirektional (4, 5), unidirektional (6) Effekte, die nicht auf normalization/shining through zurückzuführen sind (3, 7, 8)

Techniken: Basis German original texts T e x t / S a t z l ä n g e, S a t z a n z a h l German original texts T y p e – T o k e n R a t i o English translations

Techniken: Korpusannotation I PoS-tagging: TnT (Brants 2000); Englisch (Susanne; Sampson 95), Deutsch (STTS; Hinrichs et al. 95) TnT output (TSV): If CS however RR a AT1 rapid JJ , YC preferably RR instant JJ effect NN1 is VBZ desired VVN strophanthin PN1 will VM be VB0 needed VVN . YF

Techniken: Korpusquerying Extraktion von Instanzen der ausgewählten lexiko-grammatischen Merkmale: CQP/ XKWIC (Christ 94) Query-Syntax: reguläre Ausdrücke Query Konkordanz Batterie von queries zu allen möglichen Biber-features und anderen Register features; Auch als Parallelkonkordanz (CQP)

Techniken: Korpusannotation II Abstraktere Merkmale, z.B. funktional-grammatische Prädikatstypen (SFG: process types) Special/general-purpose tools wie TATOE (Alexa & Rostek 99), Coder (O‘Donnell 95) <codings> <header> <scheme file="D:/Elke/Coder3.4.1/Schemes/transitivity-g.scheme"></scheme> </header> <body> <segment features="clause relational circumstantial attributive" >Wo sind eigentlich die Organismen geblieben? </segment> <segment features="clause material middle-nonranged doing creative nonbenefactive" >In den letzten Jahren hat sich in der Biologie etwas sehr Sonderbares und Interessantes ereignet: <segment features="clause relational circumstantial attributive" >Die Organismen als Grundeinheiten des Lebens sind auf der Strecke geblieben. <segment features="clause material effective-nonranged doing dispositive nonbenefactive" >Sie wurden von den Genen abgelöst, <segment features="clause material effective-nonranged doing creative nonbenefactive" >die sämtliche Grundmerkmale annahmen, ... </body> Batterie von queries zu allen möglichen Biber-features (verschiedene Dimensionen) und anderen Register-features sowie eine Reihe von Parallelkonkordanzqueries

Techniken: Korpusquerying

Probleme Verschiedene Annotationen nicht gemeinsam querybar: heterogene Informationsquellen verschiedene Formate verschiedene Datenstrukturen Integrierte Repräsentation, z.B. XML Aber: Problem Query Our-XML: character offsets; spoken: time offsets Trade-off: Spezialsyntax (Mate, TigerSearch)  „einfache“ Querysprache vs. SQL (AGs), XQuery, XSLT (XML)  mehr Tools (Validierung etc)  Fundierte requirements Analyse (Linguistik, informiert durch Informatik)

Beispiel Our-XML (Teich et al. 2001) <?xml version="1.0" encoding="UTF-16"?> <words> <word pos="NN2" start="1" end="10">Textbooks</word> <word pos="VV0" start="12" end="16">write</word> <word pos="DD1" start="18" end="21">this</word> <word pos="NN1" start="23" end="29">process</word> <word pos="II" start="31" end="32">as</word> <word pos="NP1" start="34" end="45">HCl H++ Cl-</word> <word pos="YC" start="46" end="46">.</word> </words> <clause semfeat="verbal"> <phrase synform="NP" synfunc="SB" start="1" end="10"> Textbooks</phrase> <phrase synform="VP" synfunc="HD" start="12" end="16"> write</phrase> <phrase synform="NP" synfunc="OA" start="18" end="29"> this process</phrase> <phrase synform="PP" synfunc="MO" start="31" end="45"> as HCl H++ Cl-</phrase> <text start="46" end="46">.</text> </clause> (Teich et al. 2001)

Probleme Integrierte Repräsentation verschiedener Annotationen (cf. multi-layer Problematik): Skripts: z.B. XML, Ags – aber query? CQP (Christ 94) TigerSearch (König & Lezius 2002) GSearch (Corley et al., 2001) Mate (Heid & Mengel, 99; McKelvie et al., 2001), aber: skaliert nicht (Stand: 2001); Nachfolgeprojekt: Nite (Bernsen et al., 2002)? Relationale DBMS, z.B. EMU (Cassidy & Harrington 2001); SQL Semistrukturierte Daten: XSLT, XQuery Intersecting hierarchies – ok; aber: overlapping segments? annotation graphs (Bird & Liberman 2001) Mate, stand-off markup (Thompson & McKelvie97), Our-XML aber: Query? AGs: ? (Scott & Bird 2001); XML: XQuery? special purpose general Our-XML: character offsets; spoken: time offsets Trade-off: Spezialsyntax (Mate, TigerSearch)  „einfache“ Querysprache vs. SQL (AGs), XQuery, XSLT (XML)  mehr Tools (Validierung etc)  Fundierte requirements Analyse (Linguistik, informiert durch Informatik)

Zusammenfassung und Ausblick Annotierte Korpora als linguistische Datenbanken: Linguistik Welche Arten von Beziehungen? Dominanz, lineare Abfolge, binding, Kohäsion, semantische Relationen... Verschiedene Perspektiven auf ein Korpus Abfragen auf mehreren Annotierungsschichten Vergleich verschiedener Annotierungen desselben Korpus Informatische Techniken superimposed information Querysprachen Tool kit: Skripts „externe“ tools (TSV, Baum, AG, your-XML) – our-XML Definition von Querytypen (XQuery; XSLT) zusätzliche layers; mehr Daten your-xml: z.B. Tiger