Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Parallelkorpora Einführung Amir Zeldes

Ähnliche Präsentationen


Präsentation zum Thema: "Parallelkorpora Einführung Amir Zeldes"—  Präsentation transkript:

1 Parallelkorpora Einführung Amir Zeldes amir.zeldes@rz.hu-berlin.de

2 SE Parallelkorpora WS 2008/2009 1 Organisatorisches Kontakt: amir.zeldes@rz.hu-berlin.de (030) 2093-9727, R. 3.310 amir.zeldes@rz.hu-berlin.de Sprechstunde: Montags, 14-15 Uhr

3 SE Parallelkorpora WS 2008/2009 2 Organisatorisches Webseite in Moodle (einfach Parallelkorpora suchen und sich eintragen!)Moodle Moodle-Key: xxxxxxxx Zusätzliche Seite, falls Moodle nicht funktioniert: http://www.linguistik.hu- berlin.de/institut/professuren/korpuslinguistik/lehre/ws- 2008/parallelkorpora http://www.linguistik.hu- berlin.de/institut/professuren/korpuslinguistik/lehre/ws- 2008/parallelkorpora

4 SE Parallelkorpora WS 2008/2009 3 Organisatorisches Forschungskolloquium Korpuslinguistik Mi 18-20 Uhr, Plan unter: http://www.linguistik.hu- berlin.de/institut/professuren/korpuslinguistik/l ehre/ws-2008/forschungskolloquium Weitere korpuslinguistische Kurse:  52 20150 Korpuslinguistik / A. Lüdeling

5 SE Parallelkorpora WS 2008/2009 4 Organisatorisches Mailingliste für korpuslinguistische Ankündigungen https://appel.rz.hu-berlin.de/sympa/wwsympa/info/korpinfo https://appel.rz.hu-berlin.de/sympa/wwsympa/info/korpinfo

6 SE Parallelkorpora WS 2008/2009 5 Anforderungen Anwesenheit, Literatur lesen Für einen Seminarschein bzw. die MAP:  Referat (ca. 30 Minuten)  Hausarbeit (ca. 10 Seiten)

7 SE Parallelkorpora WS 2008/2009 6 Anforderungen Referatthemen in 5-6 Wochen im Seminar kurz vorstellen, um Feedback zu bekommen Referate werden voraussichtlich nach Weihnachten gehalten Bitte die Folien eine Woche im Voraus schicken! Nutzen Sie die Sprechstunde um Ihre Referate bzw. Hausarbeiten zu besprechen

8 SE Parallelkorpora WS 2008/2009 7 Plan für heute 1. Vorstellung der Grundbegriffe Korpus und Korpuslinguistik Parallelkorpora Alignierung 2. Anwendungsbereiche im Überblick Übersetzungsstudien und dazugehörige Fragestellungen Typologischer und historischer Sprachvergleich Maschinelle Übersetzung und Lexikographie …

9 SE Parallelkorpora WS 2008/2009 8 Was sind eigentlich Korpora? Korpora sind nach bestimmten Kriterien gebauten Sammlungen von linguistischen Daten (Texte, gesprochene Sprache und mehr) Korpuslinguistik beschäftigt sich mit  dem Aufbau,  der Auszeichnung und  der Auswertung von Korpora

10 SE Parallelkorpora WS 2008/2009 9 Ein typisches Korpus? Die Zusammensetzung eines Korpus ist abhängig von den Fragestellungen, die man beantworten möchte:  Was für ein Korpus brauche ich, um Jugendsprache zu untersuchen? („Ich mach dich Messer“ [Wiese 2006])  Um den Gebrauch von Komposita in Fachliteratur und Belletristik zu vergleichen? (Erbbaurechtsbestellungsverträge vs. Mitgliederversammlung)

11 SE Parallelkorpora WS 2008/2009 10 Repräsentativität Ein Korpus soll möglichst repräsentativ sein:  Die Verhältnisse unterschiedlicher Untergruppen im Korpus entsprechen den Verhältnissen in der Population  Faktoren, deren Verteilung als uninteressant gilt, sollen explizit vorgestellt werden Nur so kann man Ergebnisse auf die Population übertragen!

12 SE Parallelkorpora WS 2008/2009 11 Beispiel Ein Korpus von akademischen Gesprächen in Seminaren Verhältnis der Fächer im Korpus entspricht dem Verhältnis der Seminare im Vorlesungsverzeichnis Geschlecht der Sprecher: nicht relevant (das ist eine Vorannahme!)

13 SE Parallelkorpora WS 2008/2009 12 Andere Fragestellung Wenn unsere Fragestellung lautet: „sprechen Studenten und Studentinnen anders in Seminaren? und wenn ja, in welchen Fächern?“ Hierfür braucht man vergleichbare Mengen von Frauen und Männern

14 SE Parallelkorpora WS 2008/2009 13 Ausgewogenheit Korporasollen ausgewogen sein:  Alle Untergruppen erhalten eine angemessene Belegung  Die Entscheidung, welche Gruppen belegt werden, birgt wieder Vorannahmen! Dies steht manchmal im Widerspruch zur Repräsentativität!

15 SE Parallelkorpora WS 2008/2009 14 Beispiel Fragestellung: „Sprechen Informatiker und Informatikerinnen ähnlicher wie einander als Germanisten und Germanistinnen?“ Ausgewogenheit: Geschlechter sollen gleich belegt sein Repräsentativität: die Verteilung der Geschlechter in den Fächern ist nicht homogen!

16 SE Parallelkorpora WS 2008/2009 15 Fazit Das Korpus muss zur Fragestellung passen Vorannahmen sollen explizit gemacht werden (was ist wichtig?)

17 SE Parallelkorpora WS 2008/2009 16 Was bedeutet „parallel“? WDG: parallẹl /Adj./ 〈 griech. 〉 mit einer anderen Geraden in gleicher Richtung verlaufend, sie aber nicht kreuzend: Math. p. Geraden ⌉ ; eine p. Linie; [ein Weg] der parallel zum Horizont läuft Remarque Im Westen 156; die Eisenbahnlinie verläuft p. zur Straße, zum Fluß; /übertr./ eine p. Entwicklung; etw. entwickelt sich p.; [www.dwds.de]

18 SE Parallelkorpora WS 2008/2009 17 Parallelkorpora sind spezielle Korpora linguistischer Daten, die mehrsprachige parallele Texte enthalten werden vor allem in der Korpuslinguistik sowie in der Computerlinguistik erstellt werden aber in diversen Bereichen verwendet

19 SE Parallelkorpora WS 2008/2009 18 Parallelkorpora Korpus 1 Korpus 1 Korpus 2 Parallel = ?

20 SE Parallelkorpora WS 2008/2009 19 Was bedeutet „parallel“? Einige Forscher verwenden den Begriff „Parallelkorpus“ für jedes mehrsprachige Korpus und unterscheiden:  Übersetzungskorpus – enthält ausschließlich Übersetzungen derselben Texte (jede Sprache hat genau dieselben Inhalte bzw. sog. „Bi-Texts“)  Vergleichbares Korpus – enthält unabhängige Texte zu denselben Themen in vergleichbaren Mengen

21 SE Parallelkorpora WS 2008/2009 20 Was bedeutet „parallel“? Inzwischen hat sich eine andere Terminolgie durchgesetzt:  Parallelkorpora: enthalten i.d.R. alignierte Übersetzungen (Bi-Texts)  Vergleichbare Korpora: enthalten vergleichbare aber unterschiedliche Originaltexte in jeder Sprache

22 SE Parallelkorpora WS 2008/2009 21 Der Rosettastein Klassisches Beispiel eines Bi-Texts (bzw. Tri-Texts) An sich kein Korpus  Text ≠ Korpus!!

23 SE Parallelkorpora WS 2008/2009 22 Was sagt uns ein Bi-Text? Text mehrmals enthalten Derselbe Inhalt Was entspricht was?

24 SE Parallelkorpora WS 2008/2009 23 Was sagt uns ein Bi-Text? Text mehrmals enthalten Derselbe Inhalt Was entspricht was?

25 SE Parallelkorpora WS 2008/2009 24 Was sagt uns ein Bi-Text? Text mehrmals enthalten Derselbe Inhalt Was entspricht was? ΠΤΟΛΕΜΑΙΟΥ P T O L M I I S P T O L E M A I O U ? ?

26 SE Parallelkorpora WS 2008/2009 25 Parallel und vergleichbar zugleich? Ein Korpus kann viele unterschiedliche Texte enthalten, wenn das zur Fragestellung passt (unterschiedliche Längen, Genres, etc.) Man muss nicht ausschließlich Texte benutzen, von denen man auch eine Übersetzung hat Oft benutzt man Parallelkorpora und vergleichbare Korpora zusammen

27 SE Parallelkorpora WS 2008/2009 26 Übersetzungen und Standardkorpora Die meisten Nationalkorpora (bspw. BNC) enthalten zwar sehr unterschiedliche Textsorten, aber keine Übersetzungen Übersetzungen sind ‚schlechtes‘ bzw. unnatürliches Englisch (oder Deutsch oder…) Linguistik interessiert sich für die „echte“ Sprache

28 SE Parallelkorpora WS 2008/2009 27 Gegenargumente Übersetzungen sind ein legitimes autonomisches Genre in jeder Sprache (evtl. auch von jeder Sprache oder für jedes Sprachpaar) Übersetzungen sind ein sprachunabhängig interessantes Phänomen, deren Gesetzmäßigkeiten untersucht werden sollen Übersetzungen sind auch für den Vergleich zwei autochthoner Sprachen interessant

29 SE Parallelkorpora WS 2008/2009 28 Sprachvergleich Grundfragestellungstyp: Was macht Sprache B in derselben Situation?  Wie sagt man na wenn schon auf Englisch? > Was ist dieselbe Situation?

30 SE Parallelkorpora WS 2008/2009 29 Sprachvergleich Man überprüft eine Übersetzung: „who cares?“ Parallele Stelle in der Übersetzung = „die selbe Situation“? > Sachverhalt oder Kontext unabhängig von der sprachlichen Realisierung

31 SE Parallelkorpora WS 2008/2009 30 Sprachvergleich Hätte ein Sprecher von Sprache B das außerhalb einer Übersetzung gesagt? Wie kann man das untersuchen? > Vergleichbare Korpora sind autochthon und unabhängig – kommt diese Form mit dieser Bedeutung auch sonst vor?

32 SE Parallelkorpora WS 2008/2009 31 Gegenseitige Ergänzung Parallelkorpora Vergleichbare Korpora ABCDABCD ABCEABCE III IIIIV III IVV Englisch Deutsch

33 SE Parallelkorpora WS 2008/2009 32 Historischer Sprachvergleich Manchmal hat man denselben Text in mehreren Sprachstufen (z.B. die Bibel oder andere „Klassiker“) Man kann dann zwei Sprachstufen genauso wie unabhängige Sprachen empirisch vergleichen – was entspricht was? Das gilt auch für verwandte Sprachen (der Vergleich zweier Sprachen einer Sprachfamilie)

34 SE Parallelkorpora WS 2008/2009 33 Anwendungsbereiche Angewandt  Mehrsprachige Lexikographie / Terminologie  Maschinelle Übersetzung / Übersetzungshilfe  Übersetzungspädagogik Theoretisch  Übersetzungsstudien  Vergleichende Sprachwissenschaft / Dialektologie  Typologie  Sprachgeschichte / Sprachwandel  …

35 SE Parallelkorpora WS 2008/2009 34 Mehrsprachige Lexikographie/Terminologie Parallelkorpora erlauben Lexikographen eine direkte Untersuchung: was entspricht was? Belegdatenbank: echte Übersetzungsbeispiele Werden alle möglichen Übersetzungen abgedeckt? Besonders für Terminologien/Fachlexika: Suche nach Fach bzw. Genre anhand unterschiedlicher Subkorpora

36 SE Parallelkorpora WS 2008/2009 35 Maschinelle Übersetzung Wie können Computer natürliche Sprache automatisch übersetzen? Woher wissen sie, was mit was aligniert ist? Was passiert, wenn es kein Beispiel für die erwünschte Übersetzung gibt?

37 SE Parallelkorpora WS 2008/2009 36 Vergleichende Sprachwissenschaft Wie kann man Sprachen empirisch vergleichen? Quantitative und qualitative Vergleiche Die Möglichkeit, Quantitäten im historischen Sprachvergleich zu betrachten – wie viel hat sich im Laufe der Zeit geändert und wann?

38 SE Parallelkorpora WS 2008/2009 37 Typologie Welche Merkmale sind für was für Sprachen typisch? Wie häufig sind sie? Gibt es implikatorische Regeln? (wenn A für eine Sprache gilt, dann auch B) Vergleichbarkeit durch Parallelkorpora (versichert gleiche Wahrscheinlichkeiten) Parallele Wortlisten Parallele Elizitationsdaten (z.B. Fragebögen)

39 SE Parallelkorpora WS 2008/2009 38 Übersetzungsstudien Was sind typische Eigenschaften übersetzter Sprache, im Allgemeinen oder speziell für das Deutsche? Die Suche nach Übersetzungsuniversalien Was ist die Rolle des Übersetzers? Was beeinflusst die Flexibilität der Übersetzungsmöglichkeiten? …

40 SE Parallelkorpora WS 2008/2009 39 Übersetzungspädagogik Datenbasis für die Erstellung von Lehrwerken Hilfsmittel für Übersetzer (Beispielbank, sog. „Translation Memory“)

41 SE Parallelkorpora WS 2008/2009 40 Ihre eigenen Wünsche? Themen Fragestellungen Sprachen Korpora …?

42 SE Parallelkorpora WS 2008/2009 41 Literatur Ajmer, K. (erscheint), Parallel Corpora. In: Lüdeling, A./Kytö, M. Corpus Linguistics: An International Handbook. Berlin: Mouton de Gruyter. Baker, M. (1996), Corpus-based Translation Studies: The Challenges that Lie Ahead. In: Somers, H. L. (ed.), Terminology, LSP and Translation. Amsterdam: Benjamins, 175-186. Manning, C.D. & Schütze, H. (1999), Foundations of Statistical Natural Language Processing. Cambridge, MA: MIT Press. McEnery, T., Xiao, R. & Tono, Y. (2006) Corpus-Based Language Studies. London/New York: Routledge. Munday, J. (2001), Introducing Translation Studies. Theories and Applications. London/New York: Routledge. Olohan, M. (2004), Introducing Corpora in Translation Studies. London/New York: Routledge.


Herunterladen ppt "Parallelkorpora Einführung Amir Zeldes"

Ähnliche Präsentationen


Google-Anzeigen