Parallelkorpora Einführung Amir Zeldes
SE Parallelkorpora WS 2008/ Organisatorisches Kontakt: (030) , R Sprechstunde: Montags, Uhr
SE Parallelkorpora WS 2008/ Organisatorisches Webseite in Moodle (einfach Parallelkorpora suchen und sich eintragen!)Moodle Moodle-Key: xxxxxxxx Zusätzliche Seite, falls Moodle nicht funktioniert: berlin.de/institut/professuren/korpuslinguistik/lehre/ws- 2008/parallelkorpora berlin.de/institut/professuren/korpuslinguistik/lehre/ws- 2008/parallelkorpora
SE Parallelkorpora WS 2008/ Organisatorisches Forschungskolloquium Korpuslinguistik Mi Uhr, Plan unter: berlin.de/institut/professuren/korpuslinguistik/l ehre/ws-2008/forschungskolloquium Weitere korpuslinguistische Kurse: Korpuslinguistik / A. Lüdeling
SE Parallelkorpora WS 2008/ Organisatorisches Mailingliste für korpuslinguistische Ankündigungen
SE Parallelkorpora WS 2008/ Anforderungen Anwesenheit, Literatur lesen Für einen Seminarschein bzw. die MAP: Referat (ca. 30 Minuten) Hausarbeit (ca. 10 Seiten)
SE Parallelkorpora WS 2008/ Anforderungen Referatthemen in 5-6 Wochen im Seminar kurz vorstellen, um Feedback zu bekommen Referate werden voraussichtlich nach Weihnachten gehalten Bitte die Folien eine Woche im Voraus schicken! Nutzen Sie die Sprechstunde um Ihre Referate bzw. Hausarbeiten zu besprechen
SE Parallelkorpora WS 2008/ Plan für heute 1. Vorstellung der Grundbegriffe Korpus und Korpuslinguistik Parallelkorpora Alignierung 2. Anwendungsbereiche im Überblick Übersetzungsstudien und dazugehörige Fragestellungen Typologischer und historischer Sprachvergleich Maschinelle Übersetzung und Lexikographie …
SE Parallelkorpora WS 2008/ Was sind eigentlich Korpora? Korpora sind nach bestimmten Kriterien gebauten Sammlungen von linguistischen Daten (Texte, gesprochene Sprache und mehr) Korpuslinguistik beschäftigt sich mit dem Aufbau, der Auszeichnung und der Auswertung von Korpora
SE Parallelkorpora WS 2008/ Ein typisches Korpus? Die Zusammensetzung eines Korpus ist abhängig von den Fragestellungen, die man beantworten möchte: Was für ein Korpus brauche ich, um Jugendsprache zu untersuchen? („Ich mach dich Messer“ [Wiese 2006]) Um den Gebrauch von Komposita in Fachliteratur und Belletristik zu vergleichen? (Erbbaurechtsbestellungsverträge vs. Mitgliederversammlung)
SE Parallelkorpora WS 2008/ Repräsentativität Ein Korpus soll möglichst repräsentativ sein: Die Verhältnisse unterschiedlicher Untergruppen im Korpus entsprechen den Verhältnissen in der Population Faktoren, deren Verteilung als uninteressant gilt, sollen explizit vorgestellt werden Nur so kann man Ergebnisse auf die Population übertragen!
SE Parallelkorpora WS 2008/ Beispiel Ein Korpus von akademischen Gesprächen in Seminaren Verhältnis der Fächer im Korpus entspricht dem Verhältnis der Seminare im Vorlesungsverzeichnis Geschlecht der Sprecher: nicht relevant (das ist eine Vorannahme!)
SE Parallelkorpora WS 2008/ Andere Fragestellung Wenn unsere Fragestellung lautet: „sprechen Studenten und Studentinnen anders in Seminaren? und wenn ja, in welchen Fächern?“ Hierfür braucht man vergleichbare Mengen von Frauen und Männern
SE Parallelkorpora WS 2008/ Ausgewogenheit Korporasollen ausgewogen sein: Alle Untergruppen erhalten eine angemessene Belegung Die Entscheidung, welche Gruppen belegt werden, birgt wieder Vorannahmen! Dies steht manchmal im Widerspruch zur Repräsentativität!
SE Parallelkorpora WS 2008/ Beispiel Fragestellung: „Sprechen Informatiker und Informatikerinnen ähnlicher wie einander als Germanisten und Germanistinnen?“ Ausgewogenheit: Geschlechter sollen gleich belegt sein Repräsentativität: die Verteilung der Geschlechter in den Fächern ist nicht homogen!
SE Parallelkorpora WS 2008/ Fazit Das Korpus muss zur Fragestellung passen Vorannahmen sollen explizit gemacht werden (was ist wichtig?)
SE Parallelkorpora WS 2008/ Was bedeutet „parallel“? WDG: parallẹl /Adj./ 〈 griech. 〉 mit einer anderen Geraden in gleicher Richtung verlaufend, sie aber nicht kreuzend: Math. p. Geraden ⌉ ; eine p. Linie; [ein Weg] der parallel zum Horizont läuft Remarque Im Westen 156; die Eisenbahnlinie verläuft p. zur Straße, zum Fluß; /übertr./ eine p. Entwicklung; etw. entwickelt sich p.; [
SE Parallelkorpora WS 2008/ Parallelkorpora sind spezielle Korpora linguistischer Daten, die mehrsprachige parallele Texte enthalten werden vor allem in der Korpuslinguistik sowie in der Computerlinguistik erstellt werden aber in diversen Bereichen verwendet
SE Parallelkorpora WS 2008/ Parallelkorpora Korpus 1 Korpus 1 Korpus 2 Parallel = ?
SE Parallelkorpora WS 2008/ Was bedeutet „parallel“? Einige Forscher verwenden den Begriff „Parallelkorpus“ für jedes mehrsprachige Korpus und unterscheiden: Übersetzungskorpus – enthält ausschließlich Übersetzungen derselben Texte (jede Sprache hat genau dieselben Inhalte bzw. sog. „Bi-Texts“) Vergleichbares Korpus – enthält unabhängige Texte zu denselben Themen in vergleichbaren Mengen
SE Parallelkorpora WS 2008/ Was bedeutet „parallel“? Inzwischen hat sich eine andere Terminolgie durchgesetzt: Parallelkorpora: enthalten i.d.R. alignierte Übersetzungen (Bi-Texts) Vergleichbare Korpora: enthalten vergleichbare aber unterschiedliche Originaltexte in jeder Sprache
SE Parallelkorpora WS 2008/ Der Rosettastein Klassisches Beispiel eines Bi-Texts (bzw. Tri-Texts) An sich kein Korpus Text ≠ Korpus!!
SE Parallelkorpora WS 2008/ Was sagt uns ein Bi-Text? Text mehrmals enthalten Derselbe Inhalt Was entspricht was?
SE Parallelkorpora WS 2008/ Was sagt uns ein Bi-Text? Text mehrmals enthalten Derselbe Inhalt Was entspricht was?
SE Parallelkorpora WS 2008/ Was sagt uns ein Bi-Text? Text mehrmals enthalten Derselbe Inhalt Was entspricht was? ΠΤΟΛΕΜΑΙΟΥ P T O L M I I S P T O L E M A I O U ? ?
SE Parallelkorpora WS 2008/ Parallel und vergleichbar zugleich? Ein Korpus kann viele unterschiedliche Texte enthalten, wenn das zur Fragestellung passt (unterschiedliche Längen, Genres, etc.) Man muss nicht ausschließlich Texte benutzen, von denen man auch eine Übersetzung hat Oft benutzt man Parallelkorpora und vergleichbare Korpora zusammen
SE Parallelkorpora WS 2008/ Übersetzungen und Standardkorpora Die meisten Nationalkorpora (bspw. BNC) enthalten zwar sehr unterschiedliche Textsorten, aber keine Übersetzungen Übersetzungen sind ‚schlechtes‘ bzw. unnatürliches Englisch (oder Deutsch oder…) Linguistik interessiert sich für die „echte“ Sprache
SE Parallelkorpora WS 2008/ Gegenargumente Übersetzungen sind ein legitimes autonomisches Genre in jeder Sprache (evtl. auch von jeder Sprache oder für jedes Sprachpaar) Übersetzungen sind ein sprachunabhängig interessantes Phänomen, deren Gesetzmäßigkeiten untersucht werden sollen Übersetzungen sind auch für den Vergleich zwei autochthoner Sprachen interessant
SE Parallelkorpora WS 2008/ Sprachvergleich Grundfragestellungstyp: Was macht Sprache B in derselben Situation? Wie sagt man na wenn schon auf Englisch? > Was ist dieselbe Situation?
SE Parallelkorpora WS 2008/ Sprachvergleich Man überprüft eine Übersetzung: „who cares?“ Parallele Stelle in der Übersetzung = „die selbe Situation“? > Sachverhalt oder Kontext unabhängig von der sprachlichen Realisierung
SE Parallelkorpora WS 2008/ Sprachvergleich Hätte ein Sprecher von Sprache B das außerhalb einer Übersetzung gesagt? Wie kann man das untersuchen? > Vergleichbare Korpora sind autochthon und unabhängig – kommt diese Form mit dieser Bedeutung auch sonst vor?
SE Parallelkorpora WS 2008/ Gegenseitige Ergänzung Parallelkorpora Vergleichbare Korpora ABCDABCD ABCEABCE III IIIIV III IVV Englisch Deutsch
SE Parallelkorpora WS 2008/ Historischer Sprachvergleich Manchmal hat man denselben Text in mehreren Sprachstufen (z.B. die Bibel oder andere „Klassiker“) Man kann dann zwei Sprachstufen genauso wie unabhängige Sprachen empirisch vergleichen – was entspricht was? Das gilt auch für verwandte Sprachen (der Vergleich zweier Sprachen einer Sprachfamilie)
SE Parallelkorpora WS 2008/ Anwendungsbereiche Angewandt Mehrsprachige Lexikographie / Terminologie Maschinelle Übersetzung / Übersetzungshilfe Übersetzungspädagogik Theoretisch Übersetzungsstudien Vergleichende Sprachwissenschaft / Dialektologie Typologie Sprachgeschichte / Sprachwandel …
SE Parallelkorpora WS 2008/ Mehrsprachige Lexikographie/Terminologie Parallelkorpora erlauben Lexikographen eine direkte Untersuchung: was entspricht was? Belegdatenbank: echte Übersetzungsbeispiele Werden alle möglichen Übersetzungen abgedeckt? Besonders für Terminologien/Fachlexika: Suche nach Fach bzw. Genre anhand unterschiedlicher Subkorpora
SE Parallelkorpora WS 2008/ Maschinelle Übersetzung Wie können Computer natürliche Sprache automatisch übersetzen? Woher wissen sie, was mit was aligniert ist? Was passiert, wenn es kein Beispiel für die erwünschte Übersetzung gibt?
SE Parallelkorpora WS 2008/ Vergleichende Sprachwissenschaft Wie kann man Sprachen empirisch vergleichen? Quantitative und qualitative Vergleiche Die Möglichkeit, Quantitäten im historischen Sprachvergleich zu betrachten – wie viel hat sich im Laufe der Zeit geändert und wann?
SE Parallelkorpora WS 2008/ Typologie Welche Merkmale sind für was für Sprachen typisch? Wie häufig sind sie? Gibt es implikatorische Regeln? (wenn A für eine Sprache gilt, dann auch B) Vergleichbarkeit durch Parallelkorpora (versichert gleiche Wahrscheinlichkeiten) Parallele Wortlisten Parallele Elizitationsdaten (z.B. Fragebögen)
SE Parallelkorpora WS 2008/ Übersetzungsstudien Was sind typische Eigenschaften übersetzter Sprache, im Allgemeinen oder speziell für das Deutsche? Die Suche nach Übersetzungsuniversalien Was ist die Rolle des Übersetzers? Was beeinflusst die Flexibilität der Übersetzungsmöglichkeiten? …
SE Parallelkorpora WS 2008/ Übersetzungspädagogik Datenbasis für die Erstellung von Lehrwerken Hilfsmittel für Übersetzer (Beispielbank, sog. „Translation Memory“)
SE Parallelkorpora WS 2008/ Ihre eigenen Wünsche? Themen Fragestellungen Sprachen Korpora …?
SE Parallelkorpora WS 2008/ Literatur Ajmer, K. (erscheint), Parallel Corpora. In: Lüdeling, A./Kytö, M. Corpus Linguistics: An International Handbook. Berlin: Mouton de Gruyter. Baker, M. (1996), Corpus-based Translation Studies: The Challenges that Lie Ahead. In: Somers, H. L. (ed.), Terminology, LSP and Translation. Amsterdam: Benjamins, Manning, C.D. & Schütze, H. (1999), Foundations of Statistical Natural Language Processing. Cambridge, MA: MIT Press. McEnery, T., Xiao, R. & Tono, Y. (2006) Corpus-Based Language Studies. London/New York: Routledge. Munday, J. (2001), Introducing Translation Studies. Theories and Applications. London/New York: Routledge. Olohan, M. (2004), Introducing Corpora in Translation Studies. London/New York: Routledge.