Parallelkorpora Einführung Amir Zeldes

Slides:



Advertisements
Ähnliche Präsentationen
O-Woche SoSe 2011 Gruppenstundenplanberatung B.A. European Studies.
Advertisements

Seminar Textmining WS 06/07 Themen Übung 9 Multilingualität Weitere Termine: 13.7.Symbolfolgen und PageRank Findlinks mitstreiter gesucht!
Gruppenstundenplanberatung
Das Experteninterview
Anglo-Amerikanische Korpuslinguistik Anglo-American Corpus Linguistics Erstellt von Gudrun Krenn Slawische Korpuslinguistik SE SS 2006 Dr. Branko Tošović
© Wortstellung im Deutschen Norbert Fries.
Die Struktur von Untersuchungen
Allgemeines zu Datenbanken
Liebe KollegInnen, Anbei finden Sie eine PowerPoint-Vorlage zur Erarbeitung eines kurzen Zwischenberichts Ihrer Gruppe für das nächste Treffen. Bitte befüllen.
Kontrastive Untersuchung von Präpositionen (D-Fr)
Wie man keine Präsentation erstellt!
Grammatikalische Begriffe im Unterricht
Methoden der Sozialwissenschaften
Georg Spitaler PS Interpretative Zugänge zu Popularkultur WS 2004/05
Projektformulierung für die Baccalaureat-Arbeit
Beratungswoche: Info-Veranstaltung Französisch Einführungs- und Beratungswoche an der PH Freiburg Informationsveranstaltung zum Lehramtsstudium – Fach.
ELA Was ist eigentlich ELA? Information für Eltern.
Darstellung von Forschungsergebnissen mit Posterpräsentationen: Erwartungen und Möglichkeiten Jan Haut (Kontakt: Das Poster.
:17 1  von 61 MedienInformatik Datentechnik  Übungen „Medienkompetenz“
Deutsch Schritte 4 Lektion 2 «Aber jetzt ist schon längst wieder Schule!» Lesen macht Spaß, und dabei lernt man was Matveeva Vera Vladimirovna, Deutschlehrerin.
Sprachen lernen - Spaß oder Stress? Автор: Соловьянова Татьяна Анатольевна, учитель немецкого языка МБОУ «СОШ №6» г. Новомосковска, Тульская область.
Übungsart: Seite: Bearbeitet von: Siegbert Rudolph Lesemotivationstraining Titel: Quelle: Nächste Folie 1 Übungsart: Titel: Textquelle: Leseübungen: Witze.
Forschungsfrage: Sind die Synonyme, die in den Wörterbüchern am häufigsten als erstes angegeben werden, auch wirklich die am meisten verwendeten Entsprechungen?
Klasse 7 Planung einer Unterrichtsstunde – mit DGS Carina Rosenhauer Seminar zum fachdidaktischen Blockpraktikum SS 2011.
Einheit 3 Studentenleben. Wiederholen wir ! 1. Übersetzen Sie die folgenden Sätze ins Deutsch. 将下面句子译成德语。 你今天有课吗? 我们现在正(中间)休息。 我每天听音乐。 他总在傍晚做运动。 你会说德语吗?
Information zum Wahlpflichtbereich II am Konrad-Adenauer-Gymnasium.
Umfrage, eine Methode für die Maturaarbeit GM.my – in Zusammenarbeit mit der Kantonsschule Olten 1.
Bewerbungs- eingang Bewerbungs- bearbeitung Stellenangebote VermittlungKommunikationZusatzleistungen.
Vorlesung Entwicklungspsychologie Wintersemester 2012/2013 Mo Uhr Alexander Renkl.
Dipl. Psych. K. Rockenbauch Selbst. Abt. für Med. Psychologie und Med. Soziologie 1 Wie halte ich ein Referat ?
“Cambridge English: First“ an der PSI Das Cambridge English: First, auch bekannt als First Certificate in English (FCE) ist ein Sprachzertifikat der Universität.
ASPEKTE DER SPRACHE UND IHRE VARIATION ( NATÜRLICHE SPRACHE, FACHSPRACHE, JUGENDSPRACHE, METASPRACHE, KUNSTSPRACHE )
Sprachen lernen und erwerben: erste Begriffe und Unterscheidungen Dörthe Uphoff FLM 0640 – Februar.
Die klassischen Methoden der historisch-vergleichenden Forschung Universität Zürich Soziologisches Institut Seminar: Methoden des internationalen Vergleichs.
VO#1: Lexikologie als sprachwissenschaftliche Disziplin Lexikologie, Matej-Bel-Univeristät in Banská Bystrica, Z. Tuhárska.
Deutsche Wörterbücher Part 3 Tipps zum richtigen Umgang mit deutschen Wörterbüchern Developed by Elisabeth Wielander, Aston University.
Seite Typen erkennen Bewerten Sie die jugendlichen Sprecher.
SCHULKULTUR 2.0 Oder: Was ohne „das Digitale“ fehlt Thomas Nárosy | im Rahmen der NMS-Symposien Sommer 2015.
Мастер – класс. Работа с аутентичным текстом на уроках немецкого языка.
Amir Zeldes Korpuslinguistik Zusammenfassung.
Structura limbii Verbalphrase Konjunktiv II Dr. Ileana-Maria Ratcu Sose 2016.
Latein braucht doch niemand mehr... Oh doch!!!. Latein schreibt man, wie man es spricht: die Zeit zu größerer Sicherheit in deutscher Rechtschreibung.
Eine Reise ins Märchenland Wochenrückblick von – In unserem ersten Projekt im neuen Jahr, wurde einstimmig beschlossen, dass unser.
Sozialpsychologie WS 10/11 Henrik Singmann Session 10.
Wie kann ich entscheiden? Die Welt der Kontakte Bearbeitet von Renáta Szabó.
SE Virtualisierung von Universitäten Zwischenbericht Liebe KollegInnen, Anbei finden Sie eine PowerPoint-Vorlage zur Erarbeitung eines kurzen Zwischenberichts.
Was ist Varietätenlinguistik? *eine Teildisziplin der Soziolinguistik *ein wesentlicher Bestandteil soziolinguistischer Forschung *befasst sich mit den.
Simone Georgi Kommunikationswissenschaft SLUB Baustein 2, Suche nach Aufsätzen Sächsische Landesbibliothek – Staats- und Universitätsbibliothek Dresden.
Schule in Deutschland.
Modul 124, Woche 2 R. Zuber, 2015.
Wortbildung.
Explorative Beobachtung
Wsl schon abgeschaltet Idee dahinter ist interessant und revolutionär
Vom Stereotyp zur Diskriminierung
SurveyCAU Handbuch - Studierende-.
HEURISTIKEN.
Evaluation zum bilingualen Zweig am Gymnasium Aspel 2017/18
Die Prinzen Deutschland
Hausaufgabenfibel der Bernhardschule
Vorlesung Computerphilologie Kormann WS 05/06
Fächerabwahl am Ende der Jahrgangsstufe Q2-1
Mensch-Maschine-Interaktion
Informationsveranstaltung des Einstein Gymnasiums für die Eltern der Klassenstufe 9 Kursanwahl in Klasse 10 – Vorbereitung auf die Qualifikationsphase.
Wir sprechen Ihre Sprache.
Teil C Grundfertigkeit Schreiben
Pflichtteil 2016 Aufgabe 6: Gegeben ist die Gerade
Wissenschaftliches Projekt
Lieblingsfächer Video.
Handbuch zur Übertragbarkeit und Evaluierung
 Präsentation transkript:

Parallelkorpora Einführung Amir Zeldes

SE Parallelkorpora WS 2008/ Organisatorisches Kontakt: (030) , R Sprechstunde: Montags, Uhr

SE Parallelkorpora WS 2008/ Organisatorisches Webseite in Moodle (einfach Parallelkorpora suchen und sich eintragen!)Moodle Moodle-Key: xxxxxxxx Zusätzliche Seite, falls Moodle nicht funktioniert: berlin.de/institut/professuren/korpuslinguistik/lehre/ws- 2008/parallelkorpora berlin.de/institut/professuren/korpuslinguistik/lehre/ws- 2008/parallelkorpora

SE Parallelkorpora WS 2008/ Organisatorisches Forschungskolloquium Korpuslinguistik Mi Uhr, Plan unter: berlin.de/institut/professuren/korpuslinguistik/l ehre/ws-2008/forschungskolloquium Weitere korpuslinguistische Kurse:  Korpuslinguistik / A. Lüdeling

SE Parallelkorpora WS 2008/ Organisatorisches Mailingliste für korpuslinguistische Ankündigungen

SE Parallelkorpora WS 2008/ Anforderungen Anwesenheit, Literatur lesen Für einen Seminarschein bzw. die MAP:  Referat (ca. 30 Minuten)  Hausarbeit (ca. 10 Seiten)

SE Parallelkorpora WS 2008/ Anforderungen Referatthemen in 5-6 Wochen im Seminar kurz vorstellen, um Feedback zu bekommen Referate werden voraussichtlich nach Weihnachten gehalten Bitte die Folien eine Woche im Voraus schicken! Nutzen Sie die Sprechstunde um Ihre Referate bzw. Hausarbeiten zu besprechen

SE Parallelkorpora WS 2008/ Plan für heute 1. Vorstellung der Grundbegriffe Korpus und Korpuslinguistik Parallelkorpora Alignierung 2. Anwendungsbereiche im Überblick Übersetzungsstudien und dazugehörige Fragestellungen Typologischer und historischer Sprachvergleich Maschinelle Übersetzung und Lexikographie …

SE Parallelkorpora WS 2008/ Was sind eigentlich Korpora? Korpora sind nach bestimmten Kriterien gebauten Sammlungen von linguistischen Daten (Texte, gesprochene Sprache und mehr) Korpuslinguistik beschäftigt sich mit  dem Aufbau,  der Auszeichnung und  der Auswertung von Korpora

SE Parallelkorpora WS 2008/ Ein typisches Korpus? Die Zusammensetzung eines Korpus ist abhängig von den Fragestellungen, die man beantworten möchte:  Was für ein Korpus brauche ich, um Jugendsprache zu untersuchen? („Ich mach dich Messer“ [Wiese 2006])  Um den Gebrauch von Komposita in Fachliteratur und Belletristik zu vergleichen? (Erbbaurechtsbestellungsverträge vs. Mitgliederversammlung)

SE Parallelkorpora WS 2008/ Repräsentativität Ein Korpus soll möglichst repräsentativ sein:  Die Verhältnisse unterschiedlicher Untergruppen im Korpus entsprechen den Verhältnissen in der Population  Faktoren, deren Verteilung als uninteressant gilt, sollen explizit vorgestellt werden Nur so kann man Ergebnisse auf die Population übertragen!

SE Parallelkorpora WS 2008/ Beispiel Ein Korpus von akademischen Gesprächen in Seminaren Verhältnis der Fächer im Korpus entspricht dem Verhältnis der Seminare im Vorlesungsverzeichnis Geschlecht der Sprecher: nicht relevant (das ist eine Vorannahme!)

SE Parallelkorpora WS 2008/ Andere Fragestellung Wenn unsere Fragestellung lautet: „sprechen Studenten und Studentinnen anders in Seminaren? und wenn ja, in welchen Fächern?“ Hierfür braucht man vergleichbare Mengen von Frauen und Männern

SE Parallelkorpora WS 2008/ Ausgewogenheit Korporasollen ausgewogen sein:  Alle Untergruppen erhalten eine angemessene Belegung  Die Entscheidung, welche Gruppen belegt werden, birgt wieder Vorannahmen! Dies steht manchmal im Widerspruch zur Repräsentativität!

SE Parallelkorpora WS 2008/ Beispiel Fragestellung: „Sprechen Informatiker und Informatikerinnen ähnlicher wie einander als Germanisten und Germanistinnen?“ Ausgewogenheit: Geschlechter sollen gleich belegt sein Repräsentativität: die Verteilung der Geschlechter in den Fächern ist nicht homogen!

SE Parallelkorpora WS 2008/ Fazit Das Korpus muss zur Fragestellung passen Vorannahmen sollen explizit gemacht werden (was ist wichtig?)

SE Parallelkorpora WS 2008/ Was bedeutet „parallel“? WDG: parallẹl /Adj./ 〈 griech. 〉 mit einer anderen Geraden in gleicher Richtung verlaufend, sie aber nicht kreuzend: Math. p. Geraden ⌉ ; eine p. Linie; [ein Weg] der parallel zum Horizont läuft Remarque Im Westen 156; die Eisenbahnlinie verläuft p. zur Straße, zum Fluß; /übertr./ eine p. Entwicklung; etw. entwickelt sich p.; [

SE Parallelkorpora WS 2008/ Parallelkorpora sind spezielle Korpora linguistischer Daten, die mehrsprachige parallele Texte enthalten werden vor allem in der Korpuslinguistik sowie in der Computerlinguistik erstellt werden aber in diversen Bereichen verwendet

SE Parallelkorpora WS 2008/ Parallelkorpora Korpus 1 Korpus 1 Korpus 2 Parallel = ?

SE Parallelkorpora WS 2008/ Was bedeutet „parallel“? Einige Forscher verwenden den Begriff „Parallelkorpus“ für jedes mehrsprachige Korpus und unterscheiden:  Übersetzungskorpus – enthält ausschließlich Übersetzungen derselben Texte (jede Sprache hat genau dieselben Inhalte bzw. sog. „Bi-Texts“)  Vergleichbares Korpus – enthält unabhängige Texte zu denselben Themen in vergleichbaren Mengen

SE Parallelkorpora WS 2008/ Was bedeutet „parallel“? Inzwischen hat sich eine andere Terminolgie durchgesetzt:  Parallelkorpora: enthalten i.d.R. alignierte Übersetzungen (Bi-Texts)  Vergleichbare Korpora: enthalten vergleichbare aber unterschiedliche Originaltexte in jeder Sprache

SE Parallelkorpora WS 2008/ Der Rosettastein Klassisches Beispiel eines Bi-Texts (bzw. Tri-Texts) An sich kein Korpus  Text ≠ Korpus!!

SE Parallelkorpora WS 2008/ Was sagt uns ein Bi-Text? Text mehrmals enthalten Derselbe Inhalt Was entspricht was?

SE Parallelkorpora WS 2008/ Was sagt uns ein Bi-Text? Text mehrmals enthalten Derselbe Inhalt Was entspricht was?

SE Parallelkorpora WS 2008/ Was sagt uns ein Bi-Text? Text mehrmals enthalten Derselbe Inhalt Was entspricht was? ΠΤΟΛΕΜΑΙΟΥ P T O L M I I S P T O L E M A I O U ? ?

SE Parallelkorpora WS 2008/ Parallel und vergleichbar zugleich? Ein Korpus kann viele unterschiedliche Texte enthalten, wenn das zur Fragestellung passt (unterschiedliche Längen, Genres, etc.) Man muss nicht ausschließlich Texte benutzen, von denen man auch eine Übersetzung hat Oft benutzt man Parallelkorpora und vergleichbare Korpora zusammen

SE Parallelkorpora WS 2008/ Übersetzungen und Standardkorpora Die meisten Nationalkorpora (bspw. BNC) enthalten zwar sehr unterschiedliche Textsorten, aber keine Übersetzungen Übersetzungen sind ‚schlechtes‘ bzw. unnatürliches Englisch (oder Deutsch oder…) Linguistik interessiert sich für die „echte“ Sprache

SE Parallelkorpora WS 2008/ Gegenargumente Übersetzungen sind ein legitimes autonomisches Genre in jeder Sprache (evtl. auch von jeder Sprache oder für jedes Sprachpaar) Übersetzungen sind ein sprachunabhängig interessantes Phänomen, deren Gesetzmäßigkeiten untersucht werden sollen Übersetzungen sind auch für den Vergleich zwei autochthoner Sprachen interessant

SE Parallelkorpora WS 2008/ Sprachvergleich Grundfragestellungstyp: Was macht Sprache B in derselben Situation?  Wie sagt man na wenn schon auf Englisch? > Was ist dieselbe Situation?

SE Parallelkorpora WS 2008/ Sprachvergleich Man überprüft eine Übersetzung: „who cares?“ Parallele Stelle in der Übersetzung = „die selbe Situation“? > Sachverhalt oder Kontext unabhängig von der sprachlichen Realisierung

SE Parallelkorpora WS 2008/ Sprachvergleich Hätte ein Sprecher von Sprache B das außerhalb einer Übersetzung gesagt? Wie kann man das untersuchen? > Vergleichbare Korpora sind autochthon und unabhängig – kommt diese Form mit dieser Bedeutung auch sonst vor?

SE Parallelkorpora WS 2008/ Gegenseitige Ergänzung Parallelkorpora Vergleichbare Korpora ABCDABCD ABCEABCE III IIIIV III IVV Englisch Deutsch

SE Parallelkorpora WS 2008/ Historischer Sprachvergleich Manchmal hat man denselben Text in mehreren Sprachstufen (z.B. die Bibel oder andere „Klassiker“) Man kann dann zwei Sprachstufen genauso wie unabhängige Sprachen empirisch vergleichen – was entspricht was? Das gilt auch für verwandte Sprachen (der Vergleich zweier Sprachen einer Sprachfamilie)

SE Parallelkorpora WS 2008/ Anwendungsbereiche Angewandt  Mehrsprachige Lexikographie / Terminologie  Maschinelle Übersetzung / Übersetzungshilfe  Übersetzungspädagogik Theoretisch  Übersetzungsstudien  Vergleichende Sprachwissenschaft / Dialektologie  Typologie  Sprachgeschichte / Sprachwandel  …

SE Parallelkorpora WS 2008/ Mehrsprachige Lexikographie/Terminologie Parallelkorpora erlauben Lexikographen eine direkte Untersuchung: was entspricht was? Belegdatenbank: echte Übersetzungsbeispiele Werden alle möglichen Übersetzungen abgedeckt? Besonders für Terminologien/Fachlexika: Suche nach Fach bzw. Genre anhand unterschiedlicher Subkorpora

SE Parallelkorpora WS 2008/ Maschinelle Übersetzung Wie können Computer natürliche Sprache automatisch übersetzen? Woher wissen sie, was mit was aligniert ist? Was passiert, wenn es kein Beispiel für die erwünschte Übersetzung gibt?

SE Parallelkorpora WS 2008/ Vergleichende Sprachwissenschaft Wie kann man Sprachen empirisch vergleichen? Quantitative und qualitative Vergleiche Die Möglichkeit, Quantitäten im historischen Sprachvergleich zu betrachten – wie viel hat sich im Laufe der Zeit geändert und wann?

SE Parallelkorpora WS 2008/ Typologie Welche Merkmale sind für was für Sprachen typisch? Wie häufig sind sie? Gibt es implikatorische Regeln? (wenn A für eine Sprache gilt, dann auch B) Vergleichbarkeit durch Parallelkorpora (versichert gleiche Wahrscheinlichkeiten) Parallele Wortlisten Parallele Elizitationsdaten (z.B. Fragebögen)

SE Parallelkorpora WS 2008/ Übersetzungsstudien Was sind typische Eigenschaften übersetzter Sprache, im Allgemeinen oder speziell für das Deutsche? Die Suche nach Übersetzungsuniversalien Was ist die Rolle des Übersetzers? Was beeinflusst die Flexibilität der Übersetzungsmöglichkeiten? …

SE Parallelkorpora WS 2008/ Übersetzungspädagogik Datenbasis für die Erstellung von Lehrwerken Hilfsmittel für Übersetzer (Beispielbank, sog. „Translation Memory“)

SE Parallelkorpora WS 2008/ Ihre eigenen Wünsche? Themen Fragestellungen Sprachen Korpora …?

SE Parallelkorpora WS 2008/ Literatur Ajmer, K. (erscheint), Parallel Corpora. In: Lüdeling, A./Kytö, M. Corpus Linguistics: An International Handbook. Berlin: Mouton de Gruyter. Baker, M. (1996), Corpus-based Translation Studies: The Challenges that Lie Ahead. In: Somers, H. L. (ed.), Terminology, LSP and Translation. Amsterdam: Benjamins, Manning, C.D. & Schütze, H. (1999), Foundations of Statistical Natural Language Processing. Cambridge, MA: MIT Press. McEnery, T., Xiao, R. & Tono, Y. (2006) Corpus-Based Language Studies. London/New York: Routledge. Munday, J. (2001), Introducing Translation Studies. Theories and Applications. London/New York: Routledge. Olohan, M. (2004), Introducing Corpora in Translation Studies. London/New York: Routledge.