Parallelkorpora Параллельные корпуса Florian Thelen Seminar: Slawische Korpuslinguistik SS 2006 O. Prof. Dr. Branko Tošović

Slides:



Advertisements
Ähnliche Präsentationen
Cadastre for the 21st Century – The German Way
Advertisements

Vernetzung von Repositorien : DRIVER Guidelines Dr Dale Peters, SUB Goettingen 4. Helmholtz Open Access Workshop Potsdam, 17 Juni 2008.
Themenportal Europäische Geschichte / Web portal European History
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil3.
On the Criteria to Be Used in Decomposing Systems into Modules
© 2006 Open Grid Forum OGF26 - Chapel Hill, May 2009 Addressing Metadata Challenges OGF Digital Repositories RG.
First Seminar in Brussels, 15th of December 2010
eine Plattform für annotierte Korpora in XML
DissOnline / Digitale Dissertationen Dr. P. Schirmbacher Offene Standards und internationale / nationale Abstimmung Gliederung: 1.Open Archive.
study of medicine no obligatory training content in almost all medical schools (universities) in Germany elective subject for medical students during.
Der Einstieg in das Programmieren
Rethinking Linguistic Relativity John A. Lucy. Gliederung Einführung in das Problem Kritik an bisherigen Untersuchungen der Anthropologen Psycholinguisten.
Vorlesung: 1 Betriebssysteme 2007 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebssysteme Hochverfügbarkeit (Einführung) 3. Quartal.
Vorlesung: 1 Betriebssysteme 2008 Prof. Dr. G. Hellberg Studiengang Mechatronik FHDW Vorlesung: Betriebssysteme Hochverfügbarkeit (Einführung) 2. Quartal.
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil2.
Betreuer: Christian Brose
How To Handle Speech Sami Awad Nea Krivokapa Malte Klöpper
Three minutes presentation I ArbeitsschritteW Seminar I-Prax: Inhaltserschließung visueller Medien, Spree WS 2010/2011 Giving directions.
Ralf KüstersDagstuhl 2008/11/30 2 Ralf KüstersDagstuhl 2008/11/30 3.
Was machen wir besser als die Wettbewerber
Encoded Archival Description (EAD). Wer und Was Archival description is the process of capturing, collating, analyzing and organizing any information.
Introduction to the topic. Goals: Improving the students essay style in general Finding special words and expressions that can be used in essay writing.
Bologna conference: Asymmetric Mobility Medical sciences in Austria Christian SEISER 29 May 2008.
01 Installation / Support. © beas group 2011 / Page 2 This documentation and training is provided to you by beas group AG. The documents are neither approved.
Deutsche einsprachige Korpora немецкие одноязычные корпуса Institut für Slawistik Seminar: Slawische Korpuslinguistik SS 2006 O. Prof. Dr. Branko Tošović
Hellmut Riediger Recherchieren: Grundsätze und Grundbegriffe
Separable Verbs There is a group of verbs in German called separable verbs = trennbare Verben.
Case Study Session in 9th GCSM: NEGA-Resources-Approach
A thrilling star movie THE GUIDE 1 SPIN network meeting Wolfgang Pojer.
Plural Mit Frau Templeton.
Die Zeit (TIME) Germans are on military time which is 1-24
Anglo-Amerikanische Korpuslinguistik Anglo-American Corpus Linguistics Erstellt von Gudrun Krenn Slawische Korpuslinguistik SE SS 2006 Dr. Branko Tošović
Institut AIFB, Universität Karlsruhe (TH) Forschungsuniversität gegründet 1825 Towards Automatic Composition of Processes based on Semantic.
Ich spreche Deutsch. I speak English. Ich spreche Deutsch. I speak English.
1 Ein kurzer Sprung in die tiefe Vergangenheit der Erde.
1 Universitätsbibliothek Johann Christian Senckenberg Das Angebot E lektronischer M edien eLearning Netzwerktag am 30. Juni 2008 Subtitel Dr. Klaus Junkes-Kirchen.
Deutsch 1 G Stunde. Donnerstag, der 25. Oktober 2012 Deutsch 1, G Stunde Heute ist ein B- Tag Unit: Family & homeFamilie & Zuhause Objectives: Phrases.
You need to use your mouse to see this presentation
Auslegung eines Vorschubantriebes
Department of Computer Science Homepage HTML Preprocessor Perl Database Revision Control System © 1998, Leonhard Jaschke, Institut für Wissenschaftliches.
Правописание иностранных слов
DEUTSCHLAND UND DIE MEDIEN
Kapitel 15 Anhang, Literatur. Kapitel 15: Anhang, LiteraturK.Poljanc Literatur - Bücher Particle Accelerators, Livingston-Blewett, Mc Graw Hill Book Comp.
Institut für Slawistik der Karl-Franzens Universität Graz Graz, 25. November 2010 Evaluierung der Grazer Sprachwissenschaft von 2005 bis 2009 Einführung.
Russische Korpuslinguistik im Internet Ру́́́́сская корпусная лингвистика Erstellt durch: Doris Weißenböck Andreas Konrad Sprachwissenschaftliches Seminar.
Morphonologie der Verben I Präsens Stephanie Reiser Institut für Slawistik der Karl-Franzens-Universität.
Französisch-Slawische Korpuslinguistik Французско- славянская корпусная лингвистика Aigner Ruth Prenn Linde SE Korpuslinguistik O. Univ.-Prof. Dr. Branko.
Hauptseminar SS 2006 Hinweise für Autoren.
Welche Verkehrsmittel gibt es in einer modernen Großstadt?
New grammar topic: comparisons & superlatives
1 von 10 ViS:AT Abteilung IT/3, IT – Systeme für Unterrichtszwecke ViS:AT Österreichische Bildung auf Europaniveau BM:UKK Apple.
An Austrian Text Book For students age 17 – 18 years.
Analyseprodukte numerischer Modelle
2014 Januar 2014 So Mo Di Mi Do Fr Sa So
Hochschulforschung | Higher Education Research Thomas Pfeffer Strategien d. Content-Management 7. BM Forum Neue Medien, 12./13. November 2003, Technikum.
THE PERFECT TENSE IN GERMAN
The Model. Philosophy of life Theories Theory-based Action.
NATURAL & INDUSTRIAL FOOD. Natural & Industrial Food2 TIMELINE & ORGANIZATION  2 groups of 11 pupils  2 lessons per week (120 min)  4 lessons in each.
erstellt von: Rita Plos
Adjective Declension in German
Der Erotik Kalender 2005.
Numbers Greetings and Good-byes All about Me Verbs and Pronouns
prof. dr. dieter steinmannfachhochschule trier © prof. dr. dieter steinmann Folie 1 vom Montag, 30. März 2015.
3 2 1 Rot:0; Grün: 128; Blau: 128 Schriftgröße: 32
1 Public libraries’ perspectives in the digital media world Doom or bloom: reinventing the library in the digital age 29th October 2009 Christian Hasiewicz.
Noch mehr Funktionen Prof. Dr. Dörte Haftendorn, Leuphana Universität Lüneburg,
Stephanie Müller, Rechtswissenschaftliches Institut, Universität Zürich, Rämistrasse 74/17, 8001 Zürich, Criminal liability.
Jetzt machen Venues aufmachen!!! Geh zu
THE PERFECT TENSE IN GERMAN
Slowenische Korpuslinguistik
 Präsentation transkript:

Parallelkorpora Параллельные корпуса Florian Thelen Seminar: Slawische Korpuslinguistik SS 2006 O. Prof. Dr. Branko Tošović

Definition Определение Was sind Parallelkorpora ? A collection of texts, each of which is translated into one or more other languages than the original. (EAGLES 1996) Texts accompanied by their translation. (Véronis 2002) Corpora which hold the same texts in more than one language. (McEnery/Wilson 1996) 2 SE: Slawische Korpuslinguistik, SS 2006

Definition Определение Was sind Parallelkorpora? Textsammlung bzw. Korpus собрание текстов Mehrsprachigkeit многоязычность Äquivalente Texte эквивалентные тексты Verknüpfung der Texte выравнивание текстов 3 SE: Slawische Korpuslinguistik, SS 2006

Abgrenzung Отделение Unterschiede gegenüber anderen Korpora: einsprachige Korpora одноязычные корпуса vergleichbare Korpora сравнимые корпуса multilinguale Korpora многоязычные корпуса 4 SE: Slawische Korpuslinguistik, SS 2006

Arten von Parallelkorpora Виды параллельных корпусо́́в Unterteilung in: bi- & multilinguale дву- и многоязычные mono- & bidirektionale одно- и двунаправленные alignierte & nicht- alignierte (не) выровненные annotierte & nicht- annotierte (не) аннотированные 5 SE: Slawische Korpuslinguistik, SS 2006

Anwendungsbereiche Области применения Lexikographieлексикография Grammatikграмматика Semantik семантика Sprachpädagogik педагогика языков 6 SE: Slawische Korpuslinguistik, SS 2006

Anwendungsbereiche Области применения Übersetzungswissenschaft теория перевода Vergl. Literaturwissenschaft срав. лит.веденние Kulturwissenschaft култьуроведенние 7 SE: Slawische Korpuslinguistik, SS 2006

Lexikographie Лексикография Korrektur bestehender Wörterbücher Erweiterung bestehender Wörterbücher Erstellung neuer Fachwörterbücher Kontrastive Untersuchungen 8 SE: Slawische Korpuslinguistik, SS 2006

Alignement Выравнивание Definition:Verknüpfung von sprachlichen Einheiten, die sich gegenseitig entsprechen Absatz: Fragmentierungфрагментация Satz: sentence alignement выравнивание предложений Wort: word alignement выравнивание слов 9 SE: Slawische Korpuslinguistik, SS 2006

Alignement Выравнивание 6 Fälle von Alignement: 1 Satz (L1) = 1 Satz (L2) 2 Sätze (L1) = 1 Satz (L2) 1 Satz (L1) = 2 oder mehrere Sätze (L2) 2 Sätze (L1) = 2 Sätze (L2), aber innere Grenzen fallen nicht zusammen Satz (L1) wird nicht übersetzt Satz (L2) hat kein Äquivalent im Original und wurde vom Übersetzer eingefügt 10 SE: Slawische Korpuslinguistik, SS 2006

Texte Тексты Verhältnis Original (L1) zu Übersetzung (L2): Original entspricht eine authentischen Übersetzung (z.B. Dokumente internationaler Organisationen. Original entspricht einer menschlichen Übersetzung. Original entspricht einer maschinellen Übersetzung. Original entspricht einer übersetzten Zusammenfassung gleichen Inhalts. 11 SE: Slawische Korpuslinguistik, SS 2006

Probleme Проблемы Nach Ebeling 2000: Übersetzer machen Fehler. Jede Übersetzung ist nur eine Variante einer unendlichen Zahl verschiedener Übersetzungen. Übersetzung ist ein spezieller Texttyp, der die Zielsprache nicht adäquat repräsentiert. 12 SE: Slawische Korpuslinguistik, SS 2006

Slawische Parallelkorpora Славянские параллельные корпуса KACENKA (Masaryk Universität Brno) KACENKA Sprachen: Tschechisch – Englisch Inhalt: Belletristik Umfang: 3,297,283 Wörter Verfügbarkeit: CD-ROM 13 SE: Slawische Korpuslinguistik, SS 2006

Slawische Parallelkorpora Славянские параллельные корпуса Bohemica.com (Dominik Lukeš) Bohemica.com Sprachen: Tschechisch – Englisch Inhalt: Belletristik; Sachbücher Umfang: 99,905 Wörter Verfügbarkeit: Internetdownload 14 SE: Slawische Korpuslinguistik, SS 2006

Slawische Parallelkorpora Славянские параллельные корпуса IJS - ELAN (Institut Jožef Stefan) IJS - ELAN Sprachen: Slowenisch – Englisch Inhalt: Belletristik Umfang: ~ 1,000,000 Wörter Verfügbarkeit: Internetdownload 15 SE: Slawische Korpuslinguistik, SS 2006

Slawische Parallelkorpora Славянские параллельные корпуса SVEZ-IJS ACQUIS Corpus (Institut Jožef Stefan) SVEZ-IJS ACQUIS Corpus Sprachen: Slowenisch – Englisch Inhalt: EU- Rechtstexte Umfang: ~ 10,000,000 Wörter Verfügbarkeit: Internetdownload 16 SE: Slawische Korpuslinguistik, SS 2006

Slawische Parallelkorpora Славянские параллельные корпуса The TELRI Republic (TELRI Working Group WG9) The TELRI Republic Sprachen: Bulgarisch- Chinesisch – Tschechisch – Englisch – Deutsch – Lettisch – Polnisch – Rumänisch – Slowakisch – Slowenisch Inhalt: Platos Republik Umfang: nicht bekannt Verfügbarkeit: Internet (nur für TELRI Mitglieder) 17 SE: Slawische Korpuslinguistik, SS 2006

Slawische Parallelkorpora Славянские параллельные корпуса MULTEXT-East 1984 corpus (Institut Jožef Stefan) MULTEXT-East 1984 corpus Sprachen: Englisch – Rumänisch – Slowenisch – Tschechisch – Bulgarisch – Estnisch – Ungarisch – Serbisch – Litauisch – Russisch Inhalt: George Orwells 1984 Umfang: 100,000 Wörter (englisches Original) Verfügbarkeit: CD-ROM 18 SE: Slawische Korpuslinguistik, SS 2006

Slawische Parallelkorpora Славянские параллельные корпуса Textcorpus Idiot (ÖAW, Wien) Textcorpus Idiot Sprachen: Russisch – Deutsch Inhalt:Dostojevskijs Idiot Umfang: noch unbekannt Verfügbarkeit: online nicht verfügbar 19 SE: Slawische Korpuslinguistik, SS 2006

Slawische Parallelkorpora Славянские параллельные корпуса Национальный корпус русского языка Национальный корпус русского языка Sprachen: Russisch – Englisch Inhalt: Belletristik Umfang: ~ 2,500,000 Wörter Verfügbarkeit: Internet 20 SE: Slawische Korpuslinguistik, SS 2006

Anwendung Применение Frage: Übersetzungen für das englische Wort nice Ergebnis: хорошийgut красивийschön приятный angenehm милый lieb отличныйhervorragend приличныйanständig 21 SE: Slawische Korpuslinguistik, SS 2006

Anwendung Применение Ergebnis: симпатичныйhübsch хорошенькийniedlich мировойfriedlich здоровыйgesund/ cool порядочный anständig шикарный schick удобный schicklich нарядныйelegant добрый gut идеальныйideal 22 SE: Slawische Korpuslinguistik, SS 2006

Anwendung Применение Frage: Volle Equivalenz von love und любовь? Ergebnis: любовь – love – passion love – любовь – пристрастие – желание 23 SE: Slawische Korpuslinguistik, SS 2006

Anwendung Применение Frage: Übertragung einer russischen Passivkonstruktion ins Englische? Beispielswort: сказать Ergebnis: 9 Verwendungen 6 mal Passiv / 1 mal Aktiv / 2 mal Substantiv 24 SE: Slawische Korpuslinguistik, SS 2006

Literatur und Quellen Литература и источники Добровольский и др. 2005: Добровольский, Д. О.; Кретов, А. А.; Шаров, С. А. Корпус параллельных текстов: архитектура и возможности использования. – In: Национальный корпус русского языка: Результаты и перспективы – Москва: Индрик. – С Андреева/Касевич 2005:Андреева,Е. Г.; Касевич, В. Б. Грамматика и лексика (на материале анг­ло-русского корпуса параллельных текстов). – In: Национальный корпус русского языка: Результаты и перспективы – Москва: Индрик. – С Виландеберк 2004: Виландеберк, А. А. Корпус параллельных правовых документов как составная часть АРМ юриста-переводчика. – In: Труды международной конференции Корпусная лингвистика – – Санкт- Петербург: Изд-во Санкт-Петербургского ун-та. – С Беляева 2004: Беляева, Л. Н. Лексикографический потенциал параллельного корпуса текстов. – In: Труды международной конференции Корпусная лингвистика – – Санкт-Петербург: Изд-во Санкт-Петербургского ун-та. – С SE: Slawische Korpuslinguistik, SS 2006

Literatur und Quellen Литература и источники Bernadini u.a. 2003: Bernadini, S.; Stewart, D.; Tanettin, F. Corpora in Translator Education: An Introduction. - In: Bernadini, S.; Stewart, D.; Tanettin, F. (eds.) Corpora in Translator Education. - Manchester: St. Jerome S. McEnery/Wilson 2006: McEnery, T.; Wilson, A. Corpus Linguistics. – Edinburgh: Edinburgh University Press. 209 S. Johansson 2003: Johansson, S. Reflections on corpora and their uses in Cross- linguistic research. - In: Bernadini, S.; Stewart, D.; Tanettin, F. (eds.) Corpora in Translator Education. - Manchester: St. Jerome S. Laviosa-Braithwaite 2003: Laviosa-Braithwaite, S. Corpora and the Translator. - In: Somers, H. L. (ed.) Computers and Translation. A Translators Guide. - Amsterdam: John Benjamins S. Ebeling 2000: Ebeling, J. Presentative constructions in English and Norwegian. A corpus-based contrastive study. Acta Humaniora Oslo: Unipub forlag. – 299 S. Véronis 2000: Véronis, J. From the Rosetta Stone to the Information Society: A Survey of Parallel Text Processing. – In: Véronis, J. (ed.). Parallel Text Processing. – Dordrecht: Kluwer. – 1-25 S. 26 SE: Slawische Korpuslinguistik, SS 2006

Literatur und Quellen Литература и источники SE: Slawische Korpuslinguistik, SS 2006

Literatur und Quellen Литература и источники SE: Slawische Korpuslinguistik, SS 2006