Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Parallelkorpora Параллельные корпуса Florian Thelen Seminar: Slawische Korpuslinguistik SS 2006 O. Prof. Dr. Branko Tošović

Ähnliche Präsentationen


Präsentation zum Thema: "Parallelkorpora Параллельные корпуса Florian Thelen Seminar: Slawische Korpuslinguistik SS 2006 O. Prof. Dr. Branko Tošović"—  Präsentation transkript:

1 Parallelkorpora Параллельные корпуса Florian Thelen (florian.thelen@stud.uni-graz.at) Seminar: Slawische Korpuslinguistik SS 2006 O. Prof. Dr. Branko Tošović 28. 3. 2006

2 Definition Определение Was sind Parallelkorpora ? A collection of texts, each of which is translated into one or more other languages than the original. (EAGLES 1996) Texts accompanied by their translation. (Véronis 2002) Corpora which hold the same texts in more than one language. (McEnery/Wilson 1996) 2 SE: Slawische Korpuslinguistik, SS 2006

3 Definition Определение Was sind Parallelkorpora? Textsammlung bzw. Korpus собрание текстов Mehrsprachigkeit многоязычность Äquivalente Texte эквивалентные тексты Verknüpfung der Texte выравнивание текстов 3 SE: Slawische Korpuslinguistik, SS 2006

4 Abgrenzung Отделение Unterschiede gegenüber anderen Korpora: einsprachige Korpora одноязычные корпуса vergleichbare Korpora сравнимые корпуса multilinguale Korpora многоязычные корпуса 4 SE: Slawische Korpuslinguistik, SS 2006

5 Arten von Parallelkorpora Виды параллельных корпусо́́в Unterteilung in: bi- & multilinguale дву- и многоязычные mono- & bidirektionale одно- и двунаправленные alignierte & nicht- alignierte (не) выровненные annotierte & nicht- annotierte (не) аннотированные 5 SE: Slawische Korpuslinguistik, SS 2006

6 Anwendungsbereiche Области применения Lexikographieлексикография Grammatikграмматика Semantik семантика Sprachpädagogik педагогика языков 6 SE: Slawische Korpuslinguistik, SS 2006

7 Anwendungsbereiche Области применения Übersetzungswissenschaft теория перевода Vergl. Literaturwissenschaft срав. лит.веденние Kulturwissenschaft култьуроведенние 7 SE: Slawische Korpuslinguistik, SS 2006

8 Lexikographie Лексикография Korrektur bestehender Wörterbücher Erweiterung bestehender Wörterbücher Erstellung neuer Fachwörterbücher Kontrastive Untersuchungen 8 SE: Slawische Korpuslinguistik, SS 2006

9 Alignement Выравнивание Definition:Verknüpfung von sprachlichen Einheiten, die sich gegenseitig entsprechen Absatz: Fragmentierungфрагментация Satz: sentence alignement выравнивание предложений Wort: word alignement выравнивание слов 9 SE: Slawische Korpuslinguistik, SS 2006

10 Alignement Выравнивание 6 Fälle von Alignement: 1 Satz (L1) = 1 Satz (L2) 2 Sätze (L1) = 1 Satz (L2) 1 Satz (L1) = 2 oder mehrere Sätze (L2) 2 Sätze (L1) = 2 Sätze (L2), aber innere Grenzen fallen nicht zusammen Satz (L1) wird nicht übersetzt Satz (L2) hat kein Äquivalent im Original und wurde vom Übersetzer eingefügt 10 SE: Slawische Korpuslinguistik, SS 2006

11 Texte Тексты Verhältnis Original (L1) zu Übersetzung (L2): Original entspricht eine authentischen Übersetzung (z.B. Dokumente internationaler Organisationen. Original entspricht einer menschlichen Übersetzung. Original entspricht einer maschinellen Übersetzung. Original entspricht einer übersetzten Zusammenfassung gleichen Inhalts. 11 SE: Slawische Korpuslinguistik, SS 2006

12 Probleme Проблемы Nach Ebeling 2000: Übersetzer machen Fehler. Jede Übersetzung ist nur eine Variante einer unendlichen Zahl verschiedener Übersetzungen. Übersetzung ist ein spezieller Texttyp, der die Zielsprache nicht adäquat repräsentiert. 12 SE: Slawische Korpuslinguistik, SS 2006

13 Slawische Parallelkorpora Славянские параллельные корпуса KACENKA (Masaryk Universität Brno) KACENKA Sprachen: Tschechisch – Englisch Inhalt: Belletristik Umfang: 3,297,283 Wörter Verfügbarkeit: CD-ROM 13 SE: Slawische Korpuslinguistik, SS 2006

14 Slawische Parallelkorpora Славянские параллельные корпуса Bohemica.com (Dominik Lukeš) Bohemica.com Sprachen: Tschechisch – Englisch Inhalt: Belletristik; Sachbücher Umfang: 99,905 Wörter Verfügbarkeit: Internetdownload 14 SE: Slawische Korpuslinguistik, SS 2006

15 Slawische Parallelkorpora Славянские параллельные корпуса IJS - ELAN (Institut Jožef Stefan) IJS - ELAN Sprachen: Slowenisch – Englisch Inhalt: Belletristik Umfang: ~ 1,000,000 Wörter Verfügbarkeit: Internetdownload 15 SE: Slawische Korpuslinguistik, SS 2006

16 Slawische Parallelkorpora Славянские параллельные корпуса SVEZ-IJS ACQUIS Corpus (Institut Jožef Stefan) SVEZ-IJS ACQUIS Corpus Sprachen: Slowenisch – Englisch Inhalt: EU- Rechtstexte Umfang: ~ 10,000,000 Wörter Verfügbarkeit: Internetdownload 16 SE: Slawische Korpuslinguistik, SS 2006

17 Slawische Parallelkorpora Славянские параллельные корпуса The TELRI Republic (TELRI Working Group WG9) The TELRI Republic Sprachen: Bulgarisch- Chinesisch – Tschechisch – Englisch – Deutsch – Lettisch – Polnisch – Rumänisch – Slowakisch – Slowenisch Inhalt: Platos Republik Umfang: nicht bekannt Verfügbarkeit: Internet (nur für TELRI Mitglieder) 17 SE: Slawische Korpuslinguistik, SS 2006

18 Slawische Parallelkorpora Славянские параллельные корпуса MULTEXT-East 1984 corpus (Institut Jožef Stefan) MULTEXT-East 1984 corpus Sprachen: Englisch – Rumänisch – Slowenisch – Tschechisch – Bulgarisch – Estnisch – Ungarisch – Serbisch – Litauisch – Russisch Inhalt: George Orwells 1984 Umfang: 100,000 Wörter (englisches Original) Verfügbarkeit: CD-ROM 18 SE: Slawische Korpuslinguistik, SS 2006

19 Slawische Parallelkorpora Славянские параллельные корпуса Textcorpus Idiot (ÖAW, Wien) Textcorpus Idiot Sprachen: Russisch – Deutsch Inhalt:Dostojevskijs Idiot Umfang: noch unbekannt Verfügbarkeit: online nicht verfügbar 19 SE: Slawische Korpuslinguistik, SS 2006

20 Slawische Parallelkorpora Славянские параллельные корпуса Национальный корпус русского языка Национальный корпус русского языка Sprachen: Russisch – Englisch Inhalt: Belletristik Umfang: ~ 2,500,000 Wörter Verfügbarkeit: Internet 20 SE: Slawische Korpuslinguistik, SS 2006

21 Anwendung Применение Frage: Übersetzungen für das englische Wort nice Ergebnis: хорошийgut красивийschön приятный angenehm милый lieb отличныйhervorragend приличныйanständig 21 SE: Slawische Korpuslinguistik, SS 2006

22 Anwendung Применение Ergebnis: симпатичныйhübsch хорошенькийniedlich мировойfriedlich здоровыйgesund/ cool порядочный anständig шикарный schick удобный schicklich нарядныйelegant добрый gut идеальныйideal 22 SE: Slawische Korpuslinguistik, SS 2006

23 Anwendung Применение Frage: Volle Equivalenz von love und любовь? Ergebnis: любовь – love – passion love – любовь – пристрастие – желание 23 SE: Slawische Korpuslinguistik, SS 2006

24 Anwendung Применение Frage: Übertragung einer russischen Passivkonstruktion ins Englische? Beispielswort: сказать Ergebnis: 9 Verwendungen 6 mal Passiv / 1 mal Aktiv / 2 mal Substantiv 24 SE: Slawische Korpuslinguistik, SS 2006

25 Literatur und Quellen Литература и источники Добровольский и др. 2005: Добровольский, Д. О.; Кретов, А. А.; Шаров, С. А. Корпус параллельных текстов: архитектура и возможности использования. – In: Национальный корпус русского языка: 2003-2005. Результаты и перспективы – Москва: Индрик. – С. 263-296. Андреева/Касевич 2005:Андреева,Е. Г.; Касевич, В. Б. Грамматика и лексика (на материале анг­ло-русского корпуса параллельных текстов). – In: Национальный корпус русского языка: 2003-2005. Результаты и перспективы – Москва: Индрик. – С. 297-307. Виландеберк 2004: Виландеберк, А. А. Корпус параллельных правовых документов как составная часть АРМ юриста-переводчика. – In: Труды международной конференции Корпусная лингвистика – 2004. – Санкт- Петербург: Изд-во Санкт-Петербургского ун-та. – С. 72-85. Беляева 2004: Беляева, Л. Н. Лексикографический потенциал параллельного корпуса текстов. – In: Труды международной конференции Корпусная лингвистика – 2004. – Санкт-Петербург: Изд-во Санкт-Петербургского ун-та. – С. 55-64. 25 SE: Slawische Korpuslinguistik, SS 2006

26 Literatur und Quellen Литература и источники Bernadini u.a. 2003: Bernadini, S.; Stewart, D.; Tanettin, F. Corpora in Translator Education: An Introduction. - In: Bernadini, S.; Stewart, D.; Tanettin, F. (eds.) Corpora in Translator Education. - Manchester: St. Jerome. - 1-14 S. McEnery/Wilson 2006: McEnery, T.; Wilson, A. Corpus Linguistics. – Edinburgh: Edinburgh University Press. 209 S. Johansson 2003: Johansson, S. Reflections on corpora and their uses in Cross- linguistic research. - In: Bernadini, S.; Stewart, D.; Tanettin, F. (eds.) Corpora in Translator Education. - Manchester: St. Jerome. - 135-144 S. Laviosa-Braithwaite 2003: Laviosa-Braithwaite, S. Corpora and the Translator. - In: Somers, H. L. (ed.) Computers and Translation. A Translators Guide. - Amsterdam: John Benjamins. - 105-117 S. Ebeling 2000: Ebeling, J. Presentative constructions in English and Norwegian. A corpus-based contrastive study. Acta Humaniora 68. - Oslo: Unipub forlag. – 299 S. Véronis 2000: Véronis, J. From the Rosetta Stone to the Information Society: A Survey of Parallel Text Processing. – In: Véronis, J. (ed.). Parallel Text Processing. – Dordrecht: Kluwer. – 1-25 S. 26 SE: Slawische Korpuslinguistik, SS 2006

27 Literatur und Quellen Литература и источники http://infomap.stanford.edu/papers/bilingual-terms.pdf http://www.ruscorpora.ru http://www.bohemica.com/index.php?m=catalog&s=257 http://www.comp.leeds.ac.uk/ssharoff/paraquery-ru.html http://corpus.leeds.ac.uk/ http://rykov-cl.narod.ru/r.html http://www.slaviska.uu.se/korpus.htm http://nl.ijs.si/ME/ http://nl.ijs.si/svez/index-en.html http://nl.ijs.si/telri/Republic/ http://nl.ijs.si/elan/ http://www.aac.ac.at/ http://www.phil.muni.cz/angl/kacenka/kachna.html http://www.essex.ac.uk/linguistics/clmt/w3c/corpus_ling/content/corpora/types/parallel.html http://www.essex.ac.uk/linguistics/clmt/w3c/corpus_ling/content/corpora/types/parallel.html 27 SE: Slawische Korpuslinguistik, SS 2006

28 Literatur und Quellen Литература и источники http://www.bmanuel.org/clr2_mp.html#Multilingual_and_Parallel_Corpora http://devoted.to/corpora http://www.up.univ-mrs.fr/~veronis/biblios/ptp.html http://bowland-files.lancs.ac.uk/monkey/ihe/linguistics/corpus2/2fra1.htm http://www.dialog-21.ru/Archive/2005/Mikhailov%20M/MihailovM.pdf http://www.phil.pu.ru/depts/12/corp04.htm#tis http://www.ksu.ru/f10/publications/2004/articles_1_1.php?id=10&num=9000000 http://www.uni-tuebingen.de/uni/nss/docs/Korpora.html http://lingo.lancs.ac.uk/devotedto/corpora/corpora2.htm http://www.ilc.cnr.it/EAGLES96/corpustyp/node20.html http://odur.let.rug.nl/~spenader/public_docs/Parallel_Corpora.pdf 28 SE: Slawische Korpuslinguistik, SS 2006


Herunterladen ppt "Parallelkorpora Параллельные корпуса Florian Thelen Seminar: Slawische Korpuslinguistik SS 2006 O. Prof. Dr. Branko Tošović"

Ähnliche Präsentationen


Google-Anzeigen