erstellt von: Rita Plos Slowakisches Nationalkorpus Slovenský národný korpus Tschechisches Nationalkorpus Česky národní korpus erstellt von: Rita Plos Seminar: Slawische Korpuslinguistik SS 2006 O. Prof. Dr. Branko Tošović Graz, am 16.05.2006
Slowakisches Nationalkorpus Slovenský národný korpus Leitung: PhDr. Mária Šimková Institut: Ľ. Štúr-Institut f. Linguistik Slowakische Akademie der Wissenschaften, Bratislava Jazykovedný ústav Ľ. Štúra Slovenská Akadémia Vied, Bratislava Verfügbarkeit: Internet - http://korpus.juls.sayba.sk/ Sprachen: Slowakisch/Englisch SE: Slawische Korpuslinguistik, SS 2006 2
Struktur des SNK Štruktúra SNK Allgemeines (primäres) Korpus Všeobecný (primárny) korpus Linguistische Quellen Lingvistické zdroje Parallelkorpus Paralelné korpusy SE: Slawische Korpuslinguistik, SS 2006 3
Allgemeines (primäres) Korpus Všeobecný (primárny) korpus Die derzeitige Version dieses Korpus heißt prim-2.1: prim-2.1-public-all – enthält alle Texte: 294.087.581 token prim-2.1-public-inf – enthält nur journalistische Texte: 178.070.839 token prim-2.1-public-prf – enthält nur Wissenschafts- & Fachtexte: 34.118.166 token prim-2.1-public-img – enthält nur Belletristik: 51.365.542 token SE: Slawische Korpuslinguistik, SS 2006 4
Allgemeines (primäres) Korpus Všeobecný (primárny) korpus prim-2.1-public-sane – durchgesehenes Korpus, enthält nur nicht-linguistische Texte mit Standardqualität (richtige diakritische Zeichen, Standard der slowakischen Gegenswartssprache): 285.700.835 token prim-2.1-public-skimg – enthält nur original slowakische Belletristik: 12.508.261 token prim-2.1-vyv – ausgeglichenes Korpus (60% journalitische Texte, 20% Belletristik, 20% Fachtexte): 54.357.894 token SE: Slawische Korpuslinguistik, SS 2006 5
Allgemeines (primäres) Korpus Všeobecný (primárny) korpus Außerdem gibt es ein spezielles Subkorpus: r-mak-1.0 - händisch morphologisch annotiertes Korpus: 322.600 token SE: Slawische Korpuslinguistik, SS 2006 6
Linguistische Quellen Lingvistické zdroje Slowakische Sprachwissenschaftler 1976 – 2000 Slovenskí jazykovedci 1976 - 2000 Kleines Wörterbuch der Slowakischen Sprache Krátky slovník slovenskeho jazyka Volltext Datenbank mit ausgewählten Exemplaren des „Kultúra slova“ Magazins Vybrané čísla časopisu Kultúra slova SE: Slawische Korpuslinguistik, SS 2006 7
Parallelkorpus Paralelné korpusy Parallelkorpus f. Computer-Fachausdrücke - Sprachen: alle slawischen Sprachen, alle romanischen Sprachen, Deutsch, Englisch, Chinesisch etc. SE: Slawische Korpuslinguistik, SS 2006 8
Tschechisches Nationalkorpus Česky národní korpus Leitung: Prof. PhDr. František Čermák, DrSc. Institut: Institut des ČNK, Karlsuniversität, Prag Ústav Českého národního korpusu,Univerzita Karlova, Praha Verfügbarkeit: Internet - http://ucnk.ff.cuni.cz/ Sprachen: Tschechisch / Englisch Gegründet: 1994 SE: Slawische Korpuslinguistik, SS 2006 9
Struktur des ČNK Struktura ČNK Synchroner Teil / Synchronní část : 1. Geschriebenes Korpus / Psané korpusy 2. Gesprochenes Korpus / Mluvené korpusy 3. Parallelkorpora / Paralelní korpusy Diachroner Teil / Diachronní část : 1. Diachrones Korpus / Diachronní korpus SE: Slawische Korpuslinguistik, SS 2006 10
Geschriebenes Korpus Psané korpusy SYN2000 – enthält zeitgenössische, tschechische Texte: 100.000.000 Wörter SYN2005 – enthält zeitgenössische, tschechische Texte: 100.000.000 Wörter SYN 2000 SYN2005 Publizistik publicistika 60% 33% Fachliteratur odborná lit. 15% 40% Belletristik beletrie 25% 27% SE: Slawische Korpuslinguistik, SS 2006 11
Geschriebenes Korpus Psané korpusy PUBLIC – reduzierte Version v. SYN2000 (ohne Passwort): 20.000.000 Wörter - 60% Publizistik / publicistika - 25% Fachliteratur / odborná literatura - 15% Belletristik / beletrie SE: Slawische Korpuslinguistik, SS 2006 12
Geschriebenes Korpus Psané korpusy Weiters: FSC2000 SYNEC LITERA ORWELL DB – unterstützende Datenbanken und elektr. Wörterbücher SE: Slawische Korpuslinguistik, SS 2006 13
Geschriebenes Korpus Psané korpusy ČNKSYN-Archiv – enthält elektr.Texte in rohen Dateiformaten (MS Word, Ventura etc.), meist nur als Sicherungskopie ČNKSYN-Bank – enthält die an das Korpusformat (SGML), angepassten Texte. Leider ist es nicht möglich die ČNKSYN als ein großes Korpus anzubieten. SE: Slawische Korpuslinguistik, SS 2006 14
Gesprochenes Korpus Mluvené korpusy Prager gesprochenes Korpus Pražský mluvený korpus Brünner gesprochenes Korpus Brněnský mluvený korpus SE: Slawische Korpuslinguistik, SS 2006 15
Parallelkorpora Paralelní korpusy InterCorp – Projekt (keine näheren Angaben) SE: Slawische Korpuslinguistik, SS 2006 16
Diachrones Korpus Diachronní korpus DIAKORP – Auswahl alter, tschechischer Texte (13.Jh.) bis heute: ~ 700.000 Wörter DB – Datenbanken & Wörterbücher auf Alt-Tschechisch ČNKDIA-Archiv – enthält gescannte Texte des Alt-Tschechischen SE: Slawische Korpuslinguistik, SS 2006 17
Diachrones Korpus Diachronní korpus ČNKDIA-Bank – enthält: - transkribierte Texte (2 000 000 Wörter), - transliterierte Texte (100 000 Wörter) - Dialekt-Texte (200 000 Wörter) DIAL – geplantes Dialektkorpus SE: Slawische Korpuslinguistik, SS 2006 18
Literatur und Quellen Literatúra a prameňe / Literatura a prameny Slowakisch / Slovenský Jarošová 1993: Jarošová, A. Korpus textov slovenského jazyka. – In: Slovenská reč. – Bratislava , 1993. – Ročník 58, číslo 2. – S. 89-95. Гарабик 2004: Гарабик, Р. Словацкий национальный корпус. – In: Труды международной конференции „Корпусная лингвистика – 2004“. – Санкт-Петербург: Изд-во Санкт-Петербургского ун-та. – С. 99-121. http://korpus.juls.savba.sk/ SE: Slawische Korpuslinguistik, SS 2006 19
Literatur und Quellen Literatúra a prameňe / Literatura a prameny Tschechisch/ Český Petkevič 2004: Petkevič, V. Rule-Based Part-of-Speech and Morphological Disambiguation of the Czech National Corpus. – In: Труды международной конференции „Корпусная лингвистика – 2004“. – Санкт - Петербург : Изд - во Санкт - Петербургского ун - та . – С . 271-285. Rychly/Smrz 2004: Rychly, P.; Smrz, P. Manatee, Bonito and Word Sketches for Czech. – In: Труды международной конференции „Корпусная лингвистика – 2004“. – Санкт - Петербург : Изд - во Санкт - Петербургского ун - та . – С . 324-334. SE: Slawische Korpuslinguistik, SS 2006 20
Literatur und Quellen Literatúra a prameňe / Literatura a prameny Копршивова 2004: Копршивова, М. К некоторым вопросам, связанным с лемматизацией корпуса чешских текстов. – In: Труды международной конференции „Корпусная лингвистика – 2004“. – Санкт-Петербург: Изд-во Санкт-Петербургского ун-та. – С. 176-182. http://ucnk.ff.cuni.cz/ SE: Slawische Korpuslinguistik, SS 2006 21