Präsentation herunterladen
Die Präsentation wird geladen. Bitte warten
1
erstellt von: Rita Plos
Slowakisches Nationalkorpus Slovenský národný korpus Tschechisches Nationalkorpus Česky národní korpus erstellt von: Rita Plos Seminar: Slawische Korpuslinguistik SS 2006 O. Prof. Dr. Branko Tošović Graz, am
2
Slowakisches Nationalkorpus Slovenský národný korpus
Leitung: PhDr. Mária Šimková Institut: Ľ. Štúr-Institut f. Linguistik Slowakische Akademie der Wissenschaften, Bratislava Jazykovedný ústav Ľ. Štúra Slovenská Akadémia Vied, Bratislava Verfügbarkeit: Internet - Sprachen: Slowakisch/Englisch SE: Slawische Korpuslinguistik, SS 2006 2
3
Struktur des SNK Štruktúra SNK
Allgemeines (primäres) Korpus Všeobecný (primárny) korpus Linguistische Quellen Lingvistické zdroje Parallelkorpus Paralelné korpusy SE: Slawische Korpuslinguistik, SS 2006 3
4
Allgemeines (primäres) Korpus Všeobecný (primárny) korpus
Die derzeitige Version dieses Korpus heißt prim-2.1: prim-2.1-public-all – enthält alle Texte: token prim-2.1-public-inf – enthält nur journalistische Texte: token prim-2.1-public-prf – enthält nur Wissenschafts- & Fachtexte: token prim-2.1-public-img – enthält nur Belletristik: token SE: Slawische Korpuslinguistik, SS 2006 4
5
Allgemeines (primäres) Korpus Všeobecný (primárny) korpus
prim-2.1-public-sane – durchgesehenes Korpus, enthält nur nicht-linguistische Texte mit Standardqualität (richtige diakritische Zeichen, Standard der slowakischen Gegenswartssprache): token prim-2.1-public-skimg – enthält nur original slowakische Belletristik: token prim-2.1-vyv – ausgeglichenes Korpus (60% journalitische Texte, 20% Belletristik, 20% Fachtexte): token SE: Slawische Korpuslinguistik, SS 2006 5
6
Allgemeines (primäres) Korpus Všeobecný (primárny) korpus
Außerdem gibt es ein spezielles Subkorpus: r-mak händisch morphologisch annotiertes Korpus: token SE: Slawische Korpuslinguistik, SS 2006 6
7
Linguistische Quellen Lingvistické zdroje
Slowakische Sprachwissenschaftler 1976 – 2000 Slovenskí jazykovedci Kleines Wörterbuch der Slowakischen Sprache Krátky slovník slovenskeho jazyka Volltext Datenbank mit ausgewählten Exemplaren des „Kultúra slova“ Magazins Vybrané čísla časopisu Kultúra slova SE: Slawische Korpuslinguistik, SS 2006 7
8
Parallelkorpus Paralelné korpusy
Parallelkorpus f. Computer-Fachausdrücke - Sprachen: alle slawischen Sprachen, alle romanischen Sprachen, Deutsch, Englisch, Chinesisch etc. SE: Slawische Korpuslinguistik, SS 2006 8
9
Tschechisches Nationalkorpus Česky národní korpus
Leitung: Prof. PhDr. František Čermák, DrSc. Institut: Institut des ČNK, Karlsuniversität, Prag Ústav Českého národního korpusu,Univerzita Karlova, Praha Verfügbarkeit: Internet - Sprachen: Tschechisch / Englisch Gegründet: SE: Slawische Korpuslinguistik, SS 2006 9
10
Struktur des ČNK Struktura ČNK
Synchroner Teil / Synchronní část : 1. Geschriebenes Korpus / Psané korpusy 2. Gesprochenes Korpus / Mluvené korpusy 3. Parallelkorpora / Paralelní korpusy Diachroner Teil / Diachronní část : 1. Diachrones Korpus / Diachronní korpus SE: Slawische Korpuslinguistik, SS 2006 10
11
Geschriebenes Korpus Psané korpusy
SYN2000 – enthält zeitgenössische, tschechische Texte: Wörter SYN2005 – enthält zeitgenössische, tschechische Texte: Wörter SYN 2000 SYN2005 Publizistik publicistika 60% 33% Fachliteratur odborná lit. 15% 40% Belletristik beletrie 25% 27% SE: Slawische Korpuslinguistik, SS 2006 11
12
Geschriebenes Korpus Psané korpusy
PUBLIC – reduzierte Version v. SYN2000 (ohne Passwort): Wörter % Publizistik / publicistika % Fachliteratur / odborná literatura % Belletristik / beletrie SE: Slawische Korpuslinguistik, SS 2006 12
13
Geschriebenes Korpus Psané korpusy
Weiters: FSC2000 SYNEC LITERA ORWELL DB – unterstützende Datenbanken und elektr. Wörterbücher SE: Slawische Korpuslinguistik, SS 2006 13
14
Geschriebenes Korpus Psané korpusy
ČNKSYN-Archiv – enthält elektr.Texte in rohen Dateiformaten (MS Word, Ventura etc.), meist nur als Sicherungskopie ČNKSYN-Bank – enthält die an das Korpusformat (SGML), angepassten Texte. Leider ist es nicht möglich die ČNKSYN als ein großes Korpus anzubieten. SE: Slawische Korpuslinguistik, SS 2006 14
15
Gesprochenes Korpus Mluvené korpusy
Prager gesprochenes Korpus Pražský mluvený korpus Brünner gesprochenes Korpus Brněnský mluvený korpus SE: Slawische Korpuslinguistik, SS 2006 15
16
Parallelkorpora Paralelní korpusy
InterCorp – Projekt (keine näheren Angaben) SE: Slawische Korpuslinguistik, SS 2006 16
17
Diachrones Korpus Diachronní korpus
DIAKORP – Auswahl alter, tschechischer Texte (13.Jh.) bis heute: ~ Wörter DB – Datenbanken & Wörterbücher auf Alt-Tschechisch ČNKDIA-Archiv – enthält gescannte Texte des Alt-Tschechischen SE: Slawische Korpuslinguistik, SS 2006 17
18
Diachrones Korpus Diachronní korpus
ČNKDIA-Bank – enthält: - transkribierte Texte ( Wörter), - transliterierte Texte ( Wörter) - Dialekt-Texte ( Wörter) DIAL – geplantes Dialektkorpus SE: Slawische Korpuslinguistik, SS 2006 18
19
Literatur und Quellen Literatúra a prameňe / Literatura a prameny
Slowakisch / Slovenský Jarošová 1993: Jarošová, A. Korpus textov slovenského jazyka. – In: Slovenská reč. – Bratislava , – Ročník 58, číslo 2. – S Гарабик 2004: Гарабик, Р. Словацкий национальный корпус. – In: Труды международной конференции „Корпусная лингвистика – 2004“. – Санкт-Петербург: Изд-во Санкт-Петербургского ун-та. – С SE: Slawische Korpuslinguistik, SS 2006 19
20
Literatur und Quellen Literatúra a prameňe / Literatura a prameny
Tschechisch/ Český Petkevič 2004: Petkevič, V. Rule-Based Part-of-Speech and Morphological Disambiguation of the Czech National Corpus. – In: Труды международной конференции „Корпусная лингвистика – 2004“. – Санкт - Петербург : Изд - во Санкт - Петербургского ун - та . – С Rychly/Smrz 2004: Rychly, P.; Smrz, P. Manatee, Bonito and Word Sketches for Czech. – In: Труды международной конференции „Корпусная лингвистика – 2004“. – Санкт - Петербург : Изд - во Санкт - Петербургского ун - та . – С SE: Slawische Korpuslinguistik, SS 2006 20
21
Literatur und Quellen Literatúra a prameňe / Literatura a prameny
Копршивова 2004: Копршивова, М. К некоторым вопросам, связанным с лемматизацией корпуса чешских текстов. – In: Труды международной конференции „Корпусная лингвистика – 2004“. – Санкт-Петербург: Изд-во Санкт-Петербургского ун-та. – С SE: Slawische Korpuslinguistik, SS 2006 21
Ähnliche Präsentationen
© 2024 SlidePlayer.org Inc.
All rights reserved.