Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

erstellt von: Rita Plos

Ähnliche Präsentationen


Präsentation zum Thema: "erstellt von: Rita Plos"—  Präsentation transkript:

1 erstellt von: Rita Plos
Slowakisches Nationalkorpus Slovenský národný korpus Tschechisches Nationalkorpus Česky národní korpus erstellt von: Rita Plos Seminar: Slawische Korpuslinguistik SS 2006 O. Prof. Dr. Branko Tošović Graz, am

2 Slowakisches Nationalkorpus Slovenský národný korpus
Leitung: PhDr. Mária Šimková Institut: Ľ. Štúr-Institut f. Linguistik Slowakische Akademie der Wissenschaften, Bratislava Jazykovedný ústav Ľ. Štúra Slovenská Akadémia Vied, Bratislava Verfügbarkeit: Internet - Sprachen: Slowakisch/Englisch SE: Slawische Korpuslinguistik, SS 2006 2

3 Struktur des SNK Štruktúra SNK
Allgemeines (primäres) Korpus Všeobecný (primárny) korpus Linguistische Quellen Lingvistické zdroje Parallelkorpus Paralelné korpusy SE: Slawische Korpuslinguistik, SS 2006 3

4 Allgemeines (primäres) Korpus Všeobecný (primárny) korpus
Die derzeitige Version dieses Korpus heißt prim-2.1: prim-2.1-public-all – enthält alle Texte: token prim-2.1-public-inf – enthält nur journalistische Texte: token prim-2.1-public-prf – enthält nur Wissenschafts- & Fachtexte: token prim-2.1-public-img – enthält nur Belletristik: token SE: Slawische Korpuslinguistik, SS 2006 4

5 Allgemeines (primäres) Korpus Všeobecný (primárny) korpus
prim-2.1-public-sane – durchgesehenes Korpus, enthält nur nicht-linguistische Texte mit Standardqualität (richtige diakritische Zeichen, Standard der slowakischen Gegenswartssprache): token prim-2.1-public-skimg – enthält nur original slowakische Belletristik: token prim-2.1-vyv – ausgeglichenes Korpus (60% journalitische Texte, 20% Belletristik, 20% Fachtexte): token SE: Slawische Korpuslinguistik, SS 2006 5

6 Allgemeines (primäres) Korpus Všeobecný (primárny) korpus
Außerdem gibt es ein spezielles Subkorpus: r-mak händisch morphologisch annotiertes Korpus: token SE: Slawische Korpuslinguistik, SS 2006 6

7 Linguistische Quellen Lingvistické zdroje
Slowakische Sprachwissenschaftler 1976 – 2000 Slovenskí jazykovedci Kleines Wörterbuch der Slowakischen Sprache Krátky slovník slovenskeho jazyka Volltext Datenbank mit ausgewählten Exemplaren des „Kultúra slova“ Magazins Vybrané čísla časopisu Kultúra slova SE: Slawische Korpuslinguistik, SS 2006 7

8 Parallelkorpus Paralelné korpusy
Parallelkorpus f. Computer-Fachausdrücke - Sprachen: alle slawischen Sprachen, alle romanischen Sprachen, Deutsch, Englisch, Chinesisch etc. SE: Slawische Korpuslinguistik, SS 2006 8

9 Tschechisches Nationalkorpus Česky národní korpus
Leitung: Prof. PhDr. František Čermák, DrSc. Institut: Institut des ČNK, Karlsuniversität, Prag Ústav Českého národního korpusu,Univerzita Karlova, Praha Verfügbarkeit: Internet - Sprachen: Tschechisch / Englisch Gegründet: SE: Slawische Korpuslinguistik, SS 2006 9

10 Struktur des ČNK Struktura ČNK
Synchroner Teil / Synchronní část : 1. Geschriebenes Korpus / Psané korpusy 2. Gesprochenes Korpus / Mluvené korpusy 3. Parallelkorpora / Paralelní korpusy Diachroner Teil / Diachronní část : 1. Diachrones Korpus / Diachronní korpus SE: Slawische Korpuslinguistik, SS 2006 10

11 Geschriebenes Korpus Psané korpusy
SYN2000 – enthält zeitgenössische, tschechische Texte: Wörter SYN2005 – enthält zeitgenössische, tschechische Texte: Wörter SYN 2000 SYN2005 Publizistik publicistika 60% 33% Fachliteratur odborná lit. 15% 40% Belletristik beletrie 25% 27% SE: Slawische Korpuslinguistik, SS 2006 11

12 Geschriebenes Korpus Psané korpusy
PUBLIC – reduzierte Version v. SYN2000 (ohne Passwort): Wörter % Publizistik / publicistika % Fachliteratur / odborná literatura % Belletristik / beletrie SE: Slawische Korpuslinguistik, SS 2006 12

13 Geschriebenes Korpus Psané korpusy
Weiters: FSC2000 SYNEC LITERA ORWELL DB – unterstützende Datenbanken und elektr. Wörterbücher SE: Slawische Korpuslinguistik, SS 2006 13

14 Geschriebenes Korpus Psané korpusy
ČNKSYN-Archiv – enthält elektr.Texte in rohen Dateiformaten (MS Word, Ventura etc.), meist nur als Sicherungskopie ČNKSYN-Bank – enthält die an das Korpusformat (SGML), angepassten Texte. Leider ist es nicht möglich die ČNKSYN als ein großes Korpus anzubieten. SE: Slawische Korpuslinguistik, SS 2006 14

15 Gesprochenes Korpus Mluvené korpusy
Prager gesprochenes Korpus Pražský mluvený korpus Brünner gesprochenes Korpus Brněnský mluvený korpus SE: Slawische Korpuslinguistik, SS 2006 15

16 Parallelkorpora Paralelní korpusy
InterCorp – Projekt (keine näheren Angaben) SE: Slawische Korpuslinguistik, SS 2006 16

17 Diachrones Korpus Diachronní korpus
DIAKORP – Auswahl alter, tschechischer Texte (13.Jh.) bis heute: ~ Wörter DB – Datenbanken & Wörterbücher auf Alt-Tschechisch ČNKDIA-Archiv – enthält gescannte Texte des Alt-Tschechischen SE: Slawische Korpuslinguistik, SS 2006 17

18 Diachrones Korpus Diachronní korpus
ČNKDIA-Bank – enthält: - transkribierte Texte ( Wörter), - transliterierte Texte ( Wörter) - Dialekt-Texte ( Wörter) DIAL – geplantes Dialektkorpus SE: Slawische Korpuslinguistik, SS 2006 18

19 Literatur und Quellen Literatúra a prameňe / Literatura a prameny
Slowakisch / Slovenský Jarošová 1993: Jarošová, A. Korpus textov slovenského jazyka. – In: Slovenská reč. – Bratislava , – Ročník 58, číslo 2. – S Гарабик 2004: Гарабик, Р. Словацкий национальный корпус. – In: Труды международной конференции „Корпусная лингвистика – 2004“. – Санкт-Петербург: Изд-во Санкт-Петербургского ун-та. – С SE: Slawische Korpuslinguistik, SS 2006 19

20 Literatur und Quellen Literatúra a prameňe / Literatura a prameny
Tschechisch/ Český Petkevič 2004: Petkevič, V. Rule-Based Part-of-Speech and Morphological Disambiguation of the Czech National Corpus. – In: Труды международной конференции „Корпусная лингвистика – 2004“. – Санкт - Петербург : Изд - во Санкт - Петербургского ун - та . – С Rychly/Smrz 2004: Rychly, P.; Smrz, P. Manatee, Bonito and Word Sketches for Czech. – In: Труды международной конференции „Корпусная лингвистика – 2004“. – Санкт - Петербург : Изд - во Санкт - Петербургского ун - та . – С SE: Slawische Korpuslinguistik, SS 2006 20

21 Literatur und Quellen Literatúra a prameňe / Literatura a prameny
Копршивова 2004: Копршивова, М. К некоторым вопросам, связанным с лемматизацией корпуса чешских текстов. – In: Труды международной конференции „Корпусная лингвистика – 2004“. – Санкт-Петербург: Изд-во Санкт-Петербургского ун-та. – С SE: Slawische Korpuslinguistik, SS 2006 21


Herunterladen ppt "erstellt von: Rita Plos"

Ähnliche Präsentationen


Google-Anzeigen