Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Slowakisches Nationalkorpus Slovenský národný korpus Tschechisches Nationalkorpus Česky národní korpus erstellt von: Rita Plos Seminar: Slawische Korpuslinguistik.

Ähnliche Präsentationen


Präsentation zum Thema: "Slowakisches Nationalkorpus Slovenský národný korpus Tschechisches Nationalkorpus Česky národní korpus erstellt von: Rita Plos Seminar: Slawische Korpuslinguistik."—  Präsentation transkript:

1 Slowakisches Nationalkorpus Slovenský národný korpus Tschechisches Nationalkorpus Česky národní korpus erstellt von: Rita Plos Seminar: Slawische Korpuslinguistik SS 2006 O. Prof. Dr. Branko Tošović Graz, am

2 Slowakisches Nationalkorpus Slovenský národný korpus Leitung: PhDr. Mária Šimková Institut: Ľ. Štúr-Institut f. Linguistik Slowakische Akademie der Wissenschaften, Bratislava Jazykovedný ústav Ľ. Štúra Slovenská Akadémia Vied, Bratislava Verfügbarkeit:Internet - Sprachen: Slowakisch/Englisch 2 SE: Slawische Korpuslinguistik, SS 2006

3 Struktur des SNK Štruktúra SNK  Allgemeines (primäres) Korpus Všeobecný (primárny) korpus  Linguistische Quellen Lingvistické zdroje  Parallelkorpus Paralelné korpusy 3 SE: Slawische Korpuslinguistik, SS 2006

4 Allgemeines (primäres) Korpus Všeobecný (primárny) korpus Die derzeitige Version dieses Korpus heißt prim-2.1:  prim-2.1-public-all – enthält alle Texte: token  prim-2.1-public-inf – enthält nur journalistische Texte: token  prim-2.1-public-prf – enthält nur Wissenschafts- & Fachtexte: token  prim-2.1-public-img – enthält nur Belletristik: token 4 SE: Slawische Korpuslinguistik, SS 2006

5 Allgemeines (primäres) Korpus Všeobecný (primárny) korpus  prim-2.1-public-sane – durchgesehenes Korpus, enthält nur nicht-linguistische Texte mit Standardqualität (richtige diakritische Zeichen, Standard der slowakischen Gegenswartssprache): token  prim-2.1-public-skimg – enthält nur original slowakische Belletristik: token  prim-2.1-vyv – ausgeglichenes Korpus (60% journalitische Texte, 20% Belletristik, 20% Fachtexte): token 5 SE: Slawische Korpuslinguistik, SS 2006

6 Allgemeines (primäres) Korpus Všeobecný (primárny) korpus Außerdem gibt es ein spezielles Subkorpus:  r-mak händisch morphologisch annotiertes Korpus: token 6 SE: Slawische Korpuslinguistik, SS 2006

7 Linguistische Quellen Lingvistické zdroje  Slowakische Sprachwissenschaftler 1976 – 2000 Slovenskí jazykovedci  Kleines Wörterbuch der Slowakischen Sprache Krátky slovník slovenskeho jazyka  Volltext Datenbank mit ausgewählten Exemplaren des „Kultúra slova“ Magazins Vybrané čísla časopisu Kultúra slova 7 SE: Slawische Korpuslinguistik, SS 2006

8 Parallelkorpus Paralelné korpusy  Parallelkorpus f. Computer-Fachausdrücke - Sprachen: alle slawischen Sprachen, alle romanischen Sprachen, Deutsch, Englisch, Chinesisch etc. 8 SE: Slawische Korpuslinguistik, SS 2006

9 Tschechisches Nationalkorpus Česky národní korpus Leitung: Prof. PhDr. František Čermák, DrSc. Institut: Institut des ČNK, Karlsuniversität, Prag Ústav Českého národního korpusu,Univerzita Karlova, Praha Verfügbarkeit:Internet - Sprachen: Tschechisch / Englisch Gegründet: SE: Slawische Korpuslinguistik, SS 2006

10 Struktur des ČNK Struktura ČNK  Synchroner Teil / Synchronní část : 1. Geschriebenes Korpus / Psané korpusy 2.Gesprochenes Korpus / Mluvené korpusy 3. Parallelkorpora / Paralelní korpusy  Diachroner Teil / Diachronní část : 1. Diachrones Korpus / Diachronní korpus 10 SE: Slawische Korpuslinguistik, SS 2006

11 Geschriebenes Korpus Psané korpusy  SYN2000 – enthält zeitgenössische, tschechische Texte: Wörter  SYN2005 – enthält zeitgenössische, tschechische Texte: Wörter 11 SE: Slawische Korpuslinguistik, SS 2006 SYN 2000SYN2005 Publizistik publicistika 60%33% Fachliteratur odborná lit. 15%40% Belletristik beletrie 25%27%

12 Geschriebenes Korpus Psané korpusy  PUBLIC – reduzierte Version v. SYN2000 (ohne Passwort): Wörter - 60% Publizistik / publicistika - 25% Fachliteratur / odborná literatura - 15% Belletristik / beletrie 12 SE: Slawische Korpuslinguistik, SS 2006

13 Geschriebenes Korpus Psané korpusy Weiters:  FSC2000  SYNEC  LITERA  ORWELL  DB – unterstützende Datenbanken und elektr. Wörterbücher 13 SE: Slawische Korpuslinguistik, SS 2006

14 Geschriebenes Korpus Psané korpusy  ČNKSYN-Archiv – enthält elektr.Texte in rohen Dateiformaten (MS Word, Ventura etc.), meist nur als Sicherungskopie  ČNKSYN-Bank – enthält die an das Korpusformat (SGML), angepassten Texte. Leider ist es nicht möglich die ČNKSYN als ein großes Korpus anzubieten. 14 SE: Slawische Korpuslinguistik, SS 2006

15 Gesprochenes Korpus Mluvené korpusy  Prager gesprochenes Korpus Pražský mluvený korpus  Brünner gesprochenes Korpus Brněnský mluvený korpus 15 SE: Slawische Korpuslinguistik, SS 2006

16 Parallelkorpora Paralelní korpusy 16 SE: Slawische Korpuslinguistik, SS 2006  InterCorp – Projekt (keine näheren Angaben)

17  DIAKORP – Auswahl alter, tschechischer Texte (13.Jh.) bis heute: ~ Wörter  DB – Datenbanken & Wörterbücher auf Alt-Tschechisch  ČNKDIA-Archiv – enthält gescannte Texte des Alt- Tschechischen Diachrones Korpus Diachronní korpus SE: Slawische Korpuslinguistik, SS

18 Diachrones Korpus Diachronní korpus  ČNKDIA-Bank – enthält: - transkribierte Texte ( Wörter), - transliterierte Texte ( Wörter) - Dialekt-Texte ( Wörter)  DIAL – geplantes Dialektkorpus 18 SE: Slawische Korpuslinguistik, SS 2006

19 Literatur und Quellen Literatúra a prameňe / Literatura a prameny Slowakisch / Slovenský  Jarošová 1993: Jarošová, A. Korpus textov slovenského jazyka. – In: Slovenská reč. – Bratislava, – Ročník 58, číslo 2. – S  Гарабик 2004: Гарабик, Р. Словацкий национальный корпус. – In: Труды международной конференции „Корпусная лингвистика – 2004“. – Санкт-Петербург: Изд-во Санкт- Петербургского ун-та. – С  19 SE: Slawische Korpuslinguistik, SS 2006

20 Literatur und Quellen Literatúra a prameňe / Literatura a prameny Tschechisch/ Český  Petkevič 2004: Petkevič, V. Rule-Based Part-of-Speech and Morphological Disambiguation of the Czech National Corpus. – In: Труды международной конференции „Корпусная лингвистика – 2004“. – Санкт - Петербург : Изд - во Санкт - Петербургского ун - та. – С  Rychly/Smrz 2004: Rychly, P.; Smrz, P. Manatee, Bonito and Word Sketches for Czech. – In: Труды международной конференции „Корпусная лингвистика – 2004“. – Санкт - Петербург : Изд - во Санкт - Петербургского ун - та. – С SE: Slawische Korpuslinguistik, SS 2006

21 Literatur und Quellen Literatúra a prameňe / Literatura a prameny  Копршивова 2004: Копршивова, М. К некоторым вопросам, связанным с лемматизацией корпуса чешских текстов. – In: Труды международной конференции „Корпусная лингвистика – 2004“. – Санкт-Петербург: Изд-во Санкт-Петербургского ун-та. – С  21 SE: Slawische Korpuslinguistik, SS 2006


Herunterladen ppt "Slowakisches Nationalkorpus Slovenský národný korpus Tschechisches Nationalkorpus Česky národní korpus erstellt von: Rita Plos Seminar: Slawische Korpuslinguistik."

Ähnliche Präsentationen


Google-Anzeigen