erstellt von: Rita Plos

Slides:



Advertisements
Ähnliche Präsentationen
1990 bis 2007 Die Entwicklung einer Gemeinde
Advertisements

Anzahl der ausgefüllten und eingesandten Fragebögen: 211
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil3.
Soziologische Theorien und soziale Fakten 8. Veranstaltung.
Dr. Helmuth Sagawe WS 2010/11 Universität Heidelberg
eine Plattform für annotierte Korpora in XML
© 2007 Towers Perrin 0 Vertriebswegeanteile (Leben gesamt) APE* LEBEN GESAMT 2006 APE* LEBEN GESAMT VORJAHRESVERGLEICH * APE = Summe aus laufenden Beiträge.
Modelle und Methoden der Linearen und Nichtlinearen Optimierung (Ausgewählte Methoden und Fallstudien) U N I V E R S I T Ä T H A M B U R G November 2011.
Modelle und Methoden der Linearen und Nichtlinearen Optimierung (Ausgewählte Methoden und Fallstudien) U N I V E R S I T Ä T H A M B U R G November 2011.
Modelle und Methoden der Linearen und Nichtlinearen Optimierung (Ausgewählte Methoden und Fallstudien) U N I V E R S I T Ä T H A M B U R G November 2012.
Digitalisierung und Aufbereitung von Sprachdaten
1 JIM-Studie 2010 Jugend, Information, (Multi-)Media Landesanstalt für Kommunikation Baden-Württemberg (LFK) Landeszentrale für Medien und Kommunikation.
Klicke Dich mit der linken Maustaste durch das Übungsprogramm! Vereinfachung von Termen Ein Übungsprogramm der IGS - Hamm/Sieg © IGS-Hamm/Sieg 2006 Dietmar.
© Karin Haenelt 2006, Äquivalenzen Reg.Ausdrücke, Reg.Sprachen, EA ( ) 1 Reguläre Sprachen Karin Haenelt.
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil2.
Niedersächsisches Ministerium für Inneres und Sport 1 Planung der neuen Akademie für Brand- und Katastrophenschutz in Scheuen Einwohnerversammlung Groß
Prof. Dr. Bernhard Wasmayr
Ringvorlesung Einführung in das Wissenschaftliche Arbeiten Literaturrecherche I – ZBS-OPAC und Sportdatenbanken Andreas Amendt.
Prof. Dr. Bernhard Wasmayr VWL 2. Semester
AWA 2007 Natur und Umwelt Natürlich Leben
SS 2005Standard-Software Prof. Dr. Erik Jacobson Blatt 1 Standard-Software Prof. Dr. Erik Jacobson Lehrveranstaltung im SS 2005 Vorlesung Fr.
Standard-Software Prof. Dr. Erik Jacobson Lehrveranstaltung im SS 2006
WS 2005/06Standard-Software Prof. Dr. Erik Jacobson Blatt 1 Standard-Software Prof. Dr. Erik Jacobson Lehrveranstaltung im WS 2005/06 Vorlesung.
20:00.
Deutsche einsprachige Korpora немецкие одноязычные корпуса Institut für Slawistik Seminar: Slawische Korpuslinguistik SS 2006 O. Prof. Dr. Branko Tošović
AGOF facts & figures: Branchenpotenziale im Internet Q3 2013: Telekommunikation Basis internet facts
Im Schul-Shop. das Englisches Wörterbuch Das kostet 10,00 Euro. L 12,00 $
Anglo-Amerikanische Korpuslinguistik Anglo-American Corpus Linguistics Erstellt von Gudrun Krenn Slawische Korpuslinguistik SE SS 2006 Dr. Branko Tošović
Eine Einführung in die CD-ROM
GBI Genios Wiso wiso bietet Ihnen das umfassendste Angebot deutsch- und englischsprachiger Literatur für die Wirtschafts- und Sozialwissenschaften. Wir.
Auslegung eines Vorschubantriebes
Peter Grzybek Projekt # (FWF) Projekt # 43s9 (OEAD/SAIA) Graphem-Häufigkeiten.
© Bibliothek und Archiv der Österreichischen Akademie der Wissenschaften Katalogisierung in RAK / MAB2 Beispiele 1. Teil Lösungen Verbund für Bildung und.
Institut für Slawistik der Karl-Franzens Universität Graz Graz, 25. November 2010 Evaluierung der Grazer Sprachwissenschaft von 2005 bis 2009 Einführung.
Institut für Slawistik der Karl-Franzens Universität Graz Graz, 25. November 2010 Evaluierung der Grazer Sprachwissenschaft von 2005 bis 2009 Perspektive.
1 Branko Tošović SLAWISCHE SRIFTSYSTEME SORBISCH LUŽICKOSRBSKÝ JAZYK.
1 Branko Tošović SLAWISCHE PHONEMSYSTEME TSCHECHISCH ČESKÝ JAZYK ČEŠTINA.
Peter Grzybek ( Graz ) Wortlängen(häufigkeiten) in Texten slawischer Sprachen FWF-Projekt #15485 ( )
Russische Korpuslinguistik im Internet Ру́́́́сская корпусная лингвистика Erstellt durch: Doris Weißenböck Andreas Konrad Sprachwissenschaftliches Seminar.
Peter Grzybek Austrian Research Fund Project #15485 Von der Ökonomie der Sprache zur Selbst- Regulation kultureller.
1 Branko Tošović SLAWISCHE SRIFTSYSTEME TSCHECHISCH ČESKÝ JAZYK ČEŠTINA.
Germanismen im Gralis-Korpus
Parallelkorpora Параллельные корпуса Florian Thelen Seminar: Slawische Korpuslinguistik SS 2006 O. Prof. Dr. Branko Tošović
Französisch-Slawische Korpuslinguistik Французско- славянская корпусная лингвистика Aigner Ruth Prenn Linde SE Korpuslinguistik O. Univ.-Prof. Dr. Branko.
Grundfragen,Grundbegriffe, Teildisziplinen,Ziele,Nutzen
Ertragsteuern, 5. Auflage Christiana Djanani, Gernot Brähler, Christian Lösel, Andreas Krenzin © UVK Verlagsgesellschaft mbH, Konstanz und München 2012.
Managemententscheidungsunterstützungssysteme (Ausgewählte Methoden und Fallstudien) ( Die Thesen zur Vorlesung 3) Thema der Vorlesung Lösung der linearen.
MINDREADER Ein magisch - interaktives Erlebnis mit ENZO PAOLO
Andrea Karner Susi Luginger
1 (C)2006, Hermann Knoll, HTW Chur, FHO Quadratische Reste Definitionen: Quadratischer Rest Quadratwurzel Anwendungen.
In- und Ausländer.
Erstversorgung sehr kleiner Frühgeborener „NEU“ am AKH Wien
Schutzvermerk nach DIN 34 beachten 20/05/14 Seite 1 Grundlagen XSoft Lösung :Logische Grundschaltung IEC-Grundlagen und logische Verknüpfungen.
Zusammengestellt von OE3DSB
Folie Beispiel für eine Einzelauswertung der Gemeindedaten (fiktive Daten)
Institut für slawistik / Karl-Franzens-Universität Graz, am
Ausschusssitzung 6. Mai 2014 Herzlich Willkommen ELTERNVEREIN der Höheren technischen Bundeslehr- und Versuchsanstalt Mödling Elternverein Verbindet Eltern.
Folie Einzelauswertung der Gemeindedaten
Südböhmische Universität in České Budějovice
26. Oktober 2005Autor: Walter Leuenberger Computeria Urdorf Treff vom 26. Oktober 2005 Suchmaschinen im Internet Google & Co.
1 Branko Tošović SLAWISCHE SRIFTSYSTEME POLNISCHPOLSKI JĘZIK.
SAP Seminar 2007 Organisationsobjekte anlegen
1 Medienpädagogischer Forschungsverbund Südwest KIM-Studie 2014 Landesanstalt für Kommunikation Baden-Württemberg (LFK) Landeszentrale für Medien und Kommunikation.
AGOF facts & figures: Branchenpotenziale im Internet Q3 2014: Telekommunikation Basis internet facts / mobile facts 2014-II.
Text Encoding Initiative Universität zu Köln Daten- und Metadatenstandards Seminarleitung: Patrick Sahle Seminarleitung: Patrick Sahle Referentin: Anna.
Tanja Eder Slawische Korpuslinguistik Prof. Tosovic, SS 2006 Lexikalische Datenbanken WordNet – RussNet EuroWordNet und Global WordNet Association.
Corinna Schnedhuber Slowenische Papallelkorpera Slovenski paralelni korpera Slawische Korpuslinguistik Prof. TosovicSS 2006.
Italianismen in der kroatischen Sprache Diplomarbeit Alexandra Groß
Branko Tošović (Univerzitet Graz, Austrija) 1
Slowenische Korpuslinguistik
 Präsentation transkript:

erstellt von: Rita Plos Slowakisches Nationalkorpus Slovenský národný korpus Tschechisches Nationalkorpus Česky národní korpus erstellt von: Rita Plos Seminar: Slawische Korpuslinguistik SS 2006 O. Prof. Dr. Branko Tošović Graz, am 16.05.2006

Slowakisches Nationalkorpus Slovenský národný korpus Leitung: PhDr. Mária Šimková Institut: Ľ. Štúr-Institut f. Linguistik Slowakische Akademie der Wissenschaften, Bratislava Jazykovedný ústav Ľ. Štúra Slovenská Akadémia Vied, Bratislava Verfügbarkeit: Internet - http://korpus.juls.sayba.sk/ Sprachen: Slowakisch/Englisch SE: Slawische Korpuslinguistik, SS 2006 2

Struktur des SNK Štruktúra SNK Allgemeines (primäres) Korpus Všeobecný (primárny) korpus Linguistische Quellen Lingvistické zdroje Parallelkorpus Paralelné korpusy SE: Slawische Korpuslinguistik, SS 2006 3

Allgemeines (primäres) Korpus Všeobecný (primárny) korpus Die derzeitige Version dieses Korpus heißt prim-2.1: prim-2.1-public-all – enthält alle Texte: 294.087.581 token prim-2.1-public-inf – enthält nur journalistische Texte: 178.070.839 token prim-2.1-public-prf – enthält nur Wissenschafts- & Fachtexte: 34.118.166 token prim-2.1-public-img – enthält nur Belletristik: 51.365.542 token SE: Slawische Korpuslinguistik, SS 2006 4

Allgemeines (primäres) Korpus Všeobecný (primárny) korpus prim-2.1-public-sane – durchgesehenes Korpus, enthält nur nicht-linguistische Texte mit Standardqualität (richtige diakritische Zeichen, Standard der slowakischen Gegenswartssprache): 285.700.835 token prim-2.1-public-skimg – enthält nur original slowakische Belletristik: 12.508.261 token prim-2.1-vyv – ausgeglichenes Korpus (60% journalitische Texte, 20% Belletristik, 20% Fachtexte): 54.357.894 token SE: Slawische Korpuslinguistik, SS 2006 5

Allgemeines (primäres) Korpus Všeobecný (primárny) korpus Außerdem gibt es ein spezielles Subkorpus: r-mak-1.0 - händisch morphologisch annotiertes Korpus: 322.600 token SE: Slawische Korpuslinguistik, SS 2006 6

Linguistische Quellen Lingvistické zdroje Slowakische Sprachwissenschaftler 1976 – 2000 Slovenskí jazykovedci 1976 - 2000 Kleines Wörterbuch der Slowakischen Sprache Krátky slovník slovenskeho jazyka Volltext Datenbank mit ausgewählten Exemplaren des „Kultúra slova“ Magazins Vybrané čísla časopisu Kultúra slova SE: Slawische Korpuslinguistik, SS 2006 7

Parallelkorpus Paralelné korpusy Parallelkorpus f. Computer-Fachausdrücke - Sprachen: alle slawischen Sprachen, alle romanischen Sprachen, Deutsch, Englisch, Chinesisch etc. SE: Slawische Korpuslinguistik, SS 2006 8

Tschechisches Nationalkorpus Česky národní korpus Leitung: Prof. PhDr. František Čermák, DrSc. Institut: Institut des ČNK, Karlsuniversität, Prag Ústav Českého národního korpusu,Univerzita Karlova, Praha Verfügbarkeit: Internet - http://ucnk.ff.cuni.cz/ Sprachen: Tschechisch / Englisch Gegründet: 1994 SE: Slawische Korpuslinguistik, SS 2006 9

Struktur des ČNK Struktura ČNK Synchroner Teil / Synchronní část : 1. Geschriebenes Korpus / Psané korpusy 2. Gesprochenes Korpus / Mluvené korpusy 3. Parallelkorpora / Paralelní korpusy Diachroner Teil / Diachronní část : 1. Diachrones Korpus / Diachronní korpus SE: Slawische Korpuslinguistik, SS 2006 10

Geschriebenes Korpus Psané korpusy SYN2000 – enthält zeitgenössische, tschechische Texte: 100.000.000 Wörter SYN2005 – enthält zeitgenössische, tschechische Texte: 100.000.000 Wörter SYN 2000 SYN2005 Publizistik publicistika 60% 33% Fachliteratur odborná lit. 15% 40% Belletristik beletrie 25% 27% SE: Slawische Korpuslinguistik, SS 2006 11

Geschriebenes Korpus Psané korpusy PUBLIC – reduzierte Version v. SYN2000 (ohne Passwort): 20.000.000 Wörter - 60% Publizistik / publicistika - 25% Fachliteratur / odborná literatura - 15% Belletristik / beletrie SE: Slawische Korpuslinguistik, SS 2006 12

Geschriebenes Korpus Psané korpusy Weiters: FSC2000 SYNEC LITERA ORWELL DB – unterstützende Datenbanken und elektr. Wörterbücher SE: Slawische Korpuslinguistik, SS 2006 13

Geschriebenes Korpus Psané korpusy ČNKSYN-Archiv – enthält elektr.Texte in rohen Dateiformaten (MS Word, Ventura etc.), meist nur als Sicherungskopie ČNKSYN-Bank – enthält die an das Korpusformat (SGML), angepassten Texte. Leider ist es nicht möglich die ČNKSYN als ein großes Korpus anzubieten. SE: Slawische Korpuslinguistik, SS 2006 14

Gesprochenes Korpus Mluvené korpusy Prager gesprochenes Korpus Pražský mluvený korpus Brünner gesprochenes Korpus Brněnský mluvený korpus SE: Slawische Korpuslinguistik, SS 2006 15

Parallelkorpora Paralelní korpusy InterCorp – Projekt (keine näheren Angaben) SE: Slawische Korpuslinguistik, SS 2006 16

Diachrones Korpus Diachronní korpus DIAKORP – Auswahl alter, tschechischer Texte (13.Jh.) bis heute: ~ 700.000 Wörter DB – Datenbanken & Wörterbücher auf Alt-Tschechisch ČNKDIA-Archiv – enthält gescannte Texte des Alt-Tschechischen SE: Slawische Korpuslinguistik, SS 2006 17

Diachrones Korpus Diachronní korpus ČNKDIA-Bank – enthält: - transkribierte Texte (2 000 000 Wörter), - transliterierte Texte (100 000 Wörter) - Dialekt-Texte (200 000 Wörter) DIAL – geplantes Dialektkorpus SE: Slawische Korpuslinguistik, SS 2006 18

Literatur und Quellen Literatúra a prameňe / Literatura a prameny Slowakisch / Slovenský Jarošová 1993: Jarošová, A. Korpus textov slovenského jazyka. – In: Slovenská reč. – Bratislava , 1993. – Ročník 58, číslo 2. – S. 89-95. Гарабик 2004: Гарабик, Р. Словацкий национальный корпус. – In: Труды международной конференции „Корпусная лингвистика – 2004“. – Санкт-Петербург: Изд-во Санкт-Петербургского ун-та. – С. 99-121. http://korpus.juls.savba.sk/ SE: Slawische Korpuslinguistik, SS 2006 19

Literatur und Quellen Literatúra a prameňe / Literatura a prameny Tschechisch/ Český Petkevič 2004: Petkevič, V. Rule-Based Part-of-Speech and Morphological Disambiguation of the Czech National Corpus. – In: Труды международной конференции „Корпусная лингвистика – 2004“. – Санкт - Петербург : Изд - во Санкт - Петербургского ун - та . – С . 271-285. Rychly/Smrz 2004: Rychly, P.; Smrz, P. Manatee, Bonito and Word Sketches for Czech. – In: Труды международной конференции „Корпусная лингвистика – 2004“. – Санкт - Петербург : Изд - во Санкт - Петербургского ун - та . – С . 324-334. SE: Slawische Korpuslinguistik, SS 2006 20

Literatur und Quellen Literatúra a prameňe / Literatura a prameny Копршивова 2004: Копршивова, М. К некоторым вопросам, связанным с лемматизацией корпуса чешских текстов. – In: Труды международной конференции „Корпусная лингвистика – 2004“. – Санкт-Петербург: Изд-во Санкт-Петербургского ун-та. – С. 176-182. http://ucnk.ff.cuni.cz/ SE: Slawische Korpuslinguistik, SS 2006 21