Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Bernd-Kristian Kaczenski Humboldt-Universität zu Berlin

Ähnliche Präsentationen


Präsentation zum Thema: "Bernd-Kristian Kaczenski Humboldt-Universität zu Berlin"—  Präsentation transkript:

1 www.bkms.org Bernd-Kristian Kaczenski Humboldt-Universität zu Berlin
Bosnisch Kroatisch Montenegrinisch Serbisch 3. Symposium „Die grammatikalischen Unterschiede zwischen dem Bosnischen/Bosniakischen, Kroatischen und Serbischen“ Graz, April 2009 Bernd-Kristian Kaczenski Humboldt-Universität zu Berlin

2 Varietätenraum (nach: Gibbon 1998)‏

3 Variationsraum: Dimensionen und Varietäten

4 Definition „Varietätenkorpus“:
Ein Varietätenkorpus erfasst mit Metadaten annotierte, schriftlich oder mündlich geäußerte Texte eines Varietätenraumes, und macht Varietäten als Teilmengen des Varietätenraumes durch eine exogene Rahmenstruktur sichtbar und vergleichbar. Dabei sind Varietäten selbst Teilmengen anderer Varietäten, sie überschneiden sich und bilden Schnittmengen. Die kleinste Varietät ist der Ideolekt, also die Sprache eines Sprechers oder die eines Textes. Textimmanente Varietät wird per definitionem nicht betrachtet, obwohl streng genommen manch ein Text (besonders Romane) eine Art Mikrovarietätenraum (Sprache des Erzählers vs. Sprache der Charaktere, etc.) eröffnet. Die primäre Funktion eines Varietätenkorpus ist die Ausdifferenzierung von Varietäten.

5 „In den meisten großen Korpora wird zu jeder vorgesehenen Annotationsebene, wie z.B. Wortart-Ebene oder Lemma-Ebene, genau eine Interpretation angeboten“ (Lüdeling, A. (2007): Das Zusammenspiel von qualitativen und quantitativen Methoden in der Korpuslinguistik. In: Kallmeyer, W. / Zifonum, G. (eds.): Sprachkorpora – Daten­mengen und Erkenntnisfortschritt (= Institut für Deutsche Sprache, Jahrbuch 2006). Berlin, New York. S. 28 – 48.) STTS (Stuttgart-Tübingen Tagset) CLAWS Tag Set /Penn Treebank Tag Set Hunden_NN_­MASK_­AKK_­PL

6 MULTEXT Richtlinien MSD (morpho­syntactic descriptions) Ncms is equivalent to PoS:Noun, Type:common, Gender:masculine, Number:singular“

7 Können widersprüchlich sein Erweiterbar individuell n Token
m Tags Können konkurrieren Können widersprüchlich sein Erweiterbar individuell n Token Token 1 : Tag 1 manuell durch xyz eingefügt Token 1: Tag 73 auto 73% Token 1: Tag 132 auto 52% Token 2: Tag 2 auto 95% Token 2: Tag 132 auto 67% KEINE NULLSTELLEN !!!

8

9 Strikte Trennung von Annotations- und Referenzebene
Keine Redundanz Ein Wortform = eine ID 3 Entitäten: Lemmata, Typs und Tags Entitäten können bei Suchabfragen beliebig kombiniert werden.

10 Ausblick Statistisch abgesicherte Daten für beliebige Vergleichsabfragen in allen Dimensionen des Varietätenraumes Benutzerfreundlichkeit durch AJAX-Technologie (Visualisierung) Dynamik, Flexibilität und Erweiterbarkeit  Übersetzungssoftware und Textverarbeitungsprogramme

11

12

13

14


Herunterladen ppt "Bernd-Kristian Kaczenski Humboldt-Universität zu Berlin"

Ähnliche Präsentationen


Google-Anzeigen