Bernd-Kristian Kaczenski Humboldt-Universität zu Berlin

Slides:



Advertisements
Ähnliche Präsentationen
Die Bachelor-Arbeit Themenfindung & Gliederung
Advertisements

Zufallsfelder Def. Zufallsfeld: Sei V eine endliche Menge (von Orten). Für jedes v V existiere eine (endliche) Menge X(v) von Zuständen x(v). Der Raum.
Polynomial Root Isolation
Meine Familie Today’s Objective:
eine Plattform für annotierte Korpora in XML
1 Spezielle Packages des Java SDK (1.4) java.nio.
Das Blütenmodell Bislang entwickelte Fachmodule: Wirtschafts- und Ingenieurswissenschaften.
Kulturelle Konflikte im globalen Konfliktgeschehen seit 1945 – Prof. Dr. Aurel Croissant Studie des Instituts für Politische Wissenschaft an der Universität.
Hypertext 2010/2011.
IMS Universität Stuttgart 1 Einführung in XML Hannah Kermes HS: Elektronische Wörterbücher Do,
1 Ein Computermodell zur Bestimmung von Begriffstypen Christof Rumpf Heinrich-Heine-Universität Tag der Forschung
© Karin Haenelt 2005, Endliche Automaten: Alphabet, Zeichenreihe, Sprache, Endliche Automaten Grundlagen: Alphabet, Zeichenreihe, Sprache.
Beata Kouchnir1 Part-of-Speech Tagging Eine Übersicht über verschiedene Ansätze sowie eine theoretische Beschreibung des TnT-Taggers von Thorsten.
1 Letzte Aktualisierung: Spree WS 2005/2006 Feedback Arbeitsaufgabe - Regelwerk Viele interessante Einsendungen Ich glaube, Sie haben verstanden,
Dublin Core Metadata Thea Spiridonidou Institut für Informatik Humboldt Universität zu Berlin SE: Grundlegende Aspekte des Semantic Web WS 02/03.
DVG Felder1 Felder. DVG Felder 2 Was sind Felder? Felder sind Reihungen aus endlich vielen Elementen gleichen Typs. Z.B.: Vektoren : (x.
1 Grundlagen und Anwendung der Extensible Markup Language (XML ) Peter Buxmann Institut für Wirtschaftsinformatik Johann Wolfgang Goethe-Universität Frankfurt.
Entitäten Extraktion Wichtige Schritte Petra Maier WS 05/06.
Dayta Ergebnisorientiertes Wissensmanagement dayta Whitepaper Revision Vorab-Version erstes Drittel handelt von eLearning allgemein noch keinen.
Deutsche einsprachige Korpora немецкие одноязычные корпуса Institut für Slawistik Seminar: Slawische Korpuslinguistik SS 2006 O. Prof. Dr. Branko Tošović
Jahre WorldWideWeb 13 Jahre Web-Anwendungen mit allegro.
RDF MT Resource Description Framework Model Theory © 2002 by Emir Blažević
Wortarten-Tagging für Nomen
Medizinische Universität Wien, Abteilung für Rheumatologie
VO Geschichte Europas Methoden Problemorientiert Kritisch-reflexiv Chronologie Diskursanalyse Dekonstruktion Spezialisierte Zugänge: Identitätsforschung,
Typo3 Templates und TypoScript
Wird ganz am Anfang der HTML-Datei geschrieben Doctype html public bedeutet, dass man sich auf die Öffentlichkeit der html-dtd bezieht Html ist die meist.
Organisatorisches Leiterin: Mag. Dr. Sabine Alexandra Haring Telefon: Termine und Lehrveranstaltungsunterlagen:
Peter Grzybek ( Graz ) Das Grazer Projekt »Wortlängen(häufigkeiten) in Texten slawischer Sprachen« FWF #15485 ( )
Theoriereferat Indexes, Scales and Typologies The Logic of Sampling
Erziehung schwieriger Kinder...
Emmerich Kelih & Gordana Antić Klassifikation von Autor und/oder Text?
Institut für Slawistik der Karl-Franzens Universität Graz Graz, 25. November 2010 Evaluierung der Grazer Sprachwissenschaft von 2005 bis 2009 Einführung.
Institut für Slawistik der Karl-Franzens Universität Graz Graz, 25. November 2010 Evaluierung der Grazer Sprachwissenschaft von 2005 bis 2009 Perspektive.
Aktivitäten im Bereich Fachdidaktik am Institut für Slawistik 2005–2009.
Germanismen im Gralis-Korpus
ÖWAD Indikatoren, Ist- und Soll-Größen - DI Johannes Prem, BMLFUW 1.Waldforum des ÖWAD Indikatoren, Ist- und Soll-Größen Bericht über den aktuellen Stand.
Visualisierung semantischer Daten
„Interkulturelles Lernen“ Fördermaßnahmen und Bedeutung der Sprache
Was kann Wissenschaft? Wir irren uns empor.... Wissenschaftliches Arbeiten 1) Hypothesenbildung Was will ich herausfinden? (Ergebnisoffen! Unvoreingenommen!)
Web 1.0 vs. Web 2.0.
Das Europäische Sprachenportfolio in Österreich
Guten Morgen.
DFG Round Table Session “Web Research” Darmstadt
Eine kurze Einführung.  Software zur Erstellung eines Dokumenten- servers  Dient zur Aufbewahrung von allen Typen von digitalen Inhalten (Texte, Bilder,
Dublin Core IT-Zertifikat Daten- und Metadatenstandards.
Universität Bukarest Fremdsprachenfakultät Germanistiklehrstuhl Lekt. Dr. Hermine Fierbinţeanu Valorisierungskonferenz Bukarest ECL-Tests in.
Stefan Vogel, 3. Fachsemester BBS WS 09 / FOM
Mensch – Maschine - Kommunikation
Personal Pronouns.
Symposium: Die phonetisch-phonologischen, orthoepischen und orthographischen Unterschiede zwischen dem Bosnischen/Bosniakischen, Kroatischen und Serbischen.
Lexikalische Semantik
Die grammatikalischen Unterschiede zwischen dem
ANNIS Einführung RIDGES Herbology 4.1 Laura Perlitz und Carolin Odebrecht Humboldt-Universität zu Berlin.
definite and indefinite articles
Korpora und Annotation
Gender and Article German nouns are divided into three groups three grammatical “genders”: 1. masculine Vater Onkel Koffer The gender is expressed through.
Interrogative Words. Interrogative words, also called question words are used to ask for information.
G ENDER AND A RTICLE German nouns are divided into three groups three grammatical “genders”: masculine Vater Onkel The gender is expressed through the.
Adjektiven und Adverbien Endungen. Das prädikativ gebrauchte Adjektiv Predicate adjectives follow the verbs sein, werden or bleiben. The modify the subject.
Amir Zeldes Korpuslinguistik Zusammenfassung.
Gender and Article German nouns are divided into three groups three grammatical “genders”: 1. masculine Vater Onkel Herbst The gender is expressed through.
WISSENSREPRÄSENTATION IN ACTIVEMATH Theoretische Grundlagen – Teil 1.
Adjective Endings after der-words
Persönliche Pronomen.
The Dative Indirect Objects.
definite and indefinite articles
Kapitel 5 INDEX Possessive Adjectives Grammar.
The Possessives.
 Präsentation transkript:

www.bkms.org Bernd-Kristian Kaczenski Humboldt-Universität zu Berlin Bosnisch Kroatisch Montenegrinisch Serbisch 3. Symposium „Die grammatikalischen Unterschiede zwischen dem Bosnischen/Bosniakischen, Kroatischen und Serbischen“ Graz, 16.-18. April 2009 Bernd-Kristian Kaczenski Humboldt-Universität zu Berlin

Varietätenraum (nach: Gibbon 1998)‏

Variationsraum: Dimensionen und Varietäten

Definition „Varietätenkorpus“: Ein Varietätenkorpus erfasst mit Metadaten annotierte, schriftlich oder mündlich geäußerte Texte eines Varietätenraumes, und macht Varietäten als Teilmengen des Varietätenraumes durch eine exogene Rahmenstruktur sichtbar und vergleichbar. Dabei sind Varietäten selbst Teilmengen anderer Varietäten, sie überschneiden sich und bilden Schnittmengen. Die kleinste Varietät ist der Ideolekt, also die Sprache eines Sprechers oder die eines Textes. Textimmanente Varietät wird per definitionem nicht betrachtet, obwohl streng genommen manch ein Text (besonders Romane) eine Art Mikrovarietätenraum (Sprache des Erzählers vs. Sprache der Charaktere, etc.) eröffnet. Die primäre Funktion eines Varietätenkorpus ist die Ausdifferenzierung von Varietäten.

„In den meisten großen Korpora wird zu jeder vorgesehenen Annotationsebene, wie z.B. Wortart-Ebene oder Lemma-Ebene, genau eine Interpretation angeboten“ (Lüdeling, A. (2007): Das Zusammenspiel von qualitativen und quantitativen Methoden in der Korpuslinguistik. In: Kallmeyer, W. / Zifonum, G. (eds.): Sprachkorpora – Daten­mengen und Erkenntnisfortschritt (= Institut für Deutsche Sprache, Jahrbuch 2006). Berlin, New York. S. 28 – 48.) STTS (Stuttgart-Tübingen Tagset) CLAWS Tag Set /Penn Treebank Tag Set Hunden_NN_­MASK_­AKK_­PL

MULTEXT Richtlinien MSD (morpho­syntactic descriptions) Ncms is equivalent to PoS:Noun, Type:common, Gender:masculine, Number:singular“

Können widersprüchlich sein Erweiterbar individuell n Token m Tags Können konkurrieren Können widersprüchlich sein Erweiterbar individuell n Token Token 1 : Tag 1 manuell durch xyz eingefügt Token 1: Tag 73 auto 73% Token 1: Tag 132 auto 52% Token 2: Tag 2 auto 95% Token 2: Tag 132 auto 67% KEINE NULLSTELLEN !!!

Strikte Trennung von Annotations- und Referenzebene Keine Redundanz Ein Wortform = eine ID 3 Entitäten: Lemmata, Typs und Tags Entitäten können bei Suchabfragen beliebig kombiniert werden.

Ausblick Statistisch abgesicherte Daten für beliebige Vergleichsabfragen in allen Dimensionen des Varietätenraumes Benutzerfreundlichkeit durch AJAX-Technologie (Visualisierung) Dynamik, Flexibilität und Erweiterbarkeit  Übersetzungssoftware und Textverarbeitungsprogramme