Übung zu Einführung in die LDV I

Slides:



Advertisements
Ähnliche Präsentationen
Englischunterricht an der Realschule
Advertisements

Vorlesung Compilertechnik Sommersemester 2008
Polynomial Root Isolation
„Wer Eigenverantwortung und Selbstständigkeit will, muss sie gewähren
Seminar Textmining WS 06/07 Themen Übung 11 unsupervised vs. supervised Symbolfolgen, Kunstsprachen Page Rank.
Rückläufige Wörterbücher
Italienische Lexikologie und Lexikographie III.
Wörterbuchtypen Universität zu Köln Romanisches Seminar
Übung zu Einführung in die LDV I
Maschinelle Übersetzung I
Parser generieren Yet Another Compiler – Compiler YACC.
Klaus J. Kohler IPDS, Kiel
DOM (Document Object Model)
Prof. Dr. rer.nat. Ralph Großmann Fakultät Informatik / Mathematik Sommersemester 2012 Internet-Technologien XML-basierte Techniken Teil Metasprache der.
Sprachwissenschaftliches Institut Einführung in die HPSG Grammatiktheorie 4./11. Mai 2004.
Sprachkonstruktion I Konstruktion einer neuen Sprache Einladung zu einem Sprachexperiment Sie sind eingeladen, sich an einem Sprachexperiment zu beteiligen.
SYSTRAN Information and translation technologies.
Lexikalisch-Funktionale-Grammatik
2. Textkriterien Ulrich Mehlem WS 2008 / 2009
Was ist Lemmatisierung und wie wird sie maschinell durchgeführt?
Optimierung von Volltextindices
Optimierung von Volltextindices
Spree SoSe 2007 Titel Lexikographie – Produktion lexikographischer Werke (am Beispiel lookedup4you) Abb.: Relaunch lookedup4you Betaversion.
Spree SoSe 2007 Titel Lexikographie und Metalexikographie Lexikonproduktion und Lexikontheorie Dank an Franziskus Geeb, der mir seine Unterrichtsmaterialien.
Indexierung - Verschlagwortung
Spree SoSe 2010 Optimierung von Volltextinvertierung durch den Einsatz von Indexierungswörterbüchern Artikelstrecke ab BUTTERBLUME im Deutschen Wörterbuch.
Mehrsprachigkeit aus psycholinguistischer Sicht
IMSLex – ein NLP Lexikon
Grundelemente der Dependenzsyntax
Titelmasterformat durch Klicken bearbeiten Formatvorlage des Untertitelmasters durch Klicken bearbeiten Die formalen Sprachen bei ETAP Teil II.
Grammatikunterricht - Wortschatz
Maschinelles Lernen und automatische Textklassifikation
Entitäten Extraktion Einführung
RDF MT Resource Description Framework Model Theory © 2002 by Emir Blažević
Der erste Schritt in die richtige Richtung
Rechtliche Grundlagen
Rechtliche Grundlagen
Deutschunterricht mit dem Lehrmittel «Die Sprachstarken»
Lexikalische Semantik
Semantische Grundbegriffe Busch/Stenschke Kap. 11
Wortbildung: Grundlagen, Klassen von Affixen
Elternabend der Schule … vom …
Übung zu Einführung in die LDV I
Monomorphemisch: Haus, Baum etc Morphologisch komplex
Theoretischer Hintergrund Systematische Wortschatzarbeit –
Tasks UNDERSTAND KNOW COMPREHEND know comprehend understandit ž, n, d, c, r, s, t, a, n, d w, t žn dcr stan dwt [žn] – [dcr] – [stan] – [dwt] SELECTION.
Übung zu Einführung in die LDV I
Mensch – Maschine - Kommunikation
die wichtigsten Wörterbücher des Deutschen elektronische Lexikographie
Fachwortschatz. Terminologie.
Lexikalische Semantik.
EINFÜHRUNG IN DIE MORPHOLOGIE Morphologie = Formenlehre
Inhalt Einordnung und Funktion der lexikalische Analyse Grundlagen
Gegenstand der Lexikologie. Geschichte der Lexikologie.
IB+IA Anfänger Structura limbii Sommersemester 2015 Dr. Ileana-Maria Ratcu.
Lexikalische Semantik
IB + IA Anfänger Semantik
2. Vorlesungseinheit: Grammatik-Übersetzungsmethode
Wortschatzarbeit im Deutschunterricht
Bildungsplan 2016 Standardstufe 6 - Sprachmittlung
Thema 4: Das Wort als linquistische Grundeinheit Teil 1. Das Wort als sprachliches Zeichen.
VO#1: Lexikologie als sprachwissenschaftliche Disziplin Lexikologie, Matej-Bel-Univeristät in Banská Bystrica, Z. Tuhárska.
1) Das Wort als sprachliche Grundeinheit; 2) Das Problem der Grundeinheit der Sprache 3) Die Definition des Wortes;
VORLESUNG 1 Sprachbau Sememe Sätze Redeteilen Wortformen Wortgruppe Morpheme (Begriffe)
Vo#1:Semantik als Wissenschaft Semantik I Matej-Bel-Universität in Banská Bystrica Zuzana Tuhárska.
Lexikologie der deutschen Gegenwartssprache Dr.phil. Saposhnikowa L.M.
VO#3: Aspekte der Bedeutung Semantik I Matej-Bel-Universität in Banská Bystrica Zuzana Tuhárska.
Semantische Relationen
Sommersemester 2016 Dr. Ileana-Maria RATCU
 Präsentation transkript:

Übung zu Einführung in die LDV I Lexik Tom Schaeffer scha4204@uni-trier.de

Definitionen Lexik Lexikon Vokabular Lexikographie Lexikologie Disziplin, die sich mit der Wortebene beschäftigt Lexikon Wortbestand der gesamten Sprache Vokabular Wortbestand eines Texts oder den Wortschatz eines Sprechers/Hörers Lexikographie Die Lexikographie hat die Aufgabe, den Wortbestand einer Sprache zu beschreiben. Dies geschieht in der Regel mittels Wörterbüchern. Lexikologie untersucht Strukturen und Zusammenhänge im Wortbestand

Wortbegriff Nach phonetischen Kriterien Wort als durch eindeutigen Akzent und künstlich gesprochene Pausen identifizierbare Einheit Nach orthographischen Kriterien Wort als Buchstabenfolge zwischen Leerzeichen und anderen Trennsymbolen Nach morphologischen Kriterien Einheit, die der Flexion unterliegt und durch Wortbildungsregeln gekennzeichnet ist Nach syntaktischen Kriterien kleinste auf Satzebene austauschbare und einschiebbare Einheit Nach semantischen Kriterien kleinster selbstständiger Träger einer Bedeutung

Lexem / Lemma Lexem Lemma Abstrakte Basiseinheit des Lexikons auf langue-Ebene, die in verschiedenen grammatischen Wortformen realisiert werden kann Lemma Eintrag bzw. einzelnes Stichwort in einem Lexikon oder Wörterbuch; das Lemma ist der Stellvertreter des Lexems, sozusagen sein „Name“

Lemmatisierung zu einer gegebenen Wortform das zugehörige Lemma herauszufinden Zwei mögliche Methoden: Nachschlagen der zu lemmatisierenden Wortform in einem Vollformenwörterbuch, in dem jede einzelne flektierte Form jedes Wort einen Eintrag besitzt und auf das jeweils korrekte Lemma (bzw. die in Frage kommenden Lemmata, s.u.) verweist. Diese Methode ist sehr speicheraufwändig, aber schnell und unkompliziert. beruht auf möglichst vollständigen Listen aller (Allo)Morphe und einem Regelwerk. Die zu analysierende Wortform wird zunächst in potenzielle Allomorphe segmentiert.

Lemmatisierung Dann müssen die Flexionsmorphe separiert werden. Entweder wird der Rest dann in einem Stamm-Lexikon nachgeschlagen oder es werden die Flexionsmorphe hinzugefügt, die für die Lemmata in Frage kommen, und in einem üblichen Wortverzeichnis gesucht. Anhand der bei der Wortform gefundenen Flexionsmorphe lässt sich die Wortform anschließend mit einer vollständigen morphologischen Information versehen. Meist gibt es mehrere, oft sehr viele prinzipiell mögliche Segmentierungen. Das Verfahren muss dafür sorgen, dass nur solche Segmentierungen in Betracht gezogen werden, die den Regeln der Morphologie (Morphotaktik) der betreffenden Sprache genügen und bei Zusammensetzung der Wortform ein gültiges, restloses Ergebnis erbringen. Die morphologische Methode ist weniger speicheraufwändig als die auf einem Vollformenwörterbuch basierende, aber sehr komplex und schwer zu warten.

Probleme bei der Lemmatisierung Eigennamenerkennung (1) Man benötigt zur Erkennung von Eigennamen ein entsprechendes Verzeichnis, das meist nicht zur Verfügung steht und immer unvollständig sein muss (2) Viele Eigennamen sind formgleich mit anderen Wörtern im Wörterbuch nicht gefundene Wörter Abkürzungen Komposita Ambiguitäten Homonymie

Lexikalische Relationen Synonymie Antonymie Homonymie Homophonie Homographie Polysemie Polylexie Hyponymie / Hyperonymie Meronymie / Holonymie