IMSLex – ein NLP Lexikon Hannah Kermes HS: Elektronische Wörterbücher Do, 2.12.2004
Motivation Ressource, die detaillierte Information zu Elementen der Sprache enthält, ist eine notwendige Vorraussetzung um Sprache mit dem Computer zu verarbeiten Produktivität der Sprache verlangt nach einem System, daß regelbasiert auch Wörter erkennt, die nicht explizit im Lexikon gelistet sind
DeKo Derivations- und Kompositionsmorphologie Beschreibung und Modellierung von Prozessen der deutschen Wortbildung Erstellung eines robusten Systems zur Analyse und strukturellen Beschreibungen komplexer Wörter
Wortbildungsprozesse Flexion: Affigierung von Flexionsmorphemen an eine Flexionsstammform Derivation: Affigierung von Wortbildungsmorphemen an eine Derivationsstammform Komposition: Affigierung von Basismorphemen an eine Kompositionsstammform
Spezifikation lexikalischer Einheiten Beispiel form morph_status selegiert Haus, Baum, Auto simplex frei nein elektr-, ident- gebunden •frei, •reich ja -sam, -abel
DeKo Lexikonmodell lexikalische Einheiten: Zitierform Merkmale: Flexion Wortbildung Phonetik Syntax Semantik Korpusfrequenz verschiedene Stammformen phonetische Transkription
Ziel Umsetzung des DeKo-Lexikonkonzeptes in eine Ressource und die Verschmelzung dieser Ressource mit den im DMOR-Lexikon enthaltenen Daten
Hauptanforderungen an das Lexikon Rückwärtskompatibilität Abbildung in das von der Morphologie geforderte Format Erweiterbarkeit inhaltlich wie strukturell Wartbarkeit Flexibilität XML (eXtensible Markup Language)
XML Formalismus zur Definition von Klassen von Dokumenten Definition des Zeichenvorrats Definition der Dokumentenstruktur standardisiertes und eindeutiges Markup Dokumenttyp Definition (DTD) automatische Validierung der Dokumentenstruktur
XML Bausteine inhaltlich: formal: Elemente Attribut/Wert-Paare syntaktische Festlegung auf die Notation der inhaltlichen Bausteine
XML Modellierungsprinzipien Elemente Information läßt sich in weitere Informationen untergliedern Attribute Information kann nicht weiter zerlegt werden Information ist aufzählbar Dokumentinhalt Information ist nicht aufzählbar
Allgemeine Konzeption Theorieunabhängigkeit Redundanzvermeidung Generalisierung Modularisierung Aufteilung komplexer Strukturen in kleinere Teile Makrostruktur und Mikrostruktur
Redundanz Generalisierung Transparenz: Flexionsparadigma alle Arten von Einheiten haben dasselbe Konzept von Unterschieden wird abstahiert zugunsten einer klaren und einfachen Sicht
Modularisierung Aufteilung von komplexen Strukturen in kleinere Teile Makrostruktur: flache Organisation lexikalischer Einheiten Mikrostruktur: globale Merkmale Angaben zur Flexionsmorphologie fakultative Module: Wortbildung, Syntax, Semantik, Phonetik wortartenspezifische Information
IMSLex DTD - Hierarchie Wurzelement <!ELEMENT lexikon ( le +)>
lexikalische Einheit <!ELEMENT le ( Globale_Merkmale, Flexionsmorphologie, Wortbildung?, Semantik? Syntax? (Substantiv_Merkmale | Adjektiv_Merkmale | ...)? Affix_Merkmale?, Bearbeitungs_Merkmale? )>
Globale Merkmale <!ELEMENT Globale Merkmale ( Zitierform, PhonetischeTranskription?, Vorkommenshäufigkeit+ )> <!ELEMENT Zitierform ( #PCDATA ) > <!ELEMENT PhonetischeTranskription ( #PCDATA ) > <!ELEMENT Vorkommenshäufigkeit ( #PCDATA ) > #PCDATA parsable Data
Flexionsmorphologie <!ELEMENT Flexionsmorphologie (Stammformen) > <!ELEMENT Stammformen (DMORstamm,Stammform+) > <!ELEMENT Stammform (Stamm, DMORklasse) > <!ELEMENT DMORstamm ( #PCDATA ) > <!ELEMENT Stamm ( #PCDATA ) > <!ELEMENT DMORklasse ( #PCDATA ) >
Flexionsmorphologie DMORstamm ist die Grundstammform eines Flexionspardigmas irregulärer Stamm - regulärer Stamm ( back:buk Stammform: Stamm + DMORklasse Suppletivstämme Schreibvarianten Nuß, Nuss
Wortbildung <!ELEMENT Wortbildung ( Derivation?, Komposition?, Strukturen? ) > <!ELEMENT Derivation ( Derivationsstaemme ) > <!ELEMENT Derivationsstaemme (Derivationsstamm+) > <!ELEMENT Derivationsstamm ( #PCDATA ) > <!ELEMENT Strukturen ( Struktur+ ) > <!ELEMENT Struktur ( #PCDATA ) >
Syntax <!ELEMENT Syntax ( Subkatrahmen* ) > <!ELEMENT Subkatrahmen ( #PCDATA ) >
Semantik <!ELEMENT Semantik ( Semantischer Typ?, Kommentar?, Lamdaausdruck?, Praesupposition?, Anwendungsbereich? ) > <!ELEMENT SemantischerTyp ( #PCDATA ) > <!ELEMENT Kommentar ( #PCDATA ) > <!ELEMENT Lambdaausdruck ( #PCDATA ) > <!ELEMENT Praesupposition ( #PCDATA ) > <!ELEMENT Anwendungsbereich ( #PCDATA ) >
Wortartenspezifische Merkmale <!ELEMENT Substantiv_Merkmale ( Genus ) > <!ELEMENT Adjektiv_Merkmale ( Verwendung ) > <!ELEMENT Adverb_Merkmale ( Verwendung ) > <!ELEMENT Genus ( #PCDATA ) > <!ELEMENT Verwendung ( #PCDATA ) >
Wortartenspezifische Merkmale <!ELEMENT Verb_Merkmale ( Aktionsart, VerbHatResultatszustand, IntensionalitaetLexikalisiert, SemantischeVerbklasse ) > <!ELEMENT Aktionsart ( #PCDATA ) > <!ELEMENT VerbHatResultatszustand ( #PCDATA ) > <!ELEMENT IntensionalitaetLexikalisiert ( #PCDATA ) > <!ELEMENT SemantischeVerbklasse ( #PCDATA ) >
Wortartenspezifische Merkmale <!ELEMENT Verpartikel_Merkmale ( Basisverbzahl, Partikelverbklasse+ ) > <!ELEMENT Basisverbzahl ( #PCDATA ) > <!ELEMENT Partikelverbklasse ( #PCDATA ) > Basisverbzahl: Anzahl der im HGC gefundenen Partikelverben mit diesem Partikel
Wortartenspezifische Merkmale <!ELEMENT Abk_Merkmale ( Ausgeschr_Formen? ) > <!ELEMENT Ausgeschr_Formen ( Ausgeschr_Form+ ) > <!ELEMENT Ausgeschr_Form ( #PCDATA ) > <!ELEMENT Affix_Merkmale ( #PCDATA ) >
Attributdeklaration Merkmalnamen Status verpflichtend (#REQUIRED) fakultativ (#IMPLIED) Default-Belegung (Wert in doppelten Anführungszeichen)
Lexikalische Einheit (le) bei obligatorischen Merkmalen - außer bei kategorie - Platzhalter undef vorhanden Merkmale akzent und auslautverhaertung nur für Derivationsaffixe relevant - sonst Belegung neutral administrative Merkmale: geprüft ja bei vollständig bearbeiteten Einträgen erzeugt Unterscheidung zwischen maschinell und manuell erzeugten Lexikoneinträgen
Lexikalische Einheit ( le ) <!ATTLIST le id ID #REQUIRED kategorie ( Substantiv | Verb | Adjektiv | Name | Adverb | Numeral | Pronomen | Adposition | ... ) #REQUIRED m_status ( Frei | Gebunden | undef ) #REQUIRED m_form ( Simplex | Kurzwort | Nominalisierung | undef | Komplex | Komplex_semi | Komplex_abstrakt) #REQUIRED
Lexikalische Einheit ( le ) ... selegiert (ja|nein|undef) #REQUIRED lexikalisiert (ja|nein|undef) #REQUIRED herkunft (nativ | klassisch | englisch | unklar | französisch | fremd | undef) #REQUIRED akzent (neutral | beeinflusst | zieht_an) “neutral” auslautverh. (neutral | blockiert ) “neutral” erzeugt (auto|manu) #IMPLIED geprueft (ja|nein) #IMPLIED >
Gobale Merkmale <!ATTLIST PhonetischeTranskription notation (SAMPA) "SAMPA" attr CDATA #IMPLIED> <!ATTLIST Vorkommenshäufigkeit korpus (HGC | Referenz ) "HGC" wert ( wortform ) #IMPLIED> notation SAMPA German text-to-speech system attr Erzeugung durch Systemwissen oder durch Heuristiken
Flexionsmorphologie <!ATTLIST Flexionsmorphologie DMORlex (VMod_Stems | VAux_Stems | V-0_Stems| V-ge_Stems | V-0_Stems_NoPref | NN_Stems_NoCP | NN_Stems_NoHead | NN_Stems | NE_Stems_NoCP | NE_Stems | NE_Stems_NoCP | ADJ_Stems_NoCP | ADJ_Abbr | NN_Abr | NE_Abbr | INVAR_Abbr | VPrefSep ) #IMPLIED > fakultatives Element, das vollständige Kompatibilität zu DMOR herstellt fakultativ, da auch Affixe im IMSLex sind
Stammformen <!ATTLIST Stammform id ID #IMPLIED DMORtyp (reg | irreg | vollform) #IMPLIED> <!ATTLIST DMORStamm orth (alt | neu | beides) <!ATTLIST Stamm reg Stamm DMORKlasse irreg Stamm DMORStamm DMORKlasse vollform Morphologiestring (flektierter Stamm etwa bei Pronomina)
Derivation und Komposition <!ATTLIST Derivation typ ( ja | nein ) #IMPLIED <!ATTLIST Derivationsstamm id #IMPLIED orth ( alt | neu | beides ) "beides" typ ( umgelautet | kurz | lang | vorne_gefugt- getilgt | vorne_gefugt-hinten_gefugt | hinten_gefugt | getilgt | umgelautet-getilgt | umgelautet-getilgt-hinten_gefugt | normal | umgelautet-hinten_gefugt | getilgt- hinten_gefugt ) "normal" >
Affix Merkmale <!ATTLIST Affix_Merkmale produktiv ( ja | nein ) #REQUIRED>
Verwandte Lexika CISLEX (Langer et al. 1996, Maier-Meyer (1995)) morphologische Analyse von Zeitungskorpora Derivation nur für häufige Suffixe WordManager-System (Domening und ten Hacken (1992)) Entwicklungsumgebung für computerlinguistische Lexika eingeschränkte morphologische Analyse im Internet (Canoo)