Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

IMSLex – ein NLP Lexikon

Ähnliche Präsentationen


Präsentation zum Thema: "IMSLex – ein NLP Lexikon"—  Präsentation transkript:

1 IMSLex – ein NLP Lexikon
Hannah Kermes HS: Elektronische Wörterbücher Do,

2 Motivation Ressource, die detaillierte Information zu Elementen der Sprache enthält, ist eine notwendige Vorraussetzung um Sprache mit dem Computer zu verarbeiten Produktivität der Sprache verlangt nach einem System, daß regelbasiert auch Wörter erkennt, die nicht explizit im Lexikon gelistet sind

3 DeKo Derivations- und Kompositionsmorphologie
Beschreibung und Modellierung von Prozessen der deutschen Wortbildung Erstellung eines robusten Systems zur Analyse und strukturellen Beschreibungen komplexer Wörter

4 Wortbildungsprozesse
Flexion: Affigierung von Flexionsmorphemen an eine Flexionsstammform Derivation: Affigierung von Wortbildungsmorphemen an eine Derivationsstammform Komposition: Affigierung von Basismorphemen an eine Kompositionsstammform

5 Spezifikation lexikalischer Einheiten
Beispiel form morph_status selegiert Haus, Baum, Auto simplex frei nein elektr-, ident- gebunden •frei, •reich ja -sam, -abel

6 DeKo Lexikonmodell lexikalische Einheiten: Zitierform Merkmale:
Flexion Wortbildung Phonetik Syntax Semantik Korpusfrequenz verschiedene Stammformen phonetische Transkription

7 Ziel Umsetzung des DeKo-Lexikonkonzeptes in eine Ressource und
die Verschmelzung dieser Ressource mit den im DMOR-Lexikon enthaltenen Daten

8 Hauptanforderungen an das Lexikon
Rückwärtskompatibilität Abbildung in das von der Morphologie geforderte Format Erweiterbarkeit inhaltlich wie strukturell Wartbarkeit Flexibilität XML (eXtensible Markup Language)

9 XML Formalismus zur Definition von Klassen von Dokumenten
Definition des Zeichenvorrats Definition der Dokumentenstruktur standardisiertes und eindeutiges Markup Dokumenttyp Definition (DTD) automatische Validierung der Dokumentenstruktur

10 XML Bausteine inhaltlich: formal: Elemente Attribut/Wert-Paare
syntaktische Festlegung auf die Notation der inhaltlichen Bausteine

11 XML Modellierungsprinzipien
Elemente Information läßt sich in weitere Informationen untergliedern Attribute Information kann nicht weiter zerlegt werden Information ist aufzählbar Dokumentinhalt Information ist nicht aufzählbar

12 Allgemeine Konzeption
Theorieunabhängigkeit Redundanzvermeidung Generalisierung Modularisierung Aufteilung komplexer Strukturen in kleinere Teile Makrostruktur und Mikrostruktur

13 Redundanz Generalisierung Transparenz: Flexionsparadigma
alle Arten von Einheiten haben dasselbe Konzept von Unterschieden wird abstahiert zugunsten einer klaren und einfachen Sicht

14 Modularisierung Aufteilung von komplexen Strukturen in kleinere Teile
Makrostruktur: flache Organisation lexikalischer Einheiten Mikrostruktur: globale Merkmale Angaben zur Flexionsmorphologie fakultative Module: Wortbildung, Syntax, Semantik, Phonetik wortartenspezifische Information

15 IMSLex DTD - Hierarchie
Wurzelement <!ELEMENT lexikon ( le +)>

16 lexikalische Einheit <!ELEMENT le ( Globale_Merkmale,
Flexionsmorphologie, Wortbildung?, Semantik? Syntax? (Substantiv_Merkmale | Adjektiv_Merkmale | ...)? Affix_Merkmale?, Bearbeitungs_Merkmale? )>

17 Globale Merkmale <!ELEMENT Globale Merkmale ( Zitierform,
PhonetischeTranskription?, Vorkommenshäufigkeit+ )> <!ELEMENT Zitierform ( #PCDATA ) > <!ELEMENT PhonetischeTranskription ( #PCDATA ) > <!ELEMENT Vorkommenshäufigkeit ( #PCDATA ) > #PCDATA parsable Data

18 Flexionsmorphologie <!ELEMENT Flexionsmorphologie (Stammformen) > <!ELEMENT Stammformen (DMORstamm,Stammform+) > <!ELEMENT Stammform (Stamm, DMORklasse) > <!ELEMENT DMORstamm ( #PCDATA ) > <!ELEMENT Stamm ( #PCDATA ) > <!ELEMENT DMORklasse ( #PCDATA ) >

19 Flexionsmorphologie DMORstamm ist die Grundstammform eines Flexionspardigmas irregulärer Stamm - regulärer Stamm ( back:buk Stammform: Stamm + DMORklasse Suppletivstämme Schreibvarianten Nuß, Nuss

20 Wortbildung <!ELEMENT Wortbildung ( Derivation?, Komposition?,
Strukturen? ) > <!ELEMENT Derivation ( Derivationsstaemme ) > <!ELEMENT Derivationsstaemme (Derivationsstamm+) > <!ELEMENT Derivationsstamm ( #PCDATA ) > <!ELEMENT Strukturen ( Struktur+ ) > <!ELEMENT Struktur ( #PCDATA ) >

21 Syntax <!ELEMENT Syntax ( Subkatrahmen* ) >
<!ELEMENT Subkatrahmen ( #PCDATA ) >

22 Semantik <!ELEMENT Semantik ( Semantischer Typ?, Kommentar?,
Lamdaausdruck?, Praesupposition?, Anwendungsbereich? ) > <!ELEMENT SemantischerTyp ( #PCDATA ) > <!ELEMENT Kommentar ( #PCDATA ) > <!ELEMENT Lambdaausdruck ( #PCDATA ) > <!ELEMENT Praesupposition ( #PCDATA ) > <!ELEMENT Anwendungsbereich ( #PCDATA ) >

23 Wortartenspezifische Merkmale
<!ELEMENT Substantiv_Merkmale ( Genus ) > <!ELEMENT Adjektiv_Merkmale ( Verwendung ) > <!ELEMENT Adverb_Merkmale ( Verwendung ) > <!ELEMENT Genus ( #PCDATA ) > <!ELEMENT Verwendung ( #PCDATA ) >

24 Wortartenspezifische Merkmale
<!ELEMENT Verb_Merkmale ( Aktionsart, VerbHatResultatszustand, IntensionalitaetLexikalisiert, SemantischeVerbklasse ) > <!ELEMENT Aktionsart ( #PCDATA ) > <!ELEMENT VerbHatResultatszustand ( #PCDATA ) > <!ELEMENT IntensionalitaetLexikalisiert ( #PCDATA ) > <!ELEMENT SemantischeVerbklasse ( #PCDATA ) >

25 Wortartenspezifische Merkmale
<!ELEMENT Verpartikel_Merkmale ( Basisverbzahl, Partikelverbklasse+ ) > <!ELEMENT Basisverbzahl ( #PCDATA ) > <!ELEMENT Partikelverbklasse ( #PCDATA ) > Basisverbzahl: Anzahl der im HGC gefundenen Partikelverben mit diesem Partikel

26 Wortartenspezifische Merkmale
<!ELEMENT Abk_Merkmale ( Ausgeschr_Formen? ) > <!ELEMENT Ausgeschr_Formen ( Ausgeschr_Form+ ) > <!ELEMENT Ausgeschr_Form ( #PCDATA ) > <!ELEMENT Affix_Merkmale ( #PCDATA ) >

27 Attributdeklaration Merkmalnamen Status verpflichtend (#REQUIRED)
fakultativ (#IMPLIED) Default-Belegung (Wert in doppelten Anführungszeichen)

28 Lexikalische Einheit (le)
bei obligatorischen Merkmalen - außer bei kategorie - Platzhalter undef vorhanden Merkmale akzent und auslautverhaertung nur für Derivationsaffixe relevant - sonst Belegung neutral administrative Merkmale: geprüft ja bei vollständig bearbeiteten Einträgen erzeugt Unterscheidung zwischen maschinell und manuell erzeugten Lexikoneinträgen

29 Lexikalische Einheit ( le )
<!ATTLIST le id ID #REQUIRED kategorie ( Substantiv | Verb | Adjektiv | Name | Adverb | Numeral | Pronomen | Adposition | ... ) #REQUIRED m_status ( Frei | Gebunden | undef ) #REQUIRED m_form ( Simplex | Kurzwort | Nominalisierung | undef | Komplex | Komplex_semi | Komplex_abstrakt) #REQUIRED

30 Lexikalische Einheit ( le )
... selegiert (ja|nein|undef) #REQUIRED lexikalisiert (ja|nein|undef) #REQUIRED herkunft (nativ | klassisch | englisch | unklar | französisch | fremd | undef) #REQUIRED akzent (neutral | beeinflusst | zieht_an) “neutral” auslautverh. (neutral | blockiert ) “neutral” erzeugt (auto|manu) #IMPLIED geprueft (ja|nein) #IMPLIED >

31 Gobale Merkmale <!ATTLIST PhonetischeTranskription
notation (SAMPA) "SAMPA" attr CDATA #IMPLIED> <!ATTLIST Vorkommenshäufigkeit korpus (HGC | Referenz ) "HGC" wert ( wortform ) #IMPLIED> notation SAMPA German text-to-speech system attr Erzeugung durch Systemwissen oder durch Heuristiken

32 Flexionsmorphologie <!ATTLIST Flexionsmorphologie DMORlex
(VMod_Stems | VAux_Stems | V-0_Stems| V-ge_Stems | V-0_Stems_NoPref | NN_Stems_NoCP | NN_Stems_NoHead | NN_Stems | NE_Stems_NoCP | NE_Stems | NE_Stems_NoCP | ADJ_Stems_NoCP | ADJ_Abbr | NN_Abr | NE_Abbr | INVAR_Abbr | VPrefSep ) #IMPLIED > fakultatives Element, das vollständige Kompatibilität zu DMOR herstellt fakultativ, da auch Affixe im IMSLex sind

33 Stammformen <!ATTLIST Stammform id ID #IMPLIED
DMORtyp (reg | irreg | vollform) #IMPLIED> <!ATTLIST DMORStamm orth (alt | neu | beides) <!ATTLIST Stamm reg Stamm DMORKlasse irreg Stamm DMORStamm DMORKlasse vollform Morphologiestring (flektierter Stamm etwa bei Pronomina)

34 Derivation und Komposition
<!ATTLIST Derivation typ ( ja | nein ) #IMPLIED <!ATTLIST Derivationsstamm id #IMPLIED orth ( alt | neu | beides ) "beides" typ ( umgelautet | kurz | lang | vorne_gefugt- getilgt | vorne_gefugt-hinten_gefugt | hinten_gefugt | getilgt | umgelautet-getilgt | umgelautet-getilgt-hinten_gefugt | normal | umgelautet-hinten_gefugt | getilgt hinten_gefugt ) "normal" >

35 Affix Merkmale <!ATTLIST Affix_Merkmale
produktiv ( ja | nein ) #REQUIRED>

36 Verwandte Lexika CISLEX (Langer et al. 1996, Maier-Meyer (1995))
morphologische Analyse von Zeitungskorpora Derivation nur für häufige Suffixe WordManager-System (Domening und ten Hacken (1992)) Entwicklungsumgebung für computerlinguistische Lexika eingeschränkte morphologische Analyse im Internet (Canoo)


Herunterladen ppt "IMSLex – ein NLP Lexikon"

Ähnliche Präsentationen


Google-Anzeigen