Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

IMS Universität Stuttgart IMSLex – ein NLP Lexikon Hannah Kermes HS: Elektronische Wörterbücher Do, 2.12.2004.

Ähnliche Präsentationen


Präsentation zum Thema: "IMS Universität Stuttgart IMSLex – ein NLP Lexikon Hannah Kermes HS: Elektronische Wörterbücher Do, 2.12.2004."—  Präsentation transkript:

1 IMS Universität Stuttgart IMSLex – ein NLP Lexikon Hannah Kermes HS: Elektronische Wörterbücher Do,

2 IMS Universität Stuttgart 2 Motivation Ressource, die detaillierte Information zu Elementen der Sprache enthält, ist eine notwendige Vorraussetzung um Sprache mit dem Computer zu verarbeiten Produktivität der Sprache verlangt nach einem System, daß regelbasiert auch Wörter erkennt, die nicht explizit im Lexikon gelistet sind

3 IMS Universität Stuttgart 3 DeKo Derivations- und Kompositionsmorphologie Beschreibung und Modellierung von Prozessen der deutschen Wortbildung Erstellung eines robusten Systems zur Analyse und strukturellen Beschreibungen komplexer Wörter

4 IMS Universität Stuttgart 4 Wortbildungsprozesse Flexion: Affigierung von Flexionsmorphemen an eine Flexionsstammform Derivation: Affigierung von Wortbildungsmorphemen an eine Derivationsstammform Komposition: Affigierung von Basismorphemen an eine Kompositionsstammform

5 IMS Universität Stuttgart 5 Spezifikation lexikalischer Einheiten Beispielformmorph_statusselegiert Haus, Baum, Auto simplexfreinein elektr-, ident-simplexgebundennein frei, reichsimplexfreija -sam, -abelsimplexgebundenja

6 IMS Universität Stuttgart 6 DeKo Lexikonmodell lexikalische Einheiten: Zitierform Merkmale: Flexion Wortbildung Phonetik Syntax Semantik Korpusfrequenz verschiedene Stammformen phonetische Transkription

7 IMS Universität Stuttgart 7 Ziel Umsetzung des DeKo-Lexikonkonzeptes in eine Ressource und die Verschmelzung dieser Ressource mit den im DMOR-Lexikon enthaltenen Daten

8 IMS Universität Stuttgart 8 Hauptanforderungen an das Lexikon Rückwärtskompatibilität Abbildung in das von der Morphologie geforderte Format Erweiterbarkeit inhaltlich wie strukturell Wartbarkeit Flexibilität XML (eXtensible Markup Language)

9 IMS Universität Stuttgart 9 XML Formalismus zur Definition von Klassen von Dokumenten Definition des Zeichenvorrats Definition der Dokumentenstruktur standardisiertes und eindeutiges Markup Dokumenttyp Definition (DTD) automatische Validierung der Dokumentenstruktur

10 IMS Universität Stuttgart 10 XML Bausteine inhaltlich: Elemente Attribut/Wert-Paare formal: syntaktische Festlegung auf die Notation der inhaltlichen Bausteine

11 IMS Universität Stuttgart 11 XML Modellierungsprinzipien Elemente Information läßt sich in weitere Informationen untergliedern Attribute Information kann nicht weiter zerlegt werden Information ist aufzählbar Dokumentinhalt Information kann nicht weiter zerlegt werden Information ist nicht aufzählbar

12 IMS Universität Stuttgart 12 Allgemeine Konzeption Theorieunabhängigkeit Redundanzvermeidung Generalisierung Modularisierung Aufteilung komplexer Strukturen in kleinere Teile Makrostruktur und Mikrostruktur

13 IMS Universität Stuttgart 13 Redundanz Generalisierung Flexionsparadigma Transparenz: alle Arten von Einheiten haben dasselbe Konzept von Unterschieden wird abstahiert zugunsten einer klaren und einfachen Sicht

14 IMS Universität Stuttgart 14 Modularisierung Aufteilung von komplexen Strukturen in kleinere Teile Makrostruktur: flache Organisation lexikalischer Einheiten Mikrostruktur: globale Merkmale Angaben zur Flexionsmorphologie fakultative Module: Wortbildung, Syntax, Semantik, Phonetik wortartenspezifische Information

15 IMS Universität Stuttgart 15 IMSLex DTD - Hierarchie Wurzelement

16 IMS Universität Stuttgart 16 lexikalische Einheit

17 IMS Universität Stuttgart 17 Globale Merkmale

18 IMS Universität Stuttgart 18 Flexionsmorphologie

19 IMS Universität Stuttgart 19 Flexionsmorphologie DMORstamm ist die Grundstammform eines Flexionspardigmas irregulärer Stamm - regulärer Stamm ( back:buk Stammform:Stamm+ DMORklasse Suppletivstämme SchreibvariantenNuß, Nuss

20 IMS Universität Stuttgart 20 Wortbildung

21 IMS Universität Stuttgart 21 Syntax

22 IMS Universität Stuttgart 22 Semantik

23 IMS Universität Stuttgart 23 Wortartenspezifische Merkmale

24 IMS Universität Stuttgart 24 Wortartenspezifische Merkmale

25 IMS Universität Stuttgart 25 Wortartenspezifische Merkmale Basisverbzahl: Anzahl der im HGC gefundenen Partikelverben mit diesem Partikel

26 IMS Universität Stuttgart 26 Wortartenspezifische Merkmale

27 IMS Universität Stuttgart 27 Attributdeklaration Merkmalnamen Status verpflichtend(#REQUIRED) fakultativ(#IMPLIED) Default-Belegung(Wert in doppelten Anführungszeichen)

28 IMS Universität Stuttgart 28 Lexikalische Einheit (le) bei obligatorischen Merkmalen - außer bei kategorie - Platzhalter undef vorhanden Merkmale akzent und auslautverhaertung nur für Derivationsaffixe relevant - sonst Belegung neutral administrative Merkmale: geprüftja bei vollständig bearbeiteten Einträgen erzeugt Unterscheidung zwischen maschinell und manuell erzeugten Lexikoneinträgen

29 IMS Universität Stuttgart 29 Lexikalische Einheit ( le )

30 IMS Universität Stuttgart 30 Lexikalische Einheit ( le )... selegiert(ja|nein|undef) #REQUIRED lexikalisiert(ja|nein|undef) #REQUIRED herkunft (nativ | klassisch | englisch | unklar | französisch | fremd | undef) #REQUIRED akzent(neutral | beeinflusst | zieht_an) neutral auslautverh. (neutral | blockiert ) neutral erzeugt(auto|manu) #IMPLIED geprueft(ja|nein) #IMPLIED >

31 IMS Universität Stuttgart 31 Gobale Merkmale

32 IMS Universität Stuttgart 32 Flexionsmorphologie

33 IMS Universität Stuttgart 33 Stammformen

34 IMS Universität Stuttgart 34 Derivation und Komposition

35 IMS Universität Stuttgart 35 Affix Merkmale

36 IMS Universität Stuttgart 36 Verwandte Lexika CISLEX (Langer et al. 1996, Maier-Meyer (1995)) morphologische Analyse von Zeitungskorpora Derivation nur für häufige Suffixe WordManager-System (Domening und ten Hacken (1992)) Entwicklungsumgebung für computerlinguistische Lexika eingeschränkte morphologische Analyse im Internet (Canoo)


Herunterladen ppt "IMS Universität Stuttgart IMSLex – ein NLP Lexikon Hannah Kermes HS: Elektronische Wörterbücher Do, 2.12.2004."

Ähnliche Präsentationen


Google-Anzeigen