IMSLex – ein NLP Lexikon

Slides:



Advertisements
Ähnliche Präsentationen
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil3.
Advertisements

On the Criteria to Be Used in Decomposing Systems into Modules
Extensible Markup Language
B-Bäume.
CPCP Institute of Clinical Pharmacology AGAH Annual Meeting, 29. Februar 2004, Berlin, Praktischer Umgang mit den Genehmigungsanträgen gemäß 12. AMG Novelle.
Anmerkungen zu XML Im September 2000 Entwicklung/Anspruch von XML
Der Einstieg in das Programmieren
Scratch Der Einstieg in das Programmieren. Scatch: Entwicklungsumgebung Prof. Dr. Haftendorn, Leuphana Universität Lüneburg,
Klicke Dich mit der linken Maustaste durch das Übungsprogramm! Vereinfachung von Termen Ein Übungsprogramm der IGS - Hamm/Sieg © IGS-Hamm/Sieg 2006 Dietmar.
IMS Universität Stuttgart 1 Einführung in XML Hannah Kermes HS: Elektronische Wörterbücher Do,
FH-Hof Extensible Markup Language Richard Göbel. FH-Hof Extensible Markup Language XML XML ist universeller Ansatz für die Strukturierung von Zeichenketten.
Java: Objektorientierte Programmierung
DOM (Document Object Model)
WS Algorithmentheorie 02 - Polynomprodukt und Fast Fourier Transformation Prof. Dr. Th. Ottmann.
© 2006 W. Oberschelp, G. Vossen Rechneraufbau & Rechnerstrukturen, Folie 2.1.
Grundkurs Theoretische Informatik, Folie 2.1 © 2006 G. Vossen,K.-U. Witt Grundkurs Theoretische Informatik Kapitel 2 Gottfried Vossen Kurt-Ulrich Witt.
Grundkurs Theoretische Informatik, Folie 3.1 © 2004 G. Vossen,K.-U. Witt Grundkurs Theoretische Informatik Kapitel 3 Gottfried Vossen Kurt-Ulrich Witt.
© Karin Haenelt 2006, Operationen auf Akzeptoren und Transduktoren, ( ) 1 Operationen auf endlichen Akzeptoren und Transduktoren.
Modularization of XHTML™
Einführung XML XML Einführung Andreas Leicht.
PKJ 2005/1 Stefan Dissmann Rückblick auf 2005 Was zuletzt in 2005 vorgestellt wurde: Klassen mit Attributen, Methoden und Konstruktoren Referenzen auf.
Differentieller Stromverstärker
Inhalte und Maßnahmen eingegeben haben,
1 Grundlagen und Anwendung der Extensible Markup Language (XML ) Peter Buxmann Institut für Wirtschaftsinformatik Johann Wolfgang Goethe-Universität Frankfurt.
Grundschutztools
Ralf KüstersDagstuhl 2008/11/30 2 Ralf KüstersDagstuhl 2008/11/30 3.
Was versteht man unter XML Schema?
Titelmasterformat durch Klicken bearbeiten Formatvorlage des Untertitelmasters durch Klicken bearbeiten Die formalen Sprachen bei ETAP Teil II.
Bild 1.1 Copyright © Alfred Mertins | Signaltheorie, 2. Auflage Vieweg+Teubner PLUS Zusatzmaterialien Vieweg+Teubner Verlag | Wiesbaden.
20:00.
SK / , , in Hochkössen und der Wildschönau flow Ski- und Snowboardschule Intersport Menzel.
Kollektionen in Java Aufzählungstypen, Generische Typen
...ich seh´es kommen !.
Generalisierung/Spezialisierung Subtypisierung/Vererbung
Java für Fortgeschrittene
Präsentation läuft auch vollautomatisch ab … wie du möchtest
Auslegung eines Vorschubantriebes
© Bibliothek und Archiv der Österreichischen Akademie der Wissenschaften Katalogisierung in RAK / MAB2 Beispiele 1. Teil Lösungen Verbund für Bildung und.
Sichern und Retten bei Arbeiten in Höhen und Tiefen
Analyse von Ablaufdiagrammen
HORIZONT 1 XINFO ® Das IT - Informationssystem PL/1 Scanner HORIZONT Software für Rechenzentren Garmischer Str. 8 D München Tel ++49(0)89 / 540.
Publikation auf Knopfdruck Judith Riegelnig Michael Grüebler 19. Oktober 2010 / Statistiktage Neuenburg.
Fachgruppe Kinder, Jugend, Familie, Frauen, Migration
Wortbildung: Grundlagen, Klassen von Affixen
1 Alle wollen glücklich sein Unterm warmen Sonnenschein!
SAP Seminar 2007 Materialstammsätze anlegen
SK / – in Hochkössen, St. Johann i.Tirol und Hochfügen flow Ski- und Snowboardschule Intersport Menzel.
Managemententscheidungsunterstützungssysteme (Ausgewählte Methoden und Fallstudien) ( Die Thesen zur Vorlesung 3) Thema der Vorlesung Lösung der linearen.
PARTENARIAT ÉDUCATIF GRUNDTVIG PARTENARIAT ÉDUCATIF GRUNDTVIG REPERES KULTURELLER ZUSAMMENHALT UND AUSDEHNUNG DER IDEEN AUF EUROPÄISCHEM.
Übung zu Einführung in die LDV I
XML (Extensible Markup Language)
Großer Altersunterschied bei Paaren fällt nicht auf!
1 (C)2006, Hermann Knoll, HTW Chur, FHO Quadratische Reste Definitionen: Quadratischer Rest Quadratwurzel Anwendungen.
Analyseprodukte numerischer Modelle
2014 Januar 2014 So Mo Di Mi Do Fr Sa So
Schutzvermerk nach DIN 34 beachten 20/05/14 Seite 1 Grundlagen XSoft Lösung :Logische Grundschaltung IEC-Grundlagen und logische Verknüpfungen.
Vortrag von Rechtsanwältin Verena Nedden, Fachanwältin für Steuerrecht zur Veranstaltung Wege zum bedingungslosen Grundeinkommen der Piratenpartei Rhein-Hessen.
1 Albert-Ludwigs-Universität Freiburg Rechnernetze und Telematik Prof. Dr. Christian Schindelhauer Informatik III Christian Schindelhauer Wintersemester.
Ertragsteuern, 5. Auflage Christiana Djanani, Gernot Brähler, Christian Lösel, Andreas Krenzin © UVK Verlagsgesellschaft mbH, Konstanz und München 2012.
Der Erotik Kalender 2005.
Familie Beutner, Konrad-Voelckerstrasse, Edenkoben/Pfalz, Tel:
Monomorphemisch: Haus, Baum etc Morphologisch komplex
1 Medienpädagogischer Forschungsverbund Südwest KIM-Studie 2014 Landesanstalt für Kommunikation Baden-Württemberg (LFK) Landeszentrale für Medien und Kommunikation.
Monatsbericht Ausgleichsenergiemarkt Gas – Oktober
- Warum: Das HTML-Dilemma
Inhalt Einordnung und Funktion der lexikalische Analyse Grundlagen
IB+IA Anfänger Structura limbii Sommersemester 2015 Dr. Ileana-Maria Ratcu.
Semantic Markup für Zwecke der Langzeitarchivierung in digitalen Bibliotheken Neubiberg,
13.Dezember 2006–1Elektronisches Publizieren: Schemasprachen — Relax NG Schemasprachen für XML — Relax NG — Anne Brüggemann-Klein TU München.
 Präsentation transkript:

IMSLex – ein NLP Lexikon Hannah Kermes HS: Elektronische Wörterbücher Do, 2.12.2004

Motivation Ressource, die detaillierte Information zu Elementen der Sprache enthält, ist eine notwendige Vorraussetzung um Sprache mit dem Computer zu verarbeiten Produktivität der Sprache verlangt nach einem System, daß regelbasiert auch Wörter erkennt, die nicht explizit im Lexikon gelistet sind

DeKo Derivations- und Kompositionsmorphologie Beschreibung und Modellierung von Prozessen der deutschen Wortbildung Erstellung eines robusten Systems zur Analyse und strukturellen Beschreibungen komplexer Wörter

Wortbildungsprozesse Flexion: Affigierung von Flexionsmorphemen an eine Flexionsstammform Derivation: Affigierung von Wortbildungsmorphemen an eine Derivationsstammform Komposition: Affigierung von Basismorphemen an eine Kompositionsstammform

Spezifikation lexikalischer Einheiten Beispiel form morph_status selegiert Haus, Baum, Auto simplex frei nein elektr-, ident- gebunden •frei, •reich ja -sam, -abel

DeKo Lexikonmodell lexikalische Einheiten: Zitierform Merkmale: Flexion Wortbildung Phonetik Syntax Semantik Korpusfrequenz verschiedene Stammformen phonetische Transkription

Ziel Umsetzung des DeKo-Lexikonkonzeptes in eine Ressource und die Verschmelzung dieser Ressource mit den im DMOR-Lexikon enthaltenen Daten

Hauptanforderungen an das Lexikon Rückwärtskompatibilität Abbildung in das von der Morphologie geforderte Format Erweiterbarkeit inhaltlich wie strukturell Wartbarkeit Flexibilität XML (eXtensible Markup Language)

XML Formalismus zur Definition von Klassen von Dokumenten Definition des Zeichenvorrats Definition der Dokumentenstruktur standardisiertes und eindeutiges Markup Dokumenttyp Definition (DTD) automatische Validierung der Dokumentenstruktur

XML Bausteine inhaltlich: formal: Elemente Attribut/Wert-Paare syntaktische Festlegung auf die Notation der inhaltlichen Bausteine

XML Modellierungsprinzipien Elemente Information läßt sich in weitere Informationen untergliedern Attribute Information kann nicht weiter zerlegt werden Information ist aufzählbar Dokumentinhalt Information ist nicht aufzählbar

Allgemeine Konzeption Theorieunabhängigkeit Redundanzvermeidung Generalisierung Modularisierung Aufteilung komplexer Strukturen in kleinere Teile Makrostruktur und Mikrostruktur

Redundanz Generalisierung Transparenz: Flexionsparadigma alle Arten von Einheiten haben dasselbe Konzept von Unterschieden wird abstahiert zugunsten einer klaren und einfachen Sicht

Modularisierung Aufteilung von komplexen Strukturen in kleinere Teile Makrostruktur: flache Organisation lexikalischer Einheiten Mikrostruktur: globale Merkmale Angaben zur Flexionsmorphologie fakultative Module: Wortbildung, Syntax, Semantik, Phonetik wortartenspezifische Information

IMSLex DTD - Hierarchie Wurzelement <!ELEMENT lexikon ( le +)>

lexikalische Einheit <!ELEMENT le ( Globale_Merkmale, Flexionsmorphologie, Wortbildung?, Semantik? Syntax? (Substantiv_Merkmale | Adjektiv_Merkmale | ...)? Affix_Merkmale?, Bearbeitungs_Merkmale? )>

Globale Merkmale <!ELEMENT Globale Merkmale ( Zitierform, PhonetischeTranskription?, Vorkommenshäufigkeit+ )> <!ELEMENT Zitierform ( #PCDATA ) > <!ELEMENT PhonetischeTranskription ( #PCDATA ) > <!ELEMENT Vorkommenshäufigkeit ( #PCDATA ) > #PCDATA parsable Data

Flexionsmorphologie <!ELEMENT Flexionsmorphologie (Stammformen) > <!ELEMENT Stammformen (DMORstamm,Stammform+) > <!ELEMENT Stammform (Stamm, DMORklasse) > <!ELEMENT DMORstamm ( #PCDATA ) > <!ELEMENT Stamm ( #PCDATA ) > <!ELEMENT DMORklasse ( #PCDATA ) >

Flexionsmorphologie DMORstamm ist die Grundstammform eines Flexionspardigmas irregulärer Stamm - regulärer Stamm ( back:buk Stammform: Stamm + DMORklasse Suppletivstämme Schreibvarianten Nuß, Nuss

Wortbildung <!ELEMENT Wortbildung ( Derivation?, Komposition?, Strukturen? ) > <!ELEMENT Derivation ( Derivationsstaemme ) > <!ELEMENT Derivationsstaemme (Derivationsstamm+) > <!ELEMENT Derivationsstamm ( #PCDATA ) > <!ELEMENT Strukturen ( Struktur+ ) > <!ELEMENT Struktur ( #PCDATA ) >

Syntax <!ELEMENT Syntax ( Subkatrahmen* ) > <!ELEMENT Subkatrahmen ( #PCDATA ) >

Semantik <!ELEMENT Semantik ( Semantischer Typ?, Kommentar?, Lamdaausdruck?, Praesupposition?, Anwendungsbereich? ) > <!ELEMENT SemantischerTyp ( #PCDATA ) > <!ELEMENT Kommentar ( #PCDATA ) > <!ELEMENT Lambdaausdruck ( #PCDATA ) > <!ELEMENT Praesupposition ( #PCDATA ) > <!ELEMENT Anwendungsbereich ( #PCDATA ) >

Wortartenspezifische Merkmale <!ELEMENT Substantiv_Merkmale ( Genus ) > <!ELEMENT Adjektiv_Merkmale ( Verwendung ) > <!ELEMENT Adverb_Merkmale ( Verwendung ) > <!ELEMENT Genus ( #PCDATA ) > <!ELEMENT Verwendung ( #PCDATA ) >

Wortartenspezifische Merkmale <!ELEMENT Verb_Merkmale ( Aktionsart, VerbHatResultatszustand, IntensionalitaetLexikalisiert, SemantischeVerbklasse ) > <!ELEMENT Aktionsart ( #PCDATA ) > <!ELEMENT VerbHatResultatszustand ( #PCDATA ) > <!ELEMENT IntensionalitaetLexikalisiert ( #PCDATA ) > <!ELEMENT SemantischeVerbklasse ( #PCDATA ) >

Wortartenspezifische Merkmale <!ELEMENT Verpartikel_Merkmale ( Basisverbzahl, Partikelverbklasse+ ) > <!ELEMENT Basisverbzahl ( #PCDATA ) > <!ELEMENT Partikelverbklasse ( #PCDATA ) > Basisverbzahl: Anzahl der im HGC gefundenen Partikelverben mit diesem Partikel

Wortartenspezifische Merkmale <!ELEMENT Abk_Merkmale ( Ausgeschr_Formen? ) > <!ELEMENT Ausgeschr_Formen ( Ausgeschr_Form+ ) > <!ELEMENT Ausgeschr_Form ( #PCDATA ) > <!ELEMENT Affix_Merkmale ( #PCDATA ) >

Attributdeklaration Merkmalnamen Status verpflichtend (#REQUIRED) fakultativ (#IMPLIED) Default-Belegung (Wert in doppelten Anführungszeichen)

Lexikalische Einheit (le) bei obligatorischen Merkmalen - außer bei kategorie - Platzhalter undef vorhanden Merkmale akzent und auslautverhaertung nur für Derivationsaffixe relevant - sonst Belegung neutral administrative Merkmale: geprüft ja bei vollständig bearbeiteten Einträgen erzeugt Unterscheidung zwischen maschinell und manuell erzeugten Lexikoneinträgen

Lexikalische Einheit ( le ) <!ATTLIST le id ID #REQUIRED kategorie ( Substantiv | Verb | Adjektiv | Name | Adverb | Numeral | Pronomen | Adposition | ... ) #REQUIRED m_status ( Frei | Gebunden | undef ) #REQUIRED m_form ( Simplex | Kurzwort | Nominalisierung | undef | Komplex | Komplex_semi | Komplex_abstrakt) #REQUIRED

Lexikalische Einheit ( le ) ... selegiert (ja|nein|undef) #REQUIRED lexikalisiert (ja|nein|undef) #REQUIRED herkunft (nativ | klassisch | englisch | unklar | französisch | fremd | undef) #REQUIRED akzent (neutral | beeinflusst | zieht_an) “neutral” auslautverh. (neutral | blockiert ) “neutral” erzeugt (auto|manu) #IMPLIED geprueft (ja|nein) #IMPLIED >

Gobale Merkmale <!ATTLIST PhonetischeTranskription notation (SAMPA) "SAMPA" attr CDATA #IMPLIED> <!ATTLIST Vorkommenshäufigkeit korpus (HGC | Referenz ) "HGC" wert ( wortform ) #IMPLIED> notation SAMPA German text-to-speech system attr Erzeugung durch Systemwissen oder durch Heuristiken

Flexionsmorphologie <!ATTLIST Flexionsmorphologie DMORlex (VMod_Stems | VAux_Stems | V-0_Stems| V-ge_Stems | V-0_Stems_NoPref | NN_Stems_NoCP | NN_Stems_NoHead | NN_Stems | NE_Stems_NoCP | NE_Stems | NE_Stems_NoCP | ADJ_Stems_NoCP | ADJ_Abbr | NN_Abr | NE_Abbr | INVAR_Abbr | VPrefSep ) #IMPLIED > fakultatives Element, das vollständige Kompatibilität zu DMOR herstellt fakultativ, da auch Affixe im IMSLex sind

Stammformen <!ATTLIST Stammform id ID #IMPLIED DMORtyp (reg | irreg | vollform) #IMPLIED> <!ATTLIST DMORStamm orth (alt | neu | beides) <!ATTLIST Stamm reg Stamm DMORKlasse irreg Stamm DMORStamm DMORKlasse vollform Morphologiestring (flektierter Stamm etwa bei Pronomina)

Derivation und Komposition <!ATTLIST Derivation typ ( ja | nein ) #IMPLIED <!ATTLIST Derivationsstamm id #IMPLIED orth ( alt | neu | beides ) "beides" typ ( umgelautet | kurz | lang | vorne_gefugt- getilgt | vorne_gefugt-hinten_gefugt | hinten_gefugt | getilgt | umgelautet-getilgt | umgelautet-getilgt-hinten_gefugt | normal | umgelautet-hinten_gefugt | getilgt- hinten_gefugt ) "normal" >

Affix Merkmale <!ATTLIST Affix_Merkmale produktiv ( ja | nein ) #REQUIRED>

Verwandte Lexika CISLEX (Langer et al. 1996, Maier-Meyer (1995)) morphologische Analyse von Zeitungskorpora Derivation nur für häufige Suffixe WordManager-System (Domening und ten Hacken (1992)) Entwicklungsumgebung für computerlinguistische Lexika eingeschränkte morphologische Analyse im Internet (Canoo)