Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Magisterarbeit im Fach Linguistische Informatik

Ähnliche Präsentationen


Präsentation zum Thema: "Magisterarbeit im Fach Linguistische Informatik"—  Präsentation transkript:

1 Magisterarbeit im Fach Linguistische Informatik
IMPLEMENTIERUNG EINES AUTOMATISCHEN WORTFORMERKENNUNGSSYSTEMS FÜR DAS ITALIENISCHE MIT DEM PROGRAMM JSLIM Magisterarbeit im Fach Linguistische Informatik Carsten Weber

2 Inhaltsverzeichnis der Magisterarbeit
Geschichte der italienischen Sprache Das JSLIM-System Italienische Grammatik Allomorphie Flexion Derivation und Komposition Korpusanalysen Carsten Weber

3 Anmerkungen zum Vortrag
Die Geschichte der italienischen Sprache wird nicht behandelt, da das Hauptaugenmerk auf der praktischen Implementierung liegen soll. Auf eine Erklärung des JSLIM-Systems wird verzichtet Carsten Weber

4 Italienische Grammatik
Für das Projekt verwendete Wortklassen Offene Wortklassen der Substantive, Verben und Adjektive Geschlossene Wortklassen der Adverbien, Konjunktionen, Interjektionen, Eigennamen und Zahlwörter „Mittelklassen“ wie Pronomina und Präpositionen, die teilweise der Flexion unterliegen Weiterhin: Satzzeichen und Symbole Carsten Weber

5 Substantive Unterschied zum Deutschen: Nur zwei Genera (Maskulina und Feminina) und keine Kasus Insgesamt 7 Flexionsklassen: Singularendung Pluralendung Beispiel -o (maskulin) -i il libro – i libri -a (feminin) -e la casa – le case -a (maskulin) il poeta – i poeti -e (feminin) la base – le basi -e (maskulin) il mare – i mari -a il muro – le mura - Kons./Akzent Keine Änderung il film – i film Carsten Weber

6 Verben Drei Klassen: Endung auf -are, -ere und -ire
Alle drei Klassen haben sowohl verschiedene als auch gemeinsame Flexionsendungen Elf verschiedene Zeitformen zur Implementierung (ohne zusammengesetzte Zeitformen) Teilweise äquivalente Formen Beispiel: „diedi“ und „dette“ sind jeweils die 3. Person Singular von „dare“ im Passato Remoto (spezielle Vergangenheitsform) Carsten Weber

7 Adjektive Zwei große Hauptgruppen:
Suppletionen in der Komparation einiger Adjektive: Beispiel: buono – meglio - ottimo Singularendung Pluralendung Beispiel -o/-a -i/-e bello - bella belli - belle -e -i grande - grandi Verschiedene Keine Änderung blu - blu Carsten Weber

8 Allomorphie: Das verwendete Lexikon
Frequenzliste des CoLFIS (Corpus e Lessico di Frequenza dell‘Italiano Scritto) Basierend auf einem repräsentativen Korpus aus laufenden Wortformen Vorteile: Frei verfügbar und kostenloser Download Bereits in Wortklassen subkategorisiert Carsten Weber

9 Allomorphie: Das verwendete Lexikon
Gesamtanzahl der Lexikoneinträge: ; davon: Verben: 4 771 Substantive: Adjektive: Pronomina: 85 Zahlwörter: 68 Adverbien: 1 647 Konjunktionen: 182 Präpositionen: 564 Eigennamen: Satzzeichen und Symbole: 23 Artikel: 13 Nicht zugeordnete Einträge, die im CoLFIS stehen: (z.B. Wörter aus anderen Sprachen, Akronyme, …) Carsten Weber

10 Allomorphie: Das verwendete Lexikon
Für die Hapax Legomena wurde ein Vergleichsskript in Perl geschrieben, welches sie mit einem herkömmlichen Lexikon verglich. Es wurde überprüft, ob die Hapax Legomena darin vorkamen. Einige unregelmäßige Lexikoneinträge wurden per Hand ins Lexikon eingetragen, da für sie keine eigene Alloregel erstellt wurde. Carsten Weber

11 Allomorphie: Attribute der Proplets
sur: Oberfläche core: Grundform cat: Kategorie (Genus, Numerus, Person) sem: Semantik (Tempus, Modus, Unterspezifikationen, Wortklasse) pfs: Marker für Präfixe sfs: Marker für Suffixe val: Valenzstellen combi: Flexionsklassen Für die geschlossenen Wortklassen wurden die Attribute pfs,sfs, val und combi nicht gebraucht. Carsten Weber

12 Allomorphie: Verben Insgesamt: 31 Alloregeln (5 für Verben auf -are, 22 für Verben auf -ere, 3 für Verben auf -ire und 1 für klitische Verben) Die Klasse der Verben auf -ere ist sehr unregelmäßig (bis zu 6 Proplets bei einer Regel!) Häufig phonologische Aspekte bei Wortstammveränderungen (c > ch bzw. g > gh vor -i und -e) Carsten Weber

13 Allomorphie: Alloregel für „cercare“
RULE_CERCARE [ sur: /(.*)<(c)>(.*)/ allo: cercare ] pcopy(P) nattr(core cat sem pfs sfs val P) regset($1 $2 $3 P.sur) regset($1 $2 $3 P.core) acopy(inf' v P.cat) set(inf P.sem) cancel(P.allo) result(P) regset($1 $2 P.sur) acopy(n' v P.cat) acopy(reg P.sem) regset($1 ch P.sur) acopy(irreg P.sem) Carsten Weber

14 Allomorphie: Lexikoneintrag für „cercare“
!template [ allo: cercare combi: (CERCARE) ] !+sur: cer<c>are ... Um Alloregeln auf Lexikoneinträge anzuwenden, müssen beide denselben Wert im Attribut allo stehen haben (hier: cercare) Carsten Weber

15 Allomorphie: Generierte Proplets für „cercare“
[ sur: "cercare" core: "cercare" cat: (inf' v) sem: (inf) pfs: () sfs: () val: () combi: (CERCARE) ] [ sur: "cerc" core: "cercare" cat: (n' v) sem: (reg) pfs: () sfs: () val: () combi: (CERCARE) ] [ sur: "cerch" core: "cercare" cat: (n' v) sem: (irreg) pfs: () sfs: () val: () combi: (CERCARE) ] Carsten Weber

16 Allomorphie: Substantive
Insgesamt: 16 Alloregeln (7 für maskuline, 7 für feminine und 2 für Substantive mit identischen Singular- und Pluralformen) Regelmäßiger als die Verballomorphie; die Regeln dienen meistens der Genuseinteilung Wie bei den Verben phonologische Aspekte bei Wortstammveränderungen (c > ch bzw. g > gh vor -i und -e oder auch Tilgung des -i im Plural bei Endung –io oder -ia) Carsten Weber

17 Allomorphie: Alloregel für „viaggio“
RULE_VIAGGIO [ sur: /(.*)<(i)>(.*)/ allo: viaggio ] pcopy(P) nattr(core cat sem pfs sfs combi val P) regset($1 $2 $3 P.sur) regset($1 $2 $3 P.core) acopy(ms n P.cat) acopy(sost P.sem) cancel(P.allo) result(P) regset($1 i P.sur) acopy(mp n P.cat) Carsten Weber

18 Allomorphie: Generierte Proplets für „viaggio“
[ sur: "viaggio" core: "viaggio" cat: (ms n) sem: (sost) pfs: () sfs: () combi: () val: () ] [ sur: "viaggi" core: "viaggio" cat: (mp n) sem: (sost) pfs: () sfs: () combi: () val: () ] Carsten Weber

19 Allomorphie: Adjektive
Insgesamt: 10 Alloregeln Teilweise identischer Aufbau zu den Alloregeln für Substantive, da gleiche Wortstammveränderungen Häufig phonologische Aspekte bei Wortstammveränderungen (c > ch bzw. g > gh vor -i und -e) Carsten Weber

20 Allomorphie: Alloregel für „antico“
RULE_ANTICO [ sur: /(.*)<(c)>(.*)/ allo: antico ] pcopy(P) nattr(core cat sem pfs sfs combi val P) regset($1 $2 $3 P.sur) regset($1 $2 $3 P.core) acopy(ms a P.cat) acopy(agg P.sem) cancel(P.allo) result(P) regset($1 $2 P.sur) acopy(fls' P.cat) acopy(stem P.sem) regset($1 ch P.sur) acopy(mp' fp' P.cat) Carsten Weber

21 Allomorphie: Generierte Proplets für „antico“
[ sur: "antico" core: "antico" cat: (ms a) sem: (agg) pfs: () sfs: () val: () combi: (ANTICO) ] [ sur: "antic" core: "antico" cat: (fls') sem: (stem) pfs: () sfs: () val: () combi: (ANTICO) ] [ sur: "antich" core: "antico" cat: (mp' fp') sem: (stem) pfs: () sfs: () val: () combi: (ANTICO) ] Carsten Weber

22 Allomorphie: Geschlossene Wortklassen
Jeweils nur eine Regel mit einem Proplet Die Wortklassen wurden ins cat- und sem-Attribut geschrieben. Bei Unterspezifikationen wurde der Wert ins sem-Attribut geschrieben. Beispiel Eigennamen: Markierung für Eigenname steht im sem-Attribut („nomprop“) Carsten Weber

23 Flexion Vorgehensweise: Verwendung von Kombinationstabellen oder Proplet Tables Zugriff über das combi-Attribut der generierten Proplets Anhängen mehrerer Flexionsendungen möglich (Beispiel Imperfekt Indikativ: sper-av-o) Carsten Weber

24 Flexion: Die Regel STEM+FLS {STEM+FLS} [ cat: Stem1 sem: Sem1 ]
ptbl(SS.combi.1 SS.1 NW) concat(" | " NW.sur SS.1.sur) Carsten Weber

25 Flexion: Funktionsweise der Regel
Carsten Weber

26 Flexion: Proplet Tables
Beispiel: Präsens Indikativ Verben auf –are (Bsp. „cercare“) [ cat: (n' .. v) (fls o) => (s1'.. v) sem: (reg) (indpres indimp) => (indpres) ] cat: (n' .. v) (fls i) => (s2'.. v) sem: (irreg) (indpres indimp) => (indpres) cat: (n' .. v) (fls a) => (s3'.. v) [ cat: (n' .. v) (fls iamo) => (p1'.. v) sem: (irreg) (indpres) => (indpres) ] cat: (n' .. v) (fls ate) => (p2'.. v) sem: (reg) (indpres indimp) => (indpres) cat: (n' .. v) (fls ano) => (p3'.. v) Carsten Weber

27 Flexion Verteilung der Proplet Tables: Insgesamt 131 Flexionsendungen
Verben: 28 Substantive: 6 Adjektive: 8 Pronomina: 8 Präpositionen: 1 Zahlwörter: 1 Insgesamt 131 Flexionsendungen Carsten Weber

28 Derivation: Suffigierung
Verwendung des Tools LexiconAdder Funktionsweise am Substantiv „speranza“ (mit Suffix „anz“, welches Verben in Substantive ableitet): Es wurde eine Liste mit den Wortstämmen der Verben genommen Aus den Lexikoneinträgen der Substantive wurden alle Einträge mit „anza“ am Ende herausgenommen und um „anza“ gekürzt Mit dem Perl-Vergleichsskript wurde herausgefunden, ob die übrig gebliebene Zeichenkette ein Verbstamm ist oder nicht Mit dem Tool LexiconAdder wurden die Werte in das sfs-Attribut der Proplets geschrieben Carsten Weber

29 Derivation: Suffigierung
1. Substantive auf -anza speranza usanza vacanza stanza arroganza creanza ordinanza romanza costanza eleganza 2. Kürzen der Endungen sper us vac st arrog cre ordin rom cost eleg 3. Wortstämme der Verben sper us aspett st trov cre ordin piang cost fin 4. Ergebnis sper us st cre ordin cost Vergleichsskript Carsten Weber

30 Derivation: Suffigierung
Carsten Weber

31 Derivation: Suffigierung
Nachbearbeitung bei Wortstämmen mit drei oder weniger Buchstaben nötig (Beispiel: „stanza“ und „stare“) In die Proplets werden Marker geschrieben, die mit denen der Suffixe identisch sind (Achtung: Marker wird nur in Wortstämme eingefügt, nicht in der Grundform). Beispiel Suffix „anz“: [ sur: anz cat: (fls') sem: (stem) sfs: (anz) combi: (AE) ] Carsten Weber

32 Derivation: Die Suffixregel
STEM+SFS {STEM+FLS STEM+SFS} [ sfs: (R Suffix S) combi: StemCombi1 ] [ sfs: (Suffix O) combi: SufCombi cancel(Suffix) ecopy(NW.combi SS.combi) ecopy(NW.sem SS.sem) ecopy(NW.cat SS.cat) ecopy(NW.sfs SS.sfs) concat(" | " NW.sur SS.1.sur) Carsten Weber

33 Derivation: Funktionsweise der Suffixregel
Carsten Weber

34 Derivation: Suffigierung
Für die Suffigierung mussten neue Proplet Tables erstellt werden, die die Grundform generieren können. Insgesamt 140 Suffixe und Suffixvarianten Die Suffixe beinhalten semantische Informationen und können Proplets in andere Klassen ableiten Carsten Weber

35 Derivation: Präfigierung
Wieder Verwendung des Tools LexiconAdder Unterschied: Im Gegensatz zu den Suffixen wurden Präfixe abgeschnitten und mit den Grundformen der Lexikoneinträge verglichen Bsp.: ri-tornare → tornare Carsten Weber

36 Derivation: Die Präfixregel
PFS+STEM {STEM+FLS STEM+SFS} [ pfs: (Prefix) combi: PreCombi ] pfs: (N Prefix P) combi: StemCombi2 ecopy(NW.cat SS.cat) ecopy(NW.sem SS.sem) ecopy(NW.sfs SS.sfs) ecopy(NW.val SS.val) ecopy(NW.combi SS.combi) ecopy(NW.core SS.core) concat(" | " NW.sur SS.1.sur) cancel(N) cancel(P) cancel(Prefix) Carsten Weber

37 Derivation: Funktionsweise der Präfixregel
Carsten Weber

38 Derivation: Präfigierung
Insgesamt 103 Präfixe und Präfixvarianten Die Präfixe beinhalten keine semantischen Informationen und dienen nur der Verknüpfung der Oberflächen Marker wird sowohl in die Grundform als auch in die Wortstämme eingefügt Es mussten keine neuen Proplet Tables erstellt werden Carsten Weber

39 Komposition Sehr unregelmäßig und im Vergleich zum Deutschen von nicht so großer Bedeutung Es müssten eine Vielzahl von Regeln erstellt werden, daher Gefahr der Übergenerierung Eher Aufgabe der Syntax, da viele Komposita aus mehreren Teilen bestehen Beispiel: „camera da letto“ (Substantiv + Präposition + Substantiv) „treno notte“ (Substantiv + Substantiv) → Komposita aus einer Wortform wurden als Simplizia im Lexikon belassen Carsten Weber

40 Reduzierung des Lexikons
JSLIM „fischt“ Analysen mit dem Befehl -cmp, die sowohl Simplizia als auch Derivata sind Analysetool LexiconFilter kann im Anschluss ein semantisches Lexikon von einem Allolexikon trennen Beispiel „speranza“: steht als Simplizia „speranza“ im Substantivlexikon und wird auch durch regelbasierte Konkatenation mit „sper|anz|a“ gebildet. Die Simplizia können somit herausgefiltert werden → Es bleiben nur noch regelbasierte Lexikoneinträge stehen, dadurch gesteigerte Effizienz Carsten Weber

41 Korpusanalysen Tests an Type- und Tokenlisten des CoLFIS
Analysen der Typeliste wurden ausführlich nach Fehlern durchsucht und sukzessive verbessert. → Steigerung der Worterkennungsrate um über 3% Als Abschluss wurde die Tokenliste mit laufenden Wortformen analysiert Carsten Weber

42 Korpusanalysen: Ergebnisse
Typeliste Mit Hapax Legomena: 96,52% Ohne Hapax Legomena: 99,16% Tokenliste Mit Hapax Legomena: 99,85% Ohne Hapax Legomena: 99,94% Carsten Weber

43 VIELEN DANK! Carsten Weber


Herunterladen ppt "Magisterarbeit im Fach Linguistische Informatik"

Ähnliche Präsentationen


Google-Anzeigen