Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

G.Heyer Sprachprodukttechnologie SS 2001 1 Rechtschreibkontrolle Artikel: Schwere deutsche Sprache ( Aufschlüsselung der enthaltenen Fehler ) PRÜFTEXT.

Ähnliche Präsentationen


Präsentation zum Thema: "G.Heyer Sprachprodukttechnologie SS 2001 1 Rechtschreibkontrolle Artikel: Schwere deutsche Sprache ( Aufschlüsselung der enthaltenen Fehler ) PRÜFTEXT."—  Präsentation transkript:

1 G.Heyer Sprachprodukttechnologie SS 2001 1 Rechtschreibkontrolle Artikel: Schwere deutsche Sprache ( Aufschlüsselung der enthaltenen Fehler ) PRÜFTEXT (1): Während Eduard Mioras falsche Reflektionen mit Zuckerlächeln infrage stellt, hat sie in soweit nur gelacht, da sie din hohe Erblast einer fotogenen Bergeroberung ablehnt, stattdessen, schließlich, im Zenith ihrer rauschenden Examenserfolge, im Pool, auf gut Deutsch, rumplanscht. Fehler im Zusammenhang insoweit- nicht erkannt din - erkannt Zenith - erkannt deutsch (hier müsste es klein geschrieben werden - nicht erkannt

2 G.Heyer Sprachprodukttechnologie SS 2001 2 PRÜFTEXT (2) Er hat alles Mögliche versucht, um ihre Brillanten und die wertvollen Bestecke laut Testament des Erblassers in einer sehr exakten Liste zu nummerieren und das Gelände, 112 Hektar groß, mitutiös instandzusetzen. sie werden beobachtet haben, dass also alles Erdenkliche getan wurde. Nur das blassblau Linoleum ist der andern Laderinnung überlassen. Stofffutter wurde erfasst. Bei viel niedrigeren Gastemperaturen muss keine Anästhesie mehr erfolgen. In der klinischen Norm- Psychatrie sind daher die Redoxsysteme auch nach bestinformierten Koryphäen ohne Bedeutung. Weitere psychologische Daten sind ignoriert worden, hoher pädagogischer Nutzen scheint infolgedessen nur in synergetischer Weise als existenziell wertvoll prophezeiht werden zu können. In einem Wort: Die Innovation macht ihre Reverenz vor dem Thron der Wissenschaft - und zu zu recht. Satzanfang - nicht erkannt Wort- Wieder- holung - erkannt, aber zu Recht - nicht erkannt

3 G.Heyer Sprachprodukttechnologie SS 2001 3 Fehlerverteilung im Heidelberg Corpus

4 G.Heyer Sprachprodukttechnologie SS 2001 4 Korrigierbarkeit der Fehler im Heidelberg Corpus

5 G.Heyer Sprachprodukttechnologie SS 2001 5 Orthographische Fehler (strukturell) 1) Ersetzung 2) Löschung 3) Hinzufügen 4) Vertauschen 1. Ersetzung Die Funktion sub n : W n x { 1, 2,..., n} x a A n mit sub n ( (l 1, l 2..., l i,..., l n ), i, a ) = (l 1, l 2..., l i-1, a, l i+1,..., l n ) wird orthographischer Ersetzungsfehler genannt. 2. Löschen omi n : W n x (1, 2,... n) A n-1 mit omi n ( (l 1, l 2,... l i-1, l i, l i+1,... l n ), i) = ( l 1, l 2,..., l i-1, l i+1,... l n )

6 G.Heyer Sprachprodukttechnologie SS 2001 6 3. Einfügen ins n : W n x (1,2,..., n+l) x a A n+1 mitins n ( (l 1, l 2,..., l i, l i+1,... l n ), i, a) = ( l 1, l 2,..., a, l i, l i+1,..., l n ) 4. Vertauschen tra n : W n x (1, 2,..., n) A n mittra n ( (l 1, l 2,... l i, l i+1,..., l n ), i) = ( l 1, l 2,..., l i+1, l i,... l n ) Beispiel: "naer", n=4, i=2 tra 4 ("naer", 2) = "near" "lovated", n=7, i=3 sub 7 ("lovated, 3, c) = located

7 G.Heyer Sprachprodukttechnologie SS 2001 7 Orthographische Fehler der Distanz d Die Komposition der Funktionen e = e 1 e 2... e d (mit E 1 = n>0 (sub n omi n ins n tra n ) ) wird orthographischer Fehler der Distanz d genannt. |E d | (n (2 k+1) + k-1) d (Mehrfachfehler heben sich auf!) Menge der Fehler mit Distanz d wächst exponentiell !

8 G.Heyer Sprachprodukttechnologie SS 2001 8 Beispiel: Einfache Rechtschreibfehler des Wortes "near" sub 4 ("near", 1, a) = aear sub 4 ("near", 1, b) = bear (?)... sub 4 ("near", 4, z) = neaz omi 4 ("near", 1) = ear... omi 4 ("near", 4) = nea ins 4 ("near", 1, a) = anear... ins 4 ("near", 5, z) = nearz tra 4 ("near", 1) = enar... tra 4 ("near", 3) = nera Gesamtzahl der Fehler: 4* (2 * 26 + 1) + 26 - 1) = 237

9 G.Heyer Sprachprodukttechnologie SS 2001 9 Typographische Fehler motorische Fehler die durch Tippen einer falschen Sequenz von Tasten verursacht werden Beispiel: Typographische Fehler der Distanz 1 sub 5 ("house", 3, y) = hoyse ins 5 ("house", 4, w) = houwse q w e r t y n i o p a s d f g h j k l Andere Anwendung: Scannen ln m i l

10 G.Heyer Sprachprodukttechnologie SS 2001 10 Architektur AnwendungErkennenKorrigieren Lex 1 Lex 2 1) Strategie 2) Erkennen: lexikonbasiert 3) Korrigieren: Soundex (Phonetische Ähnlichkeit) Trigrammanalyse Levensthein - Metrik

11 G.Heyer Sprachprodukttechnologie SS 2001 11 Principles of Error Treatment für Language Checking Strategy 1 Error detection: based on a grammar of what is right Error correction: deduction on deviance from that standard Variant A Weak parsing - strong filtering (weak notion of what is "right") Variant B Unification failure approach (non-monotonic reasoning procedure to derive error descriptions from a model of correctness) Strategy 2 Error detection: based on a grammar of what is wrong Error correction: rule based correction of detected mistakes Variant A Strong parsing - weak filtering (rule relaxation approach) Variant B Error dictionary

12 G.Heyer Sprachprodukttechnologie SS 2001 12 Rechtschreibprüfung / II Anwendungs- programm Erkennen Korrigiere n Lex 1Lex 2 Erkennen: Überprüfen ob Wort / Eingabe im Lex1

13 G.Heyer Sprachprodukttechnologie SS 2001 13 Beispiel: Implementierung des Lexikonvergleichs Eingabewort Wortlisten Aachen ab aber... Bach bauen... Zeiger Zug a b e r match az Suche sequentielle

14 G.Heyer Sprachprodukttechnologie SS 2001 14 Indexsequentielle Suche nur bis 15.000 Wörter in Lex1 Kompression erforderlich (z.B. Lauflängen) besser: Hauptspeicher alternativ: Digitalbäume, Hashing Generelle Probleme/Parameter Speicherbedarf Zugriffszeit Benutzererweiterbarkeit

15 G.Heyer Sprachprodukttechnologie SS 2001 15 Korrektur 1) Soundex (Knuth) vgl. http://theoryx5.uwinnipeg.ca/CPAN/perl/Text/Soundex.html i) Tilge Vokale; Doppelbuchstaben ii) Weise jedem Buchstaben eine Ziffer nach Tabelle zu (ergibt Schlüssel) iii) Zeige Wörter mit gleichem Schlüssel Tabelle b, p, f, v 1 c, g, j, k, q, s, x, z 2 d, t 3 l 4 m, n 5 r 6

16 G.Heyer Sprachprodukttechnologie SS 2001 16 Beispiel i m e d i a t e(immediate) m d t 5 3 3Schlüssel 533 weitere Vorschläge: a n n o t a t e(a 533) 5 3 3 u n n e d e d(unneeded) 5 3 3 großer recall Verbesserung: erster Buchstabe muß identisch sein immediate i 533

17 G.Heyer Sprachprodukttechnologie SS 2001 17 2) Trigramm-Verfahren w = a 1... a n T(w) = {,,..., } Gegeben Alphabet mit 26 Buchstaben a a ainsgesamt 26 3 Trigramme: 17576 a a b... a a z a b a... z z y z z z

18 G.Heyer Sprachprodukttechnologie SS 2001 18 Ähnlichkeitsmaß für Wörter Dice-Koeffizient Beispiel workwirk 1) ww 2) w ow i 3) w o rw i r 4) o r k i r k 5) r k r k 6) k k 6/12 = 1/2

19 G.Heyer Sprachprodukttechnologie SS 2001 19 Korrektur: 1) gleicher Anfangsbuchstabe 2) höchstes Ähnlichkeitsmaß Länge des Wortes bestimmt Ähnlichkeit ! warkaholicwirkaholic 3/4 3) Levenshtein Matrix sub (a 1,..., a i-1, a i, a i+1,..., a n, i, b ) = a 1,..., a i-1, b, a i+1,..., a n del ins tra

20 G.Heyer Sprachprodukttechnologie SS 2001 20 NP-schwierig ! = d ( sub (, i, a ), ) 1 i | | d (del (, j ) ) 1 j | | d ( ins (, k, b) ) 0 k | | + l d (tra (, l), ) 1 l | | - l d (, ) = 1.) d (, ) = dann und nur dann wenn =, sonst d (, ) > 2.) d (, ) = d (, ) 3.) d (, ) + d (, ) d (, ) 4.) Maß ist Länge 5.) d (abc, axc ) = 1 + ( sub ( abc, 2, x ), axc) = = 1 + d ( axc, axc ) = 1 1 + min i, j, k, l, a, b


Herunterladen ppt "G.Heyer Sprachprodukttechnologie SS 2001 1 Rechtschreibkontrolle Artikel: Schwere deutsche Sprache ( Aufschlüsselung der enthaltenen Fehler ) PRÜFTEXT."

Ähnliche Präsentationen


Google-Anzeigen