G.Heyer Sprachprodukttechnologie SS 2001 1 Rechtschreibkontrolle Artikel: Schwere deutsche Sprache ( Aufschlüsselung der enthaltenen Fehler ) PRÜFTEXT.

Slides:



Advertisements
Ähnliche Präsentationen
Algorithmen und Datenstrukturen
Advertisements

Algorithmentheorie 08 – Dynamische Programmierung (4) Editierdistanz Approximative Zeichenkettensuche Sequence Alignment Prof. Dr. Th. Ottmann WS
Christian Scheideler SS 2009
G.Meininghaus, Konstanz1 Suchen im und mit dem PC.
Hash-Tabellen und -Funktionen Hash-Tabellen in Java
Eine dynamische Menge, die diese Operationen unterstützt,
Vorlesung Programmieren II
Statistische Aspekte der PSG
Der Heilige Geist will bewegen
Suche in Texten (Stringsuche )
3. Kapitel: Komplexität und Komplexitätsklassen
Kapitel 6. Suchverfahren
Kapitel 3: Listen Lineare Liste: endliche Folge von Elementen eines Grundtyps (n>=0), leere Liste falls n=0 Listenelemente besitzen.
Synonyme: Stapel, Keller, LIFO-Liste usw.
Inhaltlich orientierter Zugriff auf unstrukturierte Daten
Verifizieren versus Berechnen
Lese-Rechtschreibschwäche / Legasthenie
Kapitel 4 Syntaktische Analyse: LR Parsing.
Java: Dynamische Datentypen
Colibi Bibliothekssystem der Computerlinguistik. Einführung Motivation Was braucht Colibi? Software Datenbankdesign.
ARRAY oder FELD oder VEKTOR
Sortieren vorsortierter Daten
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (27 – Kürzeste Wege) Prof. Th. Ottmann.
MMQL – Multimedia Query Language Eine Anfragesprache für Multimedia-Ähnlichkeitsanfragen Christian Mantei.
Klausur „Diskrete Mathematik II“
Christian Schindelhauer
Beispielrelation Buchbestellungen H = Menge der bedeutenden Ziele = {a, d} Schwelle T = 4 Stichprobe S = {a, b, a, a, a, a} mit s = |S| = 6 N = Anzahl.
Hauptseminar Automaten und Formale Sprachen
Ende Christian SeitzJochen Braun. Ende Der CMOS Standard Chip.
Maschinelles Lernen und automatische Textklassifikation
Eine Produktion von der Firma Presentations GmbH
Eignung von Grammatik-basiertem Layout für grafische Programmiersprachen Seminar Layout-Algorithmen für Graphen Institut für Informatik Christian-Albrechts.
Welche 5 Funktionen muss eine Textverarbeitung (z. B
1 Nutzen Sie diese Powerpoint-Präsentation beim Selbstlernen oder in Veranstaltungen zur Einführung in das jeweilige Thema. Einführung Lernmodul Nutzungsbedingungen:
Effiziente Algorithmen
Betrieb von Datenbanken Marco Skulschus & Marcus Wiederstein Datenmanipulation Lehrbuch, Kapitel 4.
10. Rechtschreibprüfung Die Rechtschreibkorrektur 10. Rechtschreibprüfung, Silbentrennung Die Rechtschreibkorrektur 10.2 Silbentrennung.
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Information und Kommunikation Hartmut Klauck Universität Frankfurt SS
Information und Kommunikation Hartmut Klauck Universität Frankfurt SS
Information und Kommunikation Hartmut Klauck Universität Frankfurt SS
Folie 1 Kapitel IV. Matrizen Inhalt: Matrizen als eigenständige mathematische Objekte Zusammenhang zwischen Matrizen und linearen Abbildungen Produkt von.
Polynome und schnelle Fourier-Transformation
XML-Query. Übersicht Was ist XML-Query? Vergleich RDB XML-Dokument Syntaktisches und Use-Cases Kritik und Diskussion.
Trust and context using the RDF- Source related Storage System (RDF‑S3) and easy RQL (eRQL) Karsten Tolle und Fabian Wleklinski.
Die Idee hinter Copying Garbage Collection (1) Aufteilung des Heaps in zwei Teile: To-Space und From-Space Nutzung eines Teiles durch das Programm Ist.
Dieser nicht Fehler finden Algorithmus enthält einfach einen gravierenden welcher zu ist.
AutoKorrektur unter Office 2010 Programme Wie oft aergern wir uns, dass bei jedem Zeilenvorschub automatisch der erste Buchstabe des ersten Wortes grosz.
Grundschule und Computer
ICT – Modul Textverarbeitung
Technische Fachhochschule Georg Agricola Übung Kapitel 7 Übungsinhalte: -Rechtschreibkorrektur -Suchen und Ersetzen von Wörtern/Texten.
22-Text korrigieren, suchen und ersetzen1 Tippfehler automatisch korrigieren lassen gARTEN Niemand ist perfekt. jeder macht Fehler. ZAun Damen udn Herren.
Textverarbeitung mit Microsoft Office 2010 Einführung
Technik schädlicher Software
Montag, 9. Juli 2001  ====!"§==Systems = Seite 1 Projekt SAPscript  Dana Stepanek SAPscript  Symbole MitSymbolen können Programm- bzw. Systemdaten oder.
Aufmerksamkeit, Funktion, Symptom Merkmale einer Legasthenie:
Ausbildungssituation 2001 in den neuen Bundesländern DGB Bundesvorstand, Abteilung JugendLothar Judith.
On-Demand™ Der “Markt” ist... Demo Modus: mit Hilfe von Grafiken, Sound (Sprache), Text und Animationen werden Lernsequenzen in Folge abgespielt - ähnlich.
1 Tagesüberblick 5 Lösung Hausaufgabe/Fragen Assoziative Felder Funktionen zu Variablenbehandlung.
Inhalt Einordnung und Funktion der lexikalische Analyse Grundlagen
Programmierungssprache PERL
Sprachprodukttechnologie SS 2001G. Heyer 1 Sprachstatistik  Grundlegende Definitionen  Alphabet Sei NL eine natürliche Sprache und sei A eine Menge von.
X. Übungsblatt – Aufgabe X Das Bild zeigt ein Diagramm, dass die Nachbarschafsbeziehungen für einen Code mit 3 Binärstellen darstellt. a)Welche Hamming-Distanz.
§ 164 Nach h.L. zwei Rechtsgüter alternativ 1. Das Interesse des Angeschuldigten 2. Das Interesse der Verfolgungsorgane bzw. des Staates Aufbau des Tatbestandes.
Dr. Wolfram Amme, Semantik funktionaler Programme, Informatik II, FSU Jena, SS Semantik funktionaler Programme.
Technische Universität München Praktikum Mobile Web Teil Kollaboratives Bewerten und Filtern am Touchscreen Robert Eigner
Dr. Wolfram Amme, Automatische Speicherverwaltung, Informatik II, FSU Jena, SS Automatische Speicherverwaltung.
Lernmodul Einführung Nutzen Sie diese Powerpoint-Präsentation beim Selbstlernen oder in Veranstaltungen zur Einführung in das jeweilige Thema. Nutzungsbedingungen:
Important Information
 Präsentation transkript:

G.Heyer Sprachprodukttechnologie SS Rechtschreibkontrolle Artikel: Schwere deutsche Sprache ( Aufschlüsselung der enthaltenen Fehler ) PRÜFTEXT (1): Während Eduard Mioras falsche Reflektionen mit Zuckerlächeln infrage stellt, hat sie in soweit nur gelacht, da sie din hohe Erblast einer fotogenen Bergeroberung ablehnt, stattdessen, schließlich, im Zenith ihrer rauschenden Examenserfolge, im Pool, auf gut Deutsch, rumplanscht. Fehler im Zusammenhang insoweit- nicht erkannt din - erkannt Zenith - erkannt deutsch (hier müsste es klein geschrieben werden - nicht erkannt

G.Heyer Sprachprodukttechnologie SS PRÜFTEXT (2) Er hat alles Mögliche versucht, um ihre Brillanten und die wertvollen Bestecke laut Testament des Erblassers in einer sehr exakten Liste zu nummerieren und das Gelände, 112 Hektar groß, mitutiös instandzusetzen. sie werden beobachtet haben, dass also alles Erdenkliche getan wurde. Nur das blassblau Linoleum ist der andern Laderinnung überlassen. Stofffutter wurde erfasst. Bei viel niedrigeren Gastemperaturen muss keine Anästhesie mehr erfolgen. In der klinischen Norm- Psychatrie sind daher die Redoxsysteme auch nach bestinformierten Koryphäen ohne Bedeutung. Weitere psychologische Daten sind ignoriert worden, hoher pädagogischer Nutzen scheint infolgedessen nur in synergetischer Weise als existenziell wertvoll prophezeiht werden zu können. In einem Wort: Die Innovation macht ihre Reverenz vor dem Thron der Wissenschaft - und zu zu recht. Satzanfang - nicht erkannt Wort- Wieder- holung - erkannt, aber zu Recht - nicht erkannt

G.Heyer Sprachprodukttechnologie SS Fehlerverteilung im Heidelberg Corpus

G.Heyer Sprachprodukttechnologie SS Korrigierbarkeit der Fehler im Heidelberg Corpus

G.Heyer Sprachprodukttechnologie SS Orthographische Fehler (strukturell) 1) Ersetzung 2) Löschung 3) Hinzufügen 4) Vertauschen 1. Ersetzung Die Funktion sub n : W n x { 1, 2,..., n} x a A n mit sub n ( (l 1, l 2..., l i,..., l n ), i, a ) = (l 1, l 2..., l i-1, a, l i+1,..., l n ) wird orthographischer Ersetzungsfehler genannt. 2. Löschen omi n : W n x (1, 2,... n) A n-1 mit omi n ( (l 1, l 2,... l i-1, l i, l i+1,... l n ), i) = ( l 1, l 2,..., l i-1, l i+1,... l n )

G.Heyer Sprachprodukttechnologie SS Einfügen ins n : W n x (1,2,..., n+l) x a A n+1 mitins n ( (l 1, l 2,..., l i, l i+1,... l n ), i, a) = ( l 1, l 2,..., a, l i, l i+1,..., l n ) 4. Vertauschen tra n : W n x (1, 2,..., n) A n mittra n ( (l 1, l 2,... l i, l i+1,..., l n ), i) = ( l 1, l 2,..., l i+1, l i,... l n ) Beispiel: "naer", n=4, i=2 tra 4 ("naer", 2) = "near" "lovated", n=7, i=3 sub 7 ("lovated, 3, c) = located

G.Heyer Sprachprodukttechnologie SS Orthographische Fehler der Distanz d Die Komposition der Funktionen e = e 1 e 2... e d (mit E 1 = n>0 (sub n omi n ins n tra n ) ) wird orthographischer Fehler der Distanz d genannt. |E d | (n (2 k+1) + k-1) d (Mehrfachfehler heben sich auf!) Menge der Fehler mit Distanz d wächst exponentiell !

G.Heyer Sprachprodukttechnologie SS Beispiel: Einfache Rechtschreibfehler des Wortes "near" sub 4 ("near", 1, a) = aear sub 4 ("near", 1, b) = bear (?)... sub 4 ("near", 4, z) = neaz omi 4 ("near", 1) = ear... omi 4 ("near", 4) = nea ins 4 ("near", 1, a) = anear... ins 4 ("near", 5, z) = nearz tra 4 ("near", 1) = enar... tra 4 ("near", 3) = nera Gesamtzahl der Fehler: 4* (2 * ) ) = 237

G.Heyer Sprachprodukttechnologie SS Typographische Fehler motorische Fehler die durch Tippen einer falschen Sequenz von Tasten verursacht werden Beispiel: Typographische Fehler der Distanz 1 sub 5 ("house", 3, y) = hoyse ins 5 ("house", 4, w) = houwse q w e r t y n i o p a s d f g h j k l Andere Anwendung: Scannen ln m i l

G.Heyer Sprachprodukttechnologie SS Architektur AnwendungErkennenKorrigieren Lex 1 Lex 2 1) Strategie 2) Erkennen: lexikonbasiert 3) Korrigieren: Soundex (Phonetische Ähnlichkeit) Trigrammanalyse Levensthein - Metrik

G.Heyer Sprachprodukttechnologie SS Principles of Error Treatment für Language Checking Strategy 1 Error detection: based on a grammar of what is right Error correction: deduction on deviance from that standard Variant A Weak parsing - strong filtering (weak notion of what is "right") Variant B Unification failure approach (non-monotonic reasoning procedure to derive error descriptions from a model of correctness) Strategy 2 Error detection: based on a grammar of what is wrong Error correction: rule based correction of detected mistakes Variant A Strong parsing - weak filtering (rule relaxation approach) Variant B Error dictionary

G.Heyer Sprachprodukttechnologie SS Rechtschreibprüfung / II Anwendungs- programm Erkennen Korrigiere n Lex 1Lex 2 Erkennen: Überprüfen ob Wort / Eingabe im Lex1

G.Heyer Sprachprodukttechnologie SS Beispiel: Implementierung des Lexikonvergleichs Eingabewort Wortlisten Aachen ab aber... Bach bauen... Zeiger Zug a b e r match az Suche sequentielle

G.Heyer Sprachprodukttechnologie SS Indexsequentielle Suche nur bis Wörter in Lex1 Kompression erforderlich (z.B. Lauflängen) besser: Hauptspeicher alternativ: Digitalbäume, Hashing Generelle Probleme/Parameter Speicherbedarf Zugriffszeit Benutzererweiterbarkeit

G.Heyer Sprachprodukttechnologie SS Korrektur 1) Soundex (Knuth) vgl. i) Tilge Vokale; Doppelbuchstaben ii) Weise jedem Buchstaben eine Ziffer nach Tabelle zu (ergibt Schlüssel) iii) Zeige Wörter mit gleichem Schlüssel Tabelle b, p, f, v 1 c, g, j, k, q, s, x, z 2 d, t 3 l 4 m, n 5 r 6

G.Heyer Sprachprodukttechnologie SS Beispiel i m e d i a t e(immediate) m d t 5 3 3Schlüssel 533 weitere Vorschläge: a n n o t a t e(a 533) u n n e d e d(unneeded) großer recall Verbesserung: erster Buchstabe muß identisch sein immediate i 533

G.Heyer Sprachprodukttechnologie SS ) Trigramm-Verfahren w = a 1... a n T(w) = {,,..., } Gegeben Alphabet mit 26 Buchstaben a a ainsgesamt 26 3 Trigramme: a a b... a a z a b a... z z y z z z

G.Heyer Sprachprodukttechnologie SS Ähnlichkeitsmaß für Wörter Dice-Koeffizient Beispiel workwirk 1) ww 2) w ow i 3) w o rw i r 4) o r k i r k 5) r k r k 6) k k 6/12 = 1/2

G.Heyer Sprachprodukttechnologie SS Korrektur: 1) gleicher Anfangsbuchstabe 2) höchstes Ähnlichkeitsmaß Länge des Wortes bestimmt Ähnlichkeit ! warkaholicwirkaholic 3/4 3) Levenshtein Matrix sub (a 1,..., a i-1, a i, a i+1,..., a n, i, b ) = a 1,..., a i-1, b, a i+1,..., a n del ins tra

G.Heyer Sprachprodukttechnologie SS NP-schwierig ! = d ( sub (, i, a ), ) 1 i | | d (del (, j ) ) 1 j | | d ( ins (, k, b) ) 0 k | | + l d (tra (, l), ) 1 l | | - l d (, ) = 1.) d (, ) = dann und nur dann wenn =, sonst d (, ) > 2.) d (, ) = d (, ) 3.) d (, ) + d (, ) d (, ) 4.) Maß ist Länge 5.) d (abc, axc ) = 1 + ( sub ( abc, 2, x ), axc) = = 1 + d ( axc, axc ) = min i, j, k, l, a, b