Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Ausblick 1.5.7. U – Rechtschreib & Web-Crawling U über Rechtschrkontr. 2.12.7. N – Visualisierung Sem. Netze -“Zoom”algorithmen.

Ähnliche Präsentationen


Präsentation zum Thema: "Ausblick 1.5.7. U – Rechtschreib & Web-Crawling U über Rechtschrkontr. 2.12.7. N – Visualisierung Sem. Netze -“Zoom”algorithmen."—  Präsentation transkript:

1 Ausblick U – Rechtschreib & Web-Crawling U über Rechtschrkontr N – Visualisierung Sem. Netze -“Zoom”algorithmen

2 2 Rechtschreibkontrolle Im Moment kein Forschungsthema an und für sich –Neue Ansätze jedoch schon, insbesondere im Umfeld neuer Anwendungen Allgegenwärtiges Problem Verifier vs. Corrector –bzw. Level der Interaktivität Evolution der Sprachmodelle –einfaches LD-Modell –Phoneme und typische Dreher (LD Kosten modifiziert) –n-gram Modell (Einführung von Wahrscheinlichkeiten) –Kontext basiertes Modell –Syntaktische Modelle –Semantische Modelle (Zukunft)

3 3 LD Modell Fred J. Damerau (IBM) 1964: The method described assumes that a word which cannot be found in a dictionary has at most one error, which might be a wrong, missing or extra letter or a single transposition. The unidentified input word is compared to the dictionary again, testing each time to see if the words match—assuming one of these errors occurred. During a test run on garbled text, correct identifications were made for over 95 percent of these error types. Wieviele Wörter in Prozent des gesamten Wortschatzes sind mit LD1, 2, 3, … abgedeckt? Wieviele Fehler kann man überhaupt korrekt korrigieren mit LD1, 2, 3? Welche Lösung fällt Ihnen ein, dieses Modell zu verbessern? Diskutieren Sie den notwendigen tradeoff zwischen Precision und Recall bei Rechtscheibkorrektur!

4 4 N-Gramm Modell falcshgeschrieben Schschschschsch enenenenen fal alc lcs csh … sch = 1 P(fal)*p(alc)* … Was sind die Nachteile des n-gramm Modells? Unter welchen Umständen erweist es sich hingegen als nützlich?

5 5 Komponenten Nennen Sie die Komponenten, die für ein Rechtschreibkorrekturprogramm entsprechend den verschiedenen Modellen benötigt werden –Abstandsmass, Wortliste, Korpus, etc. –…

6 6 Problem „Optimales Lexikon“ baht – Thai Währung, aber öfter Falschschreibung von bath Daher nicht generell je grösser das Lexikon, umso besser Ausser ein Kontextmodell wird verwendet. Zentralproblem ist Homophonie (see, sea) Entgegengesetzter Ansatz vom Google spellchecker

7 7 Syntaktisches Modell Unter Berücksichtigung der Ihnen bekannten Sprachtechnologien – wie würde ein Rechtschreibkorrekturprogramm funktionieren, welches auch die Grammatik korrigieren kann? Und Semantik? –Was genau soll erkannt und was korrigiert werden? –Wie erkennt man falsche semantik?

8 8 Gegenbeispiel Eye halve a spelling chequer, It came with my pea sea, It plainly marques four my revue Miss steaks eye kin knot sea. Eye strike a key and type a word And weight four it two say Weather eye am wrong oar write It shows me strait a weigh. As soon as a mist ache is maid It nose bee fore two long And eye can put the error rite Its rarely ever wrong. Eye have run this poem threw it I'm shore your pleased two no Its letter perfect in its weigh, My chequer tolled me sew.

9 9 Liste von bekannteren Spellcheckern Google Spell checker (wie funktioniert der?) –N-gramm und click-through basiert Microsoft Word Spell Checker Ispell GNU Aspell (und Jazzy) Lucene (Java Suchmaschine) Spell Checker –N-grammbasiert Autospell …

10 10 Relevanz für andere Anwendungen (also nicht beim einfachen Text eingeben oder checken) IR (siehe google) OCR Speech Recognition Machine Translation Noise reduction in noisy data

11 11

12 12

13 13

14 14


Herunterladen ppt "Ausblick 1.5.7. U – Rechtschreib & Web-Crawling U über Rechtschrkontr. 2.12.7. N – Visualisierung Sem. Netze -“Zoom”algorithmen."

Ähnliche Präsentationen


Google-Anzeigen