Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

1 Endliche Automaten in der Sprachtechnologie Einführung Karin Haenelt 30.03.2009.

Ähnliche Präsentationen


Präsentation zum Thema: "1 Endliche Automaten in der Sprachtechnologie Einführung Karin Haenelt 30.03.2009."—  Präsentation transkript:

1 1 Endliche Automaten in der Sprachtechnologie Einführung Karin Haenelt

2 Menschliche Sprachen und endliche Automaten Die Automatentheorie gibt keine Antwort auf die Frage, mit welchen Zuständen, Eingaben und Zustandsübergängen ein konkretes Objekt zu modellieren ist, kann dem Erkenntnisgewinn über Objekte dienen. Die Untersuchung, ob und wieweit ein Objekt (z.B. menschliche Sprache) mit endlichen Automaten modelliert werden kann, führt zu nicht-trivialen Erkenntnissen über die Natur des Objekts. Sprachtheorie: theoretische Frage: Sind menschliche Sprachen reguläre Sprachen? Sprachtechnologie: praktische Frage: Welche Eignung haben endliche Automaten für die Sprachverarbeitung? © Karin Haenelt, Endliche Automaten in der Sprachtechnologie, Einführung,

3 Sprachtheoretische Aufgabe Seien verschiedene Alphabete Σ 1 = {A, B,..., z} Σ 2 = {lach, mach, sing, e, st, t, en,...} Σ 3 = {adje, dete, nomn, verb,...} Σ x =... Seien die jeweiligen Mengen Σ 1 *, Σ 2 *, Σ 3 *, Σ x *,... die Mengen der endlichen Sequenzen über diesen Alphabeten Eine interessante Teilmenge L dieser Sequenzen besteht aus den Sequenzen, die Wörter, Phrasen, Sätze,... der deutschen Sprache sind. Eine theoretisch und praktisch interessante linguistische Aufgabe ist es, zu untersuchen, welche Teilbereiche einer natürlichen Sprache als reguläre Sprachen beschrieben werden können. © Karin Haenelt, Endliche Automaten in der Sprachtechnologie, Einführung,

4 Typ 3 oder nicht? Menschliche Sprachen nicht alle Phänomene mit Grammatik vom Typ 3 beschreibbar viele Phänomene sind mit Grammatik vom Typ 3 beschreibbar nicht für alle praktischen Aufgaben ist eine vollständige Sprachverarbeitung unabdingbar mit partiellen Lösungen können viele in der Praxis nützliche Werkzeuge entwickelt werden Für Massendaten werden effiziente und robuste Verarbeitungsverfahren benötigt © Karin Haenelt, Endliche Automaten in der Sprachtechnologie, Einführung, Kunze, 2001 S. 163

5 Anwendungsgebiete © Karin Haenelt, Endliche Automaten in der Sprachtechnologie, Einführung, flaches Parsing head-modifier- Paare Textzerlegung Spracherkennung Übersetzung Rechtschreib- Korrektur Lexika Regeln Analyse Synthese Transfer Phonologie Morphologie Fakten- extraktion Text:Sprechen Sprechen:Text part-of-speech tagging

6 Endliche Automaten in der Sprachtechnologie direkte Anwendung Spracherkennung, Sprechen:Text, Text:Sprechen Übersetzung, Faktenextraktion, Rechtschreibkorrektur, SMS-Lexika direkte Anwendung für linguistische Teilaufgaben Worterkennung, Textzerlegung Phonologie, Morphologie part-of-speech-tagging flaches Parsing head-modifier-Paare © Karin Haenelt, Endliche Automaten in der Sprachtechnologie, Einführung,

7 Endliche Automaten in der Sprachtechnologie Kompakte Repräsentation Wörterbücher Systemlexika und lexikalische Regeln Morphologie, Phonologie partielle syntaktische Strukturen (chunks) Indexierung von Texten Grundlage vieler Parsing-Mechanismen anwendbar zum Parsing kontextfreier Sprachen (RTN, Woods, 1970) erweiterbar für Kontext-Abhängigkeiten grundlegende Implementierungstechniken © Karin Haenelt, Endliche Automaten in der Sprachtechnologie, Einführung,

8 Attraktivität endlicher Automaten Grundlagen mathematisch wohl-fundiert daher systematisch und kontrolliert handhabbar Softwaretechnik direkte Umsetzungen in Computerprogramme für Datenstrukturen und Operationen auf den Datenstrukturen abstrakte Spezifikation mit regulären Ausdrücken modulare und inkrementelle Entwicklung durch Komponierbarkeit von Automaten Effizienz in der Regel besonders effizientes Laufzeit- und Speicherplatzverhalten. © Karin Haenelt, Endliche Automaten in der Sprachtechnologie, Einführung,

9 Attraktivität endlicher Automaten sehr effiziente Verarbeitung sehr schnell platzsparend mächtige und flexible Werkzeuge zur Repräsentation sprachlicher Phänomene und linguistischer Beschreibungen Modellierungsmittel erlauben ein Nebeneinander von Aufzählungen (Irregularitäten / Lexikon) und regelhaften Beschreibungen (Regeln) der modellierten Zeichenreihen schwache Struktur der Spezifikationen favorisiert Aufzählung gegenüber Erfassung von Regelhaftigkeiten massendatentauglich © Karin Haenelt, Endliche Automaten in der Sprachtechnologie, Einführung,

10 Literatur Kornai, András (Ed.) (1999). Extended Finite State Models of Language. (Studies in Natural Language Processing). Cambridge: Cambridge University Press. Kunze, Jürgen (2001). Computerlinguistik. Voraussetzungen, Grundlagen, Werkzeuge. Vorlesungsskript. Humboldt Universität zu Berlin. berlin.de/compling/Lehrstuhl/Skripte/Computerlinguistik_1/index.htmlhttp://www2.rz.hu- berlin.de/compling/Lehrstuhl/Skripte/Computerlinguistik_1/index.html Roche, Emmanuel und Yves Schabes (Eds.) (1997). Finite-State Language Processing. Cambridge (Mass.) und London: MIT Press. © Karin Haenelt, Endliche Automaten in der Sprachtechnologie, Einführung,

11 Copyright © 2009 Karin Haenelt. All rights reserved. The German Urheberrecht shall be applied to these slides. In accordance with these laws these slides are a publication which may be quoted and used for non-commercial purposes, if the bibliographic data is included as described below. Please quote correctly. If you use the presentation or parts of it for educational and scientific purposes, please include the bibliographic data (author, title, date, page, URL) in your publication (book, paper, course slides, etc.). Deletion or omission of the footer (with name, data and copyright sign) is not permitted Bibliographic data. Karin Haenelt ( Endliche Automaten in der Sprachtechnologie. Einführung. Kursfolien Any further use requires the prior permission in writing from the author. For commercial use: No commercial use is allowed without written permission from the author. In case you are interested in commercial use please contact the author. Court of Jurisdiction is Darmstadt. © Karin Haenelt, Endliche Automaten in der Sprachtechnologie, Einführung,


Herunterladen ppt "1 Endliche Automaten in der Sprachtechnologie Einführung Karin Haenelt 30.03.2009."

Ähnliche Präsentationen


Google-Anzeigen