1 Endliche Automaten in der Sprachtechnologie Einführung Karin Haenelt 30.03.2009.

Slides:



Advertisements
Ähnliche Präsentationen
Statistische Aspekte der PSG
Advertisements

Art der Arbeit (Projekt-/Studien-/Diplomarbeit/
Friedhelm Meyer auf der Heide 1 HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Grammatiken beschreiben Sprachen L µ *, indem.
Endliche Automaten Einführung in den Themenbereich
Reguläre Sprachen Karin Haenelt.
Endliche Automaten Akzeptoren
Endliche Automaten in der Sprachverarbeitung Eine kleine Einführung
1 Abstrakte Operatoren für komplexe reguläre Ausdrücke Karin Haenelt
Formale Grundlagen der Faktenextraktion mit endlichen Automaten
Endliche Automaten Überführung regulärer Ausdrücke in endliche Automaten Karin Haenelt
Reguläre Ausdrücke Karin Haenelt
© Karin Haenelt 2006, Äquivalenzen Reg.Ausdrücke, Reg.Sprachen, EA ( ) 1 Reguläre Sprachen Karin Haenelt.
Informationsextraktion mit endlichen Automaten
1 Endliche Automaten in der Sprachtechnologie Kursthemen Karin Haenelt
© Karin Haenelt, Modellierung Menschlicher.Sprachen mit Regulären Ausdrücken, Modellierung menschlicher Sprachen mit Regulären Ausdrücken.
Parsing regulärer Ausdrücke
Mathematische Grundlagen
© Karin Haenelt 2006, Operationen auf Akzeptoren und Transduktoren, ( ) 1 Operationen auf endlichen Akzeptoren und Transduktoren.
Endliche Automaten in der Sprachtechnologie
1 Komplexität menschlicher Sprachen Karin Haenelt
© Karin Haenelt 2005, Endliche Automaten: Alphabet, Zeichenreihe, Sprache, Endliche Automaten Grundlagen: Alphabet, Zeichenreihe, Sprache.
Transduktoren für die Sprachverarbeitung: Komposition zweier Transduktoren Karin Haenelt
Flaches Parsing mit endlichen Automaten Referat und Implementierung Jutta Jäger
Überblick Software Bestellungsver- waltungsprozess Dialogmanagement Simulation Sprachverarbeitung Verschiedene Arbeitsphasen Routengraphen Sprachverarbeitung:
Internationale Promovierende Promovieren an der Humboldt-Universität zu Berlin Dr. Uta Hoffmann Humboldt-Universität zu.
Infinitivkonstruktionen
| DC-IAP/SVC3 | © Bosch Rexroth Pneumatics GmbH This document, as well as the data, specifications and other information set forth in.
Einführung Sprache.
You need to use your mouse to see this presentation.
…und nun aber zum heutigen Vortrag Die Herausforderung: Krisen und andere Verwerfungen Die Herangehensweise: Kosten senken & Produktivität erhöhen Das.
Der formelle Imperativ – the Imperative
Mensch – Maschine - Kommunikation
Sprachneuerungen des .NET Frameworks 3.5
Die Fragen Wörter Wer? Was? Wann?.
Inhalt Einordnung und Funktion der lexikalische Analyse Grundlagen
Stephanie Müller, Rechtswissenschaftliches Institut, Universität Zürich, Rämistrasse 74/17, 8001 Zürich, Criminal liability.
Literary Machines, zusammengestellt für ::COLLABOR:: von H. Mittendorfer Literary MACHINES 1980 bis 1987, by Theodor Holm NELSON ISBN
Arbeiten in einem agilen Team mit VS & TFS 11
The perfect tense Vital for a good grade!!. There are 2 parts to the perfect tense 1)The correct part of haben (or sein) 2) + the past participle.
? What is Open PS? SAP Open PS based on EPS 4.0
Possessive Adjectives How to show belonging… The information contained in this document may not be duplicated or distributed without the permission of.
E STUNDE Deutsch AP. Dienstag, der 23. April 2013 Deutsch AP (E Stunde)Heute ist ein B Tag Goal: to understand authentic written text, audio material.
Deutsch 1 G Stunde.  Unit: Introduction to German & Germany  Objectives:  Phrases about date, weather and time-telling  Family relations  Presentations.
© Crown copyright 2011, Department for Education These materials have been designed to be reproduced for internal circulation, research and teaching or.
You need to use your mouse to see this presentation © Heidi Behrens.
Übung Macht den Meister! (Practice Makes Perfect!)
10.3 Lektion 10 Geschichte und Gesellschaft STRUKTUREN © and ® 2012 Vista Higher Learning, Inc Der Konjunktiv I and indirect speech —Ich komme.
Sven Koerber-Abe, 2015 Grammatik: können, wollen, möchten Grammatik: können, wollen, möchten.
Sven Koerber-Abe, 2015 Grammatik: müssen, dürfen Grammatik: müssen, dürfen.
G Stunde DEUTSCH 1.  Unit: Family & homeFamilie & Zuhause  Objectives:  Phrases about date, weather and time-telling  Family and family relations.
Technische Universität München Institute of Aeronautical Engineering Prof. Dr.-Ing. Horst Baier Presentation of the Institute (December 2009)
(Name of presenter) (Short title of presentation).
Custom error page for timeout Gergely Andó / Application Innovation July 10, 2013 Customer.
Your Logo Presentation Title Presentation Subtitle.
German Stem-Vowel Changing Verbs
Perfekt-Quiz Sven Koerber-Abe, 2014.
FREE ICONS POWERPOINT TEMPLATE.
Dom zu Lübeck The Lübeck Cathedral (German: Dom zu Lübeck, or colloquially Lübecker Dom) is a large brick Lutheran cathedral in Lübeck, Germany and part.
Wegbeschreibung Sven Koerber-Abe, 2015.
Simple Past The Narrative Past.
Safe but attractive. Bike accessories
Grammatik: waren / hatten
Dativ Sven Koerber-Abe, 2015.
Thema Kraftfeld-Analyse
Reflexive Verbs.
Titel Untertitel Alle Autoren bestätigen, dass keinerlei Interessenskonflikt vorliegt. Erfurt, DGAUM Jahrestagung,
WIE DER APOSTEL LEBE DEINE BERUFUNG!
Ich - Projekt Due Monday, September 19..
Titel Untertitel Alle Autoren bestätigen, dass keinerlei Interessenskonflikt vorliegt. München, DGAUM Jahrestagung,
Grammatik: Position Sven Koerber-Abe, 2013.
 Präsentation transkript:

1 Endliche Automaten in der Sprachtechnologie Einführung Karin Haenelt

Menschliche Sprachen und endliche Automaten Die Automatentheorie gibt keine Antwort auf die Frage, mit welchen Zuständen, Eingaben und Zustandsübergängen ein konkretes Objekt zu modellieren ist, kann dem Erkenntnisgewinn über Objekte dienen. Die Untersuchung, ob und wieweit ein Objekt (z.B. menschliche Sprache) mit endlichen Automaten modelliert werden kann, führt zu nicht-trivialen Erkenntnissen über die Natur des Objekts. Sprachtheorie: theoretische Frage: Sind menschliche Sprachen reguläre Sprachen? Sprachtechnologie: praktische Frage: Welche Eignung haben endliche Automaten für die Sprachverarbeitung? © Karin Haenelt, Endliche Automaten in der Sprachtechnologie, Einführung,

Sprachtheoretische Aufgabe Seien verschiedene Alphabete Σ 1 = {A, B,..., z} Σ 2 = {lach, mach, sing, e, st, t, en,...} Σ 3 = {adje, dete, nomn, verb,...} Σ x =... Seien die jeweiligen Mengen Σ 1 *, Σ 2 *, Σ 3 *, Σ x *,... die Mengen der endlichen Sequenzen über diesen Alphabeten Eine interessante Teilmenge L dieser Sequenzen besteht aus den Sequenzen, die Wörter, Phrasen, Sätze,... der deutschen Sprache sind. Eine theoretisch und praktisch interessante linguistische Aufgabe ist es, zu untersuchen, welche Teilbereiche einer natürlichen Sprache als reguläre Sprachen beschrieben werden können. © Karin Haenelt, Endliche Automaten in der Sprachtechnologie, Einführung,

Typ 3 oder nicht? Menschliche Sprachen nicht alle Phänomene mit Grammatik vom Typ 3 beschreibbar viele Phänomene sind mit Grammatik vom Typ 3 beschreibbar nicht für alle praktischen Aufgaben ist eine vollständige Sprachverarbeitung unabdingbar mit partiellen Lösungen können viele in der Praxis nützliche Werkzeuge entwickelt werden Für Massendaten werden effiziente und robuste Verarbeitungsverfahren benötigt © Karin Haenelt, Endliche Automaten in der Sprachtechnologie, Einführung, Kunze, 2001 S. 163

Anwendungsgebiete © Karin Haenelt, Endliche Automaten in der Sprachtechnologie, Einführung, flaches Parsing head-modifier- Paare Textzerlegung Spracherkennung Übersetzung Rechtschreib- Korrektur Lexika Regeln Analyse Synthese Transfer Phonologie Morphologie Fakten- extraktion Text:Sprechen Sprechen:Text part-of-speech tagging

Endliche Automaten in der Sprachtechnologie direkte Anwendung Spracherkennung, Sprechen:Text, Text:Sprechen Übersetzung, Faktenextraktion, Rechtschreibkorrektur, SMS-Lexika direkte Anwendung für linguistische Teilaufgaben Worterkennung, Textzerlegung Phonologie, Morphologie part-of-speech-tagging flaches Parsing head-modifier-Paare © Karin Haenelt, Endliche Automaten in der Sprachtechnologie, Einführung,

Endliche Automaten in der Sprachtechnologie Kompakte Repräsentation Wörterbücher Systemlexika und lexikalische Regeln Morphologie, Phonologie partielle syntaktische Strukturen (chunks) Indexierung von Texten Grundlage vieler Parsing-Mechanismen anwendbar zum Parsing kontextfreier Sprachen (RTN, Woods, 1970) erweiterbar für Kontext-Abhängigkeiten grundlegende Implementierungstechniken © Karin Haenelt, Endliche Automaten in der Sprachtechnologie, Einführung,

Attraktivität endlicher Automaten Grundlagen mathematisch wohl-fundiert daher systematisch und kontrolliert handhabbar Softwaretechnik direkte Umsetzungen in Computerprogramme für Datenstrukturen und Operationen auf den Datenstrukturen abstrakte Spezifikation mit regulären Ausdrücken modulare und inkrementelle Entwicklung durch Komponierbarkeit von Automaten Effizienz in der Regel besonders effizientes Laufzeit- und Speicherplatzverhalten. © Karin Haenelt, Endliche Automaten in der Sprachtechnologie, Einführung,

Attraktivität endlicher Automaten sehr effiziente Verarbeitung sehr schnell platzsparend mächtige und flexible Werkzeuge zur Repräsentation sprachlicher Phänomene und linguistischer Beschreibungen Modellierungsmittel erlauben ein Nebeneinander von Aufzählungen (Irregularitäten / Lexikon) und regelhaften Beschreibungen (Regeln) der modellierten Zeichenreihen schwache Struktur der Spezifikationen favorisiert Aufzählung gegenüber Erfassung von Regelhaftigkeiten massendatentauglich © Karin Haenelt, Endliche Automaten in der Sprachtechnologie, Einführung,

Literatur Kornai, András (Ed.) (1999). Extended Finite State Models of Language. (Studies in Natural Language Processing). Cambridge: Cambridge University Press. Kunze, Jürgen (2001). Computerlinguistik. Voraussetzungen, Grundlagen, Werkzeuge. Vorlesungsskript. Humboldt Universität zu Berlin. berlin.de/compling/Lehrstuhl/Skripte/Computerlinguistik_1/index.htmlhttp://www2.rz.hu- berlin.de/compling/Lehrstuhl/Skripte/Computerlinguistik_1/index.html Roche, Emmanuel und Yves Schabes (Eds.) (1997). Finite-State Language Processing. Cambridge (Mass.) und London: MIT Press. © Karin Haenelt, Endliche Automaten in der Sprachtechnologie, Einführung,

Copyright © 2009 Karin Haenelt. All rights reserved. The German Urheberrecht shall be applied to these slides. In accordance with these laws these slides are a publication which may be quoted and used for non-commercial purposes, if the bibliographic data is included as described below. Please quote correctly. If you use the presentation or parts of it for educational and scientific purposes, please include the bibliographic data (author, title, date, page, URL) in your publication (book, paper, course slides, etc.). Deletion or omission of the footer (with name, data and copyright sign) is not permitted Bibliographic data. Karin Haenelt ( Endliche Automaten in der Sprachtechnologie. Einführung. Kursfolien Any further use requires the prior permission in writing from the author. For commercial use: No commercial use is allowed without written permission from the author. In case you are interested in commercial use please contact the author. Court of Jurisdiction is Darmstadt. © Karin Haenelt, Endliche Automaten in der Sprachtechnologie, Einführung,