Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Informationsextraktion mit endlichen Automaten Karin Haenelt 22.11.2009.

Ähnliche Präsentationen


Präsentation zum Thema: "Informationsextraktion mit endlichen Automaten Karin Haenelt 22.11.2009."—  Präsentation transkript:

1 Informationsextraktion mit endlichen Automaten Karin Haenelt

2 Inhalt Informationsextraktion Endliche Automaten und menschliche Sprachen Werkzeuge: FLEX und JLex Ein Beispielsystem: FASTUS 2© Karin Haenelt, Informationsextraktion

3 Informationsextraktion Ziel Extraktion fachgebietsrelevanter Ereignisse und Beziehungen aus Texten Eigenschaften der Aufgabe Themen und Relevanzkriterien sind begrenzt und werden vorab spezifiziert Repräsentationsformat ist begrenzt und festgelegt typischerweise nur Teile von Texten relevant oft nur Teile von Sätzen relevant 3© Karin Haenelt, Informationsextraktion Appelt/Israel, 1999

4 Informationsextraktion Charakterisierung des Anwendungsbereichs Texte, die vornehmlich faktische Information kommunizieren Zielpublikum ist groß und vielfältig Besonderheiten von Autoren und Zielpublikum spielen eine untergeordnete Rolle Standardbeispiel: Nachrichten 4© Karin Haenelt, Informationsextraktion Appelt/Israel, 1999

5 Informationsextraktion: MUC: Message Understanding Conference Ziel: Förderung der Methoden der Informationsextraktion mit Unterstützung der DARPA (Defense Advanced Research Projects Agency), Behörde des Verteidigungsministeriums der USA durchgeführt Beginn der Verfügbarkeit von Massen von Online-Texten Konferenz Bereitstellung von Trainingstexten Spezifikation von Informationsextraktionsaufgaben Spezifikation der erwünschten Ergebnisse Evaluierungsprozedur 5© Karin Haenelt, Informationsextraktion Appelt/Israel, 1999

6 Informationsextraktionssysteme Einige Komponenten Textzerlegung: Wortsegmentierung morphologische und lexikalische Analyse part-of-speech-Tagging Wortbedeutungs-Tagging Erkennung und Typisierung von Eigennamen, … Parsing syntaktischer Konstituenten Extraktion fachgebietsrelevanter Ereignisse und Beziehungen aus dem Text Koreferenz-Analyse Extraktion von Einzelfakten Zusammenführung partieller Ergebnisse 6© Karin Haenelt, Informationsextraktion Appelt/Israel, 1999

7 Informationsextraktion Entwicklungsmethoden Knowledge Engineering-Ansätze Menschen konstruieren Grammatiken (Testzyklen) Menschen entdecken Informationsmuster durch Überlegung und in Corpora (Testzyklen) oft sehr gute Resultate Automatisch trainierbare Systeme Menschen konstruieren Trainingsdaten (Zyklen: Annotation, Reannotation, Annotationsrichtlinien) statistische Methoden Regel-Konstruktion aus annotierten Corpora Regel-Konstruktion aus Interaktion mit Benutzenden 7© Karin Haenelt, Informationsextraktion Appelt/Israel, 1999

8 Informationsextraktion mit endlichen Automaten einer von vielen möglichen Ansätzen theoretische Grundlagen zwei Beispiele Flex und JLex: Werkzeuge zur Programmierung regulärer Ausdrücke in C/C++ und Java FASTUS: ein Informationsextraktionssystem mit kaskadierten endlichen Automaten 8© Karin Haenelt, Informationsextraktion

9 Endliche Automaten und menschliche Sprachen Menschliche Sprachen nicht alle Phänomene mit Grammatik vom Typ 3 beschreibbar viele Phänomene sind mit Grammatik vom Typ 3 beschreibbar nicht für alle praktischen Aufgaben ist eine vollständige Sprachverarbeitung unabdingbar mit partiellen Lösungen können viele in der Praxis nützliche Werkzeuge entwickelt werden Für Massendaten werden effiziente und robuste Verarbeitungsverfahren benötigt 9© Karin Haenelt, Informationsextraktion

10 Endliche Automaten und menschliche Sprachen reguläre Sprache, Approximationen regulärer Sprache, partielle reguläre Strukturen Wieweit lassen sich menschliche Sprachen unter interessanten Aspekten als reguläre Sprachen beschreiben (ohne Übergenerierung, ohne Untergenerierung) Wortbildung (Morphologie) reguläre Sprache (mit wenigen Ausnahmen) Satzbildung reguläre Sprache lokale Wortfolgen (Artikel, Adjektiv, Nomen) viele globale Wortfolgen (Subjekt, Prädikat, Objekt) 10© Karin Haenelt, Informationsextraktion

11 Endliche Automaten und menschliche Sprachen reguläre Sprache, Approximationen regulärer Sprache, partielle reguläre Strukturen Satzbildung approximativ kontextfreie Phänomene (Zentraleinbettung): Begrenzung der Rekursionstiefe kontextsensitive Phänomene (überkreuzende Abhängigkeiten): Begrenzung der Abhängigkeiten Interpretationsstrukturen: flache Strukturen und Verzicht auf interpretationsabhängige Zuordnung von Präpositionalphrasen, Relativsätzen, … Inhalt partiell geeignet für eingeschränkte Faktenextraktion 11© Karin Haenelt, Informationsextraktion

12 Werkzeuge Flex und JLex (reguläre Ausdrücke in C/C++ und Java) Installationsvoraussetzungen Flex UNIX: Flex Bestandteil der Umgebung Windows: CygWin erforderlich (UNIX-Funktionen unter Windows) JLex: benötigt Java-Compiler und Java-Laufzeit-Umgebung Kurs: Vorstellung der Werkzeuge kleine Anwendungen 12© Karin Haenelt, Informationsextraktion

13 Informationsextraktionssystem FASTUS Links Projektseite language/projects/fastus.htmlhttp://www.ai.sri.com/natural- language/projects/fastus.html Jerry R. Hobbs, Douglas Appelt, John Bear, David Israel, Megumi Kameyama, Mark Stickel, and Mabry Tyson (1997) FASTUS: A Cascaded Finite-State Transducer for Extracting Information from Natural-Language Text FASTUS: A Cascaded Finite-State Transducer for Extracting Information from Natural-Language Text 13© Karin Haenelt, Informationsextraktion

14 Informationsextraktionssystem FASTUS Drei Impulse zur Entwicklung beeindruckende Resultate der University of Massachusetts- Gruppe bei MUC-3 keine tiefe Analyse keine umfangreiche Verarbeitung aber die richtige Verarbeitung für die Aufgabe Pereira (1990): Finite-state Approximationen von Grammatiken Anforderung der Geschwindigkeit 14© Karin Haenelt, Informationsextraktion

15 FASTUS Folien Jerry Hobbs, Doug Appelt, John Bear, David Israel, Andy Kehler, David Martin, Karen Meyers, Megumi Kameyama, Mark Stickel, Mabry Tyson ( ) FASTUS 15© Karin Haenelt, Informationsextraktion

16 Literatur Douglas E. Appelt und David J. Israel (1999). Introduction to Information Extraction Technology. A Tutorial prepared for IJCAI Jerry Hobbs, Doug Appelt, John Bear, David Israel, Andy Kehler, David Martin, Karen Meyers, Megumi Kameyama, Mark Stickel, Mabry Tyson ( ) FASTUS Jerry R. Hobbs, Douglas Appelt, John Bear, David Israel, Megumi Kameyama, Mark Stickel, and Mabry Tyson (1997). FASTUS: A Cascaded Finite-State Transducer for Extracting Information from Natural-Language Text lg/pdf/9705/ v1.pdfFASTUS: A Cascaded Finite-State Transducer for Extracting Information from Natural-Language Texthttp://arxiv.org/PS_cache/cmp- lg/pdf/9705/ v1.pdf Günter Neumann (2001):.Informationsextraktion. In: Klabunde et al. (eds.): Computerlinguistik und Sprachtechnologie - Eine Einführung. Heidelberg: Spektrum Akademischer Verlag. Fernando Pereira (1990.) Finite-State Approximations of Grammars, In: Proceedings, DARPA Speech and Natural Language Workshop, Hidden Valley, Pennsylvania, pp © Karin Haenelt, Informationsextraktion


Herunterladen ppt "Informationsextraktion mit endlichen Automaten Karin Haenelt 22.11.2009."

Ähnliche Präsentationen


Google-Anzeigen