Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Informationsextraktion mit endlichen Automaten

Ähnliche Präsentationen


Präsentation zum Thema: "Informationsextraktion mit endlichen Automaten"—  Präsentation transkript:

1 Informationsextraktion mit endlichen Automaten
Karin Haenelt

2 Inhalt Informationsextraktion
Endliche Automaten und menschliche Sprachen Werkzeuge: FLEX und JLex Ein Beispielsystem: FASTUS © Karin Haenelt, Informationsextraktion

3 Informationsextraktion
Ziel Extraktion fachgebietsrelevanter Ereignisse und Beziehungen aus Texten Eigenschaften der Aufgabe Themen und Relevanzkriterien sind begrenzt und werden vorab spezifiziert Repräsentationsformat ist begrenzt und festgelegt typischerweise nur Teile von Texten relevant oft nur Teile von Sätzen relevant Appelt/Israel, 1999 © Karin Haenelt, Informationsextraktion

4 Informationsextraktion Charakterisierung des Anwendungsbereichs
Texte, die vornehmlich faktische Information kommunizieren Zielpublikum ist groß und vielfältig Besonderheiten von Autoren und Zielpublikum spielen eine untergeordnete Rolle Standardbeispiel: Nachrichten Appelt/Israel, 1999 © Karin Haenelt, Informationsextraktion

5 Informationsextraktion: MUC: Message Understanding Conference
Ziel: Förderung der Methoden der Informationsextraktion mit Unterstützung der DARPA (Defense Advanced Research Projects Agency), Behörde des Verteidigungsministeriums der USA durchgeführt Beginn der Verfügbarkeit von Massen von Online-Texten Konferenz Bereitstellung von Trainingstexten Spezifikation von Informationsextraktionsaufgaben Spezifikation der erwünschten Ergebnisse Evaluierungsprozedur Appelt/Israel, 1999 © Karin Haenelt, Informationsextraktion

6 Informationsextraktionssysteme Einige Komponenten
Textzerlegung: Wortsegmentierung morphologische und lexikalische Analyse part-of-speech-Tagging Wortbedeutungs-Tagging Erkennung und Typisierung von Eigennamen, … Parsing syntaktischer Konstituenten Extraktion fachgebietsrelevanter Ereignisse und Beziehungen aus dem Text Koreferenz-Analyse Extraktion von Einzelfakten Zusammenführung partieller Ergebnisse Appelt/Israel, 1999 © Karin Haenelt, Informationsextraktion

7 Informationsextraktion Entwicklungsmethoden
Knowledge Engineering-Ansätze Menschen konstruieren Grammatiken (Testzyklen) Menschen entdecken Informationsmuster durch Überlegung und in Corpora (Testzyklen) oft sehr gute Resultate Automatisch trainierbare Systeme Menschen konstruieren Trainingsdaten (Zyklen: Annotation, Reannotation, Annotationsrichtlinien) statistische Methoden Regel-Konstruktion aus annotierten Corpora Regel-Konstruktion aus Interaktion mit Benutzenden Appelt/Israel, 1999 © Karin Haenelt, Informationsextraktion

8 Informationsextraktion mit endlichen Automaten
einer von vielen möglichen Ansätzen theoretische Grundlagen zwei Beispiele Flex und JLex: Werkzeuge zur Programmierung regulärer Ausdrücke in C/C++ und Java FASTUS: ein Informationsextraktionssystem mit kaskadierten endlichen Automaten © Karin Haenelt, Informationsextraktion

9 Endliche Automaten und menschliche Sprachen
nicht alle Phänomene mit Grammatik vom Typ 3 beschreibbar viele Phänomene sind mit Grammatik vom Typ 3 beschreibbar nicht für alle praktischen Aufgaben ist eine vollständige Sprachverarbeitung unabdingbar mit partiellen Lösungen können viele in der Praxis nützliche Werkzeuge entwickelt werden Für Massendaten werden effiziente und robuste Verarbeitungsverfahren benötigt © Karin Haenelt, Informationsextraktion

10 Endliche Automaten und menschliche Sprachen reguläre Sprache, Approximationen regulärer Sprache, partielle reguläre Strukturen Wieweit lassen sich menschliche Sprachen unter interessanten Aspekten als reguläre Sprachen beschreiben (ohne Übergenerierung, ohne Untergenerierung) Wortbildung (Morphologie) reguläre Sprache (mit wenigen Ausnahmen) Satzbildung reguläre Sprache lokale Wortfolgen (Artikel, Adjektiv, Nomen) viele globale Wortfolgen (Subjekt, Prädikat, Objekt) © Karin Haenelt, Informationsextraktion

11 Endliche Automaten und menschliche Sprachen reguläre Sprache, Approximationen regulärer Sprache, partielle reguläre Strukturen Satzbildung approximativ kontextfreie Phänomene (Zentraleinbettung): Begrenzung der Rekursionstiefe kontextsensitive Phänomene (überkreuzende Abhängigkeiten): Begrenzung der Abhängigkeiten Interpretationsstrukturen: flache Strukturen und Verzicht auf interpretationsabhängige Zuordnung von Präpositionalphrasen, Relativsätzen, … Inhalt partiell geeignet für eingeschränkte Faktenextraktion © Karin Haenelt, Informationsextraktion

12 Werkzeuge Flex und JLex (reguläre Ausdrücke in C/C++ und Java)
Installationsvoraussetzungen Flex UNIX: Flex Bestandteil der Umgebung Windows: CygWin erforderlich (UNIX-Funktionen unter Windows) JLex: benötigt Java-Compiler und Java-Laufzeit-Umgebung Kurs: Vorstellung der Werkzeuge kleine Anwendungen © Karin Haenelt, Informationsextraktion

13 Informationsextraktionssystem FASTUS Links
Projektseite Jerry R. Hobbs, Douglas Appelt, John Bear, David Israel, Megumi Kameyama, Mark Stickel, and Mabry Tyson (1997) FASTUS: A Cascaded Finite-State Transducer for Extracting Information from Natural-Language Text © Karin Haenelt, Informationsextraktion

14 Informationsextraktionssystem FASTUS Drei Impulse zur Entwicklung
beeindruckende Resultate der University of Massachusetts-Gruppe bei MUC-3 keine tiefe Analyse keine umfangreiche Verarbeitung aber die richtige Verarbeitung für die Aufgabe Pereira (1990): Finite-state Approximationen von Grammatiken Anforderung der Geschwindigkeit © Karin Haenelt, Informationsextraktion

15 FASTUS Folien Jerry Hobbs, Doug Appelt, John Bear, David Israel, Andy Kehler, David Martin, Karen Meyers, Megumi Kameyama, Mark Stickel, Mabry Tyson ( ) FASTUS © Karin Haenelt, Informationsextraktion

16 Literatur Douglas E. Appelt und David J. Israel (1999). Introduction to Information Extraction Technology. A Tutorial prepared for IJCAI-99. Jerry Hobbs, Doug Appelt, John Bear, David Israel, Andy Kehler, David Martin, Karen Meyers, Megumi Kameyama, Mark Stickel, Mabry Tyson ( ) FASTUS Jerry R. Hobbs, Douglas Appelt, John Bear, David Israel, Megumi Kameyama, Mark Stickel, and Mabry Tyson (1997). FASTUS: A Cascaded Finite-State Transducer for Extracting Information from Natural-Language Text Günter Neumann (2001):.Informationsextraktion. In: Klabunde et al. (eds.): Computerlinguistik und Sprachtechnologie - Eine Einführung. Heidelberg: Spektrum Akademischer Verlag. Fernando Pereira (1990.) Finite-State Approximations of Grammars, In: Proceedings, DARPA Speech and Natural Language Workshop, Hidden Valley, Pennsylvania, pp © Karin Haenelt, Informationsextraktion


Herunterladen ppt "Informationsextraktion mit endlichen Automaten"

Ähnliche Präsentationen


Google-Anzeigen