Präsentation herunterladen
Veröffentlicht von:Kunibert Blommel Geändert vor über 10 Jahren
1
Informationsextraktion mit endlichen Automaten
Karin Haenelt
2
Inhalt Informationsextraktion
Endliche Automaten und menschliche Sprachen Werkzeuge: FLEX und JLex Ein Beispielsystem: FASTUS © Karin Haenelt, Informationsextraktion
3
Informationsextraktion
Ziel Extraktion fachgebietsrelevanter Ereignisse und Beziehungen aus Texten Eigenschaften der Aufgabe Themen und Relevanzkriterien sind begrenzt und werden vorab spezifiziert Repräsentationsformat ist begrenzt und festgelegt typischerweise nur Teile von Texten relevant oft nur Teile von Sätzen relevant Appelt/Israel, 1999 © Karin Haenelt, Informationsextraktion
4
Informationsextraktion Charakterisierung des Anwendungsbereichs
Texte, die vornehmlich faktische Information kommunizieren Zielpublikum ist groß und vielfältig Besonderheiten von Autoren und Zielpublikum spielen eine untergeordnete Rolle Standardbeispiel: Nachrichten Appelt/Israel, 1999 © Karin Haenelt, Informationsextraktion
5
Informationsextraktion: MUC: Message Understanding Conference
Ziel: Förderung der Methoden der Informationsextraktion mit Unterstützung der DARPA (Defense Advanced Research Projects Agency), Behörde des Verteidigungsministeriums der USA durchgeführt Beginn der Verfügbarkeit von Massen von Online-Texten Konferenz Bereitstellung von Trainingstexten Spezifikation von Informationsextraktionsaufgaben Spezifikation der erwünschten Ergebnisse Evaluierungsprozedur Appelt/Israel, 1999 © Karin Haenelt, Informationsextraktion
6
Informationsextraktionssysteme Einige Komponenten
Textzerlegung: Wortsegmentierung morphologische und lexikalische Analyse part-of-speech-Tagging Wortbedeutungs-Tagging Erkennung und Typisierung von Eigennamen, … Parsing syntaktischer Konstituenten Extraktion fachgebietsrelevanter Ereignisse und Beziehungen aus dem Text Koreferenz-Analyse Extraktion von Einzelfakten Zusammenführung partieller Ergebnisse Appelt/Israel, 1999 © Karin Haenelt, Informationsextraktion
7
Informationsextraktion Entwicklungsmethoden
Knowledge Engineering-Ansätze Menschen konstruieren Grammatiken (Testzyklen) Menschen entdecken Informationsmuster durch Überlegung und in Corpora (Testzyklen) oft sehr gute Resultate Automatisch trainierbare Systeme Menschen konstruieren Trainingsdaten (Zyklen: Annotation, Reannotation, Annotationsrichtlinien) statistische Methoden Regel-Konstruktion aus annotierten Corpora Regel-Konstruktion aus Interaktion mit Benutzenden Appelt/Israel, 1999 © Karin Haenelt, Informationsextraktion
8
Informationsextraktion mit endlichen Automaten
einer von vielen möglichen Ansätzen theoretische Grundlagen zwei Beispiele Flex und JLex: Werkzeuge zur Programmierung regulärer Ausdrücke in C/C++ und Java FASTUS: ein Informationsextraktionssystem mit kaskadierten endlichen Automaten © Karin Haenelt, Informationsextraktion
9
Endliche Automaten und menschliche Sprachen
nicht alle Phänomene mit Grammatik vom Typ 3 beschreibbar viele Phänomene sind mit Grammatik vom Typ 3 beschreibbar nicht für alle praktischen Aufgaben ist eine vollständige Sprachverarbeitung unabdingbar mit partiellen Lösungen können viele in der Praxis nützliche Werkzeuge entwickelt werden Für Massendaten werden effiziente und robuste Verarbeitungsverfahren benötigt © Karin Haenelt, Informationsextraktion
10
Endliche Automaten und menschliche Sprachen reguläre Sprache, Approximationen regulärer Sprache, partielle reguläre Strukturen Wieweit lassen sich menschliche Sprachen unter interessanten Aspekten als reguläre Sprachen beschreiben (ohne Übergenerierung, ohne Untergenerierung) Wortbildung (Morphologie) reguläre Sprache (mit wenigen Ausnahmen) Satzbildung reguläre Sprache lokale Wortfolgen (Artikel, Adjektiv, Nomen) viele globale Wortfolgen (Subjekt, Prädikat, Objekt) © Karin Haenelt, Informationsextraktion
11
Endliche Automaten und menschliche Sprachen reguläre Sprache, Approximationen regulärer Sprache, partielle reguläre Strukturen Satzbildung approximativ kontextfreie Phänomene (Zentraleinbettung): Begrenzung der Rekursionstiefe kontextsensitive Phänomene (überkreuzende Abhängigkeiten): Begrenzung der Abhängigkeiten Interpretationsstrukturen: flache Strukturen und Verzicht auf interpretationsabhängige Zuordnung von Präpositionalphrasen, Relativsätzen, … Inhalt partiell geeignet für eingeschränkte Faktenextraktion © Karin Haenelt, Informationsextraktion
12
Werkzeuge Flex und JLex (reguläre Ausdrücke in C/C++ und Java)
Installationsvoraussetzungen Flex UNIX: Flex Bestandteil der Umgebung Windows: CygWin erforderlich (UNIX-Funktionen unter Windows) JLex: benötigt Java-Compiler und Java-Laufzeit-Umgebung Kurs: Vorstellung der Werkzeuge kleine Anwendungen © Karin Haenelt, Informationsextraktion
13
Informationsextraktionssystem FASTUS Links
Projektseite Jerry R. Hobbs, Douglas Appelt, John Bear, David Israel, Megumi Kameyama, Mark Stickel, and Mabry Tyson (1997) FASTUS: A Cascaded Finite-State Transducer for Extracting Information from Natural-Language Text © Karin Haenelt, Informationsextraktion
14
Informationsextraktionssystem FASTUS Drei Impulse zur Entwicklung
beeindruckende Resultate der University of Massachusetts-Gruppe bei MUC-3 keine tiefe Analyse keine umfangreiche Verarbeitung aber die richtige Verarbeitung für die Aufgabe Pereira (1990): Finite-state Approximationen von Grammatiken Anforderung der Geschwindigkeit © Karin Haenelt, Informationsextraktion
15
FASTUS Folien Jerry Hobbs, Doug Appelt, John Bear, David Israel, Andy Kehler, David Martin, Karen Meyers, Megumi Kameyama, Mark Stickel, Mabry Tyson ( ) FASTUS © Karin Haenelt, Informationsextraktion
16
Literatur Douglas E. Appelt und David J. Israel (1999). Introduction to Information Extraction Technology. A Tutorial prepared for IJCAI-99. Jerry Hobbs, Doug Appelt, John Bear, David Israel, Andy Kehler, David Martin, Karen Meyers, Megumi Kameyama, Mark Stickel, Mabry Tyson ( ) FASTUS Jerry R. Hobbs, Douglas Appelt, John Bear, David Israel, Megumi Kameyama, Mark Stickel, and Mabry Tyson (1997). FASTUS: A Cascaded Finite-State Transducer for Extracting Information from Natural-Language Text Günter Neumann (2001):.Informationsextraktion. In: Klabunde et al. (eds.): Computerlinguistik und Sprachtechnologie - Eine Einführung. Heidelberg: Spektrum Akademischer Verlag. Fernando Pereira (1990.) Finite-State Approximations of Grammars, In: Proceedings, DARPA Speech and Natural Language Workshop, Hidden Valley, Pennsylvania, pp © Karin Haenelt, Informationsextraktion
Ähnliche Präsentationen
© 2024 SlidePlayer.org Inc.
All rights reserved.