Informationsextraktion mit endlichen Automaten

Name: Informationsextraktion mit endlichen Automaten
Uploaded: 2017-12-27T19:57:37+00:00
Duration: PTM9S55
Channel: Kunibert Blommel
Description: Informationsextraktion mit endlichen Automaten

Informationsextraktion mit endlichen Automaten
Karin Haenelt

Inhalt Informationsextraktion
Endliche Automaten und menschliche Sprachen Werkzeuge: FLEX und JLex Ein Beispielsystem: FASTUS © Karin Haenelt, Informationsextraktion

Informationsextraktion
Ziel Extraktion fachgebietsrelevanter Ereignisse und Beziehungen aus Texten Eigenschaften der Aufgabe Themen und Relevanzkriterien sind begrenzt und werden vorab spezifiziert Repräsentationsformat ist begrenzt und festgelegt typischerweise nur Teile von Texten relevant oft nur Teile von Sätzen relevant Appelt/Israel, 1999 © Karin Haenelt, Informationsextraktion

Informationsextraktion Charakterisierung des Anwendungsbereichs
Texte, die vornehmlich faktische Information kommunizieren Zielpublikum ist groß und vielfältig Besonderheiten von Autoren und Zielpublikum spielen eine untergeordnete Rolle Standardbeispiel: Nachrichten Appelt/Israel, 1999 © Karin Haenelt, Informationsextraktion

Informationsextraktion: MUC: Message Understanding Conference
Ziel: Förderung der Methoden der Informationsextraktion mit Unterstützung der DARPA (Defense Advanced Research Projects Agency), Behörde des Verteidigungsministeriums der USA durchgeführt Beginn der Verfügbarkeit von Massen von Online-Texten Konferenz Bereitstellung von Trainingstexten Spezifikation von Informationsextraktionsaufgaben Spezifikation der erwünschten Ergebnisse Evaluierungsprozedur Appelt/Israel, 1999 © Karin Haenelt, Informationsextraktion

Informationsextraktionssysteme Einige Komponenten
Textzerlegung: Wortsegmentierung morphologische und lexikalische Analyse part-of-speech-Tagging Wortbedeutungs-Tagging Erkennung und Typisierung von Eigennamen, … Parsing syntaktischer Konstituenten Extraktion fachgebietsrelevanter Ereignisse und Beziehungen aus dem Text Koreferenz-Analyse Extraktion von Einzelfakten Zusammenführung partieller Ergebnisse Appelt/Israel, 1999 © Karin Haenelt, Informationsextraktion

Informationsextraktion Entwicklungsmethoden
Knowledge Engineering-Ansätze Menschen konstruieren Grammatiken (Testzyklen) Menschen entdecken Informationsmuster durch Überlegung und in Corpora (Testzyklen) oft sehr gute Resultate Automatisch trainierbare Systeme Menschen konstruieren Trainingsdaten (Zyklen: Annotation, Reannotation, Annotationsrichtlinien) statistische Methoden Regel-Konstruktion aus annotierten Corpora Regel-Konstruktion aus Interaktion mit Benutzenden Appelt/Israel, 1999 © Karin Haenelt, Informationsextraktion

Informationsextraktion mit endlichen Automaten
einer von vielen möglichen Ansätzen theoretische Grundlagen zwei Beispiele Flex und JLex: Werkzeuge zur Programmierung regulärer Ausdrücke in C/C++ und Java FASTUS: ein Informationsextraktionssystem mit kaskadierten endlichen Automaten © Karin Haenelt, Informationsextraktion

Endliche Automaten und menschliche Sprachen
nicht alle Phänomene mit Grammatik vom Typ 3 beschreibbar viele Phänomene sind mit Grammatik vom Typ 3 beschreibbar nicht für alle praktischen Aufgaben ist eine vollständige Sprachverarbeitung unabdingbar mit partiellen Lösungen können viele in der Praxis nützliche Werkzeuge entwickelt werden Für Massendaten werden effiziente und robuste Verarbeitungsverfahren benötigt © Karin Haenelt, Informationsextraktion

Endliche Automaten und menschliche Sprachen reguläre Sprache, Approximationen regulärer Sprache, partielle reguläre Strukturen Wieweit lassen sich menschliche Sprachen unter interessanten Aspekten als reguläre Sprachen beschreiben (ohne Übergenerierung, ohne Untergenerierung) Wortbildung (Morphologie) reguläre Sprache (mit wenigen Ausnahmen) Satzbildung reguläre Sprache lokale Wortfolgen (Artikel, Adjektiv, Nomen) viele globale Wortfolgen (Subjekt, Prädikat, Objekt) © Karin Haenelt, Informationsextraktion

Endliche Automaten und menschliche Sprachen reguläre Sprache, Approximationen regulärer Sprache, partielle reguläre Strukturen Satzbildung approximativ kontextfreie Phänomene (Zentraleinbettung): Begrenzung der Rekursionstiefe kontextsensitive Phänomene (überkreuzende Abhängigkeiten): Begrenzung der Abhängigkeiten Interpretationsstrukturen: flache Strukturen und Verzicht auf interpretationsabhängige Zuordnung von Präpositionalphrasen, Relativsätzen, … Inhalt partiell geeignet für eingeschränkte Faktenextraktion © Karin Haenelt, Informationsextraktion

Werkzeuge Flex und JLex (reguläre Ausdrücke in C/C++ und Java)
Installationsvoraussetzungen Flex UNIX: Flex Bestandteil der Umgebung Windows: CygWin erforderlich (UNIX-Funktionen unter Windows) JLex: benötigt Java-Compiler und Java-Laufzeit-Umgebung Kurs: Vorstellung der Werkzeuge kleine Anwendungen © Karin Haenelt, Informationsextraktion

Informationsextraktionssystem FASTUS Links
Projektseite Jerry R. Hobbs, Douglas Appelt, John Bear, David Israel, Megumi Kameyama, Mark Stickel, and Mabry Tyson (1997) FASTUS: A Cascaded Finite-State Transducer for Extracting Information from Natural-Language Text © Karin Haenelt, Informationsextraktion

Informationsextraktionssystem FASTUS Drei Impulse zur Entwicklung
beeindruckende Resultate der University of Massachusetts-Gruppe bei MUC-3 keine tiefe Analyse keine umfangreiche Verarbeitung aber die richtige Verarbeitung für die Aufgabe Pereira (1990): Finite-state Approximationen von Grammatiken Anforderung der Geschwindigkeit © Karin Haenelt, Informationsextraktion

FASTUS Folien Jerry Hobbs, Doug Appelt, John Bear, David Israel, Andy Kehler, David Martin, Karen Meyers, Megumi Kameyama, Mark Stickel, Mabry Tyson ( ) FASTUS © Karin Haenelt, Informationsextraktion

Literatur Douglas E. Appelt und David J. Israel (1999). Introduction to Information Extraction Technology. A Tutorial prepared for IJCAI-99. Jerry Hobbs, Doug Appelt, John Bear, David Israel, Andy Kehler, David Martin, Karen Meyers, Megumi Kameyama, Mark Stickel, Mabry Tyson ( ) FASTUS Jerry R. Hobbs, Douglas Appelt, John Bear, David Israel, Megumi Kameyama, Mark Stickel, and Mabry Tyson (1997). FASTUS: A Cascaded Finite-State Transducer for Extracting Information from Natural-Language Text Günter Neumann (2001):.Informationsextraktion. In: Klabunde et al. (eds.): Computerlinguistik und Sprachtechnologie - Eine Einführung. Heidelberg: Spektrum Akademischer Verlag. Fernando Pereira (1990.) Finite-State Approximations of Grammars, In: Proceedings, DARPA Speech and Natural Language Workshop, Hidden Valley, Pennsylvania, pp © Karin Haenelt, Informationsextraktion

Informationsextraktion mit endlichen Automaten

Ähnliche Präsentationen

Präsentation zum Thema: "Informationsextraktion mit endlichen Automaten"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback

Anmelden

Anmeldung über soziales Netzwerk:

Informationsextraktion mit endlichen Automaten

Ähnliche Präsentationen

Präsentation zum Thema: "Informationsextraktion mit endlichen Automaten"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback