Informationsextraktion mit endlichen Automaten

Slides:



Advertisements
Ähnliche Präsentationen
Forschungszentrum Informatik
Advertisements

Ontology Tools II Jan Polowinski
Gestaltung eines Posters (Schrift: Punkt 70).
Statistische Aspekte der PSG
Inhaltlich orientierter Zugriff auf unstrukturierte Daten
Informationsekstraktion Wettbewerbe und Kongresse Daniel Liem
Grammatiken, Definitionen
Friedhelm Meyer auf der Heide 1 HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Grammatiken beschreiben Sprachen L µ *, indem.
Kapitel 4 Syntaktische Analyse: LR Parsing.
Parser generieren Yet Another Compiler – Compiler YACC.
Universität Stuttgart Institut für Kernenergetik und Energiesysteme Links Links sind im Text angegeben. Weitere Links werden kontinuierlich eingefügt.
Grammatikentwicklung
Grundkurs Theoretische Informatik, Folie 3.1 © 2004 G. Vossen,K.-U. Witt Grundkurs Theoretische Informatik Kapitel 3 Gottfried Vossen Kurt-Ulrich Witt.
Reguläre Sprachen Karin Haenelt.
1 Endliche Automaten in der Sprachtechnologie Einführung Karin Haenelt
Endliche Automaten Überführung regulärer Ausdrücke in endliche Automaten Karin Haenelt
Reguläre Ausdrücke Karin Haenelt
© Karin Haenelt 2006, Äquivalenzen Reg.Ausdrücke, Reg.Sprachen, EA ( ) 1 Reguläre Sprachen Karin Haenelt.
1 Endliche Automaten in der Sprachtechnologie Kursthemen Karin Haenelt
© Karin Haenelt, Modellierung Menschlicher.Sprachen mit Regulären Ausdrücken, Modellierung menschlicher Sprachen mit Regulären Ausdrücken.
Parsing regulärer Ausdrücke
Mathematische Grundlagen
© Karin Haenelt 2006, Operationen auf Akzeptoren und Transduktoren, ( ) 1 Operationen auf endlichen Akzeptoren und Transduktoren.
Erweiterte Fassung Karin Haenelt, IR-Evaluierung Evaluierung von Information Retrieval Systemen Kursfolien Karin Haenelt.
Endliche Automaten in der Sprachtechnologie
1 Komplexität menschlicher Sprachen Karin Haenelt
© Karin Haenelt 2005, Endliche Automaten: Alphabet, Zeichenreihe, Sprache, Endliche Automaten Grundlagen: Alphabet, Zeichenreihe, Sprache.
© Karin Haenelt, Transduktoren, Transduktoren für die Sprachverarbeitung Vereinigung von Transduktoren Karin Haenelt Karin Haenelt, Transduktoren,
Flaches Parsing mit endlichen Automaten Referat und Implementierung Jutta Jäger
Java – Werkzeuge zur Entwicklung endlicher Automaten
SYSTRAN Information and translation technologies.
Lexikalisch-Funktionale-Grammatik
Rigi und Web2Rsf vorgestellt von Tobias Weigand. Inhalt Ziel von Web2Rsf und Rigi Vorstellung des Parsers Web2Rsf Vorstellung des Werkzeugs Rigi Analyse.
High Performance = Innovative Computer Systems + Efficient Algorithms Friedhelm Meyer auf der Heide 1 HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen.
NPGrammar NPGrammar. Nominalphrasenextraktion.
Vortragender Messung des Erfolgs einer Website Subjektive Attraktivität Besuchsintensität Produktivität Finanzielle Maße
Vorlesung: Einführung in der Bioinformatik
UML Begleitdokumentation des Projekts
Der Supermarkt: Eine beispielhafte Erklärung für die fünf untersten Schichten des Semantic Web Protocol Stack Nicola Henze.
Diplomarbeitsvortrag Ontologien, Information Extraction und Information Retrieval – eine Synthese Marcus Heidmann in Zusammenarbeit mit AIFB &
BPEL Erweiterungen Christoph Schulz. Agenda 1.Einführung 2.BPEL4People 3.BPELJ 4.II4BPEL 5.Ausblick BPEL Erweiterungen - Christoph Schulz.
Tino Reindanz - FSU Jena Seminar Aktive Datenbanken – SS 2007 Folie 1 Seminar Aktive Datenbanken Rule Development Rule Development for Active Database.
Grundelemente der Dependenzsyntax
Entitäten Extraktion Einführung
Entitäten Extraktion Wichtige Schritte Petra Maier WS 05/06.
Internet (World Wide Web)
Forschung & Technologie Seminar: Entwicklung verteilter eingebetteter Systeme 1. Meeting: , 14:00-15:30, Raum tbd, Themenvergabe 2. Meeting 1.11.,
Eignung von Grammatik-basiertem Layout für grafische Programmiersprachen Seminar Layout-Algorithmen für Graphen Institut für Informatik Christian-Albrechts.
Knowledge Discovery mit Wordnet und Alembic Workbench
Herzlich Willkommen zu „Einführung in die Programmierung mit Java“
Workshop 2 Praktische Instrumente für den Gemeinsamen europäischen Referenzrahmen Dirk Klein:
Identifikation der geographischen Lage von Zeitungsartikeln (GIR) Masterarbeit von Tobias Brunner Betreuung: Dr. R. S. Purves.
Sesame Florian Mayrhuber
WebML for Semantic Web Michael Hertel.
INSTANT MESSAGING LI Xiaohui LIU Miao ZHOU Guanpei Universität Salzburg WAP Präsentation WS 2005/06.
Context-awareness Andreas Bossard, Matthias Hert.
Paradigmenwechsel in der Unternehmensmodellierung Prof. Dr. Wolfgang Voigt Dipl.-Ing. Päd. Alexander Huwaldt UML Extrakt UML Seminar, Chemnitz
Generalisiertes Vektorraummodell (Generalized Vector Space Model, GSVM) Karin Haenelt
Hauptseminar SS 2006 Hinweise für Autoren.
Oliver Spritzendorfer Thomas Fekete
XML (Extensible Markup Language)
Eike Schallehn, Martin Endig
Daten- und Metadatenstandards SoSe 2009 IT-Zertifikat der Philosophischen Fakultät der Universität zu Köln Dozent: Patrick Sahle 26. Juni 2009: Dublin.
5. April 2006Autor: Walter Leuenberger Computeria Urdorf Treff vom 5. April 2006 Surf-Tipps & -Tricks für den Internet Explorer und Firefox.
Mensch – Maschine - Kommunikation
prof. dr. dieter steinmannfachhochschule trier © prof. dr. dieter steinmann Folie 1 vom Montag, 30. März 2015.
Inhalt Einordnung und Funktion der lexikalische Analyse Grundlagen
Digitale Annotationen. Grundlage: John Bradley “Towards a Richer Sense of Digital Annotation: Moving Beyond a Media Orientation of the Annotation of Digital.
GATE/Annie Zara Kanaeva, November 2002, Information Extraction.
HYPERLINK WAS IST DAS WEB 2.0? SEMANTIC WEB.
 Präsentation transkript:

Informationsextraktion mit endlichen Automaten Karin Haenelt 22.11.2009

Inhalt Informationsextraktion Endliche Automaten und menschliche Sprachen Werkzeuge: FLEX und JLex Ein Beispielsystem: FASTUS © Karin Haenelt, Informationsextraktion 22.11.2009

Informationsextraktion Ziel Extraktion fachgebietsrelevanter Ereignisse und Beziehungen aus Texten Eigenschaften der Aufgabe Themen und Relevanzkriterien sind begrenzt und werden vorab spezifiziert Repräsentationsformat ist begrenzt und festgelegt typischerweise nur Teile von Texten relevant oft nur Teile von Sätzen relevant Appelt/Israel, 1999 © Karin Haenelt, Informationsextraktion 22.11.2009

Informationsextraktion Charakterisierung des Anwendungsbereichs Texte, die vornehmlich faktische Information kommunizieren Zielpublikum ist groß und vielfältig Besonderheiten von Autoren und Zielpublikum spielen eine untergeordnete Rolle Standardbeispiel: Nachrichten Appelt/Israel, 1999 © Karin Haenelt, Informationsextraktion 22.11.2009

Informationsextraktion: MUC: Message Understanding Conference Ziel: Förderung der Methoden der Informationsextraktion 1987-1997 mit Unterstützung der DARPA (Defense Advanced Research Projects Agency), Behörde des Verteidigungsministeriums der USA durchgeführt Beginn der Verfügbarkeit von Massen von Online-Texten Konferenz Bereitstellung von Trainingstexten Spezifikation von Informationsextraktionsaufgaben Spezifikation der erwünschten Ergebnisse Evaluierungsprozedur http://www-nlpir.nist.gov/related_projects/muc/ Appelt/Israel, 1999 © Karin Haenelt, Informationsextraktion 22.11.2009

Informationsextraktionssysteme Einige Komponenten Textzerlegung: Wortsegmentierung morphologische und lexikalische Analyse part-of-speech-Tagging Wortbedeutungs-Tagging Erkennung und Typisierung von Eigennamen, … Parsing syntaktischer Konstituenten Extraktion fachgebietsrelevanter Ereignisse und Beziehungen aus dem Text Koreferenz-Analyse Extraktion von Einzelfakten Zusammenführung partieller Ergebnisse Appelt/Israel, 1999 © Karin Haenelt, Informationsextraktion 22.11.2009

Informationsextraktion Entwicklungsmethoden Knowledge Engineering-Ansätze Menschen konstruieren Grammatiken (Testzyklen) Menschen entdecken Informationsmuster durch Überlegung und in Corpora (Testzyklen) oft sehr gute Resultate Automatisch trainierbare Systeme Menschen konstruieren Trainingsdaten (Zyklen: Annotation, Reannotation, Annotationsrichtlinien) statistische Methoden Regel-Konstruktion aus annotierten Corpora Regel-Konstruktion aus Interaktion mit Benutzenden Appelt/Israel, 1999 © Karin Haenelt, Informationsextraktion 22.11.2009

Informationsextraktion mit endlichen Automaten einer von vielen möglichen Ansätzen theoretische Grundlagen zwei Beispiele Flex und JLex: Werkzeuge zur Programmierung regulärer Ausdrücke in C/C++ und Java FASTUS: ein Informationsextraktionssystem mit kaskadierten endlichen Automaten © Karin Haenelt, Informationsextraktion 22.11.2009

Endliche Automaten und menschliche Sprachen nicht alle Phänomene mit Grammatik vom Typ 3 beschreibbar viele Phänomene sind mit Grammatik vom Typ 3 beschreibbar nicht für alle praktischen Aufgaben ist eine vollständige Sprachverarbeitung unabdingbar mit partiellen Lösungen können viele in der Praxis nützliche Werkzeuge entwickelt werden Für Massendaten werden effiziente und robuste Verarbeitungsverfahren benötigt © Karin Haenelt, Informationsextraktion 22.11.2009

Endliche Automaten und menschliche Sprachen reguläre Sprache, Approximationen regulärer Sprache, partielle reguläre Strukturen Wieweit lassen sich menschliche Sprachen unter interessanten Aspekten als reguläre Sprachen beschreiben (ohne Übergenerierung, ohne Untergenerierung) Wortbildung (Morphologie) reguläre Sprache (mit wenigen Ausnahmen) Satzbildung reguläre Sprache lokale Wortfolgen (Artikel, Adjektiv, Nomen) viele globale Wortfolgen (Subjekt, Prädikat, Objekt) © Karin Haenelt, Informationsextraktion 22.11.2009

Endliche Automaten und menschliche Sprachen reguläre Sprache, Approximationen regulärer Sprache, partielle reguläre Strukturen Satzbildung approximativ kontextfreie Phänomene (Zentraleinbettung): Begrenzung der Rekursionstiefe kontextsensitive Phänomene (überkreuzende Abhängigkeiten): Begrenzung der Abhängigkeiten Interpretationsstrukturen: flache Strukturen und Verzicht auf interpretationsabhängige Zuordnung von Präpositionalphrasen, Relativsätzen, … Inhalt partiell geeignet für eingeschränkte Faktenextraktion © Karin Haenelt, Informationsextraktion 22.11.2009

Werkzeuge Flex und JLex (reguläre Ausdrücke in C/C++ und Java) Installationsvoraussetzungen Flex UNIX: Flex Bestandteil der Umgebung Windows: CygWin erforderlich (UNIX-Funktionen unter Windows) JLex: benötigt Java-Compiler und Java-Laufzeit-Umgebung Kurs: http://kontext.fraunhofer.de/haenelt/kurs/Lex/index.html Vorstellung der Werkzeuge kleine Anwendungen © Karin Haenelt, Informationsextraktion 22.11.2009

Informationsextraktionssystem FASTUS Links Projektseite http://www.ai.sri.com/natural-language/projects/fastus.html Jerry R. Hobbs, Douglas Appelt, John Bear, David Israel, Megumi Kameyama, Mark Stickel, and Mabry Tyson (1997) FASTUS: A Cascaded Finite-State Transducer for Extracting Information from Natural-Language Text © Karin Haenelt, Informationsextraktion 22.11.2009

Informationsextraktionssystem FASTUS Drei Impulse zur Entwicklung beeindruckende Resultate der University of Massachusetts-Gruppe bei MUC-3 keine tiefe Analyse keine umfangreiche Verarbeitung aber die richtige Verarbeitung für die Aufgabe Pereira (1990): Finite-state Approximationen von Grammatiken Anforderung der Geschwindigkeit http://www.ai.sri.com/natural-language/projects/fastus.html © Karin Haenelt, Informationsextraktion 22.11.2009

FASTUS Folien Jerry Hobbs, Doug Appelt, John Bear, David Israel, Andy Kehler, David Martin, Karen Meyers, Megumi Kameyama, Mark Stickel, Mabry Tyson (17.06.1997) FASTUS http://www.ai.sri.com/~israel/Generic-FASTUS-talk.pdf © Karin Haenelt, Informationsextraktion 22.11.2009

Literatur Douglas E. Appelt und David J. Israel (1999). Introduction to Information Extraction Technology. A Tutorial prepared for IJCAI-99. http://www.ai.sri.com/~appelt/ietutorial/IJCAI99.pdf Jerry Hobbs, Doug Appelt, John Bear, David Israel, Andy Kehler, David Martin, Karen Meyers, Megumi Kameyama, Mark Stickel, Mabry Tyson (17.06.1997) FASTUS http://www.ai.sri.com/~israel/Generic-FASTUS-talk.pdf Jerry R. Hobbs, Douglas Appelt, John Bear, David Israel, Megumi Kameyama, Mark Stickel, and Mabry Tyson (1997). FASTUS: A Cascaded Finite-State Transducer for Extracting Information from Natural-Language Text http://arxiv.org/PS_cache/cmp-lg/pdf/9705/9705013v1.pdf Günter Neumann (2001):.Informationsextraktion. In: Klabunde et al. (eds.): Computerlinguistik und Sprachtechnologie - Eine Einführung. Heidelberg: Spektrum Akademischer Verlag. http://www.dfki.de/~neumann/publications/new-ps/ie.pdf Fernando Pereira (1990.) Finite-State Approximations of Grammars, In: Proceedings, DARPA Speech and Natural Language Workshop, Hidden Valley, Pennsylvania, pp. 20-25. © Karin Haenelt, Informationsextraktion 22.11.2009