Das Informationsextraktions- System ANNIE Anna Mazhayskaya Anna Vinenko 09.07.2007.

Slides:



Advertisements
Ähnliche Präsentationen
Imperative Programmierung
Advertisements

NER Named Entity Recognition
Zur Rolle der Sprache bei der Modellierung von Datenbanken
Bonn-to-code.net Keine Angst vor Regulären Ausdrücken Martin Winkler
Anmerkungen zu XML Im September 2000 Entwicklung/Anspruch von XML
Seminar Textmining WS 06/07 Themen Übung 11 unsupervised vs. supervised Symbolfolgen, Kunstsprachen Page Rank.
Seminar Textmining WS 06/07 Themen Übung 9 Multilingualität Weitere Termine: 13.7.Symbolfolgen und PageRank Findlinks mitstreiter gesucht!
8. Formale Sprachen und Grammatiken
der Universität Oldenburg
Friedhelm Meyer auf der Heide 1 HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Grammatiken beschreiben Sprachen L µ *, indem.
Parser generieren Yet Another Compiler – Compiler YACC.
HTML - Einführung Richard Göbel.
FH-Hof Extensible Markup Language Richard Göbel. FH-Hof Extensible Markup Language XML XML ist universeller Ansatz für die Strukturierung von Zeichenketten.
FH-Hof Grammatiken Richard Göbel. FH-Hof Begriffe Eine Grammatik definiert die Struktur (Syntax) einer Zeichenkette Eine Grammatik definiert nicht die.
Parser - Verfahren: Rekursiver Abstieg
DOM (Document Object Model)
Suchmaschine vs. Katalog Such-Robots i.d.R. werden alle Seiten erfasst täglich werden mehrere Mio. Seiten besucht Redaktion relativ wenig Seiten erfasst.
XINDICE The Apache XML Project Name: Jacqueline Langhorst
Prof. Dr. rer.nat. Ralph Großmann Fakultät Informatik / Mathematik Sommersemester 2012 Internet-Technologien XML-basierte Techniken Teil Metasprache der.
Prolog Grundkurs WS 98/99 Christof Rumpf
Information und Technik Nordrhein-Westfalen Das personalisierte Portal Düsseldorf, Das personalisierte Portal.
XHTML 1.1 C. Nimz Abstrakte Module XHTML 1.1 C. Nimz Was ist ein abstraktes Modul? Definition eines XHTML-Moduls in spezieller leichter.
Modularization of XHTML™
Einführung XML XML Einführung Andreas Leicht.
Lexikalisch-Funktionale-Grammatik
PKJ 2005/1 Stefan Dissmann Zusammenfassung Vorwoche Programm besteht aus mehreren Bestandteilen: Schlüsselwörter Sonderzeichen Bezeichner Kommentare Texte.
XPointer Die Xpointer beschreiben einen Ort oder Bereich innerhalb einer XML-Instanz. Die XPointer bauen auf der XML Path Language auf. Die XPointer ist.
1 Reverse Engineering WS 07 / 08 A. Zündorf. Fachgebiet Software Engineering Übersicht © Albert Zündorf, Kassel University 2 Organisatorisches.
1 Grundlagen und Anwendung der Extensible Markup Language (XML ) Peter Buxmann Institut für Wirtschaftsinformatik Johann Wolfgang Goethe-Universität Frankfurt.
Systementwicklungsprojekt:
CRM Editor auf der Basis von Qt (Beispiel von Ubi erat Lupa)
FH-Hof 1 XML-Parser Richard Göbel. FH-Hof 2 XML-Parser- DOM Object Tree Parser Objekt der Klasse 'DocumentBuilderFactory' mit 'newInstance()' erzeugen.
Tino Reindanz - FSU Jena Seminar Aktive Datenbanken – SS 2007 Folie 1 Seminar Aktive Datenbanken Rule Development Rule Development for Active Database.
Morphologiesystem MORPHY Für Deutsche Sprache:
Titelmasterformat durch Klicken bearbeiten Formatvorlage des Untertitelmasters durch Klicken bearbeiten Die formalen Sprachen bei ETAP Teil II.
Entitäten Extraktion Einführung
Tipps und Tricks für Word 2000 Aytac, Felix, Steffen 04/05.
Eignung von Grammatik-basiertem Layout für grafische Programmiersprachen Seminar Layout-Algorithmen für Graphen Institut für Informatik Christian-Albrechts.
1 Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)
Identifikation der geographischen Lage von Zeitungsartikeln (GIR) Masterarbeit von Tobias Brunner Betreuung: Dr. R. S. Purves.
Transkription ausgeben
Seminar Internet Technologien
Java für Fortgeschrittene
Your name Bedeutung von Internet- Technologien Gruppe 1 Andreas Feuerstein Philipp Hochratner Christian Weinzinger.
Sesame Florian Mayrhuber
WebML for Semantic Web Michael Hertel.
Übersicht Was ist cocoon? Separation of Concerns Pipeline Modell
Wohlgeformtheit und Gültigkeit Grundlagen der Datenmodellierung Anke Jackschina.
Grammatik auf Deutsch.
Oliver Spritzendorfer Thomas Fekete
XML (Extensible Markup Language)
Automaten, formale Sprachen und Berechenbarkeit II SoSe 2004 Prof. W. Brauer Teil 1: Wiederholung (Vor allem Folien von Priv.-Doz. Dr. Kindler vom WS 2001/02.
Torque in Turbine Team 4 Josef Bohninger Thomas Lindenhofer
Klassen und Klassenstruktur
© 2001 Sven Dammann1 Aufbau Integrierter Informationssysteme XML Bearbeitung und relationale Abbildung Sven Dammann Martin-Luther-Universität Halle-Wittenberg.
Java Syntaxdiagramme Buchstabe A B Z a z ... Ziffer
Der Hund jagt die Katze. Theoretische Informatik Satz S P O
7. Formale Sprachen und Grammatiken
Programmierungssprache PERL
Text Encoding Initiative Universität zu Köln Daten- und Metadatenstandards Seminarleitung: Patrick Sahle Seminarleitung: Patrick Sahle Referentin: Anna.
GATE/Annie Zara Kanaeva, November 2002, Information Extraction.
Funktionale Unifikations-Grammatik (FUG)   Hauptmerkmale der FUG.
Funktionale Unifikations-Grammatik (FUG)  Hauptmerkmale der FUG.
Lexikalische Semantik
13.Dezember 2006–1Elektronisches Publizieren: Schemasprachen — Relax NG Schemasprachen für XML — Relax NG — Anne Brüggemann-Klein TU München.
Text Encoding Initiative (TEI) Universität zu Köln, SS 2009, HKI Seminar: Daten- und Metadatenstandards Dozent: Herr Sahle Referentin: Ulrike Henny Datum:
Spracherkennung mit dynamisch geladenen, spezifischen Akustikmodellen
Dokumentenproduktion im Medienzentrum
 Präsentation transkript:

Das Informationsextraktions- System ANNIE Anna Mazhayskaya Anna Vinenko

Informationsextraktion Informationsextraktion versucht, spezifische Informationen aus textuellen Dokumenten zu extrahieren und in datenbankartigen Schemata abzulegen. Die Information wird dabei gemäß fest vorgegebenen Spezifikationen ausgewählt. 1 1 vgl.

GATE- General Architecture for Text Engineering ist eine Entwicklung der Sheffield University (Dept. of Natural Language Processing) enthält eine Klassenbibliothek (alle Schnittstellen sind in Java realisiert) bietet eine Entwicklungsumgebung mit graphischer Oberfläche

enthält drei Typen von Komponenten: LanguageResources (LRs) : Lexika, Korpora und Ontologien ProcessingResources (PRs): algorithmische Ressourcen wie Parser, Generatoren oder n-Gram-Modellierer VisualResources (VRs): zur Visualisierung und zum Editieren in GUIs vgl. GATE User guide, GATE

Aufbau der Processing Resources in GATE Komponenten der Processing Resources können sein: JAVA-Klassen (Sentence) Listen (Gazetter) JAPE-Regeln (Semantik Tagger)

JAPE - Java Annotation Patterns Engine ermöglicht Grammatiken für reguläre Sprachen in einer systemunabhängigen Spezifikation linke Seite (LHS): Muster rechte Seite (RHS): Aktion zur Ausführung der JAPE-Regeln erzeugt GATE einen Transduktor

Algorithmen für die JAPE-Regeln 1. Algorithmus: Bildung eines FSM a) Bau eines NFSM mit Hilfe von LHS und RHS Abbildung 1: A nondeterministic FSM nach GATE User guide, Appendix B, JAPE: Implementation,

Algorithmen für die JAPE-Regeln 1 2 n! … b) Abbildung 2: Umwandlung eines NFSM in ein FSM

Algorithmen für die JAPE-Regeln 2. Algorithmus bearbeitete Daten als Input neue Annotationen als Output Abbildung 3: An annotation graph nach GATE User guide, Appendix B, JAPE: Implementation,

ANNIE: a Nearly-New Information Extraction System Eine Teilmenge der Komponenten von GATE bildet das Informationsextraktionssystem ANNIE Abbildung 4: ANNIE and LaSIE nach GATE User guide, Ch. 8, ANNIE: a Nearly-New Information Extraction System,

Komponenten von ANNIE Tokeniser Gazetteer Sentence Splitter POS-Tagger Semantic Tagger Orthographic Coreference Pronominal Coreference vgl. GATE User guide,

Komponenten von ANNIE Tokeniser Zerlegt den Text in elementare Token wie Zahlen, Interpunktion und Wörter verschiedenen Typs z.B. Wörter mit Grossbuchstaben unterscheiden sich von den Wörtern mit Kleinbuchstaben Das Ziel ist, den Leistungsumfang für maximale Effizienz einzuschränken vgl. GATE User guide,

folgende Tokenarten sind möglich: word number symbol punctuation SpaceToken Komponenten von ANNIE Tokeniser vgl. GATE User guide,

Komponenten von ANNIE Regeln für den Tokeniser jede Regel hat eine linke und eine rechte Seite der reguläre Ausdruck auf der linken Seite wird mit der Eingabe abgeglichen die rechte Seite beschreibt die Annotationen, die zum AnnotationSet hinzugefügt werden sollen vgl. GATE User guide,

Komponenten von ANNIE Regeln für den Tokeniser Beispiel einer Regel für Wörter, die mit einem einzelnen Grossbuchstaben beginnen "UPPERCASE_LETTER" "LOWERCASE_LETTER"* > Token;orth=upperInitial;kind=word; vgl. GATE User guide,

Komponenten von ANNIE English Tokeniser passt die Ausgabe des generischen sprachunabhängigen Tokenisers den Erfordernissen des Part-of-Speech-Taggers für Englisch an Beispiel: dont aus drei Token: don,, t werden zwei: do undnt vgl. GATE User guide,

Komponenten von ANNIE Gazetteer die sog. Gazetteer-Listen sind Text-Dateien mit nur einem Eintrag pro Zeile für Firmen-, Personen-, Ortsnamen u.v.a.m. auf die Listen wird über eine Index-Datei (lists.def) zugegriffen aus diesen Listen werden endliche Automaten (zur Erkennung der Listenelemente) kompiliert vgl. GATE User guide,

Komponenten von ANNIE Gazetteer Die Einträge in der Index-Datei bestehen aus: dem Listentitel einem Haupttyp (major type) für die Listeneinträge einem Nebentyp (minor type) vgl. GATE User guide,

Komponenten von ANNIE Sentence Splitter ein Transduktor, der den Text in einzelne Sätze zerlegt verwendet eine Gazetterliste von Abkürzungen jeder Splitter ist anwendungs- und spracheunabhängig vgl. GATE User guide,

Komponenten von ANNIE Part-of-Speech-Tagger Erkennung von Wortarten (Verb, Substantiv, Präposition…) Verwendet ein Lexikon und ein Set von Regeln, trainiert auf dem Korpus aus dem Wall Street Journal vgl. GATE User guide,

Komponenten von ANNIE Semantic Tagger Beruht auf den Regeln in der JAPE-Sprache enthält Regeln, die auf den Annotationen aus den vorangegangenen Phasen arbeiten vgl. GATE User guide,

Komponenten von ANNIE Orthographic Coreference (OrthoMatcher) fügt Identitätsrelationen hinzu zwischen NEs (named entities), die vom semantischen Tagger bestimmt wurden benutzt eine Tabelle der Bezeichnungen der gleichen Entitäten in alternative Schreibweisen z. B.: IBM vs. Big Blue, Coca-Cola vs. Coke verwendet auch eine Liste mit leicht verwechselbaren Namen z. B.: BT Wireless vs. BT Cellnet vgl. GATE User guide,

Komponenten von ANNIE Pronominal Coreference wird in ANNIE nicht automatisch geladen, kann aber als sog. Processing Resource hinzugefügt werden besteht aus drei Submodulen: – Modul für Textstücke in Anführungszeichen (quoted text module) – Modul für sog. pleonastisches it (pleonastic it module) – Modul für Pronomenauflösung (pronominal resolution module) vgl. GATE User guide,

Komponenten von ANNIE Pronominal Coreference Das Modul setzt die Annotationen der vorangegangenen Module voraus dazu gehören: – Token (English Tokenizer) – Sentence (Sentence Splitter) – Split (Sentence Splitter) – Location (NE Transducer, OrthoMatcher) – Person (NE Transducer, OrthoMatcher) – Organization (NE Transducer, OrthoMatcher) vgl. GATE User guide,

Komponenten von ANNIE Pronominal Coreference: Modul für Textstücke in Anführungszeichen Modul identifiziert im Text Fragmente, die in Anführungszeichen stehen für diese Fragmente gelten im 3. Modul besondere Regeln für die Auflösung solcher Pronomen wie I, me, my… Das Modul bildet Quoted Text-Annotationen Das Modul ist ein JAPE-Transduktor auf der Basis einer JAPE-Grammatik vgl. GATE User guide,

Komponenten von ANNIE Pronominal Coreference Vorverarbeitung der Textdatei: Bestimme Sätze Bestimme Geschlecht der Personen Listen der Annotationen von Organisationen, Orten, Personen für jedes Pronomen suche nach den möglichen Antezedenten und wähle den besten aus bilde sog. Koreferenzketten (coreference chains) vgl. GATE User guide,

Komponenten von ANNIE Pronominal Coreference Alle Pronomina haben Annotationen vom Typ Token mit den Werten PRP oder PRP$ für das Merkmal category Kategorie PRP: Possesivpronomen my, your, his, her… Kategorie PRP$: Personalpronomen, Reflexivpronomen vgl. GATE User guide,

Dokumentformate für GATE: Plain Text HTML SGML XML RTF PDF Microsoft Word vgl. GATE User guide,

Documents: Content plus Annotations plus Features Annotationen sind in Graphen zusammengefasst, die als Java sets of Annotation modelliert sind. Annotationen haben Anfangsknoten und Endknoten, ID, Typ and FeatureMap. Nodes haben Pointer auf die Dokumentquelle. Result of annotation on a single sentence Tabelle 1: Result of annotation on a single sentence nach GATE User guide, Ch. 6,

DEMO

Quellenangaben H.Cunningham, D.Maynard, K.Bontcheva,V.Tablan, C. Ursu, M.Dimitrov, M.Dowman, N.Aswani, I.Roberts, Y. Li, A.Shafirinc ( ). Developing Language Processing Components with GATE Version 4 (a User Guide) For GATE version 4.0-beta1. The University of Sheffield (April 2007).