Information Extraction

Slides:



Advertisements
Ähnliche Präsentationen
PG Intelligence Service
Advertisements

NER Named Entity Recognition
Modellierung sozio-technischer Systeme SeeMe - Semi-strukturierte, sozio-technische Modellierungsmethode.
Modellbasierte Software-Entwicklung eingebetteter Systeme
Informationsekstraktion Wettbewerbe und Kongresse Daniel Liem
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/7 Information Retrieval auf Texten An ihre Grenzen stoßen relationale Datenbanken bei der.
XPointer Die Xpointer beschreiben einen Ort oder Bereich innerhalb einer XML-Instanz. Die XPointer bauen auf der XML Path Language auf. Die XPointer ist.
Access 2000 Datenbanken.
Recherche im Ein einführendes Tutorial Informationssystem Medienpädagogik
Der Supermarkt: Eine beispielhafte Erklärung für die fünf untersten Schichten des Semantic Web Protocol Stack Nicola Henze.
Entitäten Extraktion Einführung
Prof. Dr. Gerhard Schmidt pres. by H.-J. Steffens Software Engineering SS 2009Folie 1 Objektmodellierung Objekte und Klassen Ein Objekt ist ein Exemplar.
Typo3 Templates und TypoScript
1 Learning to Construct Knowledge Bases from the World Wide Web Mark Craven, Dan DiPasquo, Dayne Freitag, Andrew McCallum, Tom Mitchell, Kamal, Neigam,
Using latent semantic analysis to find different names for the same entity in free text Präsentation und Diskussion des Papers Im Rahmen des PS Web-Information.
Peter Brezany Institut für Softwarewissenschaften Universität Wien
Niko Zenker1 Besondere Aspekte in Multimedia-Datenbanken Methoden zur iterativen Anfrageverfeinerung (Relevanz Feedback)
1 Suchprofile erstellen und verwalten. 2 Suchprofile bei Registrierung Hier können Sie bis zu drei Suchprofile einrichten. Diese finden Sie später unter.
Facharbeit Information für die Q1 am
Steuern Ziele Den Zweck der Steuerpflicht erklären und verschiedene Steuerarten anhand der Staatseinnahmen erläutern Staatsausgaben aufzählen und Grössen.
J. Nürnberger2007 / 081 Tabellenkalkulation (3) Arbeiten mit Formeln am Beispiel von OpenOffice.org Calc.
Wie schreibe ich eine Bachelor- bzw. Masterarbeit ?
Benutzer Name Nachname + die ersten 3 Buchstaben des Vornamens
Gewusst wie - Literatur suchen und finden in der Unibibliothek
Darstellung Kundenprojekt
Titel mit blauem Hintergrund
Einführung in PowerPoint
ei-ie Wiederholungsübung 6 - Phantasieverben
Stand
Das situationsbezogene Fachgespräch
Titel der Diplomarbeit
Regionale Lehrerfortbildung
Hinweis zu dieser Vorlage:
Non-Standard-Datenbanken
Komponenten des Computers
Willkommen bei PowerPoint
Geschichte des Internets
“<Titel>” Prozessbeschreibung
Die PowerPoint-Arbeitsfläche
“Sicherheitstechnische Kontrollen anlegen
Templates
5S – Zahlenspiel Dr.-Ing. Ralf Gerke-Cantow
ABC-Analyse Anwendungsbeispiel
Sozialpsychologie WS 10/11
BLINDTEXT FÜR EINE TITELZEILE BLINDTEXT FÜR EINE TITELZEILE
Kapitel IV. Matrizen Inhalt:
Dr. Nicole Gallina Einführung in die Politikwissenschaft Sitzung vom Einige Bemerkungen zu NG 1.
Non-Standard-Datenbanken und Data Mining
«Delegierter» Methoden Schablone Funktionszeiger
9. Vererbung und Polymorphie
So schreiben Sie eine klare, verständliche Sprache
Erwartungswerte berechnen
Wahlteil 2009 – Geometrie II 1
Pflichtteil 2016 Aufgabe 6: Gegeben ist die Gerade
Stand November 2018.
Das Vektorprodukt Wir definieren erneut eine Multiplikation zwischen zwei Vektoren, das Vektorprodukt, nicht zu verwechseln mit dem Skalarprodukt. Schreibe.
Organisationsfähigkeit Ausgewählte Folien für Lehreinheit C2
Von Franziska und Robine
3. Die Datenstruktur Graph 3.3 Durchlaufen von Graphen
Elemente von Datenbanken
Nutzung und Modellierung von Datenbanken
Beispiel für eine Grafik gebundene Textproduktion – DaF B1+/B2
Dieses Bild benutze ich gerne als Testbild, um den Beamer einzustellen und in eine geeignete Position vor der Kreidetafel zu bringen. Es folgen verschiedene.
Titel mit blauem Hintergrund
Dieses Bild benutze ich gerne als Testbild, um den Beamer einzustellen und in eine geeignete Position vor der Kreidetafel zu bringen. Es folgen verschiedene.
Terminologie-Extraktion
Web-Mining Agents Planning
Wie die ZHB Sie dabei unterstützen kann
So schreiben Sie eine klare, verständliche Sprache
Hack2Sol – Powered by SAP
 Präsentation transkript:

Information Extraction 27.11.2018 LS8 - PG 402

Information Extraction (IE) Extraktion von strukturierten Informationen aus textuellen Dokumenten Textart: Suche nach zuvor festgelegten Informationen Weiterverarbeitung: direkte Darstellung, Datenbank, Tabellenkalkulation Ziel: Entwicklung von Systemen, die spezielle Informationen aus freien Texten aufspüren und strukturieren können beliebig, unbekannt natürlichsprachlich LS8 - PG 402

Information Retrieval (IR) Dokumente aus Dokumentensammlung auswählen Benutzeranfrage durch Stichwörter Ergebnis: geordnete Menge relevanter Dokumente Siehe E1 Seite 10 LS8 - PG 402

Szenario Benutzer sucht Informationen über Aktienkurse von Firmen mit Besitz in Bolivien Daten sollen in einer Tabellenkalkulation weiterverarbeitet werden LS8 - PG 402

IR vs. IE IR-Systeme finden Texte und präsentieren sie dem Benutzer. Vorgehen: Eingabe einer Liste von relevanten Suchbegriffen ins System. Rückgabe: Menge von Dokumenten, die ähnliche Begriffe enthalten. Benutzer entscheidet selbst, welche Texte relevant sind, und übernimmt die Weiterverarbeitung. Artikel 4 Seite 2 Diese 5 Typen wurden von der MUC definert LS8 - PG 402

IR vs. IE IE-Systeme analysieren Texte und präsentieren nur die spezifischen Informationen Vorgehen: IE-System füllt die Datenbank oder Tabellenkalkulation selbstständig mit den Namen der Firmen und deren Aktienkursen LS8 - PG 402

Vor- & Nachteile IE Systeme sind aufwendig und wissensintensiv In der Regel muss das System an verschiedene Bereiche und Szenarien angepasst werden IE ist rechenintensiver als IR Zeitersparnis durch IE, lesen der Ergebnistexte entfällt LS8 - PG 402

IE Typen Named Entity recognition (NE) Steigende Komplexität Finden und Klassifizieren von Namen Heuristik: Name bezieht sich auf etwas Bestimmtes (Einzelding) Coreference Resolution (CO) Identifiziert Referenzen zwischen den NE-Objekten Template Element construction (TE) Fügt beschreibende Informationen zu NE Ergebnissen hinzu LS8 - PG 402

IE Typen Template Relation construction (TR) Erkennt Beziehungen zu den NE Ergebnissen Senario Template production (ST) Setzt TE und TR Ergebnisse in spezielle Ereignis-Szenario Steigende Komplexität LS8 - PG 402

Anwendungsbeispiel Die glänzend rote Rakete wurde am Dienstag gestartet. Sie ist die Erfindung von Dr. Hans Müller. Dr. Müller ist ein Wissenschaftler bei Raketenwerke Inc. NE: z.B.: Rakete, Dienstag, Dr. Müller (Entities) CO: „Sie“ bezieht sich auf Rakete Named Entity recognition (NE) Finden und Klassifizieren von Namen Heuristik: Name bezieht sich auf etwas Bestimmtes (Einzelding) Coreference Resolution (CO) Identifiziert Referenzen zwischen den NE-Objekten LS8 - PG 402

Anwendungsbeispiel Die glänzend rote Rakete wurde am Dienstag gestartet. Sie ist die Erfindung von Dr. Hans Müller. Dr. Müller ist ein Wissenschaftler bei Raketenwerke Inc. TE: Rocket = glänzend rot Erfindung von Dr. Müller TR: Müller arbeitet für Raketenwerke Inc. Template Element construction (TE) Fügt beschreibende Informationen zu NE Ergebnissen hinzu Template Relation construction (TR) Erkennt Beziehungen zu den NE Ergebnissen LS8 - PG 402

Anwendungsbeispiel Die glänzend rote Rakete wurde am Dienstag gestartet. Sie ist die Erfindung von Dr. Hans Müller. Dr. Müller ist ein Wissenschaftler bei Raketenwerke Inc. ST: Raketenstart ist Ereignis, in welches die verschiedenen Entities verwickelt waren Senario Template production (ST) Setzt TE und TR Ergebnisse in spezielle Ereignis-Szenario LS8 - PG 402

MUC Message Understanding Conference (1-7) Message Understanding Competition Gegründet bei DARPA Ende der 80‘iger LS8 - PG 402

Evaluationskriterien für IE Evaluation von IE-Systemen auf der MUC Präzision P = Anteil der korrekt gewonnenen Wissenseinheiten WE relevante Texte irrelevante Texte Hohe Vollständigkeit = fast alle relevanten WE wurden extrahiert! A B A + B A P= ausgegebene Texte nicht ausgegebene Texte C D LS8 - PG 402

Evaluationskriterien für IE Ph = fast alle gefundenen WE sind relevant Vollständigkeit V = Anteil der korrekt gewonnenen WE gegenüber allen WE relevante Texte irrelevante Texte A + C A V= A B ausgegebene Texte nicht ausgegebene Texte C D LS8 - PG 402

Precision-Recall-Diagramm Maße sind gegenläufig  Bei guter Vollständig- keit ergibt sich eine geringe Präzision und um- gekehrt 1 Vollständigkeit (Recall) Precision LS8 - PG 402

Evaluationskriterien für IE Optimierung bezüglich hoher Präzision: Relevante WE werden möglicherweise nicht erkannt Optimierung bezüglich hoher Vollständigkeit: Aufnahme von irrelevanten WE F-Maß gibt die Güte des IE-Prozesses an Abweichung von 1 gibt an ob: P oder V stärker gewichtet werden sollte F= (ß²+1,0)*P*V (ß²*P)+V In der Regel ß=1 Die Güte des Ergebnisses hängt stark von der Schwierigkeit der Aufgabe ab! Bei einfachen Aufgaben, z. B. Erkennung von Namen, werden Werte von über 90% erreicht (für Präzision bzw. Vollständigkeit). Bei schwierigen Aufgaben, z. b. das Ausfüllen von Szenario-Templates, d.h. Templates die ein bestimmtes Szenarios beschreiben, werden Werte zwischen V=40 bis 50% und P=60% bis 70% erreicht. LS8 - PG 402

Dokument Views Terms View Mark-Up View Layout View Typographic View Linguistic View LS8 - PG 402

Seminaranmeldung Beispiel LS8 - PG 402

Terms View Inverse document frequency: term frequency and andrew at auditorum cmu 1 3 2 abstract 4 computerized concrete construction ... Inverse document frequency: n/doc and andrew at auditorum cmu 4 n 3 2 abstract 1 computerized concrete construction ... LS8 - PG 402

Mark-Up View Betrachtung von Terms und Metaterms Metaterms geben „Rolleninformationen“ über verschiedenen Terms LS8 - PG 402

Mark-Up View Beispiel LS8 - PG 402

Layout View LV betrachtet die 2-dimensional Anordnung und Größe von Terms Vorgehen: Alle non-whitespace characters werden durch Sterne (*) ersetzt Ziel: Erkennung von wichtigen Text-objekte, z. B. Paragraphen Über- schriften, Mail headers, usw. Ein Term ist entweder ein Wort oder eine Einheit von Interpunktionen. LS8 - PG 402

Layout View Beispiel LS8 - PG 402

Typographic View Zeichen werden in folgende Klassen eingeteilt: Numerische Zeichensetzung Großbuchstaben Zahlen ersetzt durch „9“ Zeichensetzung keine Änderung Großbuchstaben ersetzt durch „A“ sonstige Buchstaben durch „a“ Ziel: Relevante Stellen lokalisieren LS8 - PG 402

Typographic View Beispiel LS8 - PG 402

Linguistic View Beispiel computerized testing and simulation of concrete construction ADJ AN Konj. AN P N AN Konj-Gr. ANG PG ANG Lexikon and  Konj. computerized ADJ of  P testing  AN S LS8 - PG 402

Maschinelles Lernverfahren für IE Standard IE-Systeme sind sehr domainspezifisch: Anpassung ist sehr aufwendig und muss von Experten durchgeführt werden Ziel: System, dass auf verschiedenen Domains angewendet werden kann Besser: Ausgehend von einer Trainingsmenge von bereits mit Ergebnissen versehenen Textdokumenten werden automatisch Regeln zum Füllen von Templates abgeleitet LS8 - PG 402

Maschinelles Lernverfahren für IE Beispiel Annotiertes Trainingsbeispiel: <PNG>Sue Smith</PNG>, 39, of Menlo Park, was appointed <TNG> president </TNG> of <CNG> Foo Inc. </CNG> Abgeleitete Template-Regel: Noun-group(PNG, head(isa(person))), noun-group(TNG, head(isa(title))), noun-group(CNG, head(isa(company))), prep, head(of OR at OR by)), verb-group(VG, type(passiv), head(named OR elected OR appointed)), subject(PNG,VG), object(VG,TNG),post-nominal-prep(TNG,PREP), prep-obj(PREP,CNG) management-appointment(person(PNG), title(TNG), company(CNG)) Templates = Bündel von Attribut/Wert-Paaren LS8 - PG 402

Maschinelles Lernverfahren für IE Beispiel NG CNG TNG PNG Prep VG is a person subject is a title object is a company Prep. object Object type: passiv {named, elected, appointed} Object appointment Grammatik SNG,VG VG  V, TNG TNG  T, Prep Prep  Prep, CNG Person: PNG Title: TNG Company: CNG Templates = Bündel von Attribut/Wert-Paaren Lexikon ... Is a person LS8 - PG 402