NER Named Entity Recognition

Slides:



Advertisements
Ähnliche Präsentationen
Algorithmen und Datenstrukturen
Advertisements

Algorithmen und Datenstrukturen
Hier einige Hieroglyphen:
PG 520 Intelligence Service
PG Intelligence Service
Eine dynamische Menge, die diese Operationen unterstützt,
Vorlesung Programmieren II
Statistische Aspekte der PSG
Seminar Textmining WS 06/07 Themen Übung 11 unsupervised vs. supervised Symbolfolgen, Kunstsprachen Page Rank.
Seminar Textmining WS 06/07 Themen Übung 9 Multilingualität Weitere Termine: 13.7.Symbolfolgen und PageRank Findlinks mitstreiter gesucht!
3. Kapitel: Komplexität und Komplexitätsklassen
WS 05/06Automatische Akquisition linguistischen Wissens1 Partielles Wissen erweitern 1.Zusammenhang mit bisherigen Algorithmen 2.Vom offensichtlichen zum.
Inhaltlich orientierter Zugriff auf unstrukturierte Daten
8 Behandlung von Begriffen 8.1 Grundlagen aus Logik und Psychologie
Objektorientierter Entwurf (OOD) Teil 3: Qualitätsmodell
Kapitel 4 Syntaktische Analyse: LR Parsing.
Konzeption und prototypische Implementierung eines zentralen Informationssystems für Systemmanagement Motivation Oft wird es schwierig, die benötigten.
Wissensmanagement mit semantischen Netzen – Analyse und Vergleich verschiedener Softwarelösungen Autor: Holger Wilhelm Referentin: Prof. Dr. Uta Störl.
Parser generieren Yet Another Compiler – Compiler YACC.
Heuristiken und Kontexteinflüsse
FH-Hof Deadlocks Richard Göbel. FH-Hof Deadlock - Definition Menge von Prozessen ist an einem Deadlock beteiligt: wenn jeder Prozess in dieser Menge auf.
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/8 Thesauren In gewisser Weise bilden Thesauren (Singular Thesaurus, Plural auch Thesauri)
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/4 Manuelle Verfahren Klassifizierung Hier werden Dokumente in ein fest vorgegebenes System.
Algorithmentheorie 04 –Hashing
1 Automatische Klassifikation von Nomen nach Begriffstyp Christof Rumpf Heinrich-Heine-Universität
Beata Kouchnir1 Part-of-Speech Tagging Eine Übersicht über verschiedene Ansätze sowie eine theoretische Beschreibung des TnT-Taggers von Thorsten.
Sprachkonstruktion I Konstruktion einer neuen Sprache Einladung zu einem Sprachexperiment Sie sind eingeladen, sich an einem Sprachexperiment zu beteiligen.
SYSTRAN Information and translation technologies.
PG 520 Intelligence Service – gezielte Informationen aus dem Internet
Was ist Lemmatisierung und wie wird sie maschinell durchgeführt?
Wie arbeitet der Brill-Tagger und warum macht er Fehler? Der Brill-Tagger basiert auf der Kombination von regelbasierten und statistischen Verfahren. Er.
Die Bank von morgen - eine neue Welt für IT und Kunden? 23. Oktober 2001.
Titelmasterformat durch Klicken bearbeiten Formatvorlage des Untertitelmasters durch Klicken bearbeiten Die formalen Sprachen bei ETAP Teil II.
Maschinelles Lernen und automatische Textklassifikation
Entitäten Extraktion Einführung
Entitäten Extraktion Wichtige Schritte Petra Maier WS 05/06.
Christian Schulz, Marc Thielbeer, Sebastian Boldt
Komponenten eines Information Retrieval Systems
Eignung von Grammatik-basiertem Layout für grafische Programmiersprachen Seminar Layout-Algorithmen für Graphen Institut für Informatik Christian-Albrechts.
Knowledge Discovery mit Wordnet und Alembic Workbench
1 Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)
Effiziente Algorithmen
Delphi II - OOP IFB Fortbildung
LS 2 / Informatik Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)
DataMining Von Daten zu Informationen und Wissen
Was macht eigentlich dieses ExsoForm? Ein Beispiel für eine Dokumentendefinition in Screenshots.
© Wortstellung im Deutschen Norbert Fries.
Wahrscheinlichkeitsrechnung
Abteilung für automatische Sprachverarbeitung
Replikation und Synchronisation
Übung zu Einführung in die LDV I
Elternabend der Schule … vom …
1 Albert-Ludwigs-Universität Freiburg Rechnernetze und Telematik Prof. Dr. Christian Schindelhauer Informatik III Christian Schindelhauer Wintersemester.
Die Ganze Welt im Computer? Informationsbeschaffung im Internet
Statistik – Regression - Korrelation
Mensch – Maschine - Kommunikation
Grammatikalische Begriffe im Unterricht
SAP Seminar 2007 Bestellung anlegen
Lexikalische Semantik
SS 2009Maschinelles Lernen und Neural Computation 133 Kapitel 7: Ensemble Methoden.
Arten von Suchwerkzeugen
EIN NEUES ENSEMBLE- KLASSIFIKATIONSVERFAHREN Tim Schneider Rotation Forest.
Programmiersprachen II Fortsetzung Datenstrukturen Balancierte Bäume 3 Prof. Dr. Reiner Güttler Fachbereich GIS HTW.
Deutsch in unserem Leben
Sprachen lernen - Spaß oder Stress? Автор: Соловьянова Татьяна Анатольевна, учитель немецкого языка МБОУ «СОШ №6» г. Новомосковска, Тульская область.
Excel-Tool: Beschwerdeanalyse  Folie 1 von Bitte Makros aktivieren Das Excel-Tool funktioniert nur mit eingeschalteten Makros. Eventuell erhalten.
Vo#1:Semantik als Wissenschaft Semantik I Matej-Bel-Universität in Banská Bystrica Zuzana Tuhárska.
Lerndesignarbeit: WAS – WIE sichtbarmachen – WER – WIE - Das Ziel ist das Ziel. Viele Wege führen nach Rom. Lern- & Lehr- prozesse vom Ende her ZIEL START.
Dr. Wolfram Amme, Automatische Speicherverwaltung, Informatik II, FSU Jena, SS Automatische Speicherverwaltung.
Peter Kaufmann Stud Sek I 06 FHNW Aarau, Posterdesign © Maria Spychiger Jasmin KlauserStud Sek I 06 FHNW Aarau,
 Präsentation transkript:

NER Named Entity Recognition Björn Baumann

PG 520: Intelligence Services [Named Entity Recognition] Gliederung Definition & Zielsetzung Entstehung: Message Understanding Conferences Evaluation Interne / Externe Evidenz Mögliche Analyseverfahren Tokenisierung Morphologische Analyse Lexikalische Analyse Syntaktische Analyse Domänenspezifische Analyse Systemarchitekturen Listenbasierte Systeme Regelbasierte Systeme Automatische/Lernende Systeme Diskussion 09.10.2007 PG 520: Intelligence Services [Named Entity Recognition]

Definition & Zielsetzung NER = Named Entity Recognition Erkennt und klassifiziert Bestandteile eines natürlich-sprachlichen Textes Named Entities sind definit, also in der Regel nur einmal vorhanden Nur relevante Informationen sollen klassifiziert / kategorisiert werden (daher: named) Informationen, die zu dem gesuchten eine semantische Relevanz haben Relevanz wird durch Auswahl der passenden Trainingsdaten und Tags bestimmt Named Entities können Namen, Organisationen, Orte, Zeitangaben, oder quantitative Aussagen sein Teilbereich der Information Extraction (IE) NER wurde 1995 in MUC-6 erstmals als Ziel definiert -Es gibt bis heute keine ganz genaue Definition von NER im Deutschen Hier könnte man am Ende noch ein Beispiel bringen was Named Entities sind und was nicht (bspw: Gerhard Schröder vs. Bundeskanzler). Eigennamen sollten nur einmal vorkommen und definit sein -Semantische Erschließung von Texten im Gegensatz zum rein syntaktischen Auffinden von Textpassagen via Suchmaschine -Eigennamen vs. Gattungsnamne wie bei „VW Golf“,… 09.10.2007 PG 520: Intelligence Services [Named Entity Recognition]

PG 520: Intelligence Services [Named Entity Recognition] Definition & Zielsetzung NER-Markierungen Beispiel Eingabe: Auch die widersprüchlichen Angaben darüber, wie viel Geld Bohlen tatsächlich am 11. Dezember 2006 gestohlen wurde, wollte das Landgericht Bochum klären… Ausgabe: Auch die widersprüchlichen Angaben darüber, wie viel Geld <Person>Bohlen</Person> tatsächlich am <Datum>11. Dezember 2006</Datum> gestohlen wurde, wollte das <Organisation>Landgericht Bochum</Organisation> klären… Beispiel für eine übliche NER-Markierung 09.10.2007 PG 520: Intelligence Services [Named Entity Recognition]

Entstehung Message Understanding Conference Erstmals 1987 stattgefundene Konferenz mit der Zielsetzung, bessere Information Extraction Methoden zu finden Verschiedene Teams versuchen eine vorgegebene Aufgabe zu lösen Texte und Zielsetzungen werden vorgegeben In MUC-6 (1995) wurde zum ersten Mal das Ziel, Named Entities / Koreferenz zu finden, definiert MUC-7 hat beispielsweise „Space Vehicles & Missile Launches“ als Thema - MUC wurden von der DARPA instutiiert Die Defense Advanced Research Projects Agency (DARPA) ist die Agentur des Pentagons, die Hightech-Projekte für das US-Militär durchführt, u.a. auch Weltraumprojekte Erfolgreichstes Projekt war 1969 die Verbindung von vier Rechnerknoten, dem ARPANET 09.10.2007 PG 520: Intelligence Services [Named Entity Recognition]

PG 520: Intelligence Services [Named Entity Recognition] Evaluationsmaße Precision (Präzision): Anteil der korrekt klassifizierten NE aus der Menge aller gefundenen NE (aber nicht aller vorhandenen) Anzahl korrekt klassifizierter NEs Precision = Anzahl NEs gefunden Recall (Ausbeute): Anteil der korrekt klassifizierten Named Entities zu den insgesamt vorhandenen NE Anzahl korrekt klassifizierter NEs Recall = Anzahl vorhandener NEs F-Measure: Ungewichteter harmonischer Mittelwert zwischen Präzision und Ausbeute 2*Precision*Recall F-Measure = Precision + Recall 09.10.2007 PG 520: Intelligence Services [Named Entity Recognition]

PG 520: Intelligence Services [Named Entity Recognition] Interne / Externe Evidenz Grundsätzlich kann man bei der Klassifikation von Wörtern Interne und Externe Evidenz unterscheiden Interne Evidenz ist das Wissen über das einzelne Wort, das es zu klassifizieren gilt Eintrag im Lexikon oder anderer lexikalischer Ressourcen Bestimmte Wortbestandteile (-burg) sowie Groß- und Kleinschreibung Externe Evidenz nutzt den Kontext des Wortes um eine Einordnung in eine Klasse vorzunehmen Beispiel: „die franz. Stadt …“  dies deutet stark auf einen Ortsnamen als nachfolgendes Wort hin Einfach in der engl. Sprache da hier alle Eigennamen groß geschrieben werden, sehr schwierig für die deutsche Sprache 09.10.2007 PG 520: Intelligence Services [Named Entity Recognition]

Mögliche Analyseverfahren Tokenisierung Morphologische Analyse Lexikalische Analyse Syntaktische Analyse Domänenspezifische Analyse 09.10.2007 PG 520: Intelligence Services [Named Entity Recognition]

Mögliche Analyseverfahren Tokenisierung Erkennen der Wortgrenzen Einfach zu realisieren in europäischen Sprachen (Leerzeichen zwischen Worten), schwierig für japanisch oder chinesisch Hier muss ein umfangreicheres Modul die Grenzen erkennen Satzzeichen markieren Struktur des Textes (“.“, “,“,“?“) Auch hier: eventuell schwieriger in anderen Sprachen Abkürzungen können durch Kapitale erkannt werden Auch beim einfachen Punkt sind Ambiguitäten zu klären, während ein Fragezeichen oder Ausrufezeichen sicher auf das Ende eines Satzes hinweist. 09.10.2007 PG 520: Intelligence Services [Named Entity Recognition]

PG 520: Intelligence Services [Named Entity Recognition] Mögliche Analyseverfahren Morphologische Analyse Morphologische Analyse von Wörtern versucht die einzelnen Wörter zu „vereinfachen“ Erkennen von Präfix bzw. Suffix Zurückführung eines einfachen oder komplexen Wortes auf sein Lemma Morphologische Analyse kann in manchen Sprachen weniger wichtig (Englisch) in vielen anderen aber sehr bedeutend sein (Deutsch, Französisch) Stemming bestimmt die Stammform eines Verbs Spart Lexikon-Einträge und hält die Regelmenge klein Viele Stammformen der Verben weisen stark auf eine bestimmte Klasse hin denken  Mensch Teile eines Wortes können ebenfalls auf eine Klasse hinweisen Endungen wie „-burg“,“-stadt“, „-dorf“  Ortsname 09.10.2007 PG 520: Intelligence Services [Named Entity Recognition]

PG 520: Intelligence Services [Named Entity Recognition] Mögliche Analyseverfahren Lexikalische Analyse Viele Wörter können direkt durch Nachschlag in einem Lexikon einer bestimmten Klasse zugeordnet werden Bei mehrdeutigen Wörtern genügt allerdings die lexikalische Analyse allein nicht und ein Einbezug des Kontextes ist erforderlich „Essen“  Ort oder Mahlzeit? „Bank“ Finanzeinrichtung oder Sitzmöbel? „Buchen Sie mir einen Flug“ vs. „Die Buchen dort sind schon alt.“ Lexikalische Mehrdeutigkeit vs. Part-of-Speech Mehrdeutigkeit 09.10.2007 PG 520: Intelligence Services [Named Entity Recognition]

PG 520: Intelligence Services [Named Entity Recognition] Mögliche Analyseverfahren Syntaktische Analyse Aufteilung des Satzes in seine syntaktischen Elemente (Nomen, Verben, Präpositionen,…) um Kontextinformationen zu gewinnen POS-Tagging (Part-of-Speech-Tagging) POS-Tagger ordnen jedes Wort einer Wortklasse zu POS-Tagger „TnT“ klassifiziert englische Wörter mit 86% und deutsche mit 89% zur richtigen Wortart Disambiguierung (Aufheben von Mehrdeutigkeiten) der Worte durch Einbezug des Kontexts Wichtig: weist auch unbekannten Wortphrasen eine Bedeutung zu anhand von Kontext und Wortform zu Full-Parsing Analyse der kompletten Satzkonstruktionen mit Hilfe eines Parsebaums, der an kontextfreie Grammatiken angelehnt ist Allerdings schlechte Performanz und fehlerbehaftet Wird so gut wie nicht mehr verwendet! 09.10.2007 PG 520: Intelligence Services [Named Entity Recognition]

PG 520: Intelligence Services [Named Entity Recognition] Mögliche Analyseverfahren Domänenspezifische Analyse Koreferenz-Auflösung: Erkennen von gleichen Referenzen innerhalb eines Texts (auch temporale Referenzen möglich) IBM  International Business Machine Deutsche Bahn AG  Die Bahn entlässt Mitarbeiter USA  U.S.A.  United States of America 16.20 Uhr  4.20 PM (temporale Referenz) Merging: Zusammenfügen von gleichen Relationen zwischen NE 09.10.2007 PG 520: Intelligence Services [Named Entity Recognition]

PG 520: Intelligence Services [Named Entity Recognition] Systemarchitekturen Listenbasierte Systeme Regelbasierte Systeme Automatische / Lernende Systeme 09.10.2007 PG 520: Intelligence Services [Named Entity Recognition]

PG 520: Intelligence Services [Named Entity Recognition] Systemarchitekturen Listenbasierte Systeme Theoretisch könnte man in einer riesigen Wort-DB alle Wörter speichern, die es als NE zu erkennen gilt. Auch morphologische Varianten müssten dann abgespeichert werden. Einfach zu Erstellen und schnelle Erkennung ABER: Unmöglich alle NE zu speichern Nicht in der Lage mehrdeutige Wörter zu disambiguieren Kaum möglich Zeitangaben oder quantitative Aussagen in einer solchen Liste zu speichern Also kein wirklich guter Ansatz für ein Verfahren 09.10.2007 PG 520: Intelligence Services [Named Entity Recognition]

PG 520: Intelligence Services [Named Entity Recognition] Systemarchitekturen Regelbasierte Systeme Definieren Regeln, die das Einsortieren der einzelnen Token ermöglichen Nutzung von Lexika, syntaktischem Wissen, morphologischem Wissen und domänenspezifischen Wissen Erzeugung einer Grammatik, Parser übernimmt die Ableitung der Named Entities Relativ alte Technik um Wörter einer Klasse zuzuordnen 09.10.2007 PG 520: Intelligence Services [Named Entity Recognition]

PG 520: Intelligence Services [Named Entity Recognition] Systemarchitekturen Regelbasierte Systeme Muss von spezialisierten Linguisten entwickelt werden Benötigt nur eine kleine Menge an Trainings-Datensätzen Entwicklung sehr zeitaufwändig, da umfassende Grammatiken konstruiert werden müssen Erweiterung und Anpassung einer umfassenden, komplexen Grammatik an eine neue Domäne ist aufwändig Bessere Performanz gegenüber Lernenden Systemen (Precision & Recall) 09.10.2007 PG 520: Intelligence Services [Named Entity Recognition]

PG 520: Intelligence Services [Named Entity Recognition] Systemarchitekturen Regelbasierte Systeme Beispiele Aufeinanderfolgende Phrasen der Form <Wort><Wort> GmbH deuten mit hoher Wahrscheinlichkeit auf eine Firma / Organisation hin Ebenso geben großgeschriebene Worte Hinweise auf eine Firma bzw. Organisation: NASA, ADAC, UNICEF,… Vorkommen von „-burg“, „-dorf“, -„stadt“ deutet auf eine Ortsangabe aus dem deutschsprachigen Raum „denken“ ist, unabhängig vom Tempus der Verbform, in der dritten Person immer ein starker Hinweis für ein menschliches Subjekt „produzieren“ ist ebenso ein starker Hinweis auf eine Firma / Organisation Methoden der externen Evidenz!! Learning Systems benutzen in der Regel vorzugsweise Methoden der Internen Evidenz 09.10.2007 PG 520: Intelligence Services [Named Entity Recognition]

PG 520: Intelligence Services [Named Entity Recognition] Systemarchitekturen Automatische / Lernende Systeme Nutzt statistische oder andere Methoden des Maschinellen Lernens Benötigt aber ein hohes Maß an qualitativ guten Trainings-Texten Beschaffung dieser Trainings-Daten kann manchmal schwieriger als das Entwerfen von Regeln sein (…für eine bestimmte Domäne) Oft sind kleine spezifische Wörterbücher hilfreicher als große mit vielen möglichen Bedeutungen Wichtige Verfahren des Maschinellen Lernens Hidden Markov Models ( IdentiFinder) Maximale Entropie ( MENE) Conditional Random Fields Support Vector Machines 09.10.2007 PG 520: Intelligence Services [Named Entity Recognition]

PG 520: Intelligence Services [Named Entity Recognition] Systemarchitekturen Automatische / Lernende Systeme Overfitting Overfitting ist die Überanpassung auf bestimmte Trainings-Datensätze, die immer und immer wieder gelernt werden Wird nun ein anderer Datensatz verwendet kann dies zu sehr hohen Fehlerraten bei der Klassifikation führen Große Wörterbücher tendieren zu einer höheren Anzahl an Fehlern Sehr umfangreiche Wörterbücher mit vielen Einträgen neigen gerade bei häufig vorkommenden Named Entities zu falschen oder mehrdeutigen Einsortierungen Kleine, dem jeweiligen Thema angepasste Wörterbücher sinnvoller 09.10.2007 PG 520: Intelligence Services [Named Entity Recognition]

PG 520: Intelligence Services [Named Entity Recognition] Diskussion Welcher Ansatz ist sinnvoller? Änderungen der Ziele können bei Lernenden Systemen schneller umgesetzt werden Änderungen oder der komplette Austausch der Trainings-Texte sind relativ schnell vollzogen Regelbasierte Systeme müssen einen Großteil der Regeln über Bord werfen, was eine Umstellung schwierig macht  Lernende Systeme sind flexibler hinsichtlich etwaiger Änderungen zur Laufzeit Lernende Systeme sind unabhängig von der eingesetzten Sprache (englisch, deutsch,…) 09.10.2007 PG 520: Intelligence Services [Named Entity Recognition]

PG 520: Intelligence Services [Named Entity Recognition] Diskussion Welcher Ansatz ist sinnvoller? Performanz von regelbasierten Systemen ist höher als die von Lernenden Systemen MUC-7: Wall Street Journal (93,7% vs. 90,4%) Vorteil aber gering Regelbasierte Systeme sind etwas schneller bei der Auswertung 09.10.2007 PG 520: Intelligence Services [Named Entity Recognition]

Noch Fragen?  Ansonsten… Danke fürs Zuhören! 09.10.2007 PG 520: Intelligence Services [Named Entity Recognition]