Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

NER Named Entity Recognition

Ähnliche Präsentationen


Präsentation zum Thema: "NER Named Entity Recognition"—  Präsentation transkript:

1 NER Named Entity Recognition
Björn Baumann

2 PG 520: Intelligence Services [Named Entity Recognition]
Gliederung Definition & Zielsetzung Entstehung: Message Understanding Conferences Evaluation Interne / Externe Evidenz Mögliche Analyseverfahren Tokenisierung Morphologische Analyse Lexikalische Analyse Syntaktische Analyse Domänenspezifische Analyse Systemarchitekturen Listenbasierte Systeme Regelbasierte Systeme Automatische/Lernende Systeme Diskussion PG 520: Intelligence Services [Named Entity Recognition]

3 Definition & Zielsetzung
NER = Named Entity Recognition Erkennt und klassifiziert Bestandteile eines natürlich-sprachlichen Textes Named Entities sind definit, also in der Regel nur einmal vorhanden Nur relevante Informationen sollen klassifiziert / kategorisiert werden (daher: named) Informationen, die zu dem gesuchten eine semantische Relevanz haben Relevanz wird durch Auswahl der passenden Trainingsdaten und Tags bestimmt Named Entities können Namen, Organisationen, Orte, Zeitangaben, oder quantitative Aussagen sein Teilbereich der Information Extraction (IE) NER wurde 1995 in MUC-6 erstmals als Ziel definiert -Es gibt bis heute keine ganz genaue Definition von NER im Deutschen Hier könnte man am Ende noch ein Beispiel bringen was Named Entities sind und was nicht (bspw: Gerhard Schröder vs. Bundeskanzler). Eigennamen sollten nur einmal vorkommen und definit sein -Semantische Erschließung von Texten im Gegensatz zum rein syntaktischen Auffinden von Textpassagen via Suchmaschine -Eigennamen vs. Gattungsnamne wie bei „VW Golf“,… PG 520: Intelligence Services [Named Entity Recognition]

4 PG 520: Intelligence Services [Named Entity Recognition]
Definition & Zielsetzung NER-Markierungen Beispiel Eingabe: Auch die widersprüchlichen Angaben darüber, wie viel Geld Bohlen tatsächlich am 11. Dezember 2006 gestohlen wurde, wollte das Landgericht Bochum klären… Ausgabe: Auch die widersprüchlichen Angaben darüber, wie viel Geld <Person>Bohlen</Person> tatsächlich am <Datum>11. Dezember 2006</Datum> gestohlen wurde, wollte das <Organisation>Landgericht Bochum</Organisation> klären… Beispiel für eine übliche NER-Markierung PG 520: Intelligence Services [Named Entity Recognition]

5 Entstehung Message Understanding Conference
Erstmals 1987 stattgefundene Konferenz mit der Zielsetzung, bessere Information Extraction Methoden zu finden Verschiedene Teams versuchen eine vorgegebene Aufgabe zu lösen Texte und Zielsetzungen werden vorgegeben In MUC-6 (1995) wurde zum ersten Mal das Ziel, Named Entities / Koreferenz zu finden, definiert MUC-7 hat beispielsweise „Space Vehicles & Missile Launches“ als Thema - MUC wurden von der DARPA instutiiert Die Defense Advanced Research Projects Agency (DARPA) ist die Agentur des Pentagons, die Hightech-Projekte für das US-Militär durchführt, u.a. auch Weltraumprojekte Erfolgreichstes Projekt war 1969 die Verbindung von vier Rechnerknoten, dem ARPANET PG 520: Intelligence Services [Named Entity Recognition]

6 PG 520: Intelligence Services [Named Entity Recognition]
Evaluationsmaße Precision (Präzision): Anteil der korrekt klassifizierten NE aus der Menge aller gefundenen NE (aber nicht aller vorhandenen) Anzahl korrekt klassifizierter NEs Precision = Anzahl NEs gefunden Recall (Ausbeute): Anteil der korrekt klassifizierten Named Entities zu den insgesamt vorhandenen NE Anzahl korrekt klassifizierter NEs Recall = Anzahl vorhandener NEs F-Measure: Ungewichteter harmonischer Mittelwert zwischen Präzision und Ausbeute 2*Precision*Recall F-Measure = Precision + Recall PG 520: Intelligence Services [Named Entity Recognition]

7 PG 520: Intelligence Services [Named Entity Recognition]
Interne / Externe Evidenz Grundsätzlich kann man bei der Klassifikation von Wörtern Interne und Externe Evidenz unterscheiden Interne Evidenz ist das Wissen über das einzelne Wort, das es zu klassifizieren gilt Eintrag im Lexikon oder anderer lexikalischer Ressourcen Bestimmte Wortbestandteile (-burg) sowie Groß- und Kleinschreibung Externe Evidenz nutzt den Kontext des Wortes um eine Einordnung in eine Klasse vorzunehmen Beispiel: „die franz. Stadt …“  dies deutet stark auf einen Ortsnamen als nachfolgendes Wort hin Einfach in der engl. Sprache da hier alle Eigennamen groß geschrieben werden, sehr schwierig für die deutsche Sprache PG 520: Intelligence Services [Named Entity Recognition]

8 Mögliche Analyseverfahren
Tokenisierung Morphologische Analyse Lexikalische Analyse Syntaktische Analyse Domänenspezifische Analyse PG 520: Intelligence Services [Named Entity Recognition]

9 Mögliche Analyseverfahren Tokenisierung
Erkennen der Wortgrenzen Einfach zu realisieren in europäischen Sprachen (Leerzeichen zwischen Worten), schwierig für japanisch oder chinesisch Hier muss ein umfangreicheres Modul die Grenzen erkennen Satzzeichen markieren Struktur des Textes (“.“, “,“,“?“) Auch hier: eventuell schwieriger in anderen Sprachen Abkürzungen können durch Kapitale erkannt werden Auch beim einfachen Punkt sind Ambiguitäten zu klären, während ein Fragezeichen oder Ausrufezeichen sicher auf das Ende eines Satzes hinweist. PG 520: Intelligence Services [Named Entity Recognition]

10 PG 520: Intelligence Services [Named Entity Recognition]
Mögliche Analyseverfahren Morphologische Analyse Morphologische Analyse von Wörtern versucht die einzelnen Wörter zu „vereinfachen“ Erkennen von Präfix bzw. Suffix Zurückführung eines einfachen oder komplexen Wortes auf sein Lemma Morphologische Analyse kann in manchen Sprachen weniger wichtig (Englisch) in vielen anderen aber sehr bedeutend sein (Deutsch, Französisch) Stemming bestimmt die Stammform eines Verbs Spart Lexikon-Einträge und hält die Regelmenge klein Viele Stammformen der Verben weisen stark auf eine bestimmte Klasse hin denken  Mensch Teile eines Wortes können ebenfalls auf eine Klasse hinweisen Endungen wie „-burg“,“-stadt“, „-dorf“  Ortsname PG 520: Intelligence Services [Named Entity Recognition]

11 PG 520: Intelligence Services [Named Entity Recognition]
Mögliche Analyseverfahren Lexikalische Analyse Viele Wörter können direkt durch Nachschlag in einem Lexikon einer bestimmten Klasse zugeordnet werden Bei mehrdeutigen Wörtern genügt allerdings die lexikalische Analyse allein nicht und ein Einbezug des Kontextes ist erforderlich „Essen“  Ort oder Mahlzeit? „Bank“ Finanzeinrichtung oder Sitzmöbel? „Buchen Sie mir einen Flug“ vs. „Die Buchen dort sind schon alt.“ Lexikalische Mehrdeutigkeit vs. Part-of-Speech Mehrdeutigkeit PG 520: Intelligence Services [Named Entity Recognition]

12 PG 520: Intelligence Services [Named Entity Recognition]
Mögliche Analyseverfahren Syntaktische Analyse Aufteilung des Satzes in seine syntaktischen Elemente (Nomen, Verben, Präpositionen,…) um Kontextinformationen zu gewinnen POS-Tagging (Part-of-Speech-Tagging) POS-Tagger ordnen jedes Wort einer Wortklasse zu POS-Tagger „TnT“ klassifiziert englische Wörter mit 86% und deutsche mit 89% zur richtigen Wortart Disambiguierung (Aufheben von Mehrdeutigkeiten) der Worte durch Einbezug des Kontexts Wichtig: weist auch unbekannten Wortphrasen eine Bedeutung zu anhand von Kontext und Wortform zu Full-Parsing Analyse der kompletten Satzkonstruktionen mit Hilfe eines Parsebaums, der an kontextfreie Grammatiken angelehnt ist Allerdings schlechte Performanz und fehlerbehaftet Wird so gut wie nicht mehr verwendet! PG 520: Intelligence Services [Named Entity Recognition]

13 PG 520: Intelligence Services [Named Entity Recognition]
Mögliche Analyseverfahren Domänenspezifische Analyse Koreferenz-Auflösung: Erkennen von gleichen Referenzen innerhalb eines Texts (auch temporale Referenzen möglich) IBM  International Business Machine Deutsche Bahn AG  Die Bahn entlässt Mitarbeiter USA  U.S.A.  United States of America 16.20 Uhr  4.20 PM (temporale Referenz) Merging: Zusammenfügen von gleichen Relationen zwischen NE PG 520: Intelligence Services [Named Entity Recognition]

14 PG 520: Intelligence Services [Named Entity Recognition]
Systemarchitekturen Listenbasierte Systeme Regelbasierte Systeme Automatische / Lernende Systeme PG 520: Intelligence Services [Named Entity Recognition]

15 PG 520: Intelligence Services [Named Entity Recognition]
Systemarchitekturen Listenbasierte Systeme Theoretisch könnte man in einer riesigen Wort-DB alle Wörter speichern, die es als NE zu erkennen gilt. Auch morphologische Varianten müssten dann abgespeichert werden. Einfach zu Erstellen und schnelle Erkennung ABER: Unmöglich alle NE zu speichern Nicht in der Lage mehrdeutige Wörter zu disambiguieren Kaum möglich Zeitangaben oder quantitative Aussagen in einer solchen Liste zu speichern Also kein wirklich guter Ansatz für ein Verfahren PG 520: Intelligence Services [Named Entity Recognition]

16 PG 520: Intelligence Services [Named Entity Recognition]
Systemarchitekturen Regelbasierte Systeme Definieren Regeln, die das Einsortieren der einzelnen Token ermöglichen Nutzung von Lexika, syntaktischem Wissen, morphologischem Wissen und domänenspezifischen Wissen Erzeugung einer Grammatik, Parser übernimmt die Ableitung der Named Entities Relativ alte Technik um Wörter einer Klasse zuzuordnen PG 520: Intelligence Services [Named Entity Recognition]

17 PG 520: Intelligence Services [Named Entity Recognition]
Systemarchitekturen Regelbasierte Systeme Muss von spezialisierten Linguisten entwickelt werden Benötigt nur eine kleine Menge an Trainings-Datensätzen Entwicklung sehr zeitaufwändig, da umfassende Grammatiken konstruiert werden müssen Erweiterung und Anpassung einer umfassenden, komplexen Grammatik an eine neue Domäne ist aufwändig Bessere Performanz gegenüber Lernenden Systemen (Precision & Recall) PG 520: Intelligence Services [Named Entity Recognition]

18 PG 520: Intelligence Services [Named Entity Recognition]
Systemarchitekturen Regelbasierte Systeme Beispiele Aufeinanderfolgende Phrasen der Form <Wort><Wort> GmbH deuten mit hoher Wahrscheinlichkeit auf eine Firma / Organisation hin Ebenso geben großgeschriebene Worte Hinweise auf eine Firma bzw. Organisation: NASA, ADAC, UNICEF,… Vorkommen von „-burg“, „-dorf“, -„stadt“ deutet auf eine Ortsangabe aus dem deutschsprachigen Raum „denken“ ist, unabhängig vom Tempus der Verbform, in der dritten Person immer ein starker Hinweis für ein menschliches Subjekt „produzieren“ ist ebenso ein starker Hinweis auf eine Firma / Organisation Methoden der externen Evidenz!! Learning Systems benutzen in der Regel vorzugsweise Methoden der Internen Evidenz PG 520: Intelligence Services [Named Entity Recognition]

19 PG 520: Intelligence Services [Named Entity Recognition]
Systemarchitekturen Automatische / Lernende Systeme Nutzt statistische oder andere Methoden des Maschinellen Lernens Benötigt aber ein hohes Maß an qualitativ guten Trainings-Texten Beschaffung dieser Trainings-Daten kann manchmal schwieriger als das Entwerfen von Regeln sein (…für eine bestimmte Domäne) Oft sind kleine spezifische Wörterbücher hilfreicher als große mit vielen möglichen Bedeutungen Wichtige Verfahren des Maschinellen Lernens Hidden Markov Models ( IdentiFinder) Maximale Entropie ( MENE) Conditional Random Fields Support Vector Machines PG 520: Intelligence Services [Named Entity Recognition]

20 PG 520: Intelligence Services [Named Entity Recognition]
Systemarchitekturen Automatische / Lernende Systeme Overfitting Overfitting ist die Überanpassung auf bestimmte Trainings-Datensätze, die immer und immer wieder gelernt werden Wird nun ein anderer Datensatz verwendet kann dies zu sehr hohen Fehlerraten bei der Klassifikation führen Große Wörterbücher tendieren zu einer höheren Anzahl an Fehlern Sehr umfangreiche Wörterbücher mit vielen Einträgen neigen gerade bei häufig vorkommenden Named Entities zu falschen oder mehrdeutigen Einsortierungen Kleine, dem jeweiligen Thema angepasste Wörterbücher sinnvoller PG 520: Intelligence Services [Named Entity Recognition]

21 PG 520: Intelligence Services [Named Entity Recognition]
Diskussion Welcher Ansatz ist sinnvoller? Änderungen der Ziele können bei Lernenden Systemen schneller umgesetzt werden Änderungen oder der komplette Austausch der Trainings-Texte sind relativ schnell vollzogen Regelbasierte Systeme müssen einen Großteil der Regeln über Bord werfen, was eine Umstellung schwierig macht  Lernende Systeme sind flexibler hinsichtlich etwaiger Änderungen zur Laufzeit Lernende Systeme sind unabhängig von der eingesetzten Sprache (englisch, deutsch,…) PG 520: Intelligence Services [Named Entity Recognition]

22 PG 520: Intelligence Services [Named Entity Recognition]
Diskussion Welcher Ansatz ist sinnvoller? Performanz von regelbasierten Systemen ist höher als die von Lernenden Systemen MUC-7: Wall Street Journal (93,7% vs. 90,4%) Vorteil aber gering Regelbasierte Systeme sind etwas schneller bei der Auswertung PG 520: Intelligence Services [Named Entity Recognition]

23 Noch Fragen?  Ansonsten… Danke fürs Zuhören!
PG 520: Intelligence Services [Named Entity Recognition]


Herunterladen ppt "NER Named Entity Recognition"

Ähnliche Präsentationen


Google-Anzeigen