Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

NER Named Entity Recognition Björn Baumann. PG 520: Intelligence Services [Named Entity Recognition]2 09.10.2007 Gliederung 1. Definition & Zielsetzung.

Ähnliche Präsentationen


Präsentation zum Thema: "NER Named Entity Recognition Björn Baumann. PG 520: Intelligence Services [Named Entity Recognition]2 09.10.2007 Gliederung 1. Definition & Zielsetzung."—  Präsentation transkript:

1 NER Named Entity Recognition Björn Baumann

2 PG 520: Intelligence Services [Named Entity Recognition] Gliederung 1. Definition & Zielsetzung 2. Entstehung: Message Understanding Conferences 3. Evaluation 4. Interne / Externe Evidenz 5. Mögliche Analyseverfahren Tokenisierung Morphologische Analyse Lexikalische Analyse Syntaktische Analyse Domänenspezifische Analyse 6. Systemarchitekturen Listenbasierte Systeme Regelbasierte Systeme Automatische/Lernende Systeme 7. Diskussion

3 PG 520: Intelligence Services [Named Entity Recognition] Definition & Zielsetzung NER = Named Entity Recognition Erkennt und klassifiziert Bestandteile eines natürlich- sprachlichen Textes Named Entities sind definit, also in der Regel nur einmal vorhanden Nur relevante Informationen sollen klassifiziert / kategorisiert werden (daher: named) Informationen, die zu dem gesuchten eine semantische Relevanz haben Relevanz wird durch Auswahl der passenden Trainingsdaten und Tags bestimmt Named Entities können Namen, Organisationen, Orte, Zeitangaben, oder quantitative Aussagen sein Teilbereich der Information Extraction (IE) NER wurde 1995 in MUC-6 erstmals als Ziel definiert

4 PG 520: Intelligence Services [Named Entity Recognition] Eingabe: Auch die widersprüchlichen Angaben darüber, wie viel Geld Bohlen tatsächlich am 11. Dezember 2006 gestohlen wurde, wollte das Landgericht Bochum klären… Ausgabe: Auch die widersprüchlichen Angaben darüber, wie viel Geld Bohlen tatsächlich am 11. Dezember 2006 gestohlen wurde, wollte das Landgericht Bochum klären… Beispiel Definition & Zielsetzung NER-Markierungen

5 PG 520: Intelligence Services [Named Entity Recognition] Entstehung Message Understanding Conference Erstmals 1987 stattgefundene Konferenz mit der Zielsetzung, bessere Information Extraction Methoden zu finden Verschiedene Teams versuchen eine vorgegebene Aufgabe zu lösen Texte und Zielsetzungen werden vorgegeben In MUC-6 (1995) wurde zum ersten Mal das Ziel, Named Entities / Koreferenz zu finden, definiert MUC-7 hat beispielsweise Space Vehicles & Missile Launches als Thema

6 PG 520: Intelligence Services [Named Entity Recognition] Evaluationsmaße Anzahl korrekt klassifizierter NEs Anzahl NEs gefunden Precision = Anzahl korrekt klassifizierter NEs Anzahl vorhandener NEs Recall = 2*Precision*Recall Precision + Recall F-Measure = F-Measure: Ungewichteter harmonischer Mittelwert zwischen Präzision und Ausbeute Recall (Ausbeute): Anteil der korrekt klassifizierten Named Entities zu den insgesamt vorhandenen NE Precision (Präzision): Anteil der korrekt klassifizierten NE aus der Menge aller gefundenen NE (aber nicht aller vorhandenen)

7 PG 520: Intelligence Services [Named Entity Recognition] Grundsätzlich kann man bei der Klassifikation von Wörtern Interne und Externe Evidenz unterscheiden Interne Evidenz ist das Wissen über das einzelne Wort, das es zu klassifizieren gilt Eintrag im Lexikon oder anderer lexikalischer Ressourcen Bestimmte Wortbestandteile (-burg) sowie Groß- und Kleinschreibung Externe Evidenz nutzt den Kontext des Wortes um eine Einordnung in eine Klasse vorzunehmen Beispiel: die franz. Stadt … dies deutet stark auf einen Ortsnamen als nachfolgendes Wort hin Interne / Externe Evidenz

8 PG 520: Intelligence Services [Named Entity Recognition] Mögliche Analyseverfahren Tokenisierung Morphologische Analyse Lexikalische Analyse Syntaktische Analyse Domänenspezifische Analyse

9 PG 520: Intelligence Services [Named Entity Recognition] Mögliche Analyseverfahren Tokenisierung Erkennen der Wortgrenzen Einfach zu realisieren in europäischen Sprachen (Leerzeichen zwischen Worten), schwierig für japanisch oder chinesisch Hier muss ein umfangreicheres Modul die Grenzen erkennen Satzzeichen markieren Struktur des Textes (.,,,?) Auch hier: eventuell schwieriger in anderen Sprachen Abkürzungen können durch Kapitale erkannt werden

10 PG 520: Intelligence Services [Named Entity Recognition] Morphologische Analyse von Wörtern versucht die einzelnen Wörter zu vereinfachen Erkennen von Präfix bzw. Suffix Zurückführung eines einfachen oder komplexen Wortes auf sein Lemma Morphologische Analyse kann in manchen Sprachen weniger wichtig (Englisch) in vielen anderen aber sehr bedeutend sein (Deutsch, Französisch) Stemming bestimmt die Stammform eines Verbs Spart Lexikon-Einträge und hält die Regelmenge klein Viele Stammformen der Verben weisen stark auf eine bestimmte Klasse hin denken Mensch Teile eines Wortes können ebenfalls auf eine Klasse hinweisen Endungen wie -burg,-stadt, -dorf Ortsname Mögliche Analyseverfahren Morphologische Analyse

11 PG 520: Intelligence Services [Named Entity Recognition] Viele Wörter können direkt durch Nachschlag in einem Lexikon einer bestimmten Klasse zugeordnet werden Bei mehrdeutigen Wörtern genügt allerdings die lexikalische Analyse allein nicht und ein Einbezug des Kontextes ist erforderlich Essen Ort oder Mahlzeit? Bank Finanzeinrichtung oder Sitzmöbel? Buchen Sie mir einen Flug vs. Die Buchen dort sind schon alt. Mögliche Analyseverfahren Lexikalische Analyse

12 PG 520: Intelligence Services [Named Entity Recognition] Aufteilung des Satzes in seine syntaktischen Elemente (Nomen, Verben, Präpositionen,…) um Kontextinformationen zu gewinnen POS-Tagging (Part-of-Speech-Tagging) POS-Tagger ordnen jedes Wort einer Wortklasse zu POS-Tagger TnT klassifiziert englische Wörter mit 86% und deutsche mit 89% zur richtigen Wortart Disambiguierung (Aufheben von Mehrdeutigkeiten) der Worte durch Einbezug des Kontexts Wichtig: weist auch unbekannten Wortphrasen eine Bedeutung zu anhand von Kontext und Wortform zu Full-Parsing Analyse der kompletten Satzkonstruktionen mit Hilfe eines Parsebaums, der an kontextfreie Grammatiken angelehnt ist Allerdings schlechte Performanz und fehlerbehaftet Wird so gut wie nicht mehr verwendet! Mögliche Analyseverfahren Syntaktische Analyse

13 PG 520: Intelligence Services [Named Entity Recognition] Koreferenz-Auflösung: Erkennen von gleichen Referenzen innerhalb eines Texts (auch temporale Referenzen möglich) IBM International Business Machine Deutsche Bahn AG Die Bahn entlässt Mitarbeiter USA U.S.A. United States of America Uhr 4.20 PM (temporale Referenz) Merging: Zusammenfügen von gleichen Relationen zwischen NE Mögliche Analyseverfahren Domänenspezifische Analyse

14 PG 520: Intelligence Services [Named Entity Recognition] Listenbasierte Systeme Regelbasierte Systeme Automatische / Lernende Systeme Systemarchitekturen

15 PG 520: Intelligence Services [Named Entity Recognition] Theoretisch könnte man in einer riesigen Wort-DB alle Wörter speichern, die es als NE zu erkennen gilt. Auch morphologische Varianten müssten dann abgespeichert werden. Einfach zu Erstellen und schnelle Erkennung ABER: Unmöglich alle NE zu speichern Nicht in der Lage mehrdeutige Wörter zu disambiguieren Kaum möglich Zeitangaben oder quantitative Aussagen in einer solchen Liste zu speichern Systemarchitekturen Listenbasierte Systeme

16 PG 520: Intelligence Services [Named Entity Recognition] Definieren Regeln, die das Einsortieren der einzelnen Token ermöglichen Nutzung von Lexika, syntaktischem Wissen, morphologischem Wissen und domänenspezifischen Wissen Erzeugung einer Grammatik, Parser übernimmt die Ableitung der Named Entities Relativ alte Technik um Wörter einer Klasse zuzuordnen Systemarchitekturen Regelbasierte Systeme

17 PG 520: Intelligence Services [Named Entity Recognition] Muss von spezialisierten Linguisten entwickelt werden Benötigt nur eine kleine Menge an Trainings- Datensätzen Entwicklung sehr zeitaufwändig, da umfassende Grammatiken konstruiert werden müssen Erweiterung und Anpassung einer umfassenden, komplexen Grammatik an eine neue Domäne ist aufwändig Bessere Performanz gegenüber Lernenden Systemen (Precision & Recall) Systemarchitekturen Regelbasierte Systeme

18 PG 520: Intelligence Services [Named Entity Recognition] Aufeinanderfolgende Phrasen der Form GmbH deuten mit hoher Wahrscheinlichkeit auf eine Firma / Organisation hin Ebenso geben großgeschriebene Worte Hinweise auf eine Firma bzw. Organisation: NASA, ADAC, UNICEF,… Vorkommen von -burg, -dorf, -stadt deutet auf eine Ortsangabe aus dem deutschsprachigen Raum denken ist, unabhängig vom Tempus der Verbform, in der dritten Person immer ein starker Hinweis für ein menschliches Subjekt produzieren ist ebenso ein starker Hinweis auf eine Firma / Organisation Beispiele Systemarchitekturen Regelbasierte Systeme

19 PG 520: Intelligence Services [Named Entity Recognition] Nutzt statistische oder andere Methoden des Maschinellen Lernens Benötigt aber ein hohes Maß an qualitativ guten Trainings-Texten Beschaffung dieser Trainings-Daten kann manchmal schwieriger als das Entwerfen von Regeln sein (…für eine bestimmte Domäne) Oft sind kleine spezifische Wörterbücher hilfreicher als große mit vielen möglichen Bedeutungen Wichtige Verfahren des Maschinellen Lernens Hidden Markov Models ( IdentiFinder) Maximale Entropie ( MENE) Conditional Random Fields Support Vector Machines Systemarchitekturen Automatische / Lernende Systeme

20 PG 520: Intelligence Services [Named Entity Recognition] Overfitting Overfitting ist die Überanpassung auf bestimmte Trainings- Datensätze, die immer und immer wieder gelernt werden Wird nun ein anderer Datensatz verwendet kann dies zu sehr hohen Fehlerraten bei der Klassifikation führen Große Wörterbücher tendieren zu einer höheren Anzahl an Fehlern Sehr umfangreiche Wörterbücher mit vielen Einträgen neigen gerade bei häufig vorkommenden Named Entities zu falschen oder mehrdeutigen Einsortierungen Kleine, dem jeweiligen Thema angepasste Wörterbücher sinnvoller Systemarchitekturen Automatische / Lernende Systeme

21 PG 520: Intelligence Services [Named Entity Recognition] Änderungen der Ziele können bei Lernenden Systemen schneller umgesetzt werden Änderungen oder der komplette Austausch der Trainings-Texte sind relativ schnell vollzogen Regelbasierte Systeme müssen einen Großteil der Regeln über Bord werfen, was eine Umstellung schwierig macht Lernende Systeme sind flexibler hinsichtlich etwaiger Änderungen zur Laufzeit Lernende Systeme sind unabhängig von der eingesetzten Sprache (englisch, deutsch,…) Diskussion Welcher Ansatz ist sinnvoller?

22 PG 520: Intelligence Services [Named Entity Recognition] Performanz von regelbasierten Systemen ist höher als die von Lernenden Systemen MUC-7: Wall Street Journal (93,7% vs. 90,4%) Vorteil aber gering Regelbasierte Systeme sind etwas schneller bei der Auswertung Diskussion Welcher Ansatz ist sinnvoller?

23 PG 520: Intelligence Services [Named Entity Recognition] Noch Fragen? Ansonsten… Danke fürs Zuhören!


Herunterladen ppt "NER Named Entity Recognition Björn Baumann. PG 520: Intelligence Services [Named Entity Recognition]2 09.10.2007 Gliederung 1. Definition & Zielsetzung."

Ähnliche Präsentationen


Google-Anzeigen