Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Entitäten Extraktion Wichtige Schritte Petra Maier WS 05/06.

Ähnliche Präsentationen


Präsentation zum Thema: "Entitäten Extraktion Wichtige Schritte Petra Maier WS 05/06."—  Präsentation transkript:

1 Entitäten Extraktion Wichtige Schritte Petra Maier WS 05/06

2 Phänomenbereich Welcher Typ von Entität? Welche Sprache? Sprachunabhängig? Was gehört zum Phänomenbereich – was nicht? Phänomensammlung Gliederung der Phänomene

3 Auswahl des Verfahrens Analyse der Phänomene –Regularität –Erwartete Ambiguitäten –Komplexität Was sind die Anforderungen? Welche Ressourcen sind vorhanden? Referate!

4 Datenquellen Erschließung von möglichst vielen Datenquellen: –Bereits vorhandenes Material –Kaufen von Daten –Auswertung elektronischer Korpora –Internet Recherche: Herunterladen von Listen geeignete Suchanfragen! Wikipedia etc. GIS Systematische Auswertung von Tabellen Viel Kreativität gefragt!

5 Evaluation Berechne Precision, Recall, F-Measure: –Precision: P = |korrekt extrahierte|/|extrahierte| –Recall: R = |korrekt extrahierte|/|alle korrekte| –F-Measue = (2 * P * R) / (P + R) = 2 * |korrekt extrahierte| / (|extrahierte| + |alle korrekte|) Referenzkorpus (Gold Standard, Testdaten) –Von Hand ausgezeichnete Entitäten im Text! –Bei statistischen Verfahren werden die vorhandenen Samples aufgeteilt in Testdaten und Trainingsdaten. –Bei wissensbasierten Verfahren: separate Erstellung des Referenzkorpus Anwendung des Verfahrens auf die Texte des Gold Standards –Manuelles Auszählen –Automatisierte Evaluierung

6 Gold Standard Größe –je gößer desto besser! –So ausgewogen wie möglich (auch unsaubere Daten!) –Alle Ausprägungen des Phänomenbereichs sollten abgedeckt sein –auch genügend negative Beispiele! –Unvoreingenommenheit! –Referenzkorpus auch wichtig zur Verbesserung und Entwicklung des Verfahrens Bei statistischen Verfahren: –Wichtig: die Testdaten dürfen nicht zum Training verwendet werden! –Aufteilung in Test/Training typischerweise 20:80, besser: rotierend

7 Gruppenarbeit EE Ziel: –Vollständige Bearbeitung eines Entity Typs (gegebenenfalls einschränken!) –Gestaltung einer kompletten Sitzung –Ausarbeitung der Hausarbeiten Gruppensitzung –Vorstellung der Phänomene (Definition, Abgrenzung) –Beschreibung der verfügbaren Datenquellen + Nützlichkeit –Vorstellung der Unitex Grammatiken Erklärung der verwendeten Regeln und Lexika Anwendung auf Beispieltexte Stärken/Schwächen Nächste Schritte –optional: Evaluierung, Gold Standard Literaturüberblick

8 Hausarbeit Vollständige Behandlung eines Teilphänomens (schriftliche Ausarbeitung) –Phänomenbeschreibung –Erschließung von Datenquellen Beschreibung Bewertung –Erstellung einer Unitex Grammatik –Beschreibung der Grammatik Verwendete Lexika Beschreibung der wichtigsten Regeln Stärken/Schwächen Verbesserungsmöglichkeiten –Evaluierung Gold Standard Berechnung von Precision, Recall und F-Measure der Unitex Grammatik Analyse der Fehler –Literaturüberblick


Herunterladen ppt "Entitäten Extraktion Wichtige Schritte Petra Maier WS 05/06."

Ähnliche Präsentationen


Google-Anzeigen