Entitäten Extraktion Wichtige Schritte Petra Maier WS 05/06.

Slides:



Advertisements
Ähnliche Präsentationen
GrafStat Ausgabe 2009 Ein kurzer Überblick.
Advertisements

PG Intelligence Service
Grundstudiumspraktikum “Maschinelle Übersetzung”
Anleitung und Informationen Anleitung zum Bearbeiten der VCT Anleitung zum Einfügen von Dokumenten Informationen zur Verwendung von Bildern und anderen.
Music Information Retrieval: Genre & Stil
Dr. Helmuth Sagawe WS 2010/11 Universität Heidelberg
Termextraktion Ziele der Extraktion Stand der Extraktionsprogramme
Seminar Textmining WS 06/07 Themen Übung 9 Multilingualität Weitere Termine: 13.7.Symbolfolgen und PageRank Findlinks mitstreiter gesucht!
WS 05/06Automatische Akquisition linguistischen Wissens1 Partielles Wissen erweitern 1.Zusammenhang mit bisherigen Algorithmen 2.Vom offensichtlichen zum.
Produktmodelle im Service Engineering
Inhaltlich orientierter Zugriff auf unstrukturierte Daten
5. Gestaltung von Übungen Bedeutung, Formen und Prinzipien der
Evaluation. Gliederung Definition von Evaluation Charakterisierung Ziele und Aufgaben Formen und Methoden Richtlinien Methodenkoffer Literatur.
Übung 5 Mehrstufige Client/Server-Systeme mit Enterprise Java Beans
Pädagogische Diagnostik
zu einer erfolgreichen Präsentation
Leistungsdiagnostik im Unterricht
Friedhelm Meyer auf der Heide 1 HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Grammatiken beschreiben Sprachen L µ *, indem.
Gliederung Begriffsklärung Systematische Evaluation
Evaluation – Grundlagen im Rahmen des Moduls zur Qualifizierung der SLK in Niedersachsen.
Online-Evaluationssystems
HTML - Eine erste Annäherung
Computerkurs: Quantitative Auswertung biochemischer Experimente Guten Morgen.
Der Umgang mit qualitativ erhobenen Daten: Strategien der Datenanalyse
Indoor Navigation Performance Analysis
Wahl des Themas Präzisieren der Formale Eingrenzung Fragestellung
Aspekte des neuen Lehrplans Informatik
Eine Präsentation von Annika Barner
Fehlerabdeckung/ Regressionstest1 Testen und Analysieren von Software Fehlerbehebung und Re-Engineering Fehlerabdeckung/ Regressionstest Vortragende:
Die Härteprüfung von Gips
Arbeit und Energie präsentiert von
Allgemeine Informationen
Allgemeine Informationen
Maschinelles Lernen und automatische Textklassifikation
Entitäten Extraktion Einführung
Titel des Vortrags Name des Vortragenden Seminar
Das Wasserfallmodell - Überblick
Vom Image zum Volltext – Texterkennung im Projekt „OstDok“
Starten Sie optimal in das neue Jahr nach dem Weihnachtsgeschäft Werbeaktionen für den Weihnachtsausverkauf Vertraulich © , Amazon.com, Inc. und.
Christian Schulz, Marc Thielbeer, Sebastian Boldt
Externe Bewertung in IB-Biologie
Was ist Multimedia? Multimedia = Nutzungsmöglichkeit verschiedener Medien (Text, Bild, Ton) über ein Gerät (PC) Beispiele Abspielen von Film- oder Musik-CDs.
Chi Quadrat Test Tamara Katschnig.
Evaluation im MindMatters Projekt
Dateien Datei = File (engl.) Mögliche Inhalte einer Datei
Gesprächsleitung und Moderation
E-Learning in Theorie & Praxis
FEEDBACK FÜR DAS POL- KONZEPT DER GRUPPE ÖKOPARK.
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Hartmut Klauck Universität Frankfurt SS
1 Nutzen Sie diese Powerpoint-Präsentation beim Selbstlernen oder in Veranstaltungen zur Einführung in das jeweilige Thema. Einführung Lernmodul Nutzungsbedingungen:
WebQuest Reiseziel Schwäbisch Hall Ein Unterrichtsprojekt mit Computer und Internet Klickt nun bitte weiter auf Einführung.Einführung Einführung Aufgabe.
Die Umsetzung der ökonomischen Analyse in Hessen
Studieren Lernen Claudia Lischke-Arzt.
Gesprächsleitung und Moderation
CS108 Programmierprojekt Präsentation Meilenstein 1
Die Projektphasen der heutigen Präsentation im Überblick
Audiovisuelles Projekt INSA Lyon – GRAL –
Frank Schmidt: Präsentationsprüfungen in der Praxis
Testvorbereitungen, Unit Test
Die einfachste Variante! Anlegen, ausfüllen und senden !
Statistik – Regression - Korrelation
Werk im Kontext Werk im Kontext
Neue Medien Geschichte - Hagen Februar 2004
Allgemeine Informationen zur Hausarbeit und Recherche Dr. Stephan Ortmann – FernUniversität in Hagen.
2 Grundlagen In diesem Abschnitt werden die Grundbegriffe und Methoden der Theorie der formalen Sprachen und der Automaten wiederholt, soweit diese ben.
Tutorium Wissenschaftliches Arbeiten
Univ.-Prof. Dr.-Ing. H. Nacken Vorlesung Wasserwirtschaft & Hydrologie I Themen: Vorlesung 8 Statistik Dichtefunktionen Jährliche und partielle Serien.
M adlmayr B ernhard S oftware E ngineering - WS 12 P rojektvorschlag M eilian A hmad R izal K aiser D aniel G ruppe 3 – T eam 7.
 Präsentation transkript:

Entitäten Extraktion Wichtige Schritte Petra Maier WS 05/06

Phänomenbereich Welcher Typ von Entität? Welche Sprache? Sprachunabhängig? Was gehört zum Phänomenbereich – was nicht? Phänomensammlung Gliederung der Phänomene

Auswahl des Verfahrens Analyse der Phänomene –Regularität –Erwartete Ambiguitäten –Komplexität Was sind die Anforderungen? Welche Ressourcen sind vorhanden? Referate!

Datenquellen Erschließung von möglichst vielen Datenquellen: –Bereits vorhandenes Material –Kaufen von Daten –Auswertung elektronischer Korpora –Internet Recherche: Herunterladen von Listen geeignete Suchanfragen! Wikipedia etc. GIS Systematische Auswertung von Tabellen Viel Kreativität gefragt!

Evaluation Berechne Precision, Recall, F-Measure: –Precision: P = |korrekt extrahierte|/|extrahierte| –Recall: R = |korrekt extrahierte|/|alle korrekte| –F-Measue = (2 * P * R) / (P + R) = 2 * |korrekt extrahierte| / (|extrahierte| + |alle korrekte|) Referenzkorpus (Gold Standard, Testdaten) –Von Hand ausgezeichnete Entitäten im Text! –Bei statistischen Verfahren werden die vorhandenen Samples aufgeteilt in Testdaten und Trainingsdaten. –Bei wissensbasierten Verfahren: separate Erstellung des Referenzkorpus Anwendung des Verfahrens auf die Texte des Gold Standards –Manuelles Auszählen –Automatisierte Evaluierung

Gold Standard Größe –je gößer desto besser! –So ausgewogen wie möglich (auch unsaubere Daten!) –Alle Ausprägungen des Phänomenbereichs sollten abgedeckt sein –auch genügend negative Beispiele! –Unvoreingenommenheit! –Referenzkorpus auch wichtig zur Verbesserung und Entwicklung des Verfahrens Bei statistischen Verfahren: –Wichtig: die Testdaten dürfen nicht zum Training verwendet werden! –Aufteilung in Test/Training typischerweise 20:80, besser: rotierend

Gruppenarbeit EE Ziel: –Vollständige Bearbeitung eines Entity Typs (gegebenenfalls einschränken!) –Gestaltung einer kompletten Sitzung –Ausarbeitung der Hausarbeiten Gruppensitzung –Vorstellung der Phänomene (Definition, Abgrenzung) –Beschreibung der verfügbaren Datenquellen + Nützlichkeit –Vorstellung der Unitex Grammatiken Erklärung der verwendeten Regeln und Lexika Anwendung auf Beispieltexte Stärken/Schwächen Nächste Schritte –optional: Evaluierung, Gold Standard Literaturüberblick

Hausarbeit Vollständige Behandlung eines Teilphänomens (schriftliche Ausarbeitung) –Phänomenbeschreibung –Erschließung von Datenquellen Beschreibung Bewertung –Erstellung einer Unitex Grammatik –Beschreibung der Grammatik Verwendete Lexika Beschreibung der wichtigsten Regeln Stärken/Schwächen Verbesserungsmöglichkeiten –Evaluierung Gold Standard Berechnung von Precision, Recall und F-Measure der Unitex Grammatik Analyse der Fehler –Literaturüberblick