Patrick Jähnichen, Antje Schlaf

Slides:

Advertisements

Ähnliche Präsentationen

Cluster- Projekt Präsentiert von Dominik Henn & Torben Pastuch

Advertisements

Charlotte Schubert, Gerhard Heyer Universität Leipzig

Präsentiert von Torben Pastuch

Kohonennetze für Information Retrieval mit User Feedback

PG 520 Intelligence Service

PG Intelligence Service

Pop Jazz C B A Jazz C A Lehrstuhl für Künstliche Intelligenz

Intelligente Anwendungen im Internet

NER Named Entity Recognition

Herzlich willkommen zur Veranstaltung „Internet-Recherche“

Institut für Informatik Abteilung Datenbanken Problemseminar Datacleaning Überblick Datacleaning.

Seminar Textmining WS 06/07 Themen Übung 11 unsupervised vs. supervised Symbolfolgen, Kunstsprachen Page Rank.

Seminar Textmining WS 06/07 Themen Übung 8 Stemming Crawling.

Seminar Textmining WS 06/07 Themen Übung 8 Diskussion über Erkennung von Eigennamen Question Answering Stemming.

Seminar Textmining WS 06/07 Themen Übung 9 Multilingualität Weitere Termine: 13.7.Symbolfolgen und PageRank Findlinks mitstreiter gesucht!

Inhaltlich orientierter Zugriff auf unstrukturierte Daten

Hands On – Einführung in XML

HTML - Einführung Richard Göbel.

Eine Biografie aus ADB/NDB als XML Datenbanken vs. Markup Prof Dr. Manfred Thaller WS 2009 / 2010 Referent: Bilal Erkin.

Benutzen von Internetseiten

Pattern detection and object recognition

Demoprogramm: Clustering Eine graphische Demonstration verschiedener Clusteringalgorithmen anhand des Clusterings von Punkten im zweidimensionalen Raum.

Universität Dortmund, Lehrstuhl Informatik 1 EINI II Einführung in die Informatik für Naturwissenschaftler und Ingenieure.

Anwendungen. © Prof. T. Kudraß, HTWK Leipzig Historie des WWW Grundlage Internet – Entwickelt Ende der 60er Jahre vom US-Militär (ARPA-Net) – Technische.

Kann man automatisch klassifizieren

Projekt A4: Alignment of Situation Models Gert Rickheit Sven Wachsmuth Constanze Vorwerg Agnes Swadzba SFB-Kolloqium,

1 Reverse Engineering WS 07 / 08 A. Zündorf. Fachgebiet Software Engineering Übersicht © Albert Zündorf, Kassel University 2 Organisatorisches.

Einführung MySQL mit PHP

1 Grundlagen und Anwendung der Extensible Markup Language (XML ) Peter Buxmann Institut für Wirtschaftsinformatik Johann Wolfgang Goethe-Universität Frankfurt.

Methodisches Problemlösen - die INVENToolbox ® der INVENT NET ® GmbH

Machine Learning Was wir alles nicht behandelt haben.

Entitäten Extraktion Einführung

Entitäten Extraktion Wichtige Schritte Petra Maier WS 05/06.

Seniorkom.at vernetzt Jung & Alt Das Internet ist reif

Automatische Übersetzungen mit Google

Verfahren zur Stammformreduktion

Entwurf und Realisierung einer digitalen Bibliothek zur Verwaltung von Notenhandschriften Dipl.-Ing. Temenushka Ignatova Datenbank- und Informationssysteme,

Gegenstand EDV Thema: Informative Webseiten

Computerorientierte Physik VORLESUNG Zeit: jeweils Mo Uhr Ort: Hörsaal 5.01, Institut für Experimentalphysik, Universitätsplatz 5, A-8010.

Binde & Wallner Engineering GmbH

mathe online und Medienvielfalt im Mathematikunterricht

Typo3 Templates und TypoScript

Project Perseus Der volle Projektname lautet Perseus Digital Library Project. Das Projekt begann in 1985 als Experiment zur Digitalisierung von Bibliotheken.

Proseminar: „Webtechnologien für Ecommerce“

Sesame Florian Mayrhuber

Ausgabe vom Seite 1, XML Eine Einführung XML - Eine Einführung.

Abteilung für automatische Sprachverarbeitung

Using latent semantic analysis to find different names for the same entity in free text Präsentation und Diskussion des Papers Im Rahmen des PS Web-Information.

Visualisieren, Animieren und Präsentieren mit

Mailingliste des Instituts für Geographie Zur Ankündigung fachspezifischer Veranstaltungen sowie für wichtige Mitteilungen des Instituts steht allen Interessierten.

Eine kurze Einführung.  Software zur Erstellung eines Dokumenten- servers  Dient zur Aufbewahrung von allen Typen von digitalen Inhalten (Texte, Bilder,

Information Retrieval, Vektorraummodell

Datenbanken im Web 1.

XML Die “E-Lance Economy” oder die “Digital Economy” stellt neue Anforderungen an Funktionalität im Netz. XML wurde vom World Wide Web Consortium (W3C)

Dreamteam: Web 2.0 und der Katalog Anne Christensen und Thomas Hapke GBV-Verbundkonferenz

Projekt A4: „Alignment of Situation Models“ Dr. Gerd Rickheit Dr. Sven Wachsmuth Dr. Constanze Vorwerg Agnes Swadzba SFB-Kolloqium,

Dieser Vortrag wird gesponsort von:

Das Internet Ein Netzwerk, das viele Rechner miteinander verbindet

Institut für Informationssysteme Technische Universität Braunschweig Institut für Informationssysteme Technische Universität Braunschweig Verdrängung von.

Hypertext Markup Language

Schulungsunterlagen der AG RDA Vertretungen der Öffentlichen Bibliotheken.

Einführung in Text Mining

Hauptseminar „Data Science“: Mining Social Media

CL Tree MW 31.1 Business Intelligence Wintersemester 2015 / 2016 Stanislav Prokupetz.

Pascal Brunner Uniklinik RWTH Aachen Institut für Medizinische Informatik Integration von ImageJ- und Matlab- Servern in das Electronic Data Capture klinischer.

Entwurf, Implementierung und Test eines Java – Web Services als Kommunikationsschnittstelle für Webapplikationen mit Funktionen.

Englischunterricht mit dem Lehrmittel «New World».

Trainingscamp Hörverstehen Katharina Leiss  In Teil 1 gibt es 6 Punkte.  In Teil 2 gibt es 7 Punkte.  In Teil 3 gibt es 7 Punkte. A2 bekommst.

datengetriebene Marketing-Entscheidungen zu treffen

Präsentation transkript:

Patrick Jähnichen, Antje Schlaf Text Mining - Übung Patrick Jähnichen, Antje Schlaf

Patrick Jähnichen Textmining - Übung Ablauf Übungen finden im zweiwöchigen Rhythmus statt Nächste Termine: 07.11., 28.11., 12.12., 09.01., 30.01. Termine und Themen stehen rechtzeitig auf der ASV Homepage Termin bestehen aus zwei Teilen 50 Minuten: Zwei Vorträge von Studierenden 20 Minuten Vortrag / 5 Minuten Diskussion Themenvergabe immer für den nächsten Termin 40 Minuten: Übung Fragen zur Vorlesung Wiederholung des Stoffes Beispielrechnungen Patrick Jähnichen Textmining - Übung

Patrick Jähnichen Textmining - Übung Themen nächste Woche Büchler, Geßner, Eckart, Heyer: Unsupervised Detection and Visualization of Textual Reuse on Ancient Greek Texts Brin: Extracting Patterns and Relations from the World Wide Web Patrick Jähnichen Textmining - Übung

Patrick Jähnichen Textmining - Übung Resource Projekt Deutscher Wortschatz wortschatz.uni-leipzig.de Zugriff auf Webservices Wörter des Tages Corpora corpora.informatik.uni-leipzig.de Zugriff auf Wortstatistiken, Kookkurrenzen, Kookkurrenzgraphen Patrick Jähnichen Textmining - Übung

Patrick Jähnichen Textmining - Übung Tools nltk (Natural Language Processing Toolkit) Python Bibliothek Verschiedene Korpora verfügbar Informationen unter www.nltk.org Dokumentation und Beispiele Mallet (Machine Learning for Language Toolkit) Java package Fokus auf Machine Learning Anwendungen z.B. Dokumentklassifikation, NER, Topicmodelle Informationen unter mallet.cs.umass.edu Patrick Jähnichen Textmining - Übung

Patrick Jähnichen Textmining - Übung Begriffsdefinition Bündel von Analyseverfahren, die die algorithmusassistierte Entdeckung von Bedeutungsstrukturen aus un- oder schwachstrukturierten Textdaten ermöglichen soll (Wikipedia) Was wollen wir wissen/machen/heraus bekommen? Analyse großer Dokumentkorpora Extraktion von bekanntem Wissen (also Namen, Daten, Relationen) Extraktion von unbekanntem Wissen (etwa thematische Einordnung von Dokumenten, Synonym- und Polysemerkennung, Themenfindung) Taxonomie- / Ontologieextraktion Patrick Jähnichen Textmining - Übung

Grundlegendes Vorgehen Dokumente Ergebnis-datenbanken 1. Preprocessing: Säubern, LangID, Verweise, ... 2. Filter: Zerlegung, Markup, Metadaten, … 3. Verarbeitung: - statistische Verfahren - Muster basierte Verfahren Indexierung Analysis of text Patrick Jähnichen Textmining - Übung

Grundlegendes Vorgehen Preprocessing Extraktion des eigentlichen Textes Anlegen von Wörterbüchern Entfernen von Stopwörtern Termentfernung (Mindestfrequenz) Entfernung von Punktuation Filtering Extraktion von Metadaten (z.B. Autor des Textes, Erscheinungsort- und Datum, Sprache, etc.) Stemming/Lemmatisierung (Grundformreduktion) POS-Tagging Patrick Jähnichen Textmining - Übung

Grundlegendes Vorgehen Nutzen des extrahierten, gereinigten Textes und der Metadaten zum eigentlichen Textmining Erstellung von Featurevektoren Textparameter bestimmen Textmerkmale (aus vorangegangenem Schritt verfügbar) Textstruktur Autor Addressat Entstehungskontext (Zeit, Ort, Medium) Patrick Jähnichen Textmining - Übung

Featurevektoren für Dokumente Dokumentlänge Sprache Wort N-Gramme und Wortkookkurrenzen deren Frequenzen Relative Häufigkeit Signifikanzen in Verbindung mit Referenzkorpus Ähnlichkeiten von N-Grammen und Kookkurrenzen Muster von Wort N-Grammen Patrick Jähnichen Textmining - Übung

Featurevektoren für Einzelwörter Worthäufigkeit Wortlänge (stat. signifikante) Kookkurrenz mit anderen Wörtern Prä- und Suffixe POS-Tag Buchstaben N-Gramme mit Frequenzen Orthographie Patrick Jähnichen Textmining - Übung

Patrick Jähnichen Textmining - Übung Beispieltext Ausgangstext Drei sind einer zu viel: Frankreich war es ein Dorn im Auge, dass im Rat der Europäischen Zentralbank künftig drei Italiener sitzen sollen. Jetzt hat Italiens Premier Berlusconi seinen Landsmann Bini Smaghi aufgefordert, von seinem Posten zurückzutreten - und sich dem Druck des Franzosen Sarkozy gebeugt. Stopwortentfernung Frankreich Dorn Auge Rat Europäischen Zentralbank Italiener sitzen Italiens Premier Berlusconi Landsmann Bini Smaghi aufgefordert Posten zurückzutreten Druck Franzosen Sarkozy gebeugt Patrick Jähnichen Textmining - Übung

Patrick Jähnichen Textmining - Übung Beispieltext POS-Tagging Frankreich[NN] Dorn[NN] Auge[NN] Rat[NN] Europäischen [ADJ] Zentralbank[NN] Italiener[NN] sitzen[V] Italiens[NN] Premier[NN] Berlusconi[NN] Landsmann[NN] Bini[NN] Smaghi[NN] aufgefordert[V] Posten[NN] zurückzutreten[V] Druck[NN] Franzosen[NN] Sarkozy[NN] gebeugt[V] einige Wortkookkurrenzen Wortfenster Länge 2 Dorn Auge Franzosen Sarkozy Premier Berlusconi Posten zurückzutreten Wortfenster Länge 3 Rat (der) Europäischen Zentralbank Italiens Premier Berlusconi Landsmann Bini Smaghi Längere Wortfenster Druck gebeugt Patrick Jähnichen Textmining - Übung

Patrick Jähnichen Textmining - Übung Verfahren Stringbasiert Editierdistanz Text Reuse Musterbasiert Patterns, Bootstrapping NER, Informations-/Relationsextraktion Inhaltsbasiert Latent Semantic Analysis und Topicmodelle Clustering, Classification Kookkurrenzbasiert Hybridverfahren Patrick Jähnichen Textmining - Übung

Named Entity Recognition Unterverfahren der Informationsextraktion Fokussierung auf vorgefertigte informationelle Kategorien Extraktion und korrekte Einordnung von Eigennamen im Text Nutzung von Einzelwortfeatures Für jedes Einzelwort soll entschieden werden, ob, und wenn ja, welche Art von Eigenname dies ist. Kokkurrenz mit anderen Wörtern z.B. Triggerwörter aus der Vorlesung: GmbH, Stadt, Buch Orthographie z.B. Patrick --> Xxxxxxx, IL-2 --> XX-# Präfixe/Suffixe Patrick --> <P, <Pa, <Pat, ..., ick>, ck>, k> Patrick Jähnichen Textmining - Übung

Patrick Jähnichen Textmining - Übung Named Entities Vorname Nachname Beruf Ort Institution Daten Adressen ... Patrick Jähnichen Textmining - Übung

Named Entity Recognition Mithilfe von Support Vector Machines Jedes Objekt (Wort) als Vektor in einem Vektorraum Anpassung einer Hyperebene im Vektorraum zur Einteilung der Objekte in zwei Klassen (SVM ist ein binärer Klassifikator) Zur Berechnung der Hyperebene werden nur die ihr am nächsten liegenden Vektoren benötigt --> Stützvektoren (Support Vectors) Patrick Jähnichen Textmining - Übung

Support Vector Machines Hyperebene nur möglich, wenn Objekte linear trennbar Trick: Überführung in höherdimensionale Räume, „irgendwann“ ist eine lineare Trennung möglich In NER One-vs.-All Methode Patrick Jähnichen Textmining - Übung

Support Vector Machines Vorgehen Ausgangspunkt ist eine annotierte Liste von Named Entities d.h. eine Liste von Termen mit Featurevektoren und Kategorisierung Trainieren einer SVM zur Entscheidung Named Entity <-> „normales“ Substantiv Für jede Kategorie Trainieren eine gesonderten SVM zur Entscheidung Kategorie trifft zu <-> trifft nicht zu One-vs.-All Kann das Wort in keine Kategorie klassifiziert werden, wird es als allgemein als Named Entity gekennzeichnet Patrick Jähnichen Textmining - Übung

Named Entity Recognition Musterbasiert mithilfe des Pendelalgorithmus DEMO Antje Schlaf Patrick Jähnichen Textmining - Übung