Text Mining auf annotierten Texten

Slides:

Advertisements

Ähnliche Präsentationen

Prof. Dr. Stephan Pareigis Prof. Dr. Birgit Wendholt

Advertisements

Hinweise zu Ausarbeitung und Vortrag

Motivation E-Learning in der Hochschullehre

Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/ Berlin C. Fritze / O. Duntze : Das Deutsche Textarchiv Tag der.

Kapitel 12 Praktisches Training Lehrgangsüberblick und Praktische Hinweise fürs Training.

Fortgeschrittenenpraktika WS 2003/04 Database Research Group, Prof. Dr. Bernhard Seeger Department of Mathematics and Computer Science University of Marburg.

Anmerkungen zu XML Im September 2000 Entwicklung/Anspruch von XML

Inhaltlich orientierter Zugriff auf unstrukturierte Daten

Seminar/Übung, SoSe 2009, 1. Sitzung

Digitalisierung und Aufbereitung von Sprachdaten

Auswertung der Interviews

Klaus J. Kohler IPDS, Kiel

Die Registervariablen: Tenor of Discourse

Der Umgang mit qualitativ erhobenen Daten: Strategien der Datenanalyse

Webbasiertes qualitatives Wissensmanagement Aktuelle Tendenzen

Treffen mit Siemens Siemens: Werner Ahrens Volkmar Morisse Projektgruppe: Ludger Lecke Christian Platta Florian Pepping Themen:

Hauptseminar Grundlagen der theoretischen Physik

Zusammenarbeit zwischen GFZ Potsdam und Weinberg-Gymnasium Kleinmachnow Projektvorschlag für eine Kooperation bei der Entwicklung und Gestaltung der GESIS-„Science.

Das Experteninterview

Recherche im Ein einführendes Tutorial Informationssystem Medienpädagogik

UML Begleitdokumentation des Projekts

Allgemeine Informationen

Allgemeine Informationen

Arbeitsstand und Arbeitsbedarf Bibliotheken

Maschinelles Lernen Bayessche Verfahren (Mitchell Kap. 6), Teil 1.

Titel des Vortrags Name des Vortragenden Seminar

Citavi im Prozess der wissenschaftlichen Arbeit

Wissenschaftliches Arbeiten...

Text Mining Dr. Brigitte Mathiak.

Webseitengestaltung.

Unternehmenskurzportrait für Mediadent. Ausgewählte Referenzen Die folgenden Web-Designs sind teilweise noch nicht publiziert.

Vukovic, Marbot, Fanton.

7th German CDISC User Group Basel, 11. März 2010 Willkommen zum Define.xml Workshop.

Typo3 Templates und TypoScript

Project Perseus Der volle Projektname lautet Perseus Digital Library Project. Das Projekt begann in 1985 als Experiment zur Digitalisierung von Bibliotheken.

Fakultät Informatik » Institut Systemarchitektur » Professur Datenschutz und Datensicherheit Einführung Proseminar „Kryptographische Grundlagen der Datensicherheit“

A Social Tagging Environment for Web Information Extraction

Nucleus-International.net Visualisierung Wie und Warum 04/2008

… und Methodenkompetenz

Einführung in Datenbankmodellierung und SQL

Naturwissenschaft, bei der die neuen Technologien jede Phase der wissenschaftlichen Arbeit unterstützen: Die Informationsbeschaffung - Sensoren. Die Informationsverarbeitung.

EPROG Tutorium #4 Philipp Effenberger

VWA-INFOS Die vorwissenschaftliche Arbeit

Projekt: Schüler verbessern ihren Unterricht

Checkliste für die Einleitung

Page Seminar IM EIN Thema auswählen Zumindest 3 Artikel (fast sicher englischsprachig) aus guten Journals dazu heraus suchen.

Gut Präsentieren mit Microsoft Powerpoint oder OpenOffice Impress.

Computer Networks Group Universität Paderborn Pro/Seminar Rechnernetze WS 07/08 Holger Karl.

Akademie für Lehrerfortbildung Esslingen

Digitale Annotationen. Grundlage: John Bradley “Towards a Richer Sense of Digital Annotation: Moving Beyond a Media Orientation of the Annotation of Digital.

Reality is Broken Jane McGonigal Universität zu Köln AM2: Medien zwischen Technologie und Gesellschaft Jonathan Simon.

Abschlussprojekt.  Wahl eines beliebigen Themas (z.b. Hobby)  eigenständige Ausarbeitung des gewählten Themas in Form einer Website Abschlussprojekt.

Text Encoding Initiative Universität zu Köln Daten- und Metadatenstandards Seminarleitung: Patrick Sahle Seminarleitung: Patrick Sahle Referentin: Anna.

Varieties of Capitalism Caspar Meili

Ausbildungsrede Spreeredner Berlin 25. Februar 2010 Wie man einen Bewertungswettbewerb gewinnen kann.

Rechtschreibung erforschen

Das Schreiblabor an der Universität Bielefeld

Modul Datenmodelle entwickeln

Carsten Haberland Otto-von-Guericke-Universität Magdeburg Seminar: Security-based Web Engineering Steganography and Watermarking Techniques Steganalysis.

Einführung in Text Mining

Masterarbeitsvorbereitung

(Katharina Holzinger)

Seminar Medizinische Informatik 2015/

Die klassischen Methoden der historisch-vergleichenden Forschung Universität Zürich Soziologisches Institut Seminar: Methoden des internationalen Vergleichs.

Lern- und Forschungswerkstatt I - LF I (1) 1. Semester Soziale Arbeit, B. A. Gruppe A: Mi., Uhr bis Uhr, Raum 212 Dozentin: Prof. Dr. phil.

© WZL/Fraunhofer IPT Entwicklung einer Profilbörse für Konfigurationen von Smartphones Vortrag der Seminararbeit von Patrick Posor Aachen, den

Seminar Medizinische SS Erik Tute Die Lehrveranstaltung im Überblick ●Aufgabe: –Erarbeitung eines aktuellen, wissenschaftlichen Themas.

Vernetzte Forschungsumgebung in den eHumanities

Reinhard Messerschmidt, Brigitte Mathiak

Practical Exercises and Theory

Präsentation transkript:

Text Mining auf annotierten Texten Prof. Dr. Brigitte Mathiak

Was ist Text Mining? Die Kunst aus Text etwas maschinenverwertbares zu machen Methodisch an der Schnittstelle zwischen Natural Language Processing und Data Mining Grundkenntnisse in Computerlinguistik, aber auch in KI sind hilfreich

Was kann man mit Text Mining machen? Klassische sind Textklassifikation (z.B. Spam) und Themenanalyse (z.B. für Verzeichnisse) Man kann allerdings auch andere Daten miteinbeziehen (z.B. Zeit) und dann Trendanalysen machen Oft sucht man nicht nach Klassen, sondern versucht besonders ähnliche oder besonders unähnliche Dokumente zu finden Mit Hilfe von Extrawissen, z.B. Wortdatenbanken, kann man auch spezielle Einschätzungen machen, z.B. ob jemand ein Thema positiv oder negativ sieht

Annotated Text An annotation is metadata (e.g. a comment, explanation, presentational markup) attached to text, image, or other data. Often, annotations refer to a specific part of the original data. (Wikipedia) Der wohl häufigste annotierte Text sind Webseiten, bei denen Informationen zu Layout, etc. in HTML codiert sind. Hier sind wir an inhaltlichen Annotationen interessiert, wenn also ein Mensch ein oder mehrere Worte mit einem Kommentar versehen haben

QDA-Software und annotierte Textkorpora Hauptseminar Text Mining auf annotierten Texten Cologne Center for eHumanities (CCeH) University of Cologne Universität zu Köln

Qualitative Datenanalyse wird in vielen sozial- und geisteswissenschaftlichen Disziplinen angewendet ermöglicht vertiefte Einblicke in beobachtete Phänomene mittels z.B. offener oder (semi-)strukturierter oder problemzentrierter Interviews, Experteninterviews und Gruppendiskussionen qualitativer Inhalts- und Diskursanalyse (z.B. Medien etc.) KEINE generalisierende Schlüsse aufgrund meist geringer Fallzahlen und Sampling Bias Cologne Center for eHumanities (CCeH) University of Cologne Universität zu Köln

QDA-Software ist zunächst lediglich eine Datenbank in Kombination mit spezifischen Funktionen für Annotation (drag&drop), Editierung und Visualisierung gibt keine bestimmte Methode der Analyse vor, beeinflusst aber deren Optionen sowie den Arbeitsstil Funktionalität ist insbesondere im Hinblick auf Export durchaus heterogen (XML bei Max QDA und Atlas.ti, HTML nur pro Code/ „node“ bei NVivo) Cologne Center for eHumanities (CCeH) University of Cologne Universität zu Köln

Atlas.ti Universität zu Köln Cologne Center for eHumanities (CCeH) University of Cologne

NVivo Universität zu Köln Cologne Center for eHumanities (CCeH) University of Cologne

MaxQDA #1 Qual. Interview Universität zu Köln

MaxQDA #2: Inhaltsanalyse Universität zu Köln

MaxQDA #3 Diskursanalyse Universität zu Köln

MaxQDA #4 eTRACES (GESIS) Universität zu Köln

Vorhandene Datensätze MaxQDA: Forschungsdaten mit Codesystem im zeitl. Verlauf (5) Beispieldaten (3) Nvivo: Forschungsdaten (3) Beispieldaten (?) Atlas.ti: Beispieldaten (5) Cologne Center for eHumanities (CCeH) University of Cologne Universität zu Köln

Mögliche Forschungsbereiche Prediction Codes Prediction Codenamen/ -konzepte Modellierung in TEI Evolution von Codesystemen (-kategorien) Linguistische Analysen von Codes Code-Kontext Individualität (Prediction Coder) Unterschiedliche Akzente MaxQDA, atlas.ti, NVivo Cologne Center for eHumanities (CCeH) University of Cologne Universität zu Köln

Der Aufbau Zweier- oder Dreiergruppen mit gemischten Erfahrungen Thema soll praktisch bearbeitet werden Es wird evtl. keine „gute“ Lösung geben, daher ist es wichtig den Weg zu dokumentieren Eine der angewendeten Lösungsmethoden soll theoretisch aufgearbeitet werden Im Vortrag und im Seminar wird dann beides vorgestellt

Vortrag und Hausarbeit Vortrag: 20 min + 10 min Diskussion Einen Entwurf der Folien brauche ich spätestens eine Woche vor dem Vortragstermin 2 bis 3 Vortragstermine am Ende des Semesters bei denen dann alle geblockt vortragen Ausarbeitung: Ca. 20 Seiten Ein Teil in dem die Zusammenarbeit und Arbeitsaufteilung im Team beschrieben wird (z.B. Evelyn hat programmiert, ich habe die Recherchen gemacht und den Text geschrieben, Friedrich hat 500 Dokumente gelabelt) Mindestens 3 echte wissenschaftliche Papiere referenzieren Abgabe am Ende des Semesters; Maximale Verlängerung mit Ausrede bis zum 1.4.16

Bewertung Eigenständiges Arbeiten und Recherchieren Witzige Ideen Gute Kommunikation Fleiß Schönes Layout Gute Ergebnisse

Themen Prediction Codes Prediction Codenamen/ -konzepte Modellierung in TEI Evolution von Codesystemen (-kategorien) Linguistische Analysen von Codes Code-Kontext Individualität (Prediction Coder) Unterschiedliche Akzente MaxQDA, atlas.ti, NVivo