Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Text Mining auf annotierten Texten Prof. Dr. Brigitte Mathiak.

Ähnliche Präsentationen


Präsentation zum Thema: "Text Mining auf annotierten Texten Prof. Dr. Brigitte Mathiak."—  Präsentation transkript:

1 Text Mining auf annotierten Texten Prof. Dr. Brigitte Mathiak

2 Was ist Text Mining? Die Kunst aus Text etwas maschinenverwertbares zu machen Methodisch an der Schnittstelle zwischen Natural Language Processing und Data Mining Grundkenntnisse in Computerlinguistik, aber auch in KI sind hilfreich

3 Was kann man mit Text Mining machen? Klassische sind Textklassifikation (z.B. Spam) und Themenanalyse (z.B. für Verzeichnisse) Man kann allerdings auch andere Daten miteinbeziehen (z.B. Zeit) und dann Trendanalysen machen Oft sucht man nicht nach Klassen, sondern versucht besonders ähnliche oder besonders unähnliche Dokumente zu finden Mit Hilfe von Extrawissen, z.B. Wortdatenbanken, kann man auch spezielle Einschätzungen machen, z.B. ob jemand ein Thema positiv oder negativ sieht

4 Annotated Text An annotation is metadata (e.g. a comment, explanation, presentational markup) attached to text, image, or other data. Often, annotations refer to a specific part of the original data. (Wikipedia) Der wohl häufigste annotierte Text sind Webseiten, bei denen Informationen zu Layout, etc. in HTML codiert sind. Hier sind wir an inhaltlichen Annotationen interessiert, wenn also ein Mensch ein oder mehrere Worte mit einem Kommentar versehen haben

5

6 QDA-Software und annotierte Textkorpora Hauptseminar Text Mining auf annotierten Texten Universität zu Köln Cologne Center for eHumanities (CCeH) University of Cologne

7 Qualitative Datenanalyse wird in vielen sozial- und geisteswissenschaftlichen Disziplinen angewendet ermöglicht vertiefte Einblicke in beobachtete Phänomene mittels z.B. offener oder (semi-)strukturierter oder problemzentrierter Interviews, Experteninterviews und Gruppendiskussionen qualitativer Inhalts- und Diskursanalyse (z.B. Medien etc.) KEINE generalisierende Schlüsse aufgrund meist geringer Fallzahlen und Sampling Bias Universität zu Köln Cologne Center for eHumanities (CCeH) University of Cologne

8 QDA-Software ist zunächst lediglich eine Datenbank in Kombination mit spezifischen Funktionen für Annotation (drag&drop), Editierung und Visualisierung gibt keine bestimmte Methode der Analyse vor, beeinflusst aber deren Optionen sowie den Arbeitsstil Funktionalität ist insbesondere im Hinblick auf Export durchaus heterogen (XML bei Max QDA und Atlas.ti, HTML nur pro Code/ „node“ bei NVivo) Universität zu Köln Cologne Center for eHumanities (CCeH) University of Cologne

9 Universität zu Köln Cologne Center for eHumanities (CCeH) University of Cologne Atlas.ti

10 Universität zu Köln Cologne Center for eHumanities (CCeH) University of Cologne NVivo

11 MaxQDA #1 Qual. Interview Universität zu Köln

12 MaxQDA #2: Inhaltsanalyse Universität zu Köln

13 MaxQDA #3 Diskursanalyse Universität zu Köln

14 MaxQDA #4 eTRACES (GESIS) Universität zu Köln

15 Vorhandene Datensätze MaxQDA: -Forschungsdaten mit Codesystem im zeitl. Verlauf (5) -Beispieldaten (3) Nvivo: -Forschungsdaten (3) -Beispieldaten (?) Atlas.ti: -Beispieldaten (5) Universität zu Köln Cologne Center for eHumanities (CCeH) University of Cologne

16 Mögliche Forschungsbereiche 1.Prediction Codes 2.Prediction Codenamen/ -konzepte 3.Modellierung in TEI 4.Evolution von Codesystemen (-kategorien) 5.Linguistische Analysen von Codes 6.Code-Kontext 7.Individualität (Prediction Coder) 8.Unterschiedliche Akzente MaxQDA, atlas.ti, NVivo Universität zu Köln Cologne Center for eHumanities (CCeH) University of Cologne

17 Der Aufbau Zweier- oder Dreiergruppen mit gemischten Erfahrungen Thema soll praktisch bearbeitet werden Es wird evtl. keine „gute“ Lösung geben, daher ist es wichtig den Weg zu dokumentieren Eine der angewendeten Lösungsmethoden soll theoretisch aufgearbeitet werden Im Vortrag und im Seminar wird dann beides vorgestellt

18 Vortrag und Hausarbeit Vortrag: 20 min + 10 min Diskussion Einen Entwurf der Folien brauche ich spätestens eine Woche vor dem Vortragstermin 2 bis 3 Vortragstermine am Ende des Semesters bei denen dann alle geblockt vortragen Ausarbeitung: Ca. 20 Seiten Ein Teil in dem die Zusammenarbeit und Arbeitsaufteilung im Team beschrieben wird (z.B. Evelyn hat programmiert, ich habe die Recherchen gemacht und den Text geschrieben, Friedrich hat 500 Dokumente gelabelt) Mindestens 3 echte wissenschaftliche Papiere referenzieren Abgabe am Ende des Semesters; Maximale Verlängerung mit Ausrede bis zum

19 Bewertung 1.Eigenständiges Arbeiten und Recherchieren 2.Witzige Ideen 3.Gute Kommunikation 4.Fleiß 5.Schönes Layout 6.Gute Ergebnisse

20 Themen 1.Prediction Codes 2.Prediction Codenamen/ -konzepte 3.Modellierung in TEI 4.Evolution von Codesystemen (-kategorien) 5.Linguistische Analysen von Codes 6.Code-Kontext 7.Individualität (Prediction Coder) 8.Unterschiedliche Akzente MaxQDA, atlas.ti, NVivo


Herunterladen ppt "Text Mining auf annotierten Texten Prof. Dr. Brigitte Mathiak."

Ähnliche Präsentationen


Google-Anzeigen