Melanie Andresen und Dagmar Knorr Von einer Datensammlung zum Korpus die Datenlage der Schreibwerkstatt Mehrsprachigkeit Melanie Andresen und Dagmar Knorr
Überblick Woher stammen die Daten? Welche Daten werden gesammelt? Wie möchten wir die Daten nutzen – Beispiel einer Suchanfrage Auf dem Weg zu einem Korpus
Peer Tutoren Schreibberatung Aufgabe der Peer Tutoren Schreibberatung = durch Textkommentierungen und Gespräche ratsuchende Studierende unterstützen, Schreib- und Textkompetenz aufzubauen = keine gezielte Datenhebung, sondern Nebenprodukt der praktischen Beratungstätigkeit
Datensammlung – Überblick Dokumenttyp Datei-Formate Datensätze Metadaten zu den Ratsuchenden .fm4 180 Texte von Ratsuchenden .doc(x), .pdf ca. 350 Texte von Ratsuchenden mit Kommentierungen von PT .doc(x) ca. 200 Texte von Ratsuchenden mit Kommentierungen von Lehrenden .pdf ca. 10 Beratungsprotokolle 213 Beratungsgespräche .mp3, .mp4, .wav, .wma ca. 35 Inhaltsübersichten zu den Beratungsgesprächen .xls 31 Transkriptionen der Beratungsgespräche .exb 2
Beispiel – Datensatz Metadaten Erfassung von Metadaten, die wir auch für unsere Verwaltung verwenden, z.B. erfassen wir hier auch die E-Mail-Adresse, um einen Newsletter verschicken zu können, und es wird eingetragen, welches Angebot besucht wurde (zusätzlich zur Peer Tutoren Schreibberatung), um daraus Daten für den Projektbericht gewinnen zu können.
Beispiel – Datensatz Beratungsprotokoll
Beispiel – Datenablage
Metadaten liegen als FileMaker Datenbank vor Metadaten liegen als FileMaker Datenbank vor. Ebenso die Beratungsprotokolle
Suchanfrage stellen Suche Texte von Studierenden – mit Migrationshintergrund – angestrebter Abschluss: LA Jetzt: Eine spezielle Form der Nutzung, die in Richtung Auswertung/Arbeit mit den Textdaten zielt. Wir möchten / brauchen, um herausfinden zu können, welches spezifische Anforderungen bestimmter RS-Gruppen sind, z.B. folgende Anfrage.
Suchanfrage stellen – Leserführung Suche Texte von Studierenden – mit Migrationshintergrund – angestrebter Abschluss: LA – Leserführung
Dokumentauswahl als Ergebnis
Frage Welche Software-Lösungen existieren, um solche Suchabfragen zu ermöglichen? Wie können die Metadaten sinnvoll mit den Dokumenten verbunden werden?
Aufbereiten der Texte + allgemeine Kommentare direkt im Text Also: Nicht nur Texte, sondern auch die Kommentare müssen annotiert werden, damit wir Fragestellungen untersuchen können, wie: Wo setzen Kommentierungen an? Was wird kommentiert? Wie wird kommentiert? Und dann in Folge: Wie entwickelt sich der Text im Anschluss an die Kommentierung? (in der nächsten Fassung) + allgemeine Kommentare direkt im Text
Mögliche Fragestellungen qualitative Fragen An welchen Stellen werden Textkommentare angebracht? Wie entwickeln sich Texte durch Kommentierungen? quantitative Fragen Vorkommen von Sprechhandlungsverben Vorkommen von Funktionsverbgefügen
Annotation (halb)automatische Annotation manuelle Annotation (Tokenisierung, Lemmatisierung, Part-of-Speech Tagging, Syntax?) manuelle Annotation Mikroebene (z. B. Kontaminationen/Verschränkungen) Mesoebene (z. B. Portmanns (i. Dr.) Unterscheidung von Referat, Elaboration, Deklaration) Makroebene (z. B. Textstruktur) Frage: Gewünscht sind Hinweise zur manuellen Annotation? Textstruktur: Phänomen: Ist im Kapitel „Forschungsstand“ angesiedelt, gehört aber eigentlich in die Einleitung. Wie annotiert man Higher Order Concerns?
Veröffentlichung des Korpus Was muss bei der Korpuserstellung mit Blick auf eine Veröffentlichung beachtet werden? Welche der Daten sollen veröffentlicht werden? Wo kann das Korpus veröffentlicht werden?
Fragen und Antworten?