Korpusanalyse und Forschungsfrage Korpusbasierte Wissenserschließung (Übung)  im WS 2010/11 von Dr. phil. Helmuth Sagawe M.A.

Slides:



Advertisements
Ähnliche Präsentationen
Die Mailing-Liste der Musterlösung
Advertisements

Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/ Berlin C. Fritze / O. Duntze : Das Deutsche Textarchiv Tag der.
Dr. Brigitte Mathiak Kapitel 10 Physische Datenorganisation.
Jugendsprache interaktiv
Computeria Zürich Treff vom 1. März 2006 alle eigenen Daten sichern Ein Vortrag von René Brückner.
Dr. Helmuth Sagawe WS 2010/11 Universität Heidelberg
1 Sprachressourcen-Gipfel IDS Mannheim Mai 2009 Bayerisches Archiv für Sprachsignale Florian Schiel & Christoph Draxler schiel |
eine Plattform für annotierte Korpora in XML
Arbeits- und Präsentationstechniken 1 Teil A: Wissenschaftstheoretische Grundlagen Prof. Dr. Richard Roth WS 2011/2012 APT 1 Prof. Dr. Richard Roth.
Bewegungswissenschaft
Eine RDF Konvention für die Beschreibung phonetischer Ressourcen im Semantic Web Hauptseminar: Historisch-Kulturwissenschaftliche Objekte im Semantic Web.
Untersuchungsarten im quantitativen Paradigma
Das AM Modell der Intonation
Grundlagen der Analyse von Sprachdatenbanken
Datenbanken vs. Markup Manfred Thaller WS 2009/2010 Humanities Computing Linda Scholz.
Grundkurs Linguistik Programm der Vorlesung Oktober
Situationen Verteilte Anwendungen Wintersemester 06/07 © Wolfgang Schönfeld.
Spree SoSe 2007 Titel Lexikographie und Metalexikographie Lexikonproduktion und Lexikontheorie Dank an Franziskus Geeb, der mir seine Unterrichtsmaterialien.
Methoden der empirischen Sozialforschung II
Anglizismen im Deutschen
Forschungsprozess Car
Über den Einsatz normierter diagnostischer Verfahren in der Arbeitstherapie Von der Anwendung bestehender psychometrischer Tests zur Normierung der eigenen.
Sprachverstehenstest in germanischen Sprachen
Emotionsanalyse anhand der Sprache, Mimik und Gestik
Entwicklung standardorientierter Aufgaben – am Beispiel naturwissenschaftliche Erkenntnisgewinnung Jürgen Mayer.
Deutsche einsprachige Korpora немецкие одноязычные корпуса Institut für Slawistik Seminar: Slawische Korpuslinguistik SS 2006 O. Prof. Dr. Branko Tošović
Hellmut Riediger Recherchieren: Grundsätze und Grundbegriffe
Durchführung einer Zielgruppenanalyse
Anglo-Amerikanische Korpuslinguistik Anglo-American Corpus Linguistics Erstellt von Gudrun Krenn Slawische Korpuslinguistik SE SS 2006 Dr. Branko Tošović
Das folgende Spiel besteht aus 4 Fragen, anhand derer sich Ihre Professionalität messen lässt.   Die Fragen sind gar nicht schwer, also nicht mogeln und.
Moin. Ich benutze PPT 2002 und möchte drei Bilder nacheinander 1
Wissenschaft und wissenschaftliches Arbeiten
Wichtige bibliographische Begriffe: Kurs WA, Zrelski, BRG WY, 2013.
4. Kommunikative Fähigkeit und Text
Dr. Nicole Gallina Einführung in die Politikwissenschaft Sitzung vom 21.9.
Dr. Nicole Gallina Einführung in die Politikwissenschaft
Bernd-Kristian Kaczenski Humboldt-Universität zu Berlin
Grundfragen,Grundbegriffe, Teildisziplinen,Ziele,Nutzen
Theorie psychometrischer Tests, IV
Oberbegriff: Diskursanalyse Gesprächsanalyse/ Koversationsanalyse
Elternabend der Schule … vom …
Formale Hinweise zur Facharbeit
Projekt: Schüler verbessern ihren Unterricht
Web 2.0 Interaktives Internet.
Lernen durch Vergleiche
EÜ Literatur Alles Goethe, oder was?
Testgütekriterien Tamara Katschnig.
Methoden Die klassische Methode der Psycholinguistik (genauso wie der experimentellen Psychologie im Allgemeinen) ist die Messung von Reaktionszeiten.
Das System Erde verstehen mit. Silvia Gysler, Primarlehrerin GLOBE ist nicht nur ein kleines Schulprojekt. GLOBE ist etwas Wichtiges, unser Einsatz.
Grammatikalische Begriffe im Unterricht
Prognose als vorwärtsgerichtete Erklärung
Grundlagen und Bewertungskriterien für unterschiedliche Assessments
Gegenstand der Psychologie
Georg Spitaler PS Interpretative Zugänge zu Popularkultur WS 2004/05.
Methoden der Sozialwissenschaften
Steinegger 2002/2004.
Lexikalische Semantik
Diese weltweit größte Sammlung von deutschsprachigen Textkorpora für die linguistische Forschung - online recherchierbar über COSMAS I - umfasst zur Zeit.
Projektformulierung für die Baccalaureat-Arbeit
Tutorium Inhalte heute  Organisatorisches  Einführung in postmoderne Ansätze in den Internationalen Beziehungen.
Programmiersprachen II Vorbesprechung Klausur Prof. Dr. Reiner Güttler Fachbereich GIS HTW.
Masterarbeitsvorbereitung
ResA am Arbeitsplatz Das Vorgehen ist angelehnt an „5 S“ und bietet Ihnen die Möglichkeit das Konzept der 5 Disziplinen ressourcenschonenden Arbeitens.
 Am Ende der letzten Stunde hatten wir über die Grenzen unserer Automaten-Modell gesprochen. Dr. Lars Ettelt2  Tipp: Parkhaus.  Einfahrt erst wenn.
Die klassischen Methoden der historisch-vergleichenden Forschung Universität Zürich Soziologisches Institut Seminar: Methoden des internationalen Vergleichs.
LV DEB01001PB PS Sprechen 1. Termin: LV DEB01001PB PS Sprechen 1. Termin: WS -lich willkommen! BGBLB
Einführung in die Phonetik und Phonologie SS 2010 Bistra Andreeva Sitzung 1: Einführender Überblick.
Forschungsmethode Empirik
Wortschatzarbeit mit digitalen Korpora
Wortschatzarbeit mit digitalen Korpora
 Präsentation transkript:

Korpusanalyse und Forschungsfrage Korpusbasierte Wissenserschließung (Übung)  im WS 2010/11 von Dr. phil. Helmuth Sagawe M.A.

Definition von „Korpus“ Korpus / Corpus [Neutr., Pl. Corpora; lat. corpus 'Körper']. Endliche Menge von konkreten sprachlichen Äußerungen, die als empirische Grundlage für sprach-, soziologischen und kulturwissenschaftlichen Untersuchungen dienen. Angelehnt an: (Hadumod Bußmann (Hg.): Lexikon der Sprachwissenschaft. 3., aktualisierte und erweiterte Aufl. Kröner, Stuttgart 2002, ISBN 3-520-45203-0 )

Reine Textkorpora Sie liegen in geschriebener Form vor. Das kann eine Sammlung von: Texten sein, oder auch eine Sammlung von transkribierter oder medial archivierter mündlicher Sprachäußerungen.

Beispiele (teilweise kostenpflichtig) Korpora geschriebener Gegenwartssprache des IDS http://www.ids-mannheim.de/kt/projekte/korpora/ Bestand: über 2 Milliarden Token DWDS-Korpus http://www.dwds.de/ Bestand: 1.2 Milliarden Token (intern), 100 Millionen Token (öffentlich) Schweizer Textkorpus http://www.schweizer-textkorpus.ch/ Im Testbetrieb besteht das Korpus nun aus etwa 10 Mio. Token. Im Endausbau sind 20 Mio. Token geplant. Dortmunder Chatkorpus http://www.chatkorpus.uni-dortmund.de/ Bestand: 1.1 Mio. Token aus 150'000 Chat-Beiträgen. British National Corpus (BNC) http://www.natcorp.ox.ac.uk/ Bestand: über 100 Millionen Token

Sprachkorpora Hier liegen die Daten nicht (nur) transkribiert vor, sondern auch als Audio- und/oder Videoaufnahmen. Die Daten sind dann mit phonetischen und linguistischen Informationen annotiert (angereichert).

Beispiele Datenbank Gesprochenes Deutsch (DGD) des IDS http://www.ids-mannheim.de/ksgd/dgd/ Bestand: ca. 900 Videoaufnahmen, 16'300 Tonaufnahmen mit einer Gesamtdauer von 4400 Stunden, sowie 6650 Transkripte Diverse, meist englischsprachige Korpora, die aber oft nicht öffentlich zugänglich sind. Auswahl: http://www.korpuslinguistik.de/ Öffentlich z.B.: MICASE - Michigan Corpus of Academic Spoken English http://www.lsa.umich.edu/eli/micase/index.htm

Multimodale Korpora Sprachkorpora, die mit zusätzlichen Informationen wie: Prosodien (die Gesamtheit spezifischer sprachlicher Eigenschaften wie Akzent, Intonation, Quantität (Sprech-) Pausen. Mimik, Gestik etc.) angereichert sind. Normalerweise als Videoaufnahme.

Beispiele Archiv für Gesprochenes Deutsch des IDS http://agd.ids-mannheim.de/ Bestand: ca. 900 Videoaufnahmen, 16'300 Tonaufnahmen mit einer Gesamtdauer von 4400 Stunden, sowie 6650 Transkripte Die Videoaufnahmen sind jedoch oft nicht öffentlich zugänglich. Datenbank mit Mundart Welche Erkenntnisse könnte man aus der Mundart-Datenbank schließen?

Mögliche analytische Vorgehensweise für eine Untersuchung

Formulierung von Forschungsfragen Die Forschungsfrage ist normalerweise relativ vage und weit gefasst. Z.B.: - Nimmt geschriebene Sprache eigentlich immer mehr Formen des Gesprochenen an? - Wie ist eigentlich die Einstellung der Leute zu Anglizismen im Deutschen? - Gibt es eine ständige Veränderung, wie über Terror gesprochen wird? - ………

These Die Forschungsfrage wird zu einer oder mehreren Thesen zugespitzt, die man falsifizieren (als unrichtig) oder ggf. verifizieren ( als richtig) unter Berücksichtigung der Kontextbedingungen bezeichnen kann.

Beispiel-Thesen Bestimmte typische Merkmale gesprochener Sprache treten in bestimmten Textsorten immer häufiger auf. Bezüglich der Einstellung zu Anglizismen sind in der Presse zwei typische Argumentationsmuster auszumachen: 1) Anglizismen im Deutschen sind etwas völlig natürliches und gehören zum Sprachwandel. 2) Zuviel Fremdmaterial schadet dem Deutschen und es geht dabei unter. Die Semantik von z.B. Terror hat sich in den letzten 10 Jahren in der geschriebenen Sprache verändert: Früher wurde unter "Terror" mehr, vor allem auch nicht gewalttätige oder kriegerische Vorgänge, gefasst, was heute kaum mehr der Fall ist.

Operationalisierung Hier liegt die große Schwierigkeit des wissenschaftlichen Arbeitens: Wie kann die These so operationalisiert werden, dass Faktoren erhoben werden können, die man konkret empirisch testen kann? Immer wieder muss geprüft werden, ob die Operationalisierung tatsächlich die These falsifizieren oder verifizieren kann, ob sie also valide ist.

Validität: Das Gemessene/Analysierte (die Aussage) sagt auch tatsächlich etwas über das aus, was man messen, analysieren möchte.

Reliabilität Zudem muss die Analyse reliabel (zuverlässig) sein: Reliabilität: Das Messen/Analysieren muss bei einer Wiederholung zu einem anderen Zeitpunkt durch andere Personen, aber unter den gleichen Bedingungen und Regeln, zum gleichen Resultat führen.

Meist kann nur ein Teil der These operationalisiert werden und man muss versuchen, mit mehreren unterschiedlich gelagerten Analysen Hinweise für oder gegen die These zu finden. (Methodenmix)

Die erste der oben skizzierten Thesen könnten z. B Die erste der oben skizzierten Thesen könnten z.B. so operationalisiert werden: Bestimmte typische Merkmale der gesprochenen Sprache treten in unserem Korpus immer häufiger auf. Man könnte konkrete Phänomene gesprochener Sprache feststellen: 1. Satzabbrüche, Interjektionen.

Korpusaufbau Methodenentwicklung Pretest Welche Methode kann die zu operationalisierten Forschungsfragen beantworten. Es können mehrere Methoden angewandt werden, die man so gegeneinander abwägen muss. Operationalisierung, Korpusaufbau und Methodenentwicklung ist ein im Kreis laufender Prozess. Zudem sollte mit einem Pretest anhand eines Teilkorpus immer wieder überprüft werden, ob die angestrebte Methodik überhaupt funktioniert.

Korpusanalyse, Evaluation / Interpretation Nun kann das gesamte Korpus analysiert und die Resultate hinsichtlich der Thesen evaluiert und interpretiert werden. Ggf. muss man die These und/oder die Operationalisierung korrigieren und den Analyseprozess wiederholen.

Kleine Literaturauswahl Bubenhofer, Noah (2009): Sprachgebrauchsmuster. Korpuslinguistik als Methode der Diskurs- und Kulturanalyse. Berlin, New York: de Gruyter. ISBN 978-3-11-021584-7. Bubenhofer, Noah: „Einführung in die Korpuslinguistik: Praktische Grundlagen und Werkzeuge“ – Online-Kurs: http://www.bubenhofer.com/korpuslinguistik/kurs/index.php?id=anwendungen_forschungsprozess.html

Aufgabe: Datenbank mit Mundarttexten Welche Erkenntnisse könnte man aus der Mundart-Datenbank schließen? Frage nach der Häufigkeit von Anglizismen? Vorgehensweise bei der Analyse?