Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Korpusanalyse und Forschungsfrage Korpusbasierte Wissenserschließung (Übung) im WS 2010/11 von Dr. phil. Helmuth Sagawe M.A.

Ähnliche Präsentationen


Präsentation zum Thema: "Korpusanalyse und Forschungsfrage Korpusbasierte Wissenserschließung (Übung) im WS 2010/11 von Dr. phil. Helmuth Sagawe M.A."—  Präsentation transkript:

1 Korpusanalyse und Forschungsfrage Korpusbasierte Wissenserschließung (Übung) im WS 2010/11 von Dr. phil. Helmuth Sagawe M.A.

2 Definition von Korpus Korpus / Corpus [Neutr., Pl. Corpora; lat. corpus 'Körper']. Endliche Menge von konkreten sprachlichen Äußerungen, die als empirische Grundlage für sprach-, soziologischen und kulturwissenschaftlichen Untersuchungen dienen. Angelehnt an: (Hadumod Bußmann (Hg.): Lexikon der Sprachwissenschaft. 3., aktualisierte und erweiterte Aufl. Kröner, Stuttgart 2002, ISBN )

3 Reine Textkorpora Sie liegen in geschriebener Form vor. Das kann eine Sammlung von: Texten sein, oder auch eine Sammlung von transkribierter oder medial archivierter mündlicher Sprachäußerungen.

4 Beispiele (teilweise kostenpflichtig) Korpora geschriebener Gegenwartssprache des IDS Bestand: über 2 Milliarden Token DWDS-Korpus Bestand: 1.2 Milliarden Token (intern), 100 Millionen Token (öffentlich) Schweizer Textkorpus Im Testbetrieb besteht das Korpus nun aus etwa 10 Mio. Token. Im Endausbau sind 20 Mio. Token geplant. Dortmunder Chatkorpus Bestand: 1.1 Mio. Token aus 150'000 Chat-Beiträgen. British National Corpus (BNC) Bestand: über 100 Millionen Token

5 Sprachkorpora Hier liegen die Daten nicht (nur) transkribiert vor, sondern auch als Audio- und/oder Videoaufnahmen. Die Daten sind dann mit phonetischen und linguistischen Informationen annotiert (angereichert).

6 Beispiele Datenbank Gesprochenes Deutsch (DGD) des IDS Bestand: ca. 900 Videoaufnahmen, 16'300 Tonaufnahmen mit einer Gesamtdauer von 4400 Stunden, sowie 6650 Transkripte Diverse, meist englischsprachige Korpora, die aber oft nicht öffentlich zugänglich sind. Auswahl: Öffentlich z.B.: MICASE - Michigan Corpus of Academic Spoken English

7 Multimodale Korpora Sprachkorpora, die mit zusätzlichen Informationen wie: Prosodien (die Gesamtheit spezifischer sprachlicher Eigenschaften wie Akzent, Intonation, Quantität (Sprech-) Pausen. Mimik, Gestik etc.) angereichert sind. Normalerweise als Videoaufnahme.Akzent IntonationQuantität

8 Beispiele Archiv für Gesprochenes Deutsch des IDS Bestand: ca. 900 Videoaufnahmen, 16'300 Tonaufnahmen mit einer Gesamtdauer von 4400 Stunden, sowie 6650 Transkripte Die Videoaufnahmen sind jedoch oft nicht öffentlich zugänglich. Datenbank mit Mundart Welche Erkenntnisse könnte man aus der Mundart- Datenbank schließen?

9 Mögliche analytische Vorgehensweise für eine Untersuchung

10 Formulierung von Forschungsfragen Die Forschungsfrage ist normalerweise relativ vage und weit gefasst. Z.B.: - Nimmt geschriebene Sprache eigentlich immer mehr Formen des Gesprochenen an? - Wie ist eigentlich die Einstellung der Leute zu Anglizismen im Deutschen? - Gibt es eine ständige Veränderung, wie über Terror gesprochen wird? - ………

11 These Die Forschungsfrage wird zu einer oder mehreren Thesen zugespitzt, die man falsifizieren (als unrichtig) oder ggf. verifizieren ( als richtig) unter Berücksichtigung der Kontextbedingungen bezeichnen kann.

12 Beispiel-Thesen Bestimmte typische Merkmale gesprochener Sprache treten in bestimmten Textsorten immer häufiger auf. Bezüglich der Einstellung zu Anglizismen sind in der Presse zwei typische Argumentationsmuster auszumachen: 1) Anglizismen im Deutschen sind etwas völlig natürliches und gehören zum Sprachwandel. 2) Zuviel Fremdmaterial schadet dem Deutschen und es geht dabei unter. Die Semantik von z.B. Terror hat sich in den letzten 10 Jahren in der geschriebenen Sprache verändert: Früher wurde unter "Terror" mehr, vor allem auch nicht gewalttätige oder kriegerische Vorgänge, gefasst, was heute kaum mehr der Fall ist.

13 Operationalisierung Hier liegt die große Schwierigkeit des wissenschaftlichen Arbeitens: Wie kann die These so operationalisiert werden, dass Faktoren erhoben werden können, die man konkret empirisch testen kann? Immer wieder muss geprüft werden, ob die Operationalisierung tatsächlich die These falsifizieren oder verifizieren kann, ob sie also valide ist.

14 Validität: Das Gemessene/Analysierte (die Aussage) sagt auch tatsächlich etwas über das aus, was man messen, analysieren möchte.

15 Reliabilität Zudem muss die Analyse reliabel (zuverlässig) sein: Reliabilität: Das Messen/Analysieren muss bei einer Wiederholung zu einem anderen Zeitpunkt durch andere Personen, aber unter den gleichen Bedingungen und Regeln, zum gleichen Resultat führen.

16 Meist kann nur ein Teil der These operationalisiert werden und man muss versuchen, mit mehreren unterschiedlich gelagerten Analysen Hinweise für oder gegen die These zu finden. (Methodenmix)

17 Die erste der oben skizzierten Thesen könnten z.B. so operationalisiert werden: Bestimmte typische Merkmale der gesprochenen Sprache treten in unserem Korpus immer häufiger auf. Man könnte konkrete Phänomene gesprochener Sprache feststellen: 1. Satzabbrüche, Interjektionen.

18 Korpusaufbau Methodenentwicklung Pretest Welche Methode kann die zu operationalisierten Forschungsfragen beantworten. Es können mehrere Methoden angewandt werden, die man so gegeneinander abwägen muss. Operationalisierung, Korpusaufbau und Methodenentwicklung ist ein im Kreis laufender Prozess. Zudem sollte mit einem Pretest anhand eines Teilkorpus immer wieder überprüft werden, ob die angestrebte Methodik überhaupt funktioniert.

19 Korpusanalyse, Evaluation / Interpretation Nun kann das gesamte Korpus analysiert und die Resultate hinsichtlich der Thesen evaluiert und interpretiert werden. Ggf. muss man die These und/oder die Operationalisierung korrigieren und den Analyseprozess wiederholen.

20 Kleine Literaturauswahl Bubenhofer, Noah (2009): Sprachgebrauchsmuster. Korpuslinguistik als Methode der Diskurs- und Kulturanalyse. Berlin, New York: de Gruyter. ISBN Bubenhofer, Noah: Einführung in die Korpuslinguistik: Praktische Grundlagen und Werkzeuge – Online-Kurs:

21 Aufgabe: Datenbank mit MundarttextenDatenbank mit Mundart Welche Erkenntnisse könnte man aus der Mundart-Datenbank schließen? Frage nach der Häufigkeit von Anglizismen? Vorgehensweise bei der Analyse?


Herunterladen ppt "Korpusanalyse und Forschungsfrage Korpusbasierte Wissenserschließung (Übung) im WS 2010/11 von Dr. phil. Helmuth Sagawe M.A."

Ähnliche Präsentationen


Google-Anzeigen