Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Korpuslinguistik Ulrich Kaiser-Kaplaner. Was ist Korpuslinguistik? Korpuslinguistik ist Linguistik basierend auf einer großen Textsammlung = Korpus KL.

Ähnliche Präsentationen


Präsentation zum Thema: "Korpuslinguistik Ulrich Kaiser-Kaplaner. Was ist Korpuslinguistik? Korpuslinguistik ist Linguistik basierend auf einer großen Textsammlung = Korpus KL."—  Präsentation transkript:

1 Korpuslinguistik Ulrich Kaiser-Kaplaner

2 Was ist Korpuslinguistik? Korpuslinguistik ist Linguistik basierend auf einer großen Textsammlung = Korpus KL ist ein Bindeglied zwischen klassischer Linguistik und CL. Viele CL Anwendungen basieren auf KL KL liefert statistische Informationen für CL (z.B. für Disambiguierung)

3 Zwei Forschertypen: 1. Der Denker Er verbringt die meiste Zeit in seinem Sessel und denkt nach. Seine Sprachtheorie wird durch Beispiele, die unmittelbar seiner Sprachkompetenz entspringen, bestätigt oder widerlegt.

4 Zwei Forschertypen: 1. Der Denker Das Urteil kompetenter Sprecher ist bedeutend (z.B. Aufbau der Grammatik) Herzlich wenig Interesse für Äußerungen, die tagtäglich produziert werden. Sie sind wenig erleuchtend für seine Theorie. Noam Chomsky: Scharfsinniger Theoretiker (Universalgrammatik)

5 Kompetenz vs Performanz Unter Sprachkompetenz versteht man die Fähigkeit eines Sprechers, wohlgeformte Sätze aufgrund von Sprachregeln zu bilden. Chomsky spricht auch von I(nternalisierter) Sprache und versteht darunter ein Regelsystem (z. B. Phrasenstrukturregeln und Transformationen), das alle grammatischen Sätze generieren kann und alle ungrammatischen Sätze zurückweist. Möglichkeit: eine unendliche Menge von Äußerungen hervorzubringen.

6 Kompetenz vs Performanz Unter Performanz versteht man die Summe der Sprachäußerungen, die ein Sprecher einer Sprache von sich gibt. Noam Chomsky spricht auch von E(xternalisierter) Sprache, eine extrem lange Auflistung aller Sätze, die in irgendeinem Kontext je geäußert wurden. Kompetenz wird auch als Langue, Performanz auch als Parole bezeichnet. (Ferdinand de Saussure)

7 Zwei Forschertypen: 2. Der Beobachter Der Beobachter ist an authentischen Sprachdaten interessiert: Je mehr Daten, desto besser. Die Theorien, die er entwickelt, sind auf Beobachtung dieser Daten gestützt. Großes Interesse an Phänomenen, die in unserem alltäglichen Sprachgebrauch vorkommen.

8 Theorie und Empirie Theoretische Linguisten: Noam Chomsky bezeichnet das Werk der Korpuslinguistik als irrelevant und nutzlos. Empirisch arbeitende Linguisten: Wer Korpuslinguistik betreibt, dem geht es in erster Linie um das Beobachten und Beschreiben sprachlicher Phänomene.

9 Definition: Korpus Ein Korpus ist eine Sammlung schriftlicher oder gesprochener Äußerungen. Die Daten des Korpus sind typischerweise digitalisiert. Bestandteile: Texte Metadaten (Auskunft über Autoren,Sprecher) linguistische Annotationen (gramm.Funktion)

10 Definition: Korpuslinguistik Beschreibung von Äußerungen natürlicher Sprachen, ihrer Elemente und Strukturen Theoriebildung auf der Grundlage von Analysen authentischer Texte Gebiete: Sprachunterricht, Sprachdokumentation, Lexikographie etc. W. Labov (1966): The Social Stratification of English in New York City

11 Kritik am Wert von Korpusdaten Repräsentativität Relevanz der Daten unvollständige Datenabdeckung Verlässlichkeit der Daten Wie geht man mit der Existenz nicht wohlgeformter Äußerungen und mit dem Fehlen wohlgeformter Äußerungen um? -> Sprecherbefragungen

12 Kontextualismus Linguistische Erkenntnis geht vom Sprachgebrauch aus John Sinclair: ehemaliger Chefredakteur des Collins Cobuild English Dictionary Ko- und Kontext spielen für die Untersuchung sprachlicher Handlungen eine zentrale Rolle John Rupert Firth ( )

13 Ko- und Kontext: John Rupert Firth Kontext: Summe der unmittelbaren Rahmenbedingungen einer Sprachhandlung Kultureller Kontext: steuert die Art und Weise, wie Sprecher sprachliche Handlungen wahrnehmen. Situativer Kontext: determiniert die Funktion einer konkreten sprachlichen Handlung: Ort, Zeit und die Beteiligten

14 Der Kotext einer linguistischen Einheit ist die Menge der linguistischen Einheiten, die im gleichen Text verwendet wurden. Firth: Kotext von Wörtern und Sätzen auf vier Ebenen untersucht: Phonetik u. Phonologie, Morphologie, Syntax und Lexik. Kollokation: das faktische Miteinandervorkommen zweier oder mehrerer beliebiger Wörter W+W Ko- und Kontext: John Rupert Firth

15 Korpusbasierte Ansätze Wir unterscheiden drei Ansätze in der Korpusanalyse Der korpusbasierte, quantitative Ansatz Kein Theoretischer Rahmen Extrem empirisch Korpus in Rohform Verarbeitung gesprochener Sprache, statistische Sprachmodelle (Landauer, Jelinek)

16 Korpusbasierte Ansätze Korpusbasiert, quantitativ und qualitativ: Theoretischer Rahmen: Kontextualismus (Firth und Sinclair) Korpus in Rohform (nicht linguistisch annotiert) Kollokator-Paare -> Semantik Anwendungsgebiet: Lexikographie, Sprachunterricht, Übersetzungswissenschaft

17 Korpusbasierte Ansätze Korpusgestütz: Strukturalismus (Saussure), Generative Grammatik (Chomsky), rationalistisch Linguistisch annotiertes Korpus Von den theoretischen Aussagen ausgehend Domäne: Syntax Anwendung: Lexikographie, theoretische L.

18 Korpuslinguistik in der Praxis Erstellen eines Korpus Vorhandene Korpora: British National Corpus Wahl der Texte: Welche Texte nehme ich? -> Qualität: gemeinsames Thema, gemeinsames Medium, Wieviele Texte brauche ich? ->Quantität

19 Textdateien Dateien sollte in Textdateine umgewandelt werden. MS Word Dateien (*.DOC) sollten vermieden werden. *.TXT Dateien erstellen: MS Word öffnen, dann unter „Datei“->“Speichern unter“ und „Nur Text“ auswählen -> Name eingeben und speichern. Texte separat abspeichern (um Teile einzeln analysieren zu können -> qualitativ)

20 Textdateien

21 Erstellen eines Korpus Texte aus dem Internet: Kopieren und Einfügen in MS Word. Bilder und Graphiken können ignoriert werden, weil sie beim Umwandeln in *TEXT ohnehin verloren gehen. Gedruckte Texte einscannen mit Hilfe von OCR-Software (Optical Character Recognition)

22 Text annotieren Annotationen werden als solche vom Programm markiert: nicht zugehörig zum regulären Text Beginn eines Absatzes mit: markieren Ende eines Absatzes mit: markieren Italics: und Überschriften: und Zitate: und

23 Text annotieren Zusätzliche Infos : und (z.B. Herkunft und Alter des Autors)

24 WORD SMITH 3.0 Programm zur Analyse elektronischer Textkorpora, liefert Infos über die wichtigsten und meistverwendeten Wörter und über die Umgebung, in der sie vorkommen Wordlister: Alle Wörter eines Korpus werden aufgelistet, Statistische Informationen

25 Word Smith 3.0 Um zu starten: Auf das grüne Licht klicken und dann „Choose texts“. Das folgende Fenster wird geöffnet:

26 Word Smith 3.0 Choose Texts

27 Klicken auf „Make a word list now“

28 Word list: alphabetisch geordnet

29 Word list geordnet nach Frequenz

30 Word list: statistische Information

31 Word Smith 3.0 Word list [S] Types: unterschiedliche Wörter Tokens: einzelne Vorkommen eines Wortes Die Reihe love love love beinhaltet beispielsweise 1 Type und 3 Tokens Ein Wort wird als eine Aneinanderreihung von Buchstaben definiert: door und doors sind zwei unterschiedliche Wörter

32 Stop List Wie in der frequency list ersichtlich ist, sind die häufigsten Wörter gramatische Wörter, wie Artikel und Pronomen. Um sich auf Inhaltswörter konzentrieren zu können, gibt es Stop lists. Stop Lists beinhalten alle Wörter, die vom Programm ignoriert werden sollen. Klick auf „Settings“, „Stoplist“ dann „Browse“ um die Stop list zu lokalisieren, „Activated“ Box muss ein Hackerl haben und dann auf „Browse“

33 Stop List

34 Word list mit Inhaltswörtern (Verwendung einer stoplist)

35 Clusters „Settings“-> auf irgend ein Element klicken, dann auf den Tab mit Wordlist klicken, -> dann auf CLUSTERS klicken: und die gesuchte Länge der Clusters eingeben: (hier im Beispiel 4) Nun werden die häufigsten 4-Wort- Kombinationen angezeigt. „Activated box“ anklicken und auf „OK“ gehen.

36 Clusters

37 Clusters im Intelligent Design Corpus

38 Wähle zuerst die Texte aus (wie im Word lister) und gehe auf „Specify Search-Word“

39 Welche Wörter kommen unmittelbar in der Umgebung des Suchwortes vor? Klick auf „Horizons, etc.

40

41 Presentation-Outline Background information about the social problems of African girls and HIV infection African girls’ conception of HIV Risk “Sugar daddy”: a conceptual metaphor Indepth-Analysis of one text Textual events Text populations Picture Analysis Ideological functions and conclusions

42 My “Rape myths” corpus Number of texts 26 Tokens Types3.052 Type/Token Ratio Standardised 19,61

43 Thank you for your attention!


Herunterladen ppt "Korpuslinguistik Ulrich Kaiser-Kaplaner. Was ist Korpuslinguistik? Korpuslinguistik ist Linguistik basierend auf einer großen Textsammlung = Korpus KL."

Ähnliche Präsentationen


Google-Anzeigen