Amir Zeldes Korpuslinguistik Korpusdesign und ­ Erstellung.

Slides:



Advertisements
Ähnliche Präsentationen
V x.y, date, verfasser Besonderheiten von Analyst Relations in kleineren und mittlern Unternehmen ICIDO.
Advertisements

Deutsch Oktober 2006.
Grundlagen der Informatik
Was ich gern lese Lesetagebuch von
Weißt du wo der Himmel ist?
Wir wollen euch zeigen, was für Bänke wir für euch machen werden Projekttage 2011 Ich fühle mich wohl in meiner Schule Wir brauchen was zum Sitzen DIE.
Eine Produktion von der Firma Presentations GmbH
Unterrichtsmaterial (D7)
Leitfaden zum Elterninformationstag Informationsübermittlung Madrassatul-ilm.
Klein-Peter und sein Geburtstagswunsch
You need to use your mouse to see this presentation
Deutschsprachende Autorin
Die sechs Modalverben.
Web-Quest im Rahmen des
Persönlichkeits-Test Wer bist du?. Anleitung Dieser Test wurde von führenden Wissenschaftlern entwickelt und erfolgreich getestet. Beantworte die Fragen,
Kombination von Deutschem und Tschechischem
Manchmal frage ich mich:
Anglo-Amerikanische Korpuslinguistik Anglo-American Corpus Linguistics Erstellt von Gudrun Krenn Slawische Korpuslinguistik SE SS 2006 Dr. Branko Tošović
Computational Thinking Online Algorithmen [Was ist es wert, die Zukunft zu kennen?] Kurt Mehlhorn Konstantinos Panagiotou.
Mohammad Es ist einfach geboren zu werden, aber es ist ganz schwierig Mensch zu sein.
Temperaturmessung.
1. Nimm ein Deutsch II Buch. 2. If your parents have signed the classroom expectations form, please put it out on your desk. 2. Schreib 3 Sӓtze: Wann war.
Freitag den 5. Juli Probleme in der Schule. Starteraktivität Finde diese Wörter im Wörterbuch um/ziehen wechseln verlieren bestehen bekommen zu/nehmen.
Dialog am Telefon zwischen Mutter und Tochter
Manchmal frage ich mich:
GERMAN 1013C Guten Morgen!.
Ich heiße Kevin Goellner
Lautsprecher anmachen
TOBIAS GONSCHOREK   Der weg zum Erfolg.
Mein Weihnachten Bei uns besteht die Vorweihnachtszeit eigentlich hauptsächlich aus Fragen: Was wünschst du dir?; Was soll man kochen?; Wo gibt es dieses.
Bereit ???? Nimm dir 10 Minuten Zeit. Ich versuche es dir zu erklären.
Leitfaden wenn von der eigenen Liste angerufen wird
Zusammen ist man weniger allein 2do für mehr Partnerschaft in der Optikbranche. Berlin, 17. November 2008.
Du wurdest als Teil von Gottes ________ erschaffen!
Die ersten Schritte bei der Entdeckung der Statistik
MODAL-PARTIKELN.
Gefühlswelt
Wenn Programme sprechen....
P. B. G. Pictures Bern present
Forschungsdesign Forschungsziel Methode Sample Timing
V Dativ - Präpositionen - Verben
Café in Berlin Like Arme Anna, you need to write all of the “Aufgabe” on the same sheet or sheets of paper. Date it, write the chapter and complete the.
Grammatikalische Begriffe im Unterricht
C Freiwillige bei Samaritan
Ferien und Bücher. Gehören die zusammen?
GERMAN 1013C Kapitel 4 5. HEIDELBERG Ich heiße Kevin Goellner. Ich bin 23 Jahre alt und bin Student an der Universität Heidelberg. Ich heiße.
Moin! Heute ist der 25. Februar.
Wolfgang´s Powerpoint Präsentation.
Aber ich will Dir noch schnell die Lösung sagen...
Audio test function
Ich heiße Kevin Goellner
Er heißt Kevin Goellner
Ich heiße Kevin Goellner
A: _________ kommst du morgen Abend vorbei? Um Uhr?
V Dativ - Präpositionen - Verben
Programmiersprachen II Vorbesprechung Klausur Prof. Dr. Reiner Güttler Fachbereich GIS HTW.
SMARTPHONES THEMENABEND AM 22.NOVEMBER PROGRAMM 1.Gruppenbildung mit WhatsApp (ca. 5 Minuten) 2.Kennenlernen über Positionsangabe (ca. 10 Minuten)
Café in Berlin Like Arme Anna, you need to write all of the “Aufgabe” on the same sheet or sheets of paper. Date it, write the chapter and complete the.
Parallelkorpora Einführung Amir Zeldes
Einheit 3 Studentenleben. Wiederholen wir ! 1. Übersetzen Sie die folgenden Sätze ins Deutsch. 将下面句子译成德语。 你今天有课吗? 我们现在正(中间)休息。 我每天听音乐。 他总在傍晚做运动。 你会说德语吗?
ﻙ Danke, dass Sie Pizza Hut angerufen haben. Kann ich Ihre NIDN haben? He, ich doch nur was bestellen.
Amir Zeldes Korpuslinguistik Zusammenfassung.
Ich wünsche dir Leben ! Berge kommen nicht zusammen, Menschen schon !
Trainingscamp Hörverstehen Katharina Leiss  In Teil 1 gibt es 6 Punkte.  In Teil 2 gibt es 7 Punkte.  In Teil 3 gibt es 7 Punkte. A2 bekommst.
Trainingscamp Leseverstehen Katharina Leiss 2016.
Der wichtigste Körperteil
 Präsentation transkript:

Amir Zeldes Korpuslinguistik Korpusdesign und ­ Erstellung

UE Korpuslinguistik SS Organisatorisches BAler schreiben eine zusätzliche Hausaufgabe und keine Klausur für 2 Punkte im Praxismodul oder als zur Vertiefung im Fach empfohlene Veranstaltung Bitte in jedem Fall das passende Formular für den Leistungsnachweis rechtzeitig besorgen!

UE Korpuslinguistik SS Kursplan Einführung – linguistische Daten (22.4) Korpusdesign und Metadaten (29.4) Korpusvorverarbeitung und Annotation (6.5)  Übung 1: Tagging CQP-Einführung (13.5) Lexikographie und Kollokationen (20.5) Parallelkorpora (27.5) Historische Korpora (3.6) Statistische Methoden (10.6) Lernerkorpora (17.6) Baumbanken (24.6)  Übung 2: Korpuslinguistische Untersuchung Variationsstudien (1.7) Webkorpora und Produktivität (8.7) Zusammenfassung (15.7)

UE Korpuslinguistik SS Korpuserstellung - Themen feste Korpora vs. wachsende Korpora Repräsentativität (das ‚R-Wort‘) Ausgewogenheit Datenakquisition Metadaten S. Biber (1993) in Moodle, Lemnitzer/Zinsmeister (2006), Hunston (erscheint)

UE Korpuslinguistik SS Was mach ich, wenn ich ein Korpus will? Zuerst muss ich eine linguistische Fragestellung haben. Abhängig davon brauche ich: ein Korpus mit Texten, die speziell zu diesem Zweck erzeugt wurden…

UE Korpuslinguistik SS Fragestellung > Korpus Was für ein Korpus braucht man um:  die Entwicklung des deutschen Verbletztsatzes  Erwerbsschwierigkeiten bei Deutschlernern  nicht-kanonische Strukturen in Kietzdeutsch zu untersuchen?

UE Korpuslinguistik SS Was mach ich, wenn ich ein Korpus will? Zuerst muss ich eine linguistische Fragestellung haben. Abhängig davon brauche ich: ein Korpus mit Texten, die speziell zu diesem Zweck erzeugt wurden oder ein Korpus mit Texten, die zu anderen Zwecken erzeugt wurden  heterogen (in Bezug auf einen bestimmten Parameter)  homogen (in Bezug auf einen bestimmten Parameter)

UE Korpuslinguistik SS Referenzkorpus Referenzkorpora („reference corpus“, auch „fixed corpus“ / „sample corpus“)  feste Größe, Zusammensetzung bekannt  weit verfügbar, Standard, Ergebnisse können dupliziert werden  veraltet irgendwann (für bestimmte Fragestellungen)

UE Korpuslinguistik SS Monitorkorpus ein wachsendes Korpus Zusammensetzung und Größe evtl. nicht bekannt (manchmal gibt’s aber bestimmte Herausgabedaten/Versionen)  für lexikographische Zwecke gut geeignet, diachron  erlaubt Untersuchungen zu den neusten Neologismen (z.B. Sprachgebrauch im Netz)

UE Korpuslinguistik SS Datensammlung: opportunistisch opportunistisch: ich nehm alles, was ich bekommen kann (Werbung, Romane, Märchen, die Bibel, Zeitungstexte, Foren, ,...)  Vorteil: Verfügbarkeit, Kosten  Nachteile: naja... unausgewogen, nicht repräsentativ, Parameter können nicht kontrolliert werden, evtl. ist keine einheitliche Annotation möglich

UE Korpuslinguistik SS Italienische Reise 1 Den 3. September Früh drei Uhr stahl ich mich aus Karlsbad, weil man mich sonst nicht fortgelassen hätte. Die Gesellschaft, die den achtundzwanzigsten August, meinen Geburtstag, auf eine sehr freundliche Weise feiern mochte, erwarb sich wohl dadurch ein Recht, mich festzuhalten; allein hier war nicht länger zu säumen. Ich warf mich ganz allein, nur einen Mantelsack und Dachsranzen aufpackend, in eine Postchaise und gelangte halb acht Uhr nach Zwota, an einem schönen stillen Nebelmorgen. [Johann Wolfgang von Goethe]

UE Korpuslinguistik SS Italienische Reise 1 Den 3. September Früh drei Uhr stahl ich mich aus Karlsbad, weil man mich sonst nicht fortgelassen hätte. Die Gesellschaft, die den achtundzwanzigsten August, meinen Geburtstag, auf eine sehr freundliche Weise feiern mochte, erwarb sich wohl dadurch ein Recht, mich festzuhalten; allein hier war nicht länger zu säumen. Ich warf mich ganz allein, nur einen Mantelsack und Dachsranzen aufpackend, in eine Postchaise und gelangte halb acht Uhr nach Zwota, an einem schönen stillen Nebelmorgen. [Johann Wolfgang von Goethe]

UE Korpuslinguistik SS Re: Laufsocken Antwort schreiben | Zurück zum Forum von PeterS am 19.Apr :59 (vorlesen) >>Welche Marken bzw. Socken koennt Ihr denn empfehlen bzw. auf was muss ich beim Sockenkauf achten. Habe selber einige Falke. Diese sind IMHO wirklich sehr gut. Bei "billigeren" Modellen wie Tchibo muß man u.U. Abstriche in der Qualität machen, obwohl cih selber auch einige Paar habe und sie sich bisher ganz gut halten. Teilweise gibt es die Falke als Ware mit kleinen Farbfehlern o.ä. erheblich billiger Socken eher 'ne Idee zu klein als zu groß, sonst gibt's wirklich Blasen. Gruß Peter [aus einem Chat-forum über Rennkleidung]

UE Korpuslinguistik SS also gut also ja * mhm * äh * also wir ham jetzt vor * ein/ eineinhalb jahren ham wa uns seit eineinhalb jahren ham wa uns n hund angeschafft * und an für sich auch auf druck * mit unsrer kinder die so gerne n schönes großes tier wollen * und auch mit für MIch * und jetzt geht’s immer um die pflege des hundes * weil die erziehung ham die eltern übernommen das war ja zu erwarten * äh aber was ich halt vermisse * äh is des engagement der kinder in bezug auf den hund * also freiwillig mit ihm spazierengehen […] [aus den Mutter-Tochter-Dialogen, IDS Mannheim]

UE Korpuslinguistik SS ich geb dir noch n andern tiprobier mal nach annahme der quest ODER OHNE se anzunehmen von draussen, also um dwen buckel rum, in die höhle zu gehn. erstens isses kürzer bis zur truhe und zweitens nich so nervig, dann kannst die warane – die dir schon mit 4 auf einem haufen grad am anfang – ziemlichen trouble machen können noch n wenig aufsparen bisde z b mit nem feuerball aufräumen kannst. [Forumstext ]

UE Korpuslinguistik SS Die Spanferkel-Braten werden 1-2 Tage bevor die Ware in den Versand geht in einen Karton verpackt der mit 1 cm Styropur ausgelegt ist. Die Kartons werden in einen Tiefkühlraum der -18 Grad hat gelagert und das heisst das die Ware Tiefgekühlt auf die Reise geht. So kann es nicht passieren das die Kühlkette unterbrochen wird. Dennoch ist die Ware immernoch 6-8 Tage bei einer Kühlung von +2 grad haltbar. […] Falls Sie Fragen oder besondere Wünsche haben schreiben Sie uns eine Mail, wir werden jede Frage Beantworten. Hallo Feinschmecker, Gourmets, Wildliebhaber und alle die gerne und gut Essen wollen. Wenn man Heute die Medienberichte verfolgt und das sieht was da in Sachen Fleisch, Qualität und Frische sieht was da abgeht da kommt einem das Grausen. Darum können Sie ganz Sicher sein daß Sie bei uns nur Top Qualtät zu einem verbünftigen Preis bekommen. Denn unser Motto ist das was ich nicht Esse traue ich keim anderen zu. [ Kategorie Feinschmecker]

UE Korpuslinguistik SS § 27 Bestellung und Geschäftsführung des Vorstands (1) Die Bestellung des Vorstands erfolgt durch Beschluss der Mitgliederversammlung. (2) Die Bestellung ist jederzeit widerruflich, unbeschadet des Anspruchs auf die vertragsmäßige Vergütung. Die Widerruflichkeit kann durch die Satzung auf den Fall beschränkt werden, dass ein wichtiger Grund für den Widerruf vorliegt; ein solcher Grund ist insbesondere grobe Pflichtverletzung oder Unfähigkeit zur ordnungsmäßigen Geschäftsführung. (3) Auf die Geschäftsführung des Vorstands finden die für den Auftrag geltenden Vorschriften der §§ 664 bis 670 entsprechende Anwendung [Bürgeliches Gesetzbuch, allgemeiner Teil]

UE Korpuslinguistik SS § 27 Bestellung und Geschäftsführung des Vorstands (1) Die Bestellung des Vorstands erfolgt durch Beschluss der Mitgliederversammlung. (2) Die Bestellung ist jederzeit widerruflich, unbeschadet des Anspruchs auf die vertragsmäßige Vergütung. Die Widerruflichkeit kann durch die Satzung auf den Fall beschränkt werden, dass ein wichtiger Grund für den Widerruf vorliegt; ein solcher Grund ist insbesondere grobe Pflichtverletzung oder Unfähigkeit zur ordnungsmäßigen Geschäftsführung. (3) Auf die Geschäftsführung des Vorstands finden die für den Auftrag geltenden Vorschriften der §§ 664 bis 670 entsprechende Anwendung [Bürgeliches Gesetzbuch, allgemeiner Teil]

UE Korpuslinguistik SS Repräsentativität Begriff aus der Statistik: Man möchte bestimmte Eigenschaften einer Menge (von Personen, Wörtern, Bäumen etc.) untersuchen, die aber zu groß ist, um in ihrer Gesamtheit angeschaut werden zu können. Daher zieht man aus dieser sogenannten Grundgesamtheit (population) kleinere Stichproben  zufällig (random sample)  repräsentativ (representative sample)

UE Korpuslinguistik SS Repräsentativität eine repräsentative Stichprobe muss für die Grundgesamtheit ‚typisch‘ sein, d.h. für einen bestimmten Parameter (z.B. Alter, Bildungsstand) die gleichen Anteile wie in der Grundgesamtheit enthalten Wichtig: Repräsentativität bezieht sich immer auf vorgegebene Parameter

UE Korpuslinguistik SS repräsentative Korpora Idee: ein Korpus soll eine Sprache (oder einen Dialekt oder einen Soziolekt etc.) repräsentativ abbilden (das ist oft das Ziel der sog. ‚Nationalkorpora‘ oder ‚Referenzkorpora‘) aber man kennt meistens die Zusammensetzung der Grundgesamtheit nicht  welche Parameter sind wichtig? (gesprochen vs. geschrieben, Rezeption oder Produktion, Variation zwischen Sprechern etc.)  wie sind diese verteilt?

UE Korpuslinguistik SS das ‚R-Wort‘ die meisten Korpora, die sich 'repräsentativ' nennen, können die Grundgesamtheit nicht angeben dazu sehr viel Diskussion/Aufsätze etc.  Vorsicht beim Gebrauch des Begriffs ‚Repräsentativität‘

UE Korpuslinguistik SS kann man ein repräsentatives Korpus erstellen für  die Werke von Goethe?  alle schriftlichen Aufzeichnungen, die sich in diesem Moment im Raum befinden?  das Althochdeutsche?  die althochdeutsche Überlieferung?

UE Korpuslinguistik SS Datensammlung: ausgewogen ein ausgewogenes (balanced) Korpus versucht, Texte nach gegebenen Parametern zusammenzustellen und in vorher festgelegten Mengen zu repräsentieren  Beispiele: Brown Corpus (American English in 1961), Lancaster-Oslo-Bergen Corpus (LOB, gleiche Zusammenstellung, British English), British National Corpus (BNC), Deutsches Referenzkorpus (DeReKo),... (alle synchron!)

UE Korpuslinguistik SS Datensammlung: homogen, spezifisch man kontrolliert einen Parameter (homogen)  Texte eines Autors  Texte einer bestimmten Bevölkerungsgruppe  Texte eines Genres  Texte aus einer bestimmten Zeit ...  Beispiele: Corpus of Early English Correspondence, Nibelungenlied, Zeitungskorpora (Wall Street Journal, Frankfurter Rundschau, Wendekorpus,...), Lernerkorpora,...

UE Korpuslinguistik SS Datensammlung: homogen, spezifisch Vorteile: geeignet für gezielte Forschung, man kann andere Parameter untersuchen, einheitliche Vorverarbeitung möglich Nachteile: evtl. nur wenig Material verfügbar, evtl. teuer, evtl. Copyrightprobleme, weniger wiederverwendabr und: man kann keine Fragen über ‚die Sprache‘ beantworten (Vorteil oder Nachteil?)

UE Korpuslinguistik SS Datensammlung: ausgewogen „Stratified Sampling“ - immer repräsentativer? Welche Textsorten sollen aufgenommen werden? Wie groß sind die Anteile der jeweiligen Textsorten?

UE Korpuslinguistik SS Beispiel für ein ausgewogenes Korpus: BNC ( Das British National Corpus ist eines der größten existierenden ausgewogenen Korpora (American National Corpus mit ähnlichem Design wird größer) Referenzkorpus (100 m Wörter) gute Vorverarbeitung, eigenes Suchtool weit erhältlich

UE Korpuslinguistik SS Beispiel Englisch: BNC variiert über eine Anzahl Parameter 90% geschriebene Sprache, 10% gesprochene Sprache gesprochene Sprache: nach Thema (educational, business, institutional, leasure, others), nach demographischen Parametern (Alter, soziale Gruppe, Geschlecht, Region)

UE Korpuslinguistik SS Beispiel Englisch: BNC geschriebene Sprache: Zeit (1960 – 1974, 1975 – 1993), Medium (Buch, Zeitschrift, div. veröffentlicht (Ephemera), div. unveröffentlicht,...), Thema (‚informativ‘, ‚imaginativ‘,...), ‚Sprachebenen‘, Informationen über AutorIn, Informationen über Publikum,... Chunks (samples) von nicht mehr als Wörtern

UE Korpuslinguistik SS Ist das BNC repräsentativ? Ausgewogen? “if we collected all the language produced and received for a week by residents of a city in the U.S., we could identify the actual proportions of language varieties that these people experienced – probably something like 80% conversation, 10% television shows, 1% newspapers, 1% novels, 2% meetings, 2% radio broadcasts, 2% texts that they wrote (memos, messages, letters), and 2% other texts (signs, instructions, specialist written texts, etc.).” Biber (erscheint)

UE Korpuslinguistik SS Rezeption oder Produktion? Wenige Texte werden von vielen rezipiert:  Die Bild-Zeitung  Germany‘s Next Top Model  … Viele (meist kurze) Texte werden von vielen produziert  Konversation  s  … Wie „repräsentativ“ ist ein deutsches Buch bzw. eine Zeitung?

UE Korpuslinguistik SS Variabilität “Representativeness refers to the extent to which a sample includes the full range of variability in a population.” Biber (1993)

UE Korpuslinguistik SS Beispiel Englisch: ICE ( das BNC ist relativ homogen in Bezug auf Region Varietäten des Englischen aus anderen Regionen werden nicht berücksichtigt Das International Corpus of English sammelt Daten anderer Regionen (Westafrika, Australien, Canada, Singapur, Hong Kong,...) – jedes Subkorpus (ca. 1 m Wörter) wird nach den gleichen Designprinzipien aufgebaut  Vergleichbarkeit

UE Korpuslinguistik SS Beispiel (Alt-)Englisch: Helsinki Corpus historisches Korpus: Old English bis Early Modern English, 1 m Wörter ausgewogen nach Region (Dialekt) und Genre Schwierigkeit: Verfügbarkeit in den älteren Sprachstufen

UE Korpuslinguistik SS Beispiel Deutsch: Akademiekorpus ( erstellt als Textgrundlage für ein Lexikographieprojekt (Digitales Wörterbuch der Deutschen Sprache) Kernkorpus: 100 m Wörter, in Dekaden von 1900 – 2000, Zusammensetzung in jeder Dekade gleich, annotiert Erweiterungskorpus: 980 m Wörter, opportunistisch (Onlinekorpus: 100 m Wörter, meist Kernkorpus, aber Übergewicht in den 1990ern)

UE Korpuslinguistik SS Beispiel Deutsch: DeReKo ( DeReKo (Deutsches Referenzkorpus):  deutsche Gegenwartssprache  entwickelt am IMS, Stuttgart, IDS Mannheim und SfS Tübingen  Textauswahlprinzipien nicht dokumentiert (?)  über COSMAS II verfügbar  linguistische Annotation bis zu Chunks

UE Korpuslinguistik SS Beispiel Deutsch: Verbmobil ( Korpus wurde gesammelt als ein Beispiel und Trainingskorpus für ein großes computerlinguistisches Projekt zur maschinellen Übersetzung von gesprochener Sprache 'gestellte' Dialoge, Themen: Terminabsprache, Reiseplanung, Abendgestaltung

UE Korpuslinguistik SS Metadaten Daten über Daten:  In welcher Sprache ist das Korpus? (Textstelle?)  Wer hat „das Korpus“ (öfter den Text) geschrieben?  Wann und wo?  Was für Annotationen sind im Korpus? Wie sind sie kodiert? Über was darf ich Aussagen machen?

UE Korpuslinguistik SS Deutsch? je viel liest, desto mehr weißt denn durch sie unterscheiden sich die ernsthafte Menschen Dies könnte ein Indiez darauf sein, dass Diese Menschen sind zum Beispiel der Aufmachung, dass

UE Korpuslinguistik SS Deutsch? je viel liest, desto mehr weißt (UZ) denn durch sie unterscheiden sich die ernsthafte Menschen (BG) Dies könnte ein Indiez darauf sein, dass (DE) Diese Menschen sind zum Beispiel der Aufmachung, dass (DE)

UE Korpuslinguistik SS Deutsch? Ist dieser Satz interessant? Nach der Wende veränderten die Umstände schnell, auch die Literatur.

UE Korpuslinguistik SS Deutsch? Ist dieser Satz interessant? Nach der Wende veränderten die Umstände schnell, auch die Literatur. Welche Aussagen erlaubt das Metadatum: Autor.L1 = EN

UE Korpuslinguistik SS Deutsch? – »Wat wull Hei, min leiw' Möller?« – »Pankerott spelen, Herr Amtshauptmann.« – »Hm, hm!« brummt de oll Herr, »das ist ja eine verzweifelte Sache«, un riwwt sick den Kopp un geiht in de Stuw' up un dal. [Fritz Reuter, Ut de Franzosentid]  Metadaten für Textstellen? HD <> Platt

UE Korpuslinguistik SS Deutsch? So ware auch die Sa e ulen der Allerheiligsten Dreyfaltigkeit mit ha e uffigem Silber und kunstreichen Blumen -- Werck dermassen geziert / daß alles und jedes den Augen so wohl ko e stlich als ku e nstlich vorkommen

UE Korpuslinguistik SS Deutsch? So ware auch die Sa e ulen der Allerheiligsten Dreyfaltigkeit mit ha e uffigem Silber und kunstreichen Blumen -- Werck dermassen geziert / daß alles und jedes den Augen so wohl ko e stlich als ku e nstlich vorkommen [Bonner Frühneuhochdeutschkorpus, österreichisches Deo Gratias 1680]

UE Korpuslinguistik SS Deutsch? Bei einer der letzten fröhlich-erfolgreichen Prügeleien hatte er voller Genugtuung und Stolz nach rechts und links sich umgeblickt, wo mächtig ausgelangt wurde, kein Stück heil, kein Auge trocken blieb und entdeckte dabei zu seiner größten Überraschung, daß seine Kumpane Paul Papke und Gustav Stürck waren [Bonner Zeitungskorpus, 1949]

UE Korpuslinguistik SS Können Sie… …einen typisch weiblichen/männlichen Text schreiben? (Produktion vs. Rezeption) …ein Gespräch nachahmen, wie Ihre Grosseltern sprechen? (bzw. vor 50 Jahren gesprochen haben?)

UE Korpuslinguistik SS Zum Erinnern das Korpusdesign hängt von den Fragestellungen ab, die man mit dem Korpus beantworten möchte der Begriff ‚repräsentativ‘ ist problematisch, da man die Grundgesamtheit nicht kennt und auch nicht abbilden kann auch ausgewogene Korpora bilden nie ‚die Sprache‘ ab! Passen Sie auf Metadaten auf! Diskussion um ‚Ausgewogenheit‘ oder ‚Repräsentativität‘ wird fortgeführt

UE Korpuslinguistik SS Korpusdesign - Literatur Biber (1993) Representativeness in Corpus Design. Literary and Linguistic Computing 8(4), Hunston (erscheint) Collection Strategies and Design Decisions. In: Corpus Linguistics: An International Handbook. Berlin: Mouton de Gruyter. Lemnitzer/Zinsmeister (2006) Korpuslinguistik. Tübingen: Narr, Kapitel 3. McEnery/Xiao/Tono (2007) Corpus-Based Language Studies. London/New York: Routledge, Kapitel A2.