Lexikografie, Wörterbücher und Korpuslinguistik

Slides:

Advertisements

Ähnliche Präsentationen

Animierte Slideshow zur Anwendung dieses (Selbst-) Evaluationsinstruments Hierin können Sie sich mit den Schnittstellen und verschiedenen Funktionen der.

Advertisements

Hier einige Hieroglyphen:

Gestaltung eines Posters (Schrift: Punkt 70).

Polynomial Root Isolation

Algebraische Zahlen: Exaktes Rechnen mit Wurzeln

Gliederung der Ausführungen: Einleitung, Hauptteil, Schluss

Evaluation von Gesundheitsförderung im Unterricht und in der Schule

Dr. Helmuth Sagawe WS 2010/11 Universität Heidelberg

Korpusanalyse und Forschungsfrage Korpusbasierte Wissenserschließung (Übung) im WS 2010/11 von Dr. phil. Helmuth Sagawe M.A.

Das Erstellen einer Hausarbeit

Wörterbuchtypen Universität zu Köln Romanisches Seminar

Konzeption und Realisierung eines Text- Analysesystems zur Automatisierung der Bewerberauswahl von diesem Datenformat jede beliebige Anwendung adaptieren.

Regeln für serviceorientierte Architekturen hoher Qualität – eine Praxisevaluation Die Arbeit evaluiert die Regeln für serviceorientierte Architekturen.

Philosophische Fakultät 3: Empirische Humanwissenschaften Fachrichtung Erziehungswissenschaft Statistik I Anja Fey, M.A.

Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/8 Thesauren In gewisser Weise bilden Thesauren (Singular Thesaurus, Plural auch Thesauri)

Philosophie der Logik nach Frege I

Kapitel 1 Die natürlichen und die ganze Zahlen. Kapitel 1: Die natürlichen und die ganzen Zahlen © Beutelspacher/Zschiegner April 2005 Seite 2 Inhalt.

Eine prominente Strategie qualitativer Sozialforschung

WAS WILL WISSENSCHAFT? - Sagen: Was WIE ist

Access 2000 Datenbanken.

Spree SoSe 2007 Titel Lexikographie – Produktion lexikographischer Werke (am Beispiel lookedup4you) Abb.: Relaunch lookedup4you Betaversion.

Qualitätskriterien zur Beurteilung von Dokumentationen

Spree SoSe 2007 Titel Lexikographie und Metalexikographie Lexikonproduktion und Lexikontheorie Dank an Franziskus Geeb, der mir seine Unterrichtsmaterialien.

Spree SoSe 2007 Titel Lexika und ihre Benutzer Benutzervoraussetzungen Dank an Franziskus Geeb, der mir seine Unterrichtsmaterialien zum Thema Lexikographie.

Sprachverstehenstest in germanischen Sprachen

Kontrollfragen zu Kapitel 1

Entitäten Extraktion Wichtige Schritte Petra Maier WS 05/06.

Wie macht man ein Sudoku? Transformations-Methode:

Externe Bewertung in IB-Biologie

Deutsche einsprachige Korpora немецкие одноязычные корпуса Institut für Slawistik Seminar: Slawische Korpuslinguistik SS 2006 O. Prof. Dr. Branko Tošović

Jette von Holst-Pedersen, Oktober, 2013

Erstellt von: Manuela, Marc und Midhat im Rahmen des MMF_3 Kurses.

Wichtige bibliographische Begriffe: Kurs WA, Zrelski, BRG WY, 2013.

© Wortstellung im Deutschen Norbert Fries.

Beweissysteme Hartmut Klauck Universität Frankfurt WS 06/

Wie schreibe ich eine Diplom- bzw. Masterarbeit ?

Phasen einer empirischen Untersuchung

Analyse von Arbeitsaufträgen „Durch Geschichte zur Gegenwart 2“

Im Dienste der Menschen Alten – und Krankenbegleitung

Bereit ???? Nimm dir 10 Minuten Zeit. Ich versuche es dir zu erklären.

Statistiken eine Präsentation von Anja, Tatjana und Laura.

Erstellt von: Manuela, Marc und Midhat im Rahmen des MMF_3 Kurses.

Wie mache ich eine PowerPoint Präsentation??!

Übung zu Einführung in die LDV I

Die ersten Schritte bei der Entdeckung der Statistik

Elternabend der Schule … vom …

Zur Sozial- und Kulturgeschichte der DDR Freies Tutorat im Wintersemester 2005 / Einführungsveranstaltung Einleitung.

Von Unternehmen und Unternehmern

Methoden Die klassische Methode der Psycholinguistik (genauso wie der experimentellen Psychologie im Allgemeinen) ist die Messung von Reaktionszeiten.

Messergebnis Das Messergebnis ist der Näherungswert für den wahren Wert der Messgröße, der durch Auswertung der mit einer Messeinrichtung gewonnenen Messwerte.

Grammatikalische Begriffe im Unterricht

die wichtigsten Wörterbücher des Deutschen elektronische Lexikographie

7. Formale Sprachen und Grammatiken

Gegenstand der Lexikologie. Geschichte der Lexikologie.

Lexikalische Semantik

Diese weltweit größte Sammlung von deutschsprachigen Textkorpora für die linguistische Forschung - online recherchierbar über COSMAS I - umfasst zur Zeit.

Lineare Gleichungen Allgemeine Einführung Äquivalenzumformungen

Der Taskmanager ist Bestandteil des Betriebssystems, der als Prozessmanager Prozessmanager unter anderem die aktuell laufenden Programme und Prozesse.

Recherche-Workshop der Stadtbücherei Metzingen Schritte zur erfolgreichen Recherche.

ResA am Arbeitsplatz Das Vorgehen ist angelehnt an „5 S“ und bietet Ihnen die Möglichkeit das Konzept der 5 Disziplinen ressourcenschonenden Arbeitens.

Englischunterricht mit dem Lehrmittel «New World».

Die klassischen Methoden der historisch-vergleichenden Forschung Universität Zürich Soziologisches Institut Seminar: Methoden des internationalen Vergleichs.

VO#1: Lexikologie als sprachwissenschaftliche Disziplin Lexikologie, Matej-Bel-Univeristät in Banská Bystrica, Z. Tuhárska.

Vo#1:Semantik als Wissenschaft Semantik I Matej-Bel-Universität in Banská Bystrica Zuzana Tuhárska.

Vo#1 Stil und Stilistik Stilistik, Zuzana Tuhárska, Matej-Bel- Universität in Banská Bystrica.

Vo#1 Stil und Stilistik Stilistik, Zuzana Tuhárska, Matej-Bel- Universität in Banská Bystrica.

► In einem Test werden 10 norwegische Verben gezeigt, wobei bei jedem Verb anstelle einer deutschen Übersetzung ein akustisches Signal oder ein Bild steht:

Die ersten Schritte bei der Entdeckung der Statistik

Präsentation transkript:

Lexikografie, Wörterbücher und Korpuslinguistik

Die Lexikografie oder Lexikographie (von griech Die Lexikografie oder Lexikographie (von griech.: lexikon (biblion) = Wörterbuch + graphein = schreiben) beschäftigt sich mit dem Erstellen von Wörterbüchern. Das Erstellen eines Wörterbuches ist ein komplexer und meist langwieriger Prozess. Bei allen größeren Projekten wird die Arbeit von mehreren Personen ausgeführt. Sie führt zu einem gedruckten Wörterbuch, einem elektronischen Wörterbuch oder zu einer lexikalischen Datenbank, die Grundlage für beides sein kann.

Phasen während der Erstellung eines Wörterbuches In der nächsten Phase werden die Einheiten ausgewählt, die als Lemmata bearbeitet werden sollen (z. B. die 100 000 häufigsten Wörter der deutschen Gegenwartssprache). Das Lemma ist der Eintrag oder das Stichwort in einem Wörterbuch (Lexikon, Enzyklopädie). Man bezeichnet es sowohl als Grundform eines Wortes als auch als Zitier- oder Grundform eines Lexems. Der Vorgang zur Bestimmung der genaueren Lemmata wird als Lemmaselektion oder auch Lemmatisierung bezeichnet.

Phasen während der Erstellung eines Wörterbuches Ein Lexem – eine sprachliche Grundform – könnte im Prinzip auf beliebige Weise benannt werden, da es als sprachliche Einheit über verschiedene Formen abstrahiert, aber selbst keine Form besitzt, die es gegenüber diesen anderen Formen auszeichnet. Üblicherweise werden Lexeme nach einer konventionell bestimmten Form benannt, die dann Zitierform (auch: Grundform, Stichwort) dieses Lexems heißt:

Phasen während der Erstellung eines Wörterbuches Zitierform (auch: Grundform, Stichwort) dieses Lexems heißt: Ein Lexem – eine sprachliche Grundform – könnte im Prinzip auf beliebige Weise benannt werden, da es als sprachliche Einheit über verschiedene Formen abstrahiert, aber selbst keine Form besitzt, die es gegenüber diesen anderen Formen auszeichnet. Üblicherweise werden Lexeme nach einer konventionell bestimmten Form benannt, die dann Zitierform (auch: Grundform, Stichwort) dieses Lexems heißt:

Phasen während der Erstellung eines Wörterbuches Im Deutschen ist die Zitierform fürNomen normalerweise der Nominativ Singular (z. B. Traum), für Verben der Infinitiv Präsens Aktiv (z. B. träumen). Am Wort orientierte Linguistische Nachschlagewerke (Lexika, Thesauri, etymologische Werke) verwenden als Lemma alle Lexeme, während Nachschlagewerke, die mehr an begrifflicher Lemmaselektierung interessiert sind (Sachwörterbücher, Fachglossare, Enzyklopädien und ähnliches) als Zitierform – insbesondere im Deutschen – das einfachste Substantiv bevorzugen: So fasst man etwa „der Traum“ mit dem Verb „träumen“ bzw. dessen Substantivierungen „das Träumen“ und „das Geträumte“ unter einem gemeinsamen Lemma zusammen, insofern sie denselben Sachverhalt beschreiben. Hier wird meist vom Lemma als einem Deskriptor gesprochen.

Phasen während der Erstellung eines Wörterbuches Dass die Wahl der Zitierform vom lexikologischen Typ des Nachschlagewerks abhängig ist, zeigt folgendes Beispiel: Das Wort „Mäuse“ wird unter dem Lemma Maus eingeordnet. Diese Vorgehensweise wählt ein Wörterbuch, da „Maus“ lexikalische Zitierform des Plurals „Mäuse“ ist. Das Wort „Maus“ wird unter dem Lemma Mäuse eingeordnet. Das Lemma kann einen Überbegriff für verwandte Themen darstellen: Hier ist die zoologische Gattung der Mäuse Überbegriff des umgangssprachlichen „Maus “, die taxonomische Zitierform wird höher bewertet als die der Umgangssprache („Alles, was in etwa wie eine Maus aussieht, ist eine Maus“). Dafür wird die „Maus“ als Eingabegerät eines Computers als eigenständiges Lemma geführt

Phasen während der Erstellung eines Wörterbuches In der Hauptphase werden Artikel für das Wörterbuch erstellt. Beschreibungsgegenstand sind dabei die zuvor ausgewählten Lemmata. Die Bearbeiter stützen sich dabei auf die Materialien der Wörterbuchbasis, also Belege und auf ihr eigenes Wissen. Die fertigen Artikel werden in meist mehreren Zyklen überarbeitet und korrigiert, bis jeder Artikel von der Projektleitung abgesegnet ist.

Phasen während der Erstellung eines Wörterbuches Der letzte Schritt ist die Aufbereitung des Materials für den Druck oder für den Zugriff über die Schnittstelle eines elektronischen Wörterbuchs. Nach ihrem Erscheinen auf dem Markt werden viele Wörterbucher immer wieder überarbeitet, aktualisiert und neu aufgelegt. So ist das Rechtschreibwörterbuch von Duden im Jahr 2009 bereits in der 25. Auflage erschienen und enthält ca. 5000 neue Einträge.

WÖRTERBÜCHER Wörterbücher sind Nachschlagewerke, die Wörter oder andere sprachliche Einheiten in Listen verzeichnen – meistens handelt es sich um eine alphabetische Sortierung – und jedem Lemma (Eintrag) entsprechende sprachliche Äquivalente zuordnen.

WÖRTERBÜCHER Die Wörterbücher werden nach mehreren Aspekten unterschieden: 1. nach der Anzahl der Sprachen: - einsprachige (deutsche z. B.: DUDEN: Deutsches Universalwörterbuch, Wahrig: Deutsches Wörterbuch, Langenscheidt: Großwörterbuch Deutsch als Fremdsprache) und zweisprachige (tschechisch-deutsch, deutsch-tschechisch) 2. nach dem Umfang - kleine, mittlere und große 3. nach dem Inhalt - allgemeine, spezialisierte (nach einzelnen Bereichen: rechtliche, ökonomische, medizinische…)

WÖRTERBÜCHER Ein gutes einsprachiges Wörterbuch umfasst mindestens 100 000 lexikalische Einheiten, allgemein gebrauchte Fachtermini, sachliche Informationen, klare Definitionen, übersichtliche Struktur, Beispiele, Synonyme und Hinweise zum angemessenen Wortgebrauch. Ein zweisprachiges Wörterbuch enthält dagegen keine Definitionen sondern fremdsprachige Äquivalente. Für die Praxis ist sehr wichtig, dass das Wörterbuch dem Übersetzer zu richtigen Entscheidungen hilft und dass es möglichst viele Informationen über verschiedene Äquivalenzebenen enthält

WÖRTERBÜCHER Für eine literarische Übersetzung ist sehr nützlich auch ein etymologisches Wörterbuch, das u.a. historische Änderungen in der Wortbedeutung erfasst. Das rückläufige Wörterbuch dient als ein Hilfsmittel beim Reimen – es ist alphabetisch vom Ende zusammengestellt. Weiter gibt es auf dem Markt phraseologische und Sprichwortwörterbücher.

WÖRTERBÜCHER Der Übersetzer hat auch einige in eigener Muttersprache geschriebene Wörterbücher zur Verfügung, z. B. ein einsprachiges und ein synonymisches Wörterbuch, geltende Rechtschreibnorm usw. Sehr wichtig ist auch ein Fremdwörterbuch. Das Wörterbuch wird vom Übersetzer in zwei Phasen der Übersetzung verwendet: bei der Analyse des Ausgangstextes und bei der Produktion des Zieltextes.

WÖRTERBÜCHER Bei der Analyse des Ausgangstextes benutzt er das Wörterbuch, wenn er ein Wort nicht versteht oder kann seine Bedeutung aus dem Kontext nicht bestimmen – z. B.: der Übersetzer kennt das Wort in anderen Zusammenhängen, doch er weiß nicht, was das Wort in einem konkreten Kontext bedeutet, der Übersetzer trifft im Text mehrere Wörter mit ähnlicher Bedeutung und hat Schwierigkeiten bei der Erkennung der Bedeutungsunterschiede, der Übersetzer kennt das Wort aus dem alltäglichen Gebrauch, aber setzt voraus, dass es in diesem Fachkontext eine andere Bedeutung hat, der Übersetzer kommt zu einem Kompositum, dessen einzelne Komponente er kennt, aber nicht die Bedeutung der ganzen Zusammensetzung. Šimon, L. Úvod do teórie a praxe prekladu (nielen) pre nemčinárov, Prešov 2005, S. 22

WÖRTERBÜCHER In der Phase der Zieltextesproduktion verwendet der Übersetzer das Wörterbuch, wenn er nicht weiß, wie er die Bedeutung eines Wortes aus der Ausgangssprache, das er versteht, in der Zielsprache ausdrücken soll: der Übersetzer kennt für ein bestimmtes Wort der Ausgangssprache kein Äquivalent in der Zielsprache, der Übersetzer kennt mehrere gleichwertige Wörter für ein bestimmtes Wort, aber weiß nicht, welches von ihnen für den Zieltext am besten geeignet ist. usw.

AUSWAHL EINES WÖRTERBUCHES Für die Übersetzungstätigkeit wird empfohlen, das Wörterbuch nach folgenden Kriterien auszuwählen: 1. Umfang eines Wörterbuches - das Wörterbuch sollte mindestens 100 000 Stichwörter enthalten 2. Qualität und Art der Präsentation des Wörterbuchsinhaltes - die Definitionen einzelner Ausdrücke sind vollständig und auch mit den Anwendungsbeispielen präsentiert. Sie weisen auch auf weitere Ausdrücke, z. B. Synonyme hin.

AUSWAHL EINES WÖRTERBUCHES 3. Alter des Wörterbuches - je jünger das Wörterbuch ist, desto breiter aktuellen Wortschatz enthält. Ältere Wörterbücher sind sehr gut bei Übersetzungen von alten Texten. 4. Zielgruppe der Wörterbuchbenutzer - außer Übersetzungs- und einsprachigen Wörterbüchern braucht ein professioneller Übersetzer auch spezielle enzyklopädische Wörterbücher. Diese (auch Sprach- und Sachwörterbücher oder integrierte Wörterbücher genannt) erfüllen die Grundfunktionen von sprachlexikographischen und sachlexikographischen Wörterbüchern und oft treten in gemischter Form auf, vor allem im Bereich der Fachlexika, wo die sprachlichen Informationen nachträglich zum Lemma und dessen Übersetzbarkeit integriert werden.

AUSWAHL EINES WÖRTERBUCHES 5. Verfasser des Wörterbuches - für einen Tschechen als einen Anwender ist es bei den zweisprachigen Wörterbüchern empfehlenswert, dass der Autor auch ein Tscheche ist. Jeder seriöse Übersetzer bildet eigene Dateien, die solche Bereiche betreffen, die er für seine Tätigkeit braucht. Er muss natürlich kodifizierte terminologische Äquivalente verwenden.

AUSWAHL EINES WÖRTERBUCHES Außer Wörterbüchern verwenden Übersetzer auch Lexika. Der Hauptunterschied zwischen einem Wörterbuch und einem Lexikon liegt darin, dass das Wörterbuch auf dem Niveau Langue arbeitet, während das Lexikon bevorzugt die Ebene Parole. Langue ist ein überindividuelles System einer Sprache, das aus Wortschatz und grammatischen Regeln besteht. Sie liegt der gesprochenen Rede (Parole) zugrunde. Parole ist eine konkrete, räumlich-zeitliche Realisierung der Langue in konkreten Äußerungen. Das bedeutet, es ist eigentlich die Rede, oder individuelle Sprachverwendung.

Korpuslinguistik Die Korpuslinguistik ist ein derzeit aufstrebender Bereich der Sprachwissenschaft. Darin werden neue Erkenntnisse über Sprache generell oder über bestimmte einzelne Sprachen erlangt oder bestehende Hypothesen überprüft, wobei als Grundlage quantitative oder qualitative Daten dienen, die aus der Analyse von speziellen Textkorpora gewonnen werden. Große Verbreitung fand die Korpuslinguistik im deutschsprachigen Raum ab der zweiten Hälfte der 1990er Jahre. Sie steht, wissenschaftstheoretisch betrachtet, dem augenblicklich herrschenden Paradigma des Generativismus entgegen. Es ist nach wie vor umstritten, ob es sich bei diesem Gebiet um eine Methode oder um einen eigenen neuen Zweig der Sprachwissenschaft handelt.

Datenmaterial und Forschungsgegenstand Gegenstand der Korpuslinguistik ist die Sprache in ihren verschiedenen Erscheinungsformen. Die Korpuslinguistik ist dabei durch das Verwenden von authentischen Sprachdaten charakterisiert, die in großen Korpora dokumentiert sind. Bei solchen Textkorpora handelt es sich um Sammlungen von sprachlichen Äußerungen, die nach bestimmten Kriterien und mit einem bestimmten Forschungsziel zusammengestellt werden. Die Erkenntnisse der Korpuslinguistik basieren somit auf natürlichen Äußerungen einer Sprache, also auf Sprache, wie sie tatsächlich verwendet wird. Diese Äußerungen können entweder schriftlich entstanden sein oder es kann sich um spontane oder elizitierte gesprochene Sprache handeln. Die meisten Korpora liegen heute in digitaler Form vor und sind mittels bestimmter Software für die linguistische Recherche nutzbar

Datenmaterial und Forschungsgegenstand Ziel der Korpuslinguistik ist es, anhand dieser Daten entweder bestehende linguistische Hypothesen zu überprüfen (bestätigen oder widerlegen) oder durch explorative Datenanalyse neue Hypothesen und Theorien über den Gegenstand zu gewinnen. Man spricht im ersten Fall von „korpusgestützter“ linguistischer Analyse und im zweiten Fall von „korpusbasierter“ linguistischer Analyse.

Methodische Probleme Ein bedeutendes methodisches Problem der Korpuslingustik ist das Verhältnis der Datenbasis, also des Korpus, zum untersuchten Gegenstand. Die Datenbasis könnte theoretisch den Gegenstand komplett abdecken, wenn es sich um eine heute noch verwendete Sprache handelt. Doch man kann ein Korpus nicht als eine im Sinne der schließenden Statistik valide Stichprobe betrachten, da der Gegenstand, auf den sich die Stichprobe bezieht – also eine bestimmte Sprache oder ein bestimmter Sprachgebrauch –, in der Praxis als Ganzes nicht erfassbar ist. Man behilft sich heute damit, ein Korpus nicht mehr (wie ursprünglich gefordert) als „repräsentativ“ im statistischen Sinne für den untersuchten Gegenstand zu bezeichnen und Erkenntnisse, die auf Grund von Korpora gewonnen werden, lediglich als vorläufig plausibel zu betrachten. Die Zusammenstellung von großen Korpora soll daher „ausgewogen“ sein, also in einem bestimmten Verhältnis aus unterschiedlichen Textsorten bestehen.

Methodische Probleme Die Grundannahme der Korpuslinguistik, dass Erkenntnisse über Sprache anhand von realen sprachlichen Äußerungen gewonnen oder überprüft werden können, bringt zwei weitere methodische Probleme oder Einwände mit sich: Irreführende positive Evidenz: In spontanen gesprochenen und sogar in überlegt formulierten schriftsprachlichen Äußerungen können bis zu einem gewissen Grad Abweichungen von der sprachlichen Norm auftreten. Bei der Untersuchung eines Korpus kann es im Einzelfall schwierig sein zu entscheiden, ob eine (meist kleine) Menge von Belegen eines bestimmten sprachlichen Phänomens Ausdruck eines tatsächlich existierenden systematischen Sprachgebrauchs ist und somit eine linguistische These stützt oder ob man diese Belege als normabweichendend bzw. fehlerhaften Sprachgebrauch ansehen muss.

Methodische Probleme Negative Evidenz: Viele Aussagen zu sprachlichen Phänomenen lassen sich dann selbst in sehr großen Korpora nicht belegen, wenn der Gebrauch bestimmter sprachlicher Konstruktionen sehr selten ist. Aus dem Nichtvorhandensein einer solchen gesuchten Konstruktion im Korpus kann aber nicht zwingend geschlossen werden, dass es nicht existiere oder ungrammatisch wäre. Im ersten Fall kann man Ergebnisse, die durch Korpusanalyse gewonnen wurden, durch eine parallele Sprecherbefragung zu stützen versuchen. Im zweiten Fall hilft nur die Untersuchung weiterer Daten oder, als ultima ratio, ebenfalls eine Sprecherbefragung

Geschichte und Anwendungsgebiete Die weite Verbreitung und die hohe Bedeutung der englischen Sprache sowie eine insgesamt hohe Affinität zur empirischen Forschung in der Sprachwissenschaft sind zwei Gründe, weshalb sich die computergestützte Datenananalyse, wie sie die Korpuslinguistik eine ist, zuerst im anglo- amerikanischen Raum entwickelt hat.

Geschichte und Anwendungsgebiete Die dortige moderne Korpuslinguistik wurde 1967 von Henry Kucera und Nelson Francis durch ihre Arbeit „Computational Analysis of Present- Day American English“ begründet. Deren Ergebnisse wurden anhand es „Brown-Corpus“ (genau: „Brown University Standard Corpus of Present- Day American English“) gewonnen. Dieses umfasste ursprünglich rund 1 Million Wörter. Weitere englischsprachige Korpora folgten, wie etwa in den 1980er Jahren das gleich große „Lund-Oslo-Bergen-Korpus“ (LOB) . Eine neue Wegmarke wurde durch die Erstellung eines diese Zahl weit überschreitenden Textkorpus im Rahmen der lexikographischen Arbeiten beim englischen Collins Verlag erreicht. Dessen Ergebnis war die erste Auflage des „Collins Cobuild Dictionary of English“. Ihm folgte in einer neuen Größenordnung die nicht-kommerzielle Erstellung eines ausgewogenen, 100 Millionen laufende Wörter umfassenden „Bristish National Corpus“, das heute immer noch als Referenzkorpus für linguistische Untersuchungen des britischen Englisch verwendet wird. Ihm tritt heute das „American National Corpus“ zur Seite. Andere regionale Varietäten des Englischen werden im „International Corpus of English“ (ICE) erfasst.

Geschichte und Anwendungsgebiete Vorreiter der deutschen Korpuslinguistik waren das Institut für Kommunikationswissenschaft und Phonetik (IKP) an der Universität Bonn und das Institut für Deutsche Sprache in Mannheim. Heute sind als deutschsprachige Korpora besonders folgende zu nennen: das „Deutsche Refernzkorpus“ (DeReKo) am Institut für Deutsche Sprache in Mannheim, das mehrere Milliarden Textwörter umfasst

Geschichte und Anwendungsgebiete das Kernkorpus des „Digitalen Wörterbuchs der Deutschen Sprache“ (DWDS) an der Berlin-Brandenburgischen Akademie der Wissenschaften das Korpus des Projekts „Deutscher Wortschatz“ an der Universität Leipzig (vorwiegend Texte aus Online-Medien) das „Schweizer Textkorpus“ an der Universität Basel (derzeit noch im Probebetrieb und in Erweiterung) Neben diesen der Öffentlichkeit kostenlos zugänglichen Korpora mit garantierter Langzeitpflege gibt es eine Vielzahl von Spezialkorpora für viele Sprachstufen und Varietäten des Deutschen. (Eine Übersicht hierüber geben Lemnitzer / Zinsmeister (2010).)

Geschichte und Anwendungsgebiete Korpora werden, wie das Beispiel des Collins Cobuild Projekts, aber auch das American Heritage Dictionary (1969) zeigen, von einer Lexikographie genutzt, die dem Benutzer nicht nur präskriptive (wie soll ein Wort benutzt werden), sondern auch deskriptive (wie wird ein Wort tatsächlich benutzt) Beschreibungen anbieten will. Quantitative Erhebungen zu Worthäufigkeitsstatistiken können die Lemmaauswahl für viele Arten von Wörterbüchern steuern und objektivieren. Heute ist die Verwendung von Korpora auch in deutschen Wörterbuchverlagen etabliert. Einige Arten von lexikalischen Informationen können erst auf Grund der Analyse großer Textkorpora gewonnen werden (z.B. zeitlich gestaffelte Frequenzprofile), andere können durch Korpora besser abgesichert werden als durch die Sprachkompetenz einzelner Lexikographen.

Geschichte und Anwendungsgebiete Korpora werden heute auch vermehrt in der Sprachdidaktik als Forschugnsgrundlage genutzt. Anhand der Ergebnisse, wie eine Sprache tatsächlich gebraucht wird, werden auch die Unterrichtsmaterialien gestaltet, und so genannte Lernerkorpora zeigen auf, in welchen Lernstadien welche Fehler bei der Sprachproduktion vorherrschen. Für spezielle linguistische Fragestellungen werden in zunehmendem Ausmaß auch andere spezielle Korpora erarbeitet, die im Umfang erklärlicherweise weitaus kleiner sind als Referenzkorpora, die eine Sprache insgesamt erfassen sollen. Solche gibt es beispielsweise im Bereich der Untersuchungen des Sprachgebrauchs in der Politik und in den Medien.