Deutsche einsprachige Korpora немецкие одноязычные корпуса Institut für Slawistik Seminar: Slawische Korpuslinguistik SS 2006 O. Prof. Dr. Branko Tošović

Slides:



Advertisements
Ähnliche Präsentationen
Internationale Standards für digitales Archivgut
Advertisements

Zentrales Verzeichnis Digitalisierter Drucke
1. 2 Untersuchungsdesign Zielgruppe:Bevölkerung ab 14 Jahre Befragungsgebiet:Land Brandenburg Stichprobe:Soll:3.000 Befragte Ist:3.052 Befragte Auswahl:telefonische.
Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/ Berlin C. Fritze / O. Duntze : Das Deutsche Textarchiv Tag der.
Verschlüsselte Botschaften - eine Einführung -
Das Sondersammelgebiet Biologie – Geschichte, Auftrag und Funktion
DFG-Projekt Architektur- und Ingenieurzeichnungen der deutschen Renaissance. Digitalisierung und wissenschaftliche Erschließung des Zeichnungsbestandes.
Dr. Helmuth Sagawe WS 2010/11 Universität Heidelberg
Korpusanalyse und Forschungsfrage Korpusbasierte Wissenserschließung (Übung)  im WS 2010/11 von Dr. phil. Helmuth Sagawe M.A.
Text Textsorte Korpus.
1 Sprachressourcen-Gipfel IDS Mannheim Mai 2009 Bayerisches Archiv für Sprachsignale Florian Schiel & Christoph Draxler schiel |
eine Plattform für annotierte Korpora in XML
Übersicht: 1.1 Einleitung 1.2 Wachstumschancen
Archäologisches Wissen vernetzt
Erfahrungen mit der kooperativen Erschließung von Internetquellen in DBClear Dr. Ulrike Mühlschlegel Ibero-Amerikanisches Institut PK Berlin.
Modelle und Methoden der Linearen und Nichtlinearen Optimierung (Ausgewählte Methoden und Fallstudien) U N I V E R S I T Ä T H A M B U R G November 2011.
Haus Potsdamer Straße | 4. Mai 2011 | 10–17 Uhr
Romanistik (Spanisch)
Internet facts 2006-I Graphiken zu dem Berichtsband AGOF e.V. September 2006.
Internet facts 2008-II Graphiken zu dem Berichtsband AGOF e.V. September 2008.
Internet facts 2006-II Graphiken zu dem Berichtsband AGOF e.V. November 2006.
Grundkurs Linguistik Programm der Vorlesung Oktober
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil2.
Die Virtuelle Fachbibliothek Altertum
Prof. Dr. Bernhard Wasmayr
Seminar: Medienwandel und Sprachwandel/Textsortenwandel
Komar, Schaefer, Vrana, Wessel Volltextdatenbanken.
Die Dokumenttradition
Der Spendenmarkt in Deutschland
Dr. Christian Wagner-Ahlfs
Das F.A.Z-Archiv in der Bibliothek BiblioNet und CD-ROM
Berlin.
Gradierte Grammatikalität SS 2003 Einheit 1. Quelle des Übels Klassische Linguistik Korpusorientiert (Tote Sprachen/ Literatur- sprachliche Norm) Dialektforschung.
Vom Image zum Volltext – Texterkennung im Projekt „OstDok“
Sichtbar, zitierfähig und dauerhaft verfügbar Die elektronischen Publikationen des Deutschen Instituts für Menschenrechte im SSOAR Fachtagung Elektronische.
Das Internet als Quelle für die Varietätenlinguistik.
Das Finanzpolitik Quiz Humboldt-Universität zu Berlin Wirtschaftswissenschaftliche Fakultät Institut für Wirtschaftspolitik I Makroökonomie, Geld und Kapitalmärkte.
Präsentation der Seminararbeit
Leistungsbeschreibung Brückenplanung RVS RVS
Anglo-Amerikanische Korpuslinguistik Anglo-American Corpus Linguistics Erstellt von Gudrun Krenn Slawische Korpuslinguistik SE SS 2006 Dr. Branko Tošović
Eine Einführung in die CD-ROM
GBI Genios Wiso wiso bietet Ihnen das umfassendste Angebot deutsch- und englischsprachiger Literatur für die Wirtschafts- und Sozialwissenschaften. Wir.
ETH E-Collection: Die elektronische Publikationsplattform der ETH Zürich Zürich, Info-Partner Bildung und Arbeit Karin Assmann.
Peter Kloeppel Juni 2007 Vision der Television RTL Television.
Project Perseus Der volle Projektname lautet Perseus Digital Library Project. Das Projekt begann in 1985 als Experiment zur Digitalisierung von Bibliotheken.
1 Universitätsbibliothek Johann Christian Senckenberg Das Angebot E lektronischer M edien eLearning Netzwerktag am 30. Juni 2008 Subtitel Dr. Klaus Junkes-Kirchen.
Digital Cultural Heritage Internationale Fachkonferenz Juni 2006 in Salzburg DI Irene Hyna BMBWK Abt. IV/4, Kulturpolitik 21. April.
Auslegung eines Vorschubantriebes
Multivariate Verfahren der Statistik bei der quantitativen Textanalyse
Institut für Slawistik der Karl-Franzens Universität Graz Graz, 25. November 2010 Evaluierung der Grazer Sprachwissenschaft von 2005 bis 2009 Einführung.
Institut für Slawistik der Karl-Franzens Universität Graz Graz, 25. November 2010 Evaluierung der Grazer Sprachwissenschaft von 2005 bis 2009 Perspektive.
Germanismen im Gralis-Korpus
Französisch-Slawische Korpuslinguistik Французско- славянская корпусная лингвистика Aigner Ruth Prenn Linde SE Korpuslinguistik O. Univ.-Prof. Dr. Branko.
Bernd-Kristian Kaczenski Humboldt-Universität zu Berlin
Grundfragen,Grundbegriffe, Teildisziplinen,Ziele,Nutzen
Lexikografie, Wörterbücher und Korpuslinguistik
Andrea Karner Susi Luginger
Microsoft Corporation
Schutzvermerk nach DIN 34 beachten 20/05/14 Seite 1 Grundlagen XSoft Lösung :Logische Grundschaltung IEC-Grundlagen und logische Verknüpfungen.
erstellt von: Rita Plos
Kurzvita Prof. Dr. Dieter Frey
„MarITim – Mit Kurs auf IT“ OpenNet – Ein frei verfügbares Kommunikationsnetz „selbstgestrickt“ Dr. René Ejury Rostock, 23. März 2006.
Seite 1 Gegründet im Jahr 1669, ist die Universität Innsbruck heute mit mehr als Studierenden und über Mitarbeitenden die größte und wichtigste.
Fakultät Maschinenwesen, Professur für Technische Logistik THEMA DER ARBEIT (DIN Bold 48) Diplomand: Vorname Name Betreuer: Herr X Betreuender HSL: Prof.
Tanja Eder Slawische Korpuslinguistik Prof. Tosovic, SS 2006 Lexikalische Datenbanken WordNet – RussNet EuroWordNet und Global WordNet Association.
Diese weltweit größte Sammlung von deutschsprachigen Textkorpora für die linguistische Forschung - online recherchierbar über COSMAS I - umfasst zur Zeit.
Italianismen in der kroatischen Sprache Diplomarbeit Alexandra Groß
SRP Französisch Geklärte und offene Fragen Stand - Oktober 2011 Dr. Mareschal Michel, BG/BRG Purkersdorf
Wortschatzarbeit mit digitalen Korpora
Wortschatzarbeit mit digitalen Korpora
 Präsentation transkript:

Deutsche einsprachige Korpora немецкие одноязычные корпуса Institut für Slawistik Seminar: Slawische Korpuslinguistik SS 2006 O. Prof. Dr. Branko Tošović Erstellt von Karin Markut немецкие одноязычные корпуса Deutsche einsprachige Korpora

немецкие одноязычные корпуса Institut für Slawistik BAS Bayerisches Archiv für Sprachsignale 1995 gegründet Korpora mit gelesener Sprache Korpora mit spontaner Sprache Korpora mit akzentuierter/dialektaler Sprache Korpora mit Telefon-Sprache Korpora mit hoher technischer Qualität (Studio) BAS DSAv DWDS

Deutsche einsprachige Korpora немецкие одноязычные корпуса Institut für Slawistik Korpus Besteht aus Tokens ( Sätzen) deutscher Zeitungstexte aus der Frankfurter Rundschau Die Texte sind der CD "Multilingual Corpus 1" der European Corpus Initiative entnommen und wurden erweitert. Lizenz für wissenschaftliche Nutzung frei Eine Volllizenz kostet 4000 EURO, und eine Upgradelizenz 1500 EURO. BAS DSAv DWDS

Deutsche einsprachige Korpora немецкие одноязычные корпуса Institut für Slawistik DSAv Deutsches Spracharchiv 28 aufbereitete Korpora Tonaufnahmen und Transkripte : -Binnendeutsche Umgangssprachen / Standardsprache -Auslandsdeutsche Varietäten -verbale Interaktionen: Sprechen im sozialen Kontext (z.B. Beratungsgespräche) // Spracherwerb / Sprachentwicklung BAS DSAv DWDS

Deutsche einsprachige Korpora немецкие одноязычные корпуса Institut für Slawistik DWDS Digitale Wörterbuch der deutschen Sprache des 20. Jh. Wörterbuch Korpora -DWDS-Kernkorpus -ZEIT-Korpus -Berliner Tagesspiegel, PNN -DDR-Corpus -Corpus jüdischer Periodika -Demonstrationskorpus zur Anonymisierung von Eigennamen BAS DSAv DWDS

Deutsche einsprachige Korpora немецкие одноязычные корпуса Institut für Slawistik DWDS – Kernkorpus: 100 Mill. laufende Textwörter von Anzahl der Dokumente: Textsorten: Schöne Literatur (ca. 26%) Journalistische Prosa (ca. 27%) Fachprosa (ca. 22%) Gebrauchstexte (ca. 20%) (Transkribierte) Texte gesprochener Sprache (ca. 5%) BAS DSAv DWDS

Deutsche einsprachige Korpora немецкие одноязычные корпуса Institut für Slawistik ZEIT-Korpus: Umfang: 45 Mill. Tokens in Artikeln Textgrundlage: alle ZEIT-Ausgaben von Das ZEIT-Corpus wird täglich aktualisiert. Berliner Tagesspiegel und Potsdamer Neuesten Nachrichten: Umfang: 170 Mill. Tokens ( Artikel) bzw. 15 Mill. Tokens Textgrundlage: alle online erschienenen Artikel zw und Juni BAS DSAv DWDS

Deutsche einsprachige Korpora немецкие одноязычные корпуса Institut für Slawistik DDR-Korpus: umfasst 1150 Dokumente von Jüdische Periodika - 8 Zeitschriften (26 Mill. Tokens) bis 1938 Alle Korpora = lemmatisiert und mit Wortartinformationen versehen BAS DSAv DWDS Projektrealisierung in drei Etappen Textkorpuserstellung Computerlinguistische Erschließung Lexikographische Arbeit

Deutsche einsprachige Korpora немецкие одноязычные корпуса Institut für Slawistik Digitalisierung - Von der Textvorlage zur XML-Datei Kernkorpus: über 40 Mill. Textwörter digitalisiert in XML-Dateien aufbereitet [~ DIN A 4 Seiten] BAS DSAv DWDS

Deutsche einsprachige Korpora немецкие одноязычные корпуса Institut für Slawistik BAS DSAv DWDS Online-Recherche mit Anmeldung: Textkorpus 102 Mio. Wörter, ohne Anmeldung: Textkorpus 22 Mio. Wörter,