1 Elisabeth Burr WiSe 2006/07 Das Korpus romanischer Zeitungssprachen
2 Das Korpus geschaffen als Forschungsgrundlage heterogen –Ausgaben wurden so aufgenommen, wie sie erschienen –Texte als ganze –fremdsprachliche, dialektale und diachronische Elemente wurden nicht aussortiert Porträt der tatsächlichen Kombination von stilistischen und sozio-kulturellen Varietäten repräsentieren das vom Publikum erwartete komplexe sprachliche Wissen
3 Korpuserstellung leipzig.de/~burr/CorpusLing/htm/Korpuserstellung/Vortrag.htmhttp:// leipzig.de/~burr/CorpusLing/htm/Korpuserstellung/Vortrag.htm
4 Korpora & Subkorpora Italienische Zeitungen - Deutsche Einigung 1989 Corriere della Sera(Zeitung)19., 20., Il Mattino(Zeitung)20., La Repubblica(Zeitung)20., La Stampa(Zeitung)20., Französische, italienische und spanische Zeitungen - Europawahlen 1994 Le Monde(CD-ROM)12./13., 14., Corriere della Sera(CD-ROM)13., 14., La Vanguardia (Magnetband)13., 14.,
5 Größe der Subkorpora Corriere della Sera Wortformen Il Mattino Wortformen La Repubblica Wortformen La Stampa Wortformen Le Monde Wortformen Corriere della Sera Wortformen La Vanguardia Wortformen
6 Das Markup COCOA – ist so lange gültig bis z. B. erscheint
7 Bibliographische Informationen ReferenceVariableBeispiel Zeitung Ausgabe Ausgeweisenheit signiert anonym Autor/Autorin Seite Sprache
8 Sparten Sparte
9 Textart Vorzeile Schlagzeile Untertitel Zusammenfassung Zwischenüberschrift Ankündigung Artikel 'Aufmacher' Fernseh-, Kinoprogramm Filminhalt Glosse
10 Textart cont. Interview Kolumne Kritik Kurzmeldung Kurznachricht Leitartikel Leserbrief Liste Nachricht Wetterbericht Buch-, Film-, Liedtitel, etc. Bildunterschrift
11 Art des Sprechens fortlaufender Text Zitat von schriftlichen Quellen mündliches Sprechen Frage im Interview Antwort im Interview
12 Wiederholte Rede Redewendung, Sprichwort, etc. restlicher Text
13 Italienisches Korpus 1989
14 Kodierung finiter Verbformen alle finiten Verbformen wurden kodiert $ Zahlencode statt COCOA direkt und ohne blank vor dem das Paradigma bildenden Verb eingefügt $I110a003dice periphrastische Formen als Einheit gezählt (#) ho#$I111a001visto
15 Zahlencode – Modi & Ebene entsprechend Kategorien des romanischen Verbalsystems aufgebaut –setzt sich aus verschiedenen Ebenen zusammen –zusätzlich noch die Diathese (Aktiv / Passiv) berücksichtigt –differenziert sich zunächst in: C Konjunktiv B Imperativ –innerhalb der Modi Unterscheidung zwischen aktueller und inaktueller Ebene: aktuelle Ebene:1 inaktuelle Ebene:2
16 Primäre Perspektive –durch primäre Perspektive auf jeder Ebene abgegrenzte Zeiträume werden durch 1, 2 und 3 vertreten: Gegenwart bzw. parallele Perspektive1 Vergangenheit bzw. retrospektive Perspektive2 Zukunft bzw. prospektive Perspektive3
17 Sekundäre Perspektive –durch sekundäre Perspektive innerhalb der drei durch die primäre Perspektive abgegrenzten Zeiträume bestimmte Zeitpunkte werden durch die Zahlen 0, 1 und 2 repräsentiert –Kodierung drückt somit zugleich funktionelle Relationen aus, die zwischen den einfachen und den periphrastischen Tempora innerhalb ihres gemeinsamen Zeitraums und auf der gleichen Ebene bestehen: Relation zwischen presente und passato composto (passato prossimo) Relation zwischen imperfetto und trapassato composto (trapassato prossimo).
18 Sekundäre Perspektive –parallel0 –retrospektiv1 –prospektiv2
19 Indikativ
20
21 Indikativ aktuelle Ebeneinaktuelle Ebene einfache Tempora cantoI110cantavoI210 cantaiI120 canteròI130cantereiI230 periphrastische Tempora ho cantatoI111avevo cantatoI211 ebbi cantatoI121 avrò cantatoI131avrei cantatoI231
22 Konjunktiv
23
24 Konjunktiv aktuelle Ebeneinaktuelle Ebene einfache Tempora cantiC110cantassiC210 periphrastische Tempora abbia cantatoC111avessi cantatoC211
25 Imperativ aktuelle Ebeneinaktuelle Ebene einfache Tempora canta B110
26 Aktiv – Passiv – 4. Stelle Aktiva Passivp
27 Verbalperiphrasen 00temporalen Formen 01stare + Gerundium (Winkelschau) 02stare per + Infinitiv (imminentielle Phase) 03venire + Partizip Perfekt (Diathese) 04andare + Partizip Perfekt (komitative Schau) 05cominciare/incominciare/ricominciare/ iniziare a + Infinitiv (inzeptive Phase) 06tornare a + Infinitiv (Wiederholung) 07continuare/seguitare a + Infinitiv ( kontinuative Schau/kontinuative Phase ) 08venire a + Infinitiv (resultierende Handlung) 09prendere a + Infinitiv (inzeptive Phase) 10mettersi a + Infinitiv (inzeptive Phase) 11smettere di + Infinitiv (regressive/konklusive Phase) 12andare a + Infinitiv (Abhebung)
28 Verbalperiphrasen cont. 13finire per + Infinitiv (Einreihung) 14finire di + Infinitiv (regressive/konklusive Phase) 15andare + Gerundium (komitative/prospektive Schau/progressive Phase) 16stare a + Infinitiv (Winkelschau) 17avere da + Infinitiv (prospektive Schau) 18non fare (altro) che + Infinitiv (Dauer) 19finire col + Infinitiv (Einreihung) 20andare + Adjektiv (komitative Schau) 21cominciare col + Infinitiv (Einreihung) 22stare + Partizip Perfekt (Resultat) 23venire + Gerundium (retrospektive Schau) 24stare + cominciare a + Infinitiv (Winkelschau + inzeptive Phase)
29 Person keine Unterscheidung zwischen Singular und Plural –1. Person1 –2. Person2 –3. Person3
30 Beispiele $I110a001dico sto#$I110a011facendo ho#$I111a001visto Auszug aus dem Korpus
31 Header
32 Texte für die Bearbeitung
33 Vorgehen Teilkorpus wählen –Corriere –zumindest 2 Sparten (es bietet sich an, z.B. alles zu Elezioni + alle Cronache) –als Textdatei (!) auf Festplatte speichern (eigenen Ordner Korpus einrichten) WordPad verwenden –WordPad aktivieren –Datei – öffnen – Dateityp Textdokumente – MS-DOS-Format (*.txt) –Sparte anklicken –geöffnete Sparte speichern unter an bisherigen Namen z.B. _PP für Passato Prossimo anhängen: C130694_Sport_PP) aufpassen, dass Dateityp Textdokumente – MS-DOS-Format (*.txt) Datei immer in WordPad öffnen jedes Mal darauf achten, dass Dateityp Textdokumente – MS-DOS-Format (*.txt) vorhandenes Markup nicht verändern Zahlencode direkt vor die Formen der zu untersuchenden Verbalkategorie anfügen
34 Hilfreiches zum Ausdrucken ausführlichere Beschreibung des Markup des Korpus von 1994ausführlichere Beschreibung des Markup des Korpus von 1994 Zusammenstellung der Kodierung der VerbalkategorienZusammenstellung der Kodierung der Verbalkategorien