1 Towards a Methodology for Constructing and Annotating Historical Corpora Martin Durrell, Paul Bennett & Astrid Ensslin.

Slides:



Advertisements
Ähnliche Präsentationen
Themenportal Europäische Geschichte / Web portal European History
Advertisements

Art der Arbeit (Projekt-/Studien-/Diplomarbeit/
Einführung Sprache.
Titelmasterformat durch Klicken bearbeiten Textmasterformate durch Klicken bearbeiten Zweite Ebene Dritte Ebene Vierte Ebene Fünfte Ebene 1 Titelmasterformat.
Guten Morgen oder Guten Tag, Deutsch II! Dieses Jahr werde ich viel mehr Deutsch sprechen. So, passt auf und hört zu! Ich habe Klassinformation dass ihr.
Titelmasterformat durch Klicken bearbeiten Textmasterformate durch Klicken bearbeiten Zweite Ebene Dritte Ebene Vierte Ebene Fünfte Ebene 1 Titelmasterformat.
September 29th 2008 Dr. Bernhard Schmidt Lehrstuhl für Allgemeine Pädagogik und Bildungsforschung der LMU Perception of Age, Expectations of Retirement.
Institut für Angewandte Mikroelektronik und Datentechnik Phase 5 Architectural impact on ASIC and FPGA Nils Büscher Selected Topics in VLSI Design (Module.
1IWF/ÖAW GRAZ Data Combination David Fischer, Rumi Nakamura (IWF/OeAW)  Fluxgate: noise + distortion gets worse than the searchcoil at ~ 6 Hz.  Searchcoil:
The Team Traxler Petra Gahleitner Bettina Reindl Egmont.
Stephanie Müller, Rechtswissenschaftliches Institut, Universität Zürich, Rämistrasse 74/17, 8001 Zürich, Criminal liability.
Akkusativ Präpositionen
E STUNDE Deutsch AP. Freitag, der 26. April 2013 Deutsch AP (E Stunde)Heute ist ein E Tag Goal: to understand authentic written text, audio material and.
E STUNDE Deutsch AP. Freitag, der 19. April 2013 Deutsch AP (E Stunde)Heute ist ein G Tag Goal: to understand authentic written text, audio material and.
The influence of spatial variability of polar firn on microwave emission Martin Proksch 1, Henning Löwe 1, Stefanie Weissbach 2, Martin Schneebeli 1 1.
E STUNDE Deutsch AP. Donnerstag, der 9. Mai 2013 Deutsch AP (E Stunde)Heute ist ein G Tag Goal: to understand authentic written text, audio material and.
Empirical Methods of Linguistic Research. What you will learn How to write an empirical research paper How to design an experiment / a questionnaire How.
Welcome to Web Services & Grid Computing Jens Mache
3rd Review, Vienna, 16th of April 1999 SIT-MOON ESPRIT Project Nr Siemens AG Österreich Robotiker Technische Universität Wien Politecnico di Milano.
Collaborative Research Online: Knowledge management pilot project on Haskala Dr. Rachel Heuberger, Judaica Abteilung, Universitätsbibliothek Frankfurt.
1 Paul Bennett, Martin Durrell, Silke Scheible, Jason Whitt The GerManC Project A Representative Corpus of Early Modern German ( )
What is a “CASE”? in English: pronouns, certain interrogatives
Physik multimedial Lehr- und Lernmodule für das Studium der Physik als Nebenfach Julika Mimkes: Links to e-learning content for.
What is a “CASE”? in English: pronouns, certain interrogatives
Museumsinsel Museum Island (German: Museumsinsel) is the name of the northern half of an island in the Spree river in the central Mitte district of Berlin,
Es gibt there is (singular) or there are (plural)
type / function / form type of words:
E STUNDE Deutsch AP. Dienstag, der 23. April 2013 Deutsch AP (E Stunde)Heute ist ein B Tag Goal: to understand authentic written text, audio material.
E STUNDE Deutsch AP. Donnerstag, der 2. Mai 2013 Deutsch AP (E Stunde)Heute ist ein B Tag Goal: to understand authentic written text, audio material and.
The Workers‘ Freedom The debate about industrial democracy in Germany and Sweden, Klaus Neumann presentation held at the.
E STUNDE Deutsch AP. Dienstag, der 28. Mai 2013 Deutsch AP (E Stunde)Heute ist ein E Tag Goal: to understand authentic written text, audio material and.
KLIMA SUCHT SCHUTZ EINE KAMPAGNE GEFÖRDERT VOM BUNDESUMWELTMINISTERIUM Co2 online.
Holiday destinations, language holidays and informed languages in the EU Lea Kern.
1/15 Thursday, 21 June 2007 Werner Sudendorf, Jürgen Keiper Deutsche Kinemathek – Museum für Film und Fernsehen Werner Sudendorf, Jürgen Keiper Reconstructing.
COST working group 2 – EMM Erreichbarkeitsatlas
Steffen Lehndorff - Institut Arbeit und Technik / Forschungsschwerpunkt Arbeitszeit und Arbeitsorganisation Flexibility and control New challenges to working-time.
EUROPÄISCHE GEMEINSCHAFT Europäischer Sozialfonds EUROPÄISCHE GEMEINSCHAFT Europäischer Fonds für Regionale Entwicklung Workpackage 5 – guidelines Tasks.
Fakultät für Gesundheitswissenschaften Gesundheitsökonomie und Gesundheitsmanagement Universität Bielefeld WP 3.1 and WP 4.1: Macrocost.
Kapitel 2 Grammar INDEX 1.Subjects & Verbs 2.Conjugation of Verbs 3.Subject Verb Agreement 4.Person and Number 5.Present Tense 6.Word Order: Position of.
Kapitel 8 Grammar INDEX 1.Command Forms: The Du-Command Form & Ihr- Command 2.Sentences & Clauses.
E STUNDE Deutsch AP. Donnerstag, der 30. Mai 2013 Deutsch AP (E Stunde)Heute ist ein G Tag Goal: to understand authentic written text, audio material.
10.3 Lektion 10 Geschichte und Gesellschaft STRUKTUREN © and ® 2012 Vista Higher Learning, Inc Der Konjunktiv I and indirect speech —Ich komme.
Caroline Euringer Hamburg University LEO.-App: Mobile phone application for self-testing in reading and writing Peer Learning Activity on the use of digital.
E STUNDE Deutsch AP. Donnerstag, der 11. April 2013 Deutsch AP (E Stunde)Heute ist ein A Tag Goal: to understand authentic written text, audio material.
148 th Council Meeting Sydney, 6 March 2014 Agenda 1. Minutes of the previous meeting (see encl.) 2.Matters arising from the Minutes 3. Finance and Audit.
Text complexity in and for literary studies. foundations.
Richtlinien für empirische Arbeiten Proseminar Empirische Musikpsychologie Richard Parncutt, Uni Graz.
B LOCKED DAY 1 OBJECTIVES: To consolidate vocabulary and structures within the theme of DIE UMWELT To further practise the techniques used in the prose.
The IT–Information System
Agenda Eröffnung und Begrüßung durch Mag.a Elisabeth Rosenberger
Freizeit Thema 5 Kapitel 1 (1)
Sentence Structure Connectives
Sprachplanung/-politik LPP-discourse
University for Health Sciences, Medical Informatics and Technology
Process and Impact of Re-Inspection in NRW
Safe but attractive. Bike accessories
Synonyms are two or more words belonging to the same part of speech and possessing one or more identical or nearly identical denotational meanings, interchangeable.
Watermark image processing without a ruler
Metadata - Catalogues and Digitised works
= 8,7 m € = 121 m € Total Transnationality = 235 m € = 3,1 m €
Ferrite Material Modeling (1) : Kicker principle
The new online recognition process
Actual participation index of lower and higher social groups over time
Introduction to Physics I
Official Statistics Web Cartography in Germany − Regional Statistics, Federal and European Elections, Future Activities − Joint Working Party meeting.
OFFICE 365 FOCUS SESSION SHAREPOINT ONLINE 101:LERNE DIE BASICS 19. März 2018 Höhr-Grenzhausen.
Zhunussova G., AA 81. Linguistic communication, i.e. the use of language, is characteristically vocal and verbal behaviour, involving the use of discrete.
 Präsentation transkript:

1 Towards a Methodology for Constructing and Annotating Historical Corpora Martin Durrell, Paul Bennett & Astrid Ensslin

2 Talk outline A.Background to corpus B.Early Modern German newspapers C.Methodology

3 A. Background to corpus

4 GerManC project Pilot ( ): corpus of German newspapers ; ; NG, WCG, ECG, WUG, EUG 2,000 word samples ca. 100,257 words in total ESRC (Economic and Social Research Council) Feasibility of Text compilation TEI annotation Lemmatising and POS tagging software usage / modification Possible utilisation for other historical languages

5 Preliminary findings Data retrieval successful – Abundance in NG – Difficulties with WUG / Catholic regions Regional text distribution does not reveal corresponding regional variation / linguistic norms – Cf. correspondents from elsewhere, un-edited contributions NG newspapers more supraregional than SG Clearly marked regional variants (Samstag vs. Sonnabend) in same text

6

7 Polenz II: 18 „Zeitungen wurden so – nach der Luther-Bibel – auch zum wirksamsten Mittel der Popularisierung und Verbreitung einheitlicher Sprachvarianten auf dem Wege zur nationalen Schriftsprache“ (Newspapers thus came to be, after Luther’s Bible translation, the second most effective means of popularising and disseminating linguistic variation during the standardisation of German)

8 B. Early Modern German newspapers

9 Early developments Aviso, Wolfenbüttel: 1609 Official postal system Rapid growth: – 1648: ca. 48 – 1700: – 1750: – 1789: ca. 200 Mainly weekly; first daily: 1660 (Leipzig)

10 A new ‘genre’ By 1700: consistent features – distinct register Informative / objective -> personal / commenting Dissemination: local; mostly urban middle classes and tradespeople (but awareness amongst manual classes) Read aloud to groups Weber, 2005

11 Lexis Abundance of loan words – Military and warfare: French/Italian (attaquiren, mainteniren, susteniren..) – Education, religion and law: Latin Appropriations Quotations Inflections => Mostly educated readers

12 Syntax Admoni (1980: 35): ‘abperlend’ Information structure > syntactic coherence Subclauses: verb-final Auxiliaries omitted Future research: (shallow) parsing Cf. Demske et al., 2004; Demske, 2006; Demske-Neumann, 1990

13 Register No time for editing Sequentialisation (non-chronological) Compressed into huge, complex sentences Only common denominator of all subclauses: provenance of report Wide range of topics within individual sentences

14 ‘Orthography’ Major challenge for electronic processing Extremely variable (esp ) Variation decreases Not random: ey-ei (beym), ff-f (auff), Londen- London

15 Punctuation Virgula tends to replace comma / full stop / colon / semicolon Non-syntactic, prosodic, rhetoric Non-systematic (e.g. full stop not always marking sentence boundaries) Example:…

16 Die Zeitungen Der Gelehrten Auß dem Schweitzerlande, Zürich/Schaffhausen 1722, Num. XI, p. 183 Das andre bemühet seyen der ihrigen nachzudencken, ist wahr/ denn obschon die Glieder der Gesellschaft an sich bisher verborgen gewesen/ so hat doch Melissantes ihren Humor und ihre Conduite kräfftig entworffen; aber positiv ist noch nicht zu sagen/ wie Geistreich die Personen seyen/ die euch mit eben so lebhafften Gedancken betrachten, als ihr andre vorzustellen fähig, denn eure Fähigkeit ist uns noch nicht genugsam bekannt; Man hat schon viel davon erfahren/ hoffet gleichwol allezeit/ das Beste werde noch folgen/ und die werden schlecht bestehen/ die euch nicht wol wollen.

17 C. Methodology

18 Breslau 1683 Vienna 1780

19 Halle 1724 Frankfurt 1750 Munich 1702 Lindau 1685

20 Digitisation: raw corpus Manual transcription (scanning infeasible) Double-keying Text comparison Omitting – long passages in foreign languages and non-prose (verse, tables, graphs) – illegible / damaged passages Normalised: superscript-e, nasal bar, long/final ‘s’ Corpus documentation (throughout)

21 XML-annotation TEI U5 standards (Burnard & Sperberg-McQueen, 2002) Exchanger XML Editor CLaRK: automatic conformance checking Header data (administrative metadata) Markup (see example): – Loans / foreign languages – Names / referring strings – Numbers / dates / times – Graphic features (images, lines, ornaments etc.) – Header / footer – Abbreviations incl. expansions – Special characters (nasal bar, superscript-e), ligatures, diacritics – Formatting (fonts, paragraphs, sentences, quotes, line/page breaks)

22 Erfurt1769.xml

23 Software development Previous research – VARD (English) (Rayson et al., 2005) – Mercurius Treebank (EMG) (Demske et al., 2004; Demske, 2006) – Variant retrieval (Ernst-Gerlach; Fuhr; Pilz; Hauser…) GerManC work in progress – TreeTagger adaptation (tokenisation, lemmatisation, POS) Adding to lexicon Abbreviation tokeniser – Variant normalisation program (VARD-based) with stoplist – Example:…

24 TreeTagger output for Altonaischer Mercurius, 15 November 1698 Tagger: ca. 85% accuracy Lemmatiser: ca. 80% accuracy – Spelling! Unknown words can easily be added to the tagger’s lexicon. (extract)

25 Further software development Lexical searches 1. Word lists + source file(s)

26 Further software development 2. Frequency lists (also for bi-/trigrams) 3. First/last dates of usage 4. All words occurring in one file only

27 Applications Historical sociolinguistics – ‘Tracing variation in standardisation: a corpus- based approach’ Cultural/media studies – Anglo-German linguistic relations – ‘”Im Unterhause groß Getöse”: representations of 18th century British parliamentary democracy in Early Modern German newspaper discourse’

28 GerManC2 – future plans + 700,000 words + 7 genres – ‘oral’: personal letters, drama, sermons – ‘written’: academic writing, legal documents, prose fiction, medical texts Multi-layer stand-off annotation / relational database architecture Representation / visualisation / web interface Feasibility of parsing (e.g. shallow parsing)

29 References Admoni, Wladimir (1980) Zur Ausbildung der Norm der deutschen Literatursprache im Bereich des neuhochdeutschen Satzgefüges ( ). Ein Beitrag zur Geschichte des Gestaltungssystems der deutschen Sprache. Berlin: Akademie-Verlag. Burnard, Lou & Sperberg-McQueen, C.M. (2002) TEI U5: Encoding for Interchange: an introduction to the TEI (10/11/06). Demske, Ulrike (2006, forthcoming) ‘Das Mercurius-Projekt. Eine Baumbank für das Frühneuhochdeutsche’, in: G. Zifonun & W. Kallmeyer (eds) Jahrbuch des Instituts für deutsche Sprache Berlin: de Gruyter. Demske, Ulrike, Frank, Nicola, Laufer, Stefanie & Stiemer, Hendrik (2004) ‘Syntactic Interpretation of an Early New High German Corpus’, in S. Kübler et al. (eds) Proceedings of the Third Workshop on Treebanks and Linguistics Theories (TLT 2004), pp Tübingen, available at (10/11/06). Demske-Neumann, Ulrike (1990) ‘Charakteristische Strukturen von Satzgefügen in den Zeitungen des 17. Jh.‘, in A. Betten (ed) Neuere Forschungen zur historischen Syntax des Deutschen. Referate der Internat. Fachkonferenz Eichstätt 1989, pp Tübingen: Niemeyer. Ensslin, Astrid, Durrell, Martin & Bennett, Paul (2006) ‘Tracing Variation in Standardisation: a Corpus-based Approach’, available at (27/11/06) Ernst-Gerlach, Andrea & Fuhr, Norbert (2006) ‘Generating Search Term Variants for Text Collections with Historic Spellings’, in Proceedings of the 28th European Conference on Information Retrieval Research (ECIR 2006), available at (13/04/06).

30 References ESRC (Economic and Social Research Council) (10/11/06). Kytö, M. (1996) ‘Manual to the Diachronic Part of the Helsinki Corpus of English Texts’, 3rd edition. University of Helsinki: Department of English (10/11/06). Pilz, Thomas, Luther, Wolfram, Ammon, Ulrich & Fuhr, Norbert (2005) ‘Regelbasierte Suche in Textdatenbanken mit nichtstandardisierter Rechtschreibung’, in Proceedings ACH/ALLC 2005, Victoria, Jun 2005, available at (13/04/06). Polenz, Peter von (1994) Deutsche Sprachgeschichte vom Spätmittelalter bis zur Gegenwart, Band II, 17. und 18. Jahrhundert, Berlin: de Gruyter. Rayson, Paul, Archer, Dawn & Smith, Nicholas (2005) ‘VARD versus Word: A Comparison of the UCREL Variant Detector and Modern Spell Checkers on English Historical Corpora’, in Proceedings of Corpus Linguistics 2005, Birmingham University, July 14-17, Proceedings from the Corpus Linguistics Conference Series on-line e-journal, vol. 1, no. 1, available at (13/04/06). Stolt, Birgit (1990) ‘Redeglieder, Informationseinheiten: Cola und Commata in Luthers Syntax’, in A. Betten (ed) Neuere Forschungen zur historischen Syntax des Deutschen. Referate der Internat. Fachkonferenz Eichstätt 1989, pp Tübingen: Niemeyer. Weber, Johannes (2005) ‘Straßburg 1605: Die Geburt der Zeitung’, in H. Böning, A. Kutsch & R. Stöber (eds) Jahrbuch für Kommunikationsgeschichte, vol.7, pp. 3 – 26, Stuttgart: Franz Steiner Verlag.