Berlin-Brandenburgische Akademie der Wissenschaften (BBAW)

Slides:



Advertisements
Ähnliche Präsentationen
Web 2.0 Social Network Communities
Advertisements

Beate Sturm (SUB/MPDL)
Zentrales Verzeichnis Digitalisierter Drucke
Nietzsche Online.
Stefan Lohrum Konrad-Zuse-Zentrum für Informationstechnik Berlin (ZIB)
1 Jahr Digitization Lifecycle Überblick & Ausblick.
1 Retrodigitalisierung und Langzeitarchivierung Die Bedeutung internationaler Standards Die Idee der Verteilten Digitalen Forschungsbibliothek – Bericht.
H Soz U Kult Mailingliste / Diskussionsforum / Rezensionsdienst
„Eine neue Informationsplattform zur Digitalisierung“
Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/ Berlin C. Fritze / O. Duntze : Das Deutsche Textarchiv Tag der.
Zugänge zum Wissen der Berufsbildungsforschung
Olaf Siegert IuK-Tagung Göttingen, 28. September 2006
DFG-Projekt Architektur- und Ingenieurzeichnungen der deutschen Renaissance. Digitalisierung und wissenschaftliche Erschließung des Zeichnungsbestandes.
Dr. Helmuth Sagawe WS 2010/11 Universität Heidelberg
eine Plattform für annotierte Korpora in XML
Elektronisch Publizieren im Verbund: GAP – German Academic Publishers
Forum Information and Communication in Mathematics Jahrestagung der ÖMG/DMV Graz.
Hispanistentag in Bremen am Christiane Jungblut1 Digitale Volltexte In der Sammlung digitaler Volltexte wird sogenannte 'Graue Literatur' nachgewiesen.
Die Elektronische Zeitschriftenbibliothek
Erfahrungen mit der kooperativen Erschließung von Internetquellen in DBClear Dr. Ulrike Mühlschlegel Ibero-Amerikanisches Institut PK Berlin.
Seminar Textmining WS 06/07 Themen Übung 9 Multilingualität Weitere Termine: 13.7.Symbolfolgen und PageRank Findlinks mitstreiter gesucht!
Inhaltlich orientierter Zugriff auf unstrukturierte Daten
Was ist Rapid Technologie?
E-Publikationen und Universitätsbibliographie
Haus Potsdamer Straße | 4. Mai 2011 | 10–17 Uhr
Eigenschaften und Pflichten vertrauenswürdiger digitaler Archive
Datenbanken vs. Markup Manfred Thaller WS 2009/2010 Humanities Computing Linda Scholz.
E-Learning/Neue Medien
Dr. Michael Geiger Unternehmensberatung und Training
Der Geo-Guide als ein Modul für eine Virtuelle Fachbibliothek Virtuelle Fachbibliothek: Wofür & Was Zentrale Anlaufstelle für den Fachwissenschaftler zur.
1 | Autor© Gesellschaft für Informatik e.V. (GI) Die Regionalgruppen der Gesellschaft für Informatik e.V. (GI) und des German Chapter of the ACM (GChACM)
Spree SoSe 2007 Titel Lexikographie – Produktion lexikographischer Werke (am Beispiel lookedup4you) Abb.: Relaunch lookedup4you Betaversion.
Spree SoSe 2007 Titel Lexikographie und Metalexikographie Lexikonproduktion und Lexikontheorie Dank an Franziskus Geeb, der mir seine Unterrichtsmaterialien.
Die Dokumenttradition
Das F.A.Z-Archiv in der Bibliothek BiblioNet und CD-ROM
Grundschutztools
T E I [Text Encoding Initiative] IT-Zertifikat Kurs 4 :Daten und Metadaten Dozent: Patrick Sahle.
Sichtbar, zitierfähig und dauerhaft verfügbar Die elektronischen Publikationen des Deutschen Instituts für Menschenrechte im SSOAR Fachtagung Elektronische.
Die Berlin-Brandenburgische Akademie der Wissenschaften
Entwurf und Realisierung einer digitalen Bibliothek zur Verwaltung von Notenhandschriften Dipl.-Ing. Temenushka Ignatova Datenbank- und Informationssysteme,
Deutsche einsprachige Korpora немецкие одноязычные корпуса Institut für Slawistik Seminar: Slawische Korpuslinguistik SS 2006 O. Prof. Dr. Branko Tošović
Programm 10: :10 Uhr Eröffnung/Begrüßung/ Moderation Herr G. Watterott 10: :30 Uhr Sichtweisen zur Strategie der drei Seiten Herr A. Jankowski,
Workshop Interkulturelles Lernen mit authentischen Texten im berufsorientierten DaF/DaZ- Unterricht am Beispiel der Zeitschrift MARKt Christina Kuhn.
November digital tender ist die durchgängige, plattformunabhängige Online- Abwicklung von Ausschreibungen...
Studentische Arbeiten im Social Web Aktuelle Nutzung und Anforderungen für die Nutzung Klaus Tochtermann Seite 1.
LEBEN UND SCHAFFEN VON JACOB UND WILHELM GRIMM
Virtuelle Forschungsumgebung Games Professor Thaller WS 2010 HKI Hauptseminar I Referent: Nim-Ron Lan.
Lexikographie im digitalen Zeitalter: Das Goethe-Wörterbuch
1 Universitätsbibliothek Johann Christian Senckenberg Das Angebot E lektronischer M edien eLearning Netzwerktag am 30. Juni 2008 Subtitel Dr. Klaus Junkes-Kirchen.
Der Europäische Forschungsraum. Eine Vision der Zukunft? Astrid-Marietta Hold / A 300 SS 2008.
Allgemeines zu Datenbanken
EScience eScience ist die globale Zusammenarbeit in Schlüsselgebieten der Forschung und die nächste Generation Werkzeuge, um diese Art von Forschung zu.
CRM TimeLog… TimeLog … Wie gross ist der Anteil der Lohnkosten in Ihrem Unternehmen?
XML Clearinghouse für Berlin und Brandenburg Das Wissensforum zu XML Technologien in Berlin und Brandenburg.
BIT / IKT, 2000 Technologien der Informationsgesellschaft IST Projekteinreichungen Mag. Bernd Wohlkinger BIT - Büro für internationale Forschungs- und.
KIM-Statusbericht 2013 Stefanie Rühle (SUB Göttingen)
Digital assets in der MPG – Anwendungsszenarien und Lösungen Digital Asset Management aus BenutzerInnensicht – Anwendungsszenarien aus Forschung & Lehre.
Integration existierender digitaler Bibliotheken in Lernumgebungen LEBONED (Learning Environment Based On Non Educational Digital Libraries) Dipl.-Inform.
Daten- und Metadatenstandards SoSe 2009 IT-Zertifikat der Philosophischen Fakultät der Universität zu Köln Dozent: Patrick Sahle 26. Juni 2009: Dublin.
„MarITim – Mit Kurs auf IT“ OpenNet – Ein frei verfügbares Kommunikationsnetz „selbstgestrickt“ Dr. René Ejury Rostock, 23. März 2006.
Zentrale Authentifizierungsplattform mit Open Text Website Management bei Thieme.
BADI – Barrierefreie Aufbereitung Digitaler Inhalte
MareNet Ein neuer elektronischer Informationsdienst für die Meeresforschung IuK Trier, 12. März 2001 Michael Hohlfeld Institute for Science Networking.
Eidgenössisches Volkswirtschaftsdepartement EVD Bundesamt für Berufsbildung und Technologie BBT Förderagentur für Innovation KTI Förderagentur für Innovation.
Digitale Annotationen. Grundlage: John Bradley “Towards a Richer Sense of Digital Annotation: Moving Beyond a Media Orientation of the Annotation of Digital.
Ein Vorschlag an den Fachbereich DCSM. Bachelor Projekt SS-11 – i-PAS - Alexander Preißer - Hochschule Rhein Main Der Auftrag Konzipieren einer Software.
Text Encoding Initiative Universität zu Köln Daten- und Metadatenstandards Seminarleitung: Patrick Sahle Seminarleitung: Patrick Sahle Referentin: Anna.
1 TextGrid Virtuelle Forschungsumgebung in den eHumanities Kathleen Smith und Felix Lohmeier (SUB) Seminar Digitale Publikationen und Editionen in der.
Digital Repository Auffindbare Publikationen. Was sind Repositorien ? Als Repositorium bezeichnet man eine Struktur in der Dokumente Organisiert abgelegt.
Wortschatzarbeit mit digitalen Korpora
 Präsentation transkript:

Berlin-Brandenburgische Akademie der Wissenschaften (BBAW) D-Spin: die Benutzerperspektive Sprachressourcen-Gipfel IDS Mannheim, 15.-16.5.2009 Alexander Geyken Zentrum Sprache Berlin-Brandenburgische Akademie der Wissenschaften (BBAW) 3/25/2017

Hintergrund D-Spin AP 3: Ressourcen- und Anwendungsplanung im Hinblick auf geisteswissenschaftliche Anwender (BBAW/Zentrum Sprache, Uni Gießen, Uni Frankfurt) Phase Sammlung von Anforderungen/Szenarien (bis Ende 2009) Korpusarbeit und Annotatation (BBAW, Uni Frankfurt) Sprachdidaktik (Uni Gießen) 3/25/2017

Hintergrund Notwendig: Akzeptanz der Anwendungen durch geisteswissenschaftliche Anwender Zurückhaltung bei Geisteswissenschaftlern bei technikverliebten Anwendungen viele Funktionen werden nicht genutzt, wenn sie nicht einfach bedienbar sind Beispiel Korpusabfragewerkzeuge (Suche Präfixverben) Beispiel Metadaten: wie müssen Metadaten gestaltet sein, damit sie von den Anwendern genutzt werden? 3/25/2017

Ausgangspunkt Kompetenzen BBAW 3/25/2017

BBAW - Geschichtliches Gegründet von Leibniz in 1700 Internationale Anerkennung als Preußische Akademie der Wissenschaften Unter ihren Mitgliedern waren: Kant, Grimm, Humboldt, Planck, Einstein… 3/25/2017

BBAW - heute größte außeruniversitäre Forschungseinrichtung mit einem geistes- und sozialwissenschaftlichen Profil in der Region Berlin. internationale Vereinigung von Wissenschaftlern: Akademiemitglieder Knapp 30 Langzeitprojekte organisiert in Clustern: Zentrum Sprache, Zentrum Alte Welt, Preußen Editionen, Wörterbücher, Textsammlungen 3/25/2017

BBAW – Zentrum Sprache Vorhaben Extern geförderte Projekte Deutsches Wörterbuch Goethe-Wörterbuch Digitales Wörterbuch der deutschen Sprache (DWDS) Extern geförderte Projekte Deutsches Textarchiv Dspin/Clarin Dlex Kyoto 3/25/2017

2. Bedarfsanalyse Instrumente: Fragebogen und Interviews Fragebogen muss ergänzt werden durch Prototyp der D-Spin-Forschungsinfrastruktur Fallstudien mit Fokus auf folgende Disziplinen Historiker/Philologen (BBAW) Sprachdidaktiker (Uni Gießen) Linguisten (Uni Frankfurt, DoBeS) 3/25/2017

2.1 Fragebogen Online Fragebogen Umfrage bei H-soz-kult / Gesprächsforschung Forum Gesprächsforschung URL: http://www.onlineumfragen.com/ http://www.onlineumfragen.com/login.cfm?umfrage=10440&ttuid=D1E7401E-1D09-676D-A6A031D1AF9E859B 3/25/2017

2.1 Fragebogen 3/25/2017

2.1 Fragebogen Textressourcen, Enzyklopädien, linguistische Korpora 3/25/2017

2.1 Fragebogen 3/25/2017

2.1 Fragebogen 3/25/2017

2.1 Fragebogen 3/25/2017

2.1 Fragebogen 3/25/2017

2.1 Fragebogen Funktionalitäten, Ausgabeformate, Annotationen 3/25/2017

2.1 Fragebogen 3/25/2017

2.1 Fragebogen 3/25/2017

2.1 Fragebogen 3/25/2017

2.1 Fragebogen 3/25/2017

2.1 Fragebogen 3/25/2017

3. Fallstudien Vorbemerkung: Nutzung des Lexikalischen Informationssystems (DWDS) Quellenbereitstellung und -aufbereitung Historiker Sprachdidaktik (D-Spin Partner Uni Gießen) Linguisten (D-Spin Partner Uni Frankfurt, DoBeS) Kumulatives Arbeiten (BBAW) 3/25/2017

DWDS-Wortinformationssystem Wörterbuch - Artikel Wörterbuch: Thesaurus-informationen Korpus: Konkordanzen Korpus: Kollokationen DWDS ist die Nummer 2, wer nutzt das s. 3.

3/25/2017

3. Fallstudien DWDS – Lexikalische Informationsplattform 3/25/2017

3.1. DWDS Nutzung Wörterbuchplattform DWDS Auswertung 1. - 30. April 2009: 3.722.842 Zugriffe erfolgreich auf Abfrageschnittstelle (*nicht* auf Bilder, Hilfeseiten etc.) 3/25/2017

3.1. DWDS Nutzung Wörterbuchplattform DWDS Auswertung 1. - 30. April 2009: 3.722.842 Zugriffe erfolgreich auf Abfrageschnittstelle (*nicht* auf Bilder, Hilfeseiten etc.) 'crawler': 2.982.257 (80.11%) 'browser': 737.057 (19.80%) 3/25/2017

3.1. DWDS - Nutzung Abfragetypen Einzelwort/Lemma: 659196 (90.04%) Phrase: 6409 ( 0.25%) Distanz: 27149 ( 3.72%) near Bool: 2885 ( 0.39%) # && || Antilemma @: 1926 ( 0.26%) @ Wortart: 4089 ( 0.49%) # ... with ... 'operator *': 3650 ( 0.50%) # *... ...* anderes: 29055 ( 3.97%) 3/25/2017

3.1. DWDS - Nutzung Abfragetypen Eingabeprobleme: Abfragesyntax: Ñ?оÑ?мÑ?лиÑ?оваÑ?Ñ? königsschloß herrenchiemsee have to go for a bit, breakfast is the main thing Abfragesyntax: Einem geschenkten Gaul schaut man nicht ins Maul. /^[AZ][az][AZ][az]$/ husten #3 Raucher“ -> “husten #3 Raucher“ NEAR (Kaffee,Kuchen,10) -> NEAR(Kaffee,Kuchen,10) 3/25/2017

3.2 Quellenbereitstellung u. -aufbereitung A. Sozialwissenschaften/Religionswissenschaft: Vergleich von zwei Korpora: Nutzerkorpus mit Referenzkorpus DDR-Korpus mit DWDS-Kernkorpus, s. Dissertation 'Diskussionslust. Zur Kulturgeschichte des 'besseren Arguments' in Westdeutschland, 1945-1973') Religionskorpus mit DWDS-Kernkorpus Statistik-Anfragen 'Mein Problem lautet wie folgt: ich möchte gerne wissen, wie stark der Zusammenhang zwischen zwei spezifischen Worten ist, zum Beispiel "Wille" und "Weg"'. 3/25/2017

3.2 Quellenbereitstellung u. -aufbereitung B. Historiker – Beispiel Staatsbibliothek Berlin: Gezielter Aufbau von Spezialkorpora (z.B. 1848, Weltkriege, DDR-Korpus) Erschließung der Korpora Beispiel: Projekt Weltkriegssammlung - Teilsammelgebiet Flugschriften orthographieübergreifende Suche Eigennamenerschließung (Institutionen, aber auch Regimenter) auch Forschungsaspekte: z.B. automatische Zuordnung von Flugblättern zu Kategorien Propaganda/Nicht-Propaganda 3/25/2017

3.2 Quellenbereitstellung u. -aufbereitung C. Sprachdidaktik (D-Spin-Partner Gießen) Henning Lobin in Zusammenarbeit mit Sprachdidaktikern (Forschungsverbund Educational Linguistics) Erhebung von Szenarien für D-Spin Forschungsinfrastruktur (Bericht bis Ende 2009) Wie arbeiten Sprachlehrer/fortgeschr. Sprachlerner bei der Entwicklung von Lehrmaterialien? Welche Sprachressourcen werden beim Fremdsprachenerwerb benötigt (Stichwort CALL)? 3/25/2017

3.2 Quellenbereitstellung u. -aufbereitung C. Sprachdidaktik: Anforderung an Sprachressourcen Textsammlungen (Aktuelle) domänenspezifische Texte z.B. Jugendsprache, Fachsprache der Wirtschaft Lernerkorpora (Texte mit Annotation von Fehlern) Referenzkorpora (mit komplexen Abfragemöglichkeiten) Korpora gesprochener Sprache Ein/zweisprachige Wörterbücher 3/25/2017

3.2 Quellenbereitstellung u. -aufbereitung Anwendungen für Lehrer: Extraktion von Lehrmaterial - Tools: Konkordanzerstellung; Extraktion von Mehrwortverbindungen aus Texten, Verknüpfung mit "guten" Beispielen; Extraktion von Fachtermen aus Texten (Fachtexte), evtl. auch Definitionen Anwendungen für Lernende: Möglichkeit der Exploration von Korpora. Priorität auf Benutzerschnittstelle: flexible Verknüpfung von Text und Wörterbuch (z.B. möglichst die richtige Lesart / Definition Mehrwortausdrücken im Wörterbuch) 3/25/2017

3.2 Quellenbereitstellung u. -aufbereitung 2. Lernerkorpora Lernerkorpora mit Annotation von Fehlern und Metadaten wie Lernerniveau; Ziel: nicht-triviale Verallgemeinerungen über diesen beobachteten Fehlern zu treffen Großes Referenzkorpus, um daraus Sprachmodelle für den muttersprachlichen Sprachgebrauch zu extrahieren; auch: Baumbank, um daraus typische syntaktische Strukturen muttersprachlichen Sprachgebrauchs zu extrahieren gute Metadaten, die über die bekannten Metadaten hinausgehen; Klassifizierung von Fehlern nach Typen 3/25/2017

3.2 Zusammenfassung (I)CALL Texte: spezifischer als allgemeinsprachliche Referenzkorpora (Fachtexte, Jugendsprache, Lernerkorpora), aber auch Referenzkorpora werden benötigt sie bedürfen einer besonderen Annotation (Lernerkorpora) sie bedürfen besonderer Metadaten, um z.B. den Schwierigkeitsgrad von Texten dynamisch an das Lernerniveau anpassen zu können Werkzeuge für die robuste Annotation von Korpora und ad hoc erstellten Texten, mindestens bis zum Shallow-Parsing möglicherweise semanitsche Wissensressourcen und semantisch annotierte Korpora Korpora gesprochener Sprache, aber für den Lernerbedarf geeignet, Transkriptionen und Suchwerkzeuge für die Suche in gesprochener Sprache 3/25/2017

3.3 Kumulatives Arbeiten Annotationsanwendungen für wissenschaftliche Anwender (Fallstudie der BBAW, baut auf auf Projekt Deutsches Textarchiv) D-Spin-Workshop "Kumulatives Arbeiten in Textarchiven" Berlin 26-27.3. (Veranstalter BBAW) Inhalt: stand-off Annotationen für weitergehende wissenschaftliche Forschungen nutzbar machen. Konzeptuell: Nutzer legen private Datensammlungen an Technisch: Quelldatei und Annotationsdatei bleiben getrennt, sind aber über Verweisstrukturen miteinander verbunden 3/25/2017

3.3 Kumulatives Arbeiten Einbettung in Projekt Deutsches Textarchiv Ziele und Rahmen: Erstellung eines historischen Referenzkorpus (Goethe*, Humboldt, Planck, Röntgen …) Open Access Aktives Archiv Gefördert Deutsche Forschungsgemeinschaft (seit Juli 2007) Erste Phase: 3 Jahre (Texte zwischen1780-1900) Zweite Phase: 4 Jahre (Texte zwischen ~1650-1780) 3/25/2017

3.3 Kumulatives Arbeiten Digitales Textarchiv (1. Phase) Digitalisierung von 750 Werken 1780–1900 Texte wurden durch Umfrage bei BBAW-Akademiemitgliedern ermittelt Gesamt ~220.000 Druckseiten Volltext (XML/TEI-P5) – verknüpft mit Images Basisannotierung (plus lemma, pos, graph2phon) Archiv soll durch die Annotierung anderer wachsen: „dynamisches Archiv“ 3/25/2017

Korpus: Textsorten 3/25/2017

DTA-Korpus: zeitlicher Überblick 3/25/2017

3.3 Kumulatives Arbeiten Typ 1 – 'Notizblockfunktion': Fundstellen/Textbelege/Bildbereiche speichern in privaten Sammlungen (inkl. private Kategorien) Typ 2 - Nutzer erstellen öffentlich nutzbare Zusatzinformationen zu Texten' : z.B. Eigennamen, Themen, Markierung diastrat. Merkmale Narrative Strukturen in literarische Werken als stand-off kodieren (Jannidis/Lauer) Namensforschung (z.B. Widmungen oder Subskribendenlisten, aber auch z.B. die im Corpus enthaltenen Briefe (Pückler, Rahel Varnhagen usw.) - Vorhaben Preußen als Kulturstaat 3/25/2017

4. Zusammenfassung Anforderungsanalyse nicht unabhängig von D-Spin-Infrastruktur Bislang: Sammlung von Fallbeispielen Historiker, Sprachdidaktik, Linguistik Zusätzliche Ressourcen eröffnen zusätzliche Anwendungsmöglichkeiten Weitere Fallbeispiele? 3/25/2017