Linguistische Annotationen

Slides:

Advertisements

Ähnliche Präsentationen

Zur SCORM-Fähigkeit konventioneller XML-unterstützender eLearning Developer Tools im Projekt I-can-EIB OFFIS Oldenburger Forschungs- und Entwicklungsinstitut.

Advertisements

Kohonennetze für Information Retrieval mit User Feedback

Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/ Berlin C. Fritze / O. Duntze : Das Deutsche Textarchiv Tag der.

Übung Datenbanksysteme WS 2003/ Übung Datenbanksysteme Entwurf eines Bibliothekssystems

HyperText Markup Language

Dr. Helmuth Sagawe WS 2010/11 Universität Heidelberg

Seminar Textmining WS 06/07 Themen Übung 9 Multilingualität Weitere Termine: 13.7.Symbolfolgen und PageRank Findlinks mitstreiter gesucht!

Inhaltlich orientierter Zugriff auf unstrukturierte Daten

Digitalisierung und Aufbereitung von Sprachdaten

Dipl.- Dok. Rusalka Offer

Konzeption und Realisierung eines Text- Analysesystems zur Automatisierung der Bewerberauswahl von diesem Datenformat jede beliebige Anwendung adaptieren.

SendEplanung Datenbank

IMS Universität Stuttgart 1 Einführung in XML Hannah Kermes HS: Elektronische Wörterbücher Do,

FH-Hof Extensible Markup Language Richard Göbel. FH-Hof Extensible Markup Language XML XML ist universeller Ansatz für die Strukturierung von Zeichenketten.

Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/4 Manuelle Verfahren Klassifizierung Hier werden Dokumente in ein fest vorgegebenes System.

DOM (Document Object Model)

XINDICE The Apache XML Project Name: Jacqueline Langhorst

Eine Biografie aus ADB/NDB als XML Datenbanken vs. Markup Prof Dr. Manfred Thaller WS 2009 / 2010 Referent: Bilal Erkin.

HTML - Eine erste Annäherung

1 Ein Computermodell zur Bestimmung von Begriffstypen Christof Rumpf Heinrich-Heine-Universität Tag der Forschung

1 Automatische Klassifikation von Nomen nach Begriffstyp Christof Rumpf Heinrich-Heine-Universität

SQL/XML. © Prof. T. Kudraß, HTWK Leipzig 2 2 Motivation Speicherung von XML in allen großen kommerziellen DBMS vorhanden proprietäre Lösungen für die.

Einführung XML XML Einführung Andreas Leicht.

Technische Informatik II Vorlesung 12bis: Mehr über Security Sommersemester 2001 Prof. Peter B. Ladkin PhD Universität Bielefeld.

Spree SoSe 2007 Titel Lexikographie und Metalexikographie Lexikonproduktion und Lexikontheorie Dank an Franziskus Geeb, der mir seine Unterrichtsmaterialien.

Fli4l Der Ein-Disketten-Router von Sebastian Röhl von Sebastian Röhl.

1 Grundlagen und Anwendung der Extensible Markup Language (XML ) Peter Buxmann Institut für Wirtschaftsinformatik Johann Wolfgang Goethe-Universität Frankfurt.

RDF-S3 und eRQL: RDF-Technologien für Informationsportale Karsten Tolle und Fabian Wleklinski.

T E I [Text Encoding Initiative] IT-Zertifikat Kurs 4 :Daten und Metadaten Dozent: Patrick Sahle.

IMSLex – ein NLP Lexikon

Multimedia Retrieval SS 2007 Speech Recognition

Finden statt suchen – Referat SharePoint Club Patrick Püntener | 24. Oktober 2007 Metadaten strategisch nutzen.

Schnelles und effizientes Suchen. Was ist MPEG 7? Wie funktioniert MPEG? Was bietet MPEG 7? Wo wird MPEG 7 verwendet?

Die vorwissenschaftliche Arbeit Die erste Säule der neuen kompetenzorientierten Reifeprüfung Stand

Anglo-Amerikanische Korpuslinguistik Anglo-American Corpus Linguistics Erstellt von Gudrun Krenn Slawische Korpuslinguistik SE SS 2006 Dr. Branko Tošović

Project Perseus Der volle Projektname lautet Perseus Digital Library Project. Das Projekt begann in 1985 als Experiment zur Digitalisierung von Bibliotheken.

Proseminar: „Webtechnologien für Ecommerce“

Wird ganz am Anfang der HTML-Datei geschrieben Doctype html public bedeutet, dass man sich auf die Öffentlichkeit der html-dtd bezieht Html ist die meist.

Java für Fortgeschrittene

Vorlesung #2 Datenbankentwurf

Wohlgeformtheit und Gültigkeit Grundlagen der Datenmodellierung Anke Jackschina.

Bernd-Kristian Kaczenski Humboldt-Universität zu Berlin

SBO Erleichterung?! Arbeitserleichterung bei der Erstellung des Spielberichts Zugriff auf elektronisch vorhandene konsistente Daten im DFBnet Zugriff auf.

(c) JÄGER Datentechnik KG Steuerung von Anlagen neu definieren JDINT-001 Intelligentes Zusammenspiel von Hard- und Software Günstiges Verhältnis.

Ausgabe vom Seite 1, XML Eine Einführung XML - Eine Einführung.

Informatik und Programmieren 3

Exception-Handling.

Struktur von RDF Fabian Scheller.

Übung zu Einführung in die LDV I

XML (Extensible Markup Language)

Trust and context using the RDF- Source related Storage System (RDF‑S3) and easy RQL (eRQL) Karsten Tolle und Fabian Wleklinski.

18 May Projektseminar Computergrafische Systeme Wintersemester 2007/2008 Luna Lander Stefan Reichel, Kevin Schlieper, Gerald Töpper betreut durch.

Routing Instabilitäten

Schulungsunterlagen der AG RDA Vertretungen der Öffentlichen Bibliotheken.

IT-Zertifikat Kurs IV Gunther Sarling

Thema Projektpräsentation Team Titel

Sachbearbeiter/in Administration

Melanie Andresen und Dagmar Knorr

Universität Stuttgart Enforcing Constraints and Triggers for Active Data Services Xiaolong Wan Abschlußpräsentation:

Congrès BPW Int International Congress Center, Jeju, Südkorea Congrès BPW Int

Schulungsunterlagen der AG RDA

Kontrast und Raumfrequenz

Herzlich Willkommen am Tag der offenen Tür!

Lehrabend September 2014 Handspiel in aktueller Auslegung

An Approach to the Preservation of Digital Records National Archives of Australia Universität zu Köln Institut für Historisch-Kulturwissenschaftliche Informationsverarbeitung.

Symposium: Die phonetisch-phonologischen, orthoepischen und orthographischen Unterschiede zwischen dem Bosnischen/Bosniakischen, Kroatischen und Serbischen.

- Warum: Das HTML-Dilemma

Text Encoding Initiative Universität zu Köln Daten- und Metadatenstandards Seminarleitung: Patrick Sahle Seminarleitung: Patrick Sahle Referentin: Anna.

Semantic Markup für Zwecke der Langzeitarchivierung in digitalen Bibliotheken Neubiberg,

13.Dezember 2006–1Elektronisches Publizieren: Schemasprachen — Relax NG Schemasprachen für XML — Relax NG — Anne Brüggemann-Klein TU München.

Präsentation transkript:

Linguistische Annotationen Universität zu Köln Studiengang Informationsverarbeitung WS 2014/15 HS Annotationssysteme Prof. Dr Thaller 23. Oktober 2014 Andreas Vogt E-Mail: avogt5@smail.uni-koeln.de

Gliederung Wo werden linguistische Annotationen verwendet? Was ist Korpuslinguistik? Was ist ein Korpus? Korpusabfragen Welche linguistische Merkmale werden annotiert? Wie werden linguistische Merkmale annotiert bzw. mit welchen System können sie sinnvoll annotiert werden? Anforderungen an das Annotationssystem 23.10.2014

Korpuslinguistik Forschungsfeld zwischen Informatik, Computerlinguistik und Linguistik Aufbau, der Aufbereitung und der Auswertung von (elektronischen) Korpora Empirischer Ansatz in der Linguistik (↔ Introspektion, Sprecherurteile) Korpora als empirische Basis für Theoriebildung und Überprüfung theoretischer Annahmen an authentischen Sprachdaten qualitative und quantitative Analysen 23.10.2014

Korpus „Ein Korpus ist eine Sammlung schriftlicher oder gesprochener Äußerungen. Die Daten des Korpus sind typischerweise digitalisiert, d. h. auf Rechnern gespeichert und maschinenlesbar. Die Bestandteile des Korpus, die Texte, bestehen aus den Daten selbst sowie möglicherweise aus Metadaten, die diese Daten beschreiben, und aus linguistischen Annotationen, die diesen Daten zugeordnet sind.“ Lemnitzer/Zinsmeister: Korpuslinguistik. Eine Einführung, S. 7 23.10.2014

Korpus Primärdaten (Textdokumente, Gesprächstranskriptionen, Bild-, Ton- und Videodateien) Metadaten (Titel, Autor, Erscheinungsdatum Ort bzw. Aufnahmedatum, -ort, -dauer, Gesprächsbeteiligte, Anlass, Transkriptionsstandard) Linguistische Annotationen Werkzeuge zur Abfrage des Korpus Korpus ≠ digitalisierte Textsammlung Korpus ≠ Suchwerkzeug im WWW 23.10.2014

Grundbegriffe Grundbegriffe Token (Wortvorkommen): Jedes Vorkommen eines Wortes in einem fortlaufenden Text Wortform: Wort unabhängig davon, wie häufig es vorkommt Lexem: semantisch bestimmte Wortschatzeinheiten. Z. B. alle Formen des Verbs „sein“ Auf Grundlage der Primärdaten kann eine Korpusabfrage nur auf den Wortformen operieren -> einfache Suche nach Strings oder Substrings -> Mustersuche über reguläre Ausdrücke Homographieproblem komplexere Analysen ermöglichen(z. B. Suche nach typischen Akkusativobjekten zum Verb „finden“) 23.10.2014

Linguistische Annotationen „Als linguistische Annotation bezeichnet man Informationen zu linguistischen Merkmalen, die den Primärdaten des Korpus in digitaler Form beigefügt sind“ Storrer Linguistische Merkmale: Part-of-speech (POS, Wortartenannotation) Lemmatisierung Semantische Lesarten Auszeichnung morphosyntaktischer Eigenschaften Syntaktische Strukturen (Phrasen, topologische Felder) Pragmatik: Koreferenz Weitere Merkmale: z. B. Sprecher Wortebene Subwortebene ?? mehrere Wörter Bezieht sich auf einzelne Wörter auch über Satzgrenzen hinweg Eine Äußerung muss nicht mit Wort- oder Satzgrenzen zusammenfallen 23.10.2014

Linguistische Annotationen 2 Auszeichnung erfolgt aufgrund des Umfangs der Korpora meist automatisiert. POS-Tagging und Lemmatisierung funktionieren sehr gut, die automatische Wortsinndisambiguierung wird zumindest besser. Fehler wird es bei der automatischen Annotierung immer geben. Manuelle Korrektur ist wünschenswert -> Umgang mit Fehlern, Korrekturmöglichkeit? Die Merkmalskategorien variieren mit dem zugrundegelegten Grammatikmodell! -> allgemeines, möglichst theorieneutrales Auszeichnungssystem? 23.10.2014

Part-of-Speech-Tagging Tagset: Legt das Inventar und die Bedeutung von (POS-)Tags fest Stuttgart-Tübingen-Tagset (STTS) http://www.ims.uni-stuttgart.de/forschung/ressourcen/lexika/TagSets/stts-1999.pdf Kleines Tagset: 54 Tags z.B. ADJA: attributives Adjektiv PPOS: Possesivpronomen NN: Appelativa NE: Eigennamen Großes Tagset (inkl. Morphologischer Informationen): Kombinatorisch mehrere Hundert „Tags“ mit ganzem/ADJA:Pos.Mask.Dat.Sg.St Einsatz 23.10.2014

XML als Basis linguistischer Annotation XML als Metasprache ist in der linguistischen Annotation fest etabliert Es bestehen mehrere Standards zur linguistischen Annotation mit XML (TEI, XCES) XML findet Verwendung u.a.: BNC British National Corpus http://www.natcorp.ox.ac.uk/ (TEI) DeReKo Deutsches Referenz Korpus IDS Mannheim (IDS-XCES) DWDS Digitales Wörterbuch der deutschen Sprache http://www.dwds.de/ (TEI-P5) 23.10.2014

Eignung von XML Trennung von Primärtext und Annotation durch xml-Struktur gegeben <annotation1 attr1=value1> primärtext</annotation> Formalismen zur Erstellung von Dokumentgrammatiken (dtd, Relax-NG), die Anzahl und Art der Elemente, ihre Verschachtelung und mögliche Attribute festlegen Standards: TEI, XCES,…: meist generische Annotationsformate in Kombination mit festen Datenkategorien, z. B. keine Festlegung auf ein bestimmtes POS-Tagset 23.10.2014

Beispiel aus dem BNC <wtext> written text <pb> page break �<wtext�type="FICTION"> ��<pb�n="5"/> ��<div�level="1"> ��<head> ��<s�n="1"> ��<w�c5="NN1"�hw="chapter"�pos="SUBST">CHAPTER </w> ��<w�c5="CRD"�hw="1"�pos="ADJ">1</w> ��</s> ��</head> ��<p> ��<s�n="2"> ��<c�c5="PUQ">‘</c> ��<w�c5="CJC"�hw="but"�pos="CONJ">But</w> ��<c�c5="PUN">,</c> ��<c�c5="PUQ">’ </c> ��<w�c5="VVD"�hw="say"�pos="VERB">said </w> ��<w�c5="NP0"�hw="owen"�pos="SUBST">Owen</w> ��<c�c5="PUN">,</c> ��<c�c5="PUQ">‘</c> ��<w�c5="AVQ"�hw="where"�pos="ADV">where </w> ��<w�c5="VBZ"�hw="be"�pos="VERB">is </w> ��<w�c5="AT0"�hw="the"�pos="ART">the </w> ��<w�c5="NN1"�hw="body"�pos="SUBST">body</w> ��<c�c5="PUN">?</c> ��<c�c5="PUQ">’</c> ��</s> ��</p> �� .... <wtext> written text <pb> page break <s> sentence <p> paragraph <div> division <c> punctuation mark <w> word Attribute: c5 CLAWS5 Tagset hw root/Stamm des Wortes pos Part of Speech Vgl. http://www.natcorp.ox.ac.uk/docs/URG/cdifbase.html#cdifsgml 23.10.2014

Einschränkungen von XML Nachteile: Darstellung multipler, sich überlappender Annotationen problematisch Begrenzter semantischer Gehalt, d. h. einzig die Namen der Elemente und Attribute geben Hinweis auf die Motivation zur Auszeichnung 23.10.2014

Überlappende Annotationen 1 Konstruiertes Beispiel einer Transkription: Peter: “Hey Paul! Would you give me” Paul: „the hammer?“ Aufgabe: Es soll nicht nur die Satzstruktur festgehalten werden, sondern auch die Äußerungen den Sprechern zugeordnet werden 23.10.2014

Überlappende Annotationen 2 <pos> <sentence id="0"> <u who="Peter"> <word wid="0" pos="NNP">Hey</word> <word wid="1" pos="NNP">Paul</word> <word wid="2" pos=".">!</word> </sentence> <sentence id="1"> <word wid="0" pos="MD">Would</word> <word wid="1" pos="PRP">you</word> <word wid="2" pos="VB">give</word> <word wid="3" pos="PRP">me</word> </u> <u who="Paul"> <word wid="4" pos="DT">the</word> <word wid="5" pos="NN">hammer</word> <word wid="6" pos=".">?</word> </pos> 23.10.2014

Überlappende Annotationen 3 Problem: überlappende Annotationen sind in XML nicht repräsentierbar (vgl. Definition von Wohlgeformtheit Lösungen Multiple Dokumente Fragmentierungen Standoff-Notation 23.10.2014

Lösungen Multiple Dokumente Speicherung jeweils einer Annotationsebene inkl. Primärdaten in einer Datei Vorteile Jede Datei ist vollständig und einzeln verwendbar Gut verarbeitbar (sowohl durch menschliche als auch maschinelle Leser) Für jede Annotationsebene kann eine separate Dokumentgrammatik erstellt werden Nachteile Primärdaten werden redundant gespeichert Bezug der Annotationen untereinander nur schwer und aufwändig zu realisieren Geringe Robustheit bzgl. Integrität der Primärdaten 23.10.2014

Lösungen 2 2. Fragmentierungen Vorteile Nachteile Aufbrechen der einzelnen überlappenden Elemente in kleinere Teilfragmente, die sich ohne Überlappungen in die Dokumentstruktur einbetten lassen Vorteile Durch Hinzufügen des part-Attributs wird die logische Zusammengehörigkeit der Fragmente deutlich gemacht Self Overlap durch Verwendung des next-Attributs prinzipiell abbildbar Nachteile Bei vielfacher Überlappung unübersichtlich Schlecht maschinell verarbeitbar Keine Unterscheidung von Inklusion und Dominanzbeziehungen 23.10.2014

Lösungen 3 3. Standoff-Notation Trennung von Primärdaten und Markup und anschließende Referenzierung durch Zeigemechanismen Vorteile Beliebig viele Annotationsebenen kombinierbar, auch Sub-Wort-Ebene Prinzipiell gut skalierbar, da Verwendung von beliebiger Anzahl von Dateien möglich Widersprechende Auszeichnung möglich Nachteile Für menschliche Leser sehr schlecht verarbeitbar Maschinelle Verarbeitung problematisch Je nach Ansatz geringe Robustheit bzgl. Integrität der Primärdaten 23.10.2014

TEI Die TEI Guidelines sind seit über 20 Jahren weltweit im Einsatz Neue Fassungen sind entweder abwärtskompatibel oder erlauben die Transformation bestehender Daten Für die Annotation linguistischer Daten bietet die TEI Elemente zur Segmentierung hinunter auf Zeichenenebene Die TEI unterstützt eine Vielzahl an Mechanismen zur Speicherung multiplerAnnotationen Für die Auszeichnung konkreter linguistischer Merkmale fehlen Elemente undAttribute – hier müssen externe Ressourcen herangezogen werden Das Tagset ist sehr komplex und ermöglicht mehrere Wege, um Phänomene zu beschreiben, daher zusätzliche Annotation Guidelines notwendig 23.10.2014

XCES Teil der EAGLES Guidelines (Expert Advisory Group on Language Engineering Standards) XCES ist eine weiterentwickelte XML-Fassung des Corpus Encoding Standards (CES), das eine Modifikation der TEI-P3 Richtlinien ist Beim IDS in Mannheim wird aktuell an einer TEI P5-kompatiblen XCES-Version gearbeitet (IDS-XCES) XCES sieht eine Kodierung der Primärdaten (in Form einer Basisannotation) sowie die Annotation der eigentlichen linguistischen Phänomene vor Metadaten (analog zur TEI) werden in einer externen Datei gespeichert Annotationsebenen werden mittels Merkmalsstrukturen (definiert in der Dokumentgrammatik cesAna) kodiert; die eigentliche Annotation erfolgt inStandoff-Notation auf Basis der Primärdatenkodierung 23.10.2014

XCES Beispiel: Metadaten Primärdaten <?xml version="1.0" encoding="UTF-8"?> <cesHeader creator="KBS" date.created="20050222"> <fileDesc> <titleStmt> <title>The Story Continues</title> <author>Ferd Eggan</author> </titleStmt> <sourceDesc></sourceDesc> </fileDesc> <profileDesc> <textClass> <domain>Fiction</domain> <subdomain>General fiction</subdomain>  </textClass> <annotations> <annotation ann.loc="TheStory.txt" type="content">Text content</annotation> <annotation ann.loc="TheStory-logical.xml" type="logical">Logical structure</annotation> </annotations> </profileDesc> </cesHeader> Primärdaten <?xml version="1.0" encoding="UTF-8"?> <cesDoc xmlns="http://www.xces.org/schema/2003" version="0.4"> <text> <body> <p>The Story Continues . . . a serial enovel by Ferd Eggan</p> <p>1 Welcome to Hotel Real Desert</p> <p>But he never fell into the error of arresting his intellectual development by any formal acceptance of creed or system, or of mistaking, for a house in which to live, an inn that is but suitable for the sojourn of a night in which there are no stars and the moon is in travail</p> <p>The Hotel</p> <p>Hotel is next door to a perfect metaphor for the mind, and thus for psychoanalysis. In my father’s house are many mansions?To get there you have to leave somewhere else...</p> <!􀀀􀀀 [...] 􀀀􀀀> </body> </text> </cesDoc> 23.10.2014

XCES Beispiel 2 Annotationen 23.10.2014 <?xml version="1.0" encoding="UTF-8"?> <cesAna xmlns="http://www.xces.org/schema/2003" version="1.0.4"> <struct type="cesDoc" from="0" to="400307"> <feat name="xmlns" value="http://www.xces.org/schema/2003"/> <feat name="version" value="1.0.4"/> </struct> <struct type="text" from="2" to="400306"/> <struct type="body" from="5" to="400304"/> <struct type="div" from="9" to="73"/> <struct type="p" from="14" to="69"> <feat name="id" value="p1"/> <struct type="head" from="77" to="108"> <feat name="type" value="h1"/> <struct type="p" from="112" to="414"> <feat name="id" value="p2"/> <struct type="hi" from="409" to="410"> <feat name="rend" value="sup"/>  </cesAna> 23.10.2014

Quellen Storrer: „Korpusgestützte Sprachanalyse in Lexikographie und Phraseologie“ (http://www.studiger.tu-dortmund.de/images/Pre_storrer-korpuslinguistik-2.pdf 23.10.2014) Lemnitzer, L. / Zinsmeister, H. (2006): Korpuslinguistik: Eine Einführung. Tübingen: Narr. http://www.maik-stuehrenberg.de/files/Stuehrenberg-Kolloquium2012.pdf (23.10.2014) http://www.ims.uni-stuttgart.de/forschung/ressourcen/lexika/TagSets/stts-1999.pdf (23.10.2014) 23.10.2014

Vielen Dank für Eure Aufmerksamkeit! 23.10.2014