Linguistische Annotationen Universität zu Köln Studiengang Informationsverarbeitung WS 2014/15 HS Annotationssysteme Prof. Dr Thaller 23. Oktober 2014 Andreas Vogt E-Mail: avogt5@smail.uni-koeln.de
Gliederung Wo werden linguistische Annotationen verwendet? Was ist Korpuslinguistik? Was ist ein Korpus? Korpusabfragen Welche linguistische Merkmale werden annotiert? Wie werden linguistische Merkmale annotiert bzw. mit welchen System können sie sinnvoll annotiert werden? Anforderungen an das Annotationssystem 23.10.2014
Korpuslinguistik Forschungsfeld zwischen Informatik, Computerlinguistik und Linguistik Aufbau, der Aufbereitung und der Auswertung von (elektronischen) Korpora Empirischer Ansatz in der Linguistik (↔ Introspektion, Sprecherurteile) Korpora als empirische Basis für Theoriebildung und Überprüfung theoretischer Annahmen an authentischen Sprachdaten qualitative und quantitative Analysen 23.10.2014
Korpus „Ein Korpus ist eine Sammlung schriftlicher oder gesprochener Äußerungen. Die Daten des Korpus sind typischerweise digitalisiert, d. h. auf Rechnern gespeichert und maschinenlesbar. Die Bestandteile des Korpus, die Texte, bestehen aus den Daten selbst sowie möglicherweise aus Metadaten, die diese Daten beschreiben, und aus linguistischen Annotationen, die diesen Daten zugeordnet sind.“ Lemnitzer/Zinsmeister: Korpuslinguistik. Eine Einführung, S. 7 23.10.2014
Korpus Primärdaten (Textdokumente, Gesprächstranskriptionen, Bild-, Ton- und Videodateien) Metadaten (Titel, Autor, Erscheinungsdatum Ort bzw. Aufnahmedatum, -ort, -dauer, Gesprächsbeteiligte, Anlass, Transkriptionsstandard) Linguistische Annotationen Werkzeuge zur Abfrage des Korpus Korpus ≠ digitalisierte Textsammlung Korpus ≠ Suchwerkzeug im WWW 23.10.2014
Grundbegriffe Grundbegriffe Token (Wortvorkommen): Jedes Vorkommen eines Wortes in einem fortlaufenden Text Wortform: Wort unabhängig davon, wie häufig es vorkommt Lexem: semantisch bestimmte Wortschatzeinheiten. Z. B. alle Formen des Verbs „sein“ Auf Grundlage der Primärdaten kann eine Korpusabfrage nur auf den Wortformen operieren -> einfache Suche nach Strings oder Substrings -> Mustersuche über reguläre Ausdrücke Homographieproblem komplexere Analysen ermöglichen(z. B. Suche nach typischen Akkusativobjekten zum Verb „finden“) 23.10.2014
Linguistische Annotationen „Als linguistische Annotation bezeichnet man Informationen zu linguistischen Merkmalen, die den Primärdaten des Korpus in digitaler Form beigefügt sind“ Storrer Linguistische Merkmale: Part-of-speech (POS, Wortartenannotation) Lemmatisierung Semantische Lesarten Auszeichnung morphosyntaktischer Eigenschaften Syntaktische Strukturen (Phrasen, topologische Felder) Pragmatik: Koreferenz Weitere Merkmale: z. B. Sprecher Wortebene Subwortebene ?? mehrere Wörter Bezieht sich auf einzelne Wörter auch über Satzgrenzen hinweg Eine Äußerung muss nicht mit Wort- oder Satzgrenzen zusammenfallen 23.10.2014
Linguistische Annotationen 2 Auszeichnung erfolgt aufgrund des Umfangs der Korpora meist automatisiert. POS-Tagging und Lemmatisierung funktionieren sehr gut, die automatische Wortsinndisambiguierung wird zumindest besser. Fehler wird es bei der automatischen Annotierung immer geben. Manuelle Korrektur ist wünschenswert -> Umgang mit Fehlern, Korrekturmöglichkeit? Die Merkmalskategorien variieren mit dem zugrundegelegten Grammatikmodell! -> allgemeines, möglichst theorieneutrales Auszeichnungssystem? 23.10.2014
Part-of-Speech-Tagging Tagset: Legt das Inventar und die Bedeutung von (POS-)Tags fest Stuttgart-Tübingen-Tagset (STTS) http://www.ims.uni-stuttgart.de/forschung/ressourcen/lexika/TagSets/stts-1999.pdf Kleines Tagset: 54 Tags z.B. ADJA: attributives Adjektiv PPOS: Possesivpronomen NN: Appelativa NE: Eigennamen Großes Tagset (inkl. Morphologischer Informationen): Kombinatorisch mehrere Hundert „Tags“ mit ganzem/ADJA:Pos.Mask.Dat.Sg.St Einsatz 23.10.2014
XML als Basis linguistischer Annotation XML als Metasprache ist in der linguistischen Annotation fest etabliert Es bestehen mehrere Standards zur linguistischen Annotation mit XML (TEI, XCES) XML findet Verwendung u.a.: BNC British National Corpus http://www.natcorp.ox.ac.uk/ (TEI) DeReKo Deutsches Referenz Korpus IDS Mannheim (IDS-XCES) DWDS Digitales Wörterbuch der deutschen Sprache http://www.dwds.de/ (TEI-P5) 23.10.2014
Eignung von XML Trennung von Primärtext und Annotation durch xml-Struktur gegeben <annotation1 attr1=value1> primärtext</annotation> Formalismen zur Erstellung von Dokumentgrammatiken (dtd, Relax-NG), die Anzahl und Art der Elemente, ihre Verschachtelung und mögliche Attribute festlegen Standards: TEI, XCES,…: meist generische Annotationsformate in Kombination mit festen Datenkategorien, z. B. keine Festlegung auf ein bestimmtes POS-Tagset 23.10.2014
Beispiel aus dem BNC <wtext> written text <pb> page break �<wtext�type="FICTION"> ��<pb�n="5"/> ��<div�level="1"> ���<head> ����<s�n="1"> �����<w�c5="NN1"�hw="chapter"�pos="SUBST">CHAPTER </w> �����<w�c5="CRD"�hw="1"�pos="ADJ">1</w> ����</s> ���</head> ���<p> ����<s�n="2"> �����<c�c5="PUQ">‘</c> �����<w�c5="CJC"�hw="but"�pos="CONJ">But</w> �����<c�c5="PUN">,</c> �����<c�c5="PUQ">’ </c> �����<w�c5="VVD"�hw="say"�pos="VERB">said </w> �����<w�c5="NP0"�hw="owen"�pos="SUBST">Owen</w> �����<c�c5="PUN">,</c> �����<c�c5="PUQ">‘</c> �����<w�c5="AVQ"�hw="where"�pos="ADV">where </w> �����<w�c5="VBZ"�hw="be"�pos="VERB">is </w> �����<w�c5="AT0"�hw="the"�pos="ART">the </w> �����<w�c5="NN1"�hw="body"�pos="SUBST">body</w> �����<c�c5="PUN">?</c> �����<c�c5="PUQ">’</c> ����</s> ���</p> �� .... <wtext> written text <pb> page break <s> sentence <p> paragraph <div> division <c> punctuation mark <w> word Attribute: c5 CLAWS5 Tagset hw root/Stamm des Wortes pos Part of Speech Vgl. http://www.natcorp.ox.ac.uk/docs/URG/cdifbase.html#cdifsgml 23.10.2014
Einschränkungen von XML Nachteile: Darstellung multipler, sich überlappender Annotationen problematisch Begrenzter semantischer Gehalt, d. h. einzig die Namen der Elemente und Attribute geben Hinweis auf die Motivation zur Auszeichnung 23.10.2014
Überlappende Annotationen 1 Konstruiertes Beispiel einer Transkription: Peter: “Hey Paul! Would you give me” Paul: „the hammer?“ Aufgabe: Es soll nicht nur die Satzstruktur festgehalten werden, sondern auch die Äußerungen den Sprechern zugeordnet werden 23.10.2014
Überlappende Annotationen 2 <pos> <sentence id="0"> <u who="Peter"> <word wid="0" pos="NNP">Hey</word> <word wid="1" pos="NNP">Paul</word> <word wid="2" pos=".">!</word> </sentence> <sentence id="1"> <word wid="0" pos="MD">Would</word> <word wid="1" pos="PRP">you</word> <word wid="2" pos="VB">give</word> <word wid="3" pos="PRP">me</word> </u> <u who="Paul"> <word wid="4" pos="DT">the</word> <word wid="5" pos="NN">hammer</word> <word wid="6" pos=".">?</word> </pos> 23.10.2014
Überlappende Annotationen 3 Problem: überlappende Annotationen sind in XML nicht repräsentierbar (vgl. Definition von Wohlgeformtheit Lösungen Multiple Dokumente Fragmentierungen Standoff-Notation 23.10.2014
Lösungen Multiple Dokumente Speicherung jeweils einer Annotationsebene inkl. Primärdaten in einer Datei Vorteile Jede Datei ist vollständig und einzeln verwendbar Gut verarbeitbar (sowohl durch menschliche als auch maschinelle Leser) Für jede Annotationsebene kann eine separate Dokumentgrammatik erstellt werden Nachteile Primärdaten werden redundant gespeichert Bezug der Annotationen untereinander nur schwer und aufwändig zu realisieren Geringe Robustheit bzgl. Integrität der Primärdaten 23.10.2014
Lösungen 2 2. Fragmentierungen Vorteile Nachteile Aufbrechen der einzelnen überlappenden Elemente in kleinere Teilfragmente, die sich ohne Überlappungen in die Dokumentstruktur einbetten lassen Vorteile Durch Hinzufügen des part-Attributs wird die logische Zusammengehörigkeit der Fragmente deutlich gemacht Self Overlap durch Verwendung des next-Attributs prinzipiell abbildbar Nachteile Bei vielfacher Überlappung unübersichtlich Schlecht maschinell verarbeitbar Keine Unterscheidung von Inklusion und Dominanzbeziehungen 23.10.2014
Lösungen 3 3. Standoff-Notation Trennung von Primärdaten und Markup und anschließende Referenzierung durch Zeigemechanismen Vorteile Beliebig viele Annotationsebenen kombinierbar, auch Sub-Wort-Ebene Prinzipiell gut skalierbar, da Verwendung von beliebiger Anzahl von Dateien möglich Widersprechende Auszeichnung möglich Nachteile Für menschliche Leser sehr schlecht verarbeitbar Maschinelle Verarbeitung problematisch Je nach Ansatz geringe Robustheit bzgl. Integrität der Primärdaten 23.10.2014
TEI Die TEI Guidelines sind seit über 20 Jahren weltweit im Einsatz Neue Fassungen sind entweder abwärtskompatibel oder erlauben die Transformation bestehender Daten Für die Annotation linguistischer Daten bietet die TEI Elemente zur Segmentierung hinunter auf Zeichenenebene Die TEI unterstützt eine Vielzahl an Mechanismen zur Speicherung multiplerAnnotationen Für die Auszeichnung konkreter linguistischer Merkmale fehlen Elemente undAttribute – hier müssen externe Ressourcen herangezogen werden Das Tagset ist sehr komplex und ermöglicht mehrere Wege, um Phänomene zu beschreiben, daher zusätzliche Annotation Guidelines notwendig 23.10.2014
XCES Teil der EAGLES Guidelines (Expert Advisory Group on Language Engineering Standards) XCES ist eine weiterentwickelte XML-Fassung des Corpus Encoding Standards (CES), das eine Modifikation der TEI-P3 Richtlinien ist Beim IDS in Mannheim wird aktuell an einer TEI P5-kompatiblen XCES-Version gearbeitet (IDS-XCES) XCES sieht eine Kodierung der Primärdaten (in Form einer Basisannotation) sowie die Annotation der eigentlichen linguistischen Phänomene vor Metadaten (analog zur TEI) werden in einer externen Datei gespeichert Annotationsebenen werden mittels Merkmalsstrukturen (definiert in der Dokumentgrammatik cesAna) kodiert; die eigentliche Annotation erfolgt inStandoff-Notation auf Basis der Primärdatenkodierung 23.10.2014
XCES Beispiel: Metadaten Primärdaten <?xml version="1.0" encoding="UTF-8"?> <cesHeader creator="KBS" date.created="20050222"> <fileDesc> <titleStmt> <title>The Story Continues</title> <author>Ferd Eggan</author> </titleStmt> <sourceDesc><!-- [...] --></sourceDesc> </fileDesc> <profileDesc> <textClass> <domain>Fiction</domain> <subdomain>General fiction</subdomain> <!-- [...] --> </textClass> <annotations> <annotation ann.loc="TheStory.txt" type="content">Text content</annotation> <annotation ann.loc="TheStory-logical.xml" type="logical">Logical structure</annotation> </annotations> </profileDesc> </cesHeader> Primärdaten <?xml version="1.0" encoding="UTF-8"?> <cesDoc xmlns="http://www.xces.org/schema/2003" version="0.4"> <text> <body> <p>The Story Continues . . . a serial enovel by Ferd Eggan</p> <p>1 Welcome to Hotel Real Desert</p> <p>But he never fell into the error of arresting his intellectual development by any formal acceptance of creed or system, or of mistaking, for a house in which to live, an inn that is but suitable for the sojourn of a night in which there are no stars and the moon is in travail</p> <p>The Hotel</p> <p>Hotel is next door to a perfect metaphor for the mind, and thus for psychoanalysis. In my father’s house are many mansions?To get there you have to leave somewhere else...</p> <! [...] > </body> </text> </cesDoc> 23.10.2014
XCES Beispiel 2 Annotationen 23.10.2014 <?xml version="1.0" encoding="UTF-8"?> <cesAna xmlns="http://www.xces.org/schema/2003" version="1.0.4"> <struct type="cesDoc" from="0" to="400307"> <feat name="xmlns" value="http://www.xces.org/schema/2003"/> <feat name="version" value="1.0.4"/> </struct> <struct type="text" from="2" to="400306"/> <struct type="body" from="5" to="400304"/> <struct type="div" from="9" to="73"/> <struct type="p" from="14" to="69"> <feat name="id" value="p1"/> <struct type="head" from="77" to="108"> <feat name="type" value="h1"/> <struct type="p" from="112" to="414"> <feat name="id" value="p2"/> <struct type="hi" from="409" to="410"> <feat name="rend" value="sup"/> <!-- [...] --> </cesAna> 23.10.2014
Quellen Storrer: „Korpusgestützte Sprachanalyse in Lexikographie und Phraseologie“ (http://www.studiger.tu-dortmund.de/images/Pre_storrer-korpuslinguistik-2.pdf 23.10.2014) Lemnitzer, L. / Zinsmeister, H. (2006): Korpuslinguistik: Eine Einführung. Tübingen: Narr. http://www.maik-stuehrenberg.de/files/Stuehrenberg-Kolloquium2012.pdf (23.10.2014) http://www.ims.uni-stuttgart.de/forschung/ressourcen/lexika/TagSets/stts-1999.pdf (23.10.2014) 23.10.2014
Vielen Dank für Eure Aufmerksamkeit! 23.10.2014