Linguistische Annotationen

Linguistische Annotationen
Universität zu Köln Studiengang Informationsverarbeitung WS 2014/15 HS Annotationssysteme Prof. Dr Thaller 23. Oktober 2014 Andreas Vogt

Gliederung Wo werden linguistische Annotationen verwendet?
Was ist Korpuslinguistik? Was ist ein Korpus? Korpusabfragen Welche linguistische Merkmale werden annotiert? Wie werden linguistische Merkmale annotiert bzw. mit welchen System können sie sinnvoll annotiert werden? Anforderungen an das Annotationssystem

Korpuslinguistik Forschungsfeld zwischen Informatik, Computerlinguistik und Linguistik Aufbau, der Aufbereitung und der Auswertung von (elektronischen) Korpora Empirischer Ansatz in der Linguistik (↔ Introspektion, Sprecherurteile) Korpora als empirische Basis für Theoriebildung und Überprüfung theoretischer Annahmen an authentischen Sprachdaten qualitative und quantitative Analysen

Korpus „Ein Korpus ist eine Sammlung schriftlicher oder gesprochener Äußerungen. Die Daten des Korpus sind typischerweise digitalisiert, d. h. auf Rechnern gespeichert und maschinenlesbar. Die Bestandteile des Korpus, die Texte, bestehen aus den Daten selbst sowie möglicherweise aus Metadaten, die diese Daten beschreiben, und aus linguistischen Annotationen, die diesen Daten zugeordnet sind.“ Lemnitzer/Zinsmeister: Korpuslinguistik. Eine Einführung, S. 7

Korpus Primärdaten (Textdokumente, Gesprächstranskriptionen, Bild-, Ton- und Videodateien) Metadaten (Titel, Autor, Erscheinungsdatum Ort bzw. Aufnahmedatum, -ort, -dauer, Gesprächsbeteiligte, Anlass, Transkriptionsstandard) Linguistische Annotationen Werkzeuge zur Abfrage des Korpus Korpus ≠ digitalisierte Textsammlung Korpus ≠ Suchwerkzeug im WWW

Grundbegriffe Grundbegriffe
Token (Wortvorkommen): Jedes Vorkommen eines Wortes in einem fortlaufenden Text Wortform: Wort unabhängig davon, wie häufig es vorkommt Lexem: semantisch bestimmte Wortschatzeinheiten. Z. B. alle Formen des Verbs „sein“ Auf Grundlage der Primärdaten kann eine Korpusabfrage nur auf den Wortformen operieren -> einfache Suche nach Strings oder Substrings -> Mustersuche über reguläre Ausdrücke Homographieproblem komplexere Analysen ermöglichen(z. B. Suche nach typischen Akkusativobjekten zum Verb „finden“)

Linguistische Annotationen
„Als linguistische Annotation bezeichnet man Informationen zu linguistischen Merkmalen, die den Primärdaten des Korpus in digitaler Form beigefügt sind“ Storrer Linguistische Merkmale: Part-of-speech (POS, Wortartenannotation) Lemmatisierung Semantische Lesarten Auszeichnung morphosyntaktischer Eigenschaften Syntaktische Strukturen (Phrasen, topologische Felder) Pragmatik: Koreferenz Weitere Merkmale: z. B. Sprecher Wortebene Subwortebene ?? mehrere Wörter Bezieht sich auf einzelne Wörter auch über Satzgrenzen hinweg Eine Äußerung muss nicht mit Wort- oder Satzgrenzen zusammenfallen

Linguistische Annotationen 2
Auszeichnung erfolgt aufgrund des Umfangs der Korpora meist automatisiert. POS-Tagging und Lemmatisierung funktionieren sehr gut, die automatische Wortsinndisambiguierung wird zumindest besser. Fehler wird es bei der automatischen Annotierung immer geben. Manuelle Korrektur ist wünschenswert -> Umgang mit Fehlern, Korrekturmöglichkeit? Die Merkmalskategorien variieren mit dem zugrundegelegten Grammatikmodell! -> allgemeines, möglichst theorieneutrales Auszeichnungssystem?

Part-of-Speech-Tagging
Tagset: Legt das Inventar und die Bedeutung von (POS-)Tags fest Stuttgart-Tübingen-Tagset (STTS) Kleines Tagset: 54 Tags z.B. ADJA: attributives Adjektiv PPOS: Possesivpronomen NN: Appelativa NE: Eigennamen Großes Tagset (inkl. Morphologischer Informationen): Kombinatorisch mehrere Hundert „Tags“ mit ganzem/ADJA:Pos.Mask.Dat.Sg.St Einsatz

XML als Basis linguistischer Annotation
XML als Metasprache ist in der linguistischen Annotation fest etabliert Es bestehen mehrere Standards zur linguistischen Annotation mit XML (TEI, XCES) XML findet Verwendung u.a.: BNC British National Corpus (TEI) DeReKo Deutsches Referenz Korpus IDS Mannheim (IDS-XCES) DWDS Digitales Wörterbuch der deutschen Sprache (TEI-P5)

Eignung von XML Trennung von Primärtext und Annotation durch xml-Struktur gegeben <annotation1 attr1=value1> primärtext</annotation> Formalismen zur Erstellung von Dokumentgrammatiken (dtd, Relax-NG), die Anzahl und Art der Elemente, ihre Verschachtelung und mögliche Attribute festlegen Standards: TEI, XCES,…: meist generische Annotationsformate in Kombination mit festen Datenkategorien, z. B. keine Festlegung auf ein bestimmtes POS-Tagset

Beispiel aus dem BNC <wtext> written text <pb> page break
�<wtext�type="FICTION"> ��<pb�n="5"/> ��<div�level="1"> ��<head> ��<s�n="1"> ��<w�c5="NN1"�hw="chapter"�pos="SUBST">CHAPTER </w> ��<w�c5="CRD"�hw="1"�pos="ADJ">1</w> ��</s> ��</head> �� ��<s�n="2"> ��<c�c5="PUQ">‘</c> ��<w�c5="CJC"�hw="but"�pos="CONJ">But</w> ��<c�c5="PUN">,</c> ��<c�c5="PUQ">’ </c> ��<w�c5="VVD"�hw="say"�pos="VERB">said </w> ��<w�c5="NP0"�hw="owen"�pos="SUBST">Owen</w> ��<c�c5="PUN">,</c> ��<c�c5="PUQ">‘</c> ��<w�c5="AVQ"�hw="where"�pos="ADV">where </w> ��<w�c5="VBZ"�hw="be"�pos="VERB">is </w> ��<w�c5="AT0"�hw="the"�pos="ART">the </w> ��<w�c5="NN1"�hw="body"�pos="SUBST">body</w> ��<c�c5="PUN">?</c> ��<c�c5="PUQ">’</c> ��</s> �� �� .... <wtext> written text <pb> page break <s> sentence paragraph <div> division <c> punctuation mark <w> word Attribute: c5 CLAWS5 Tagset hw root/Stamm des Wortes pos Part of Speech Vgl.

Einschränkungen von XML
Nachteile: Darstellung multipler, sich überlappender Annotationen problematisch Begrenzter semantischer Gehalt, d. h. einzig die Namen der Elemente und Attribute geben Hinweis auf die Motivation zur Auszeichnung

Überlappende Annotationen 1
Konstruiertes Beispiel einer Transkription: Peter: “Hey Paul! Would you give me” Paul: „the hammer?“ Aufgabe: Es soll nicht nur die Satzstruktur festgehalten werden, sondern auch die Äußerungen den Sprechern zugeordnet werden

<pos> <sentence id="0"> <word wid="0" pos="NNP">Hey</word> <word wid="1" pos="NNP">Paul</word> <word wid="2" pos=".">!</word> </sentence> <sentence id="1"> <word wid="0" pos="MD">Would</word> <word wid="1" pos="PRP">you</word> <word wid="2" pos="VB">give</word> <word wid="3" pos="PRP">me</word> <word wid="4" pos="DT">the</word> <word wid="5" pos="NN">hammer</word> <word wid="6" pos=".">?</word> </pos>

Problem: überlappende Annotationen sind in XML nicht repräsentierbar (vgl. Definition von Wohlgeformtheit Lösungen Multiple Dokumente Fragmentierungen Standoff-Notation

Lösungen Multiple Dokumente
Speicherung jeweils einer Annotationsebene inkl. Primärdaten in einer Datei Vorteile Jede Datei ist vollständig und einzeln verwendbar Gut verarbeitbar (sowohl durch menschliche als auch maschinelle Leser) Für jede Annotationsebene kann eine separate Dokumentgrammatik erstellt werden Nachteile Primärdaten werden redundant gespeichert Bezug der Annotationen untereinander nur schwer und aufwändig zu realisieren Geringe Robustheit bzgl. Integrität der Primärdaten

Lösungen 2 2. Fragmentierungen Vorteile Nachteile
Aufbrechen der einzelnen überlappenden Elemente in kleinere Teilfragmente, die sich ohne Überlappungen in die Dokumentstruktur einbetten lassen Vorteile Durch Hinzufügen des part-Attributs wird die logische Zusammengehörigkeit der Fragmente deutlich gemacht Self Overlap durch Verwendung des next-Attributs prinzipiell abbildbar Nachteile Bei vielfacher Überlappung unübersichtlich Schlecht maschinell verarbeitbar Keine Unterscheidung von Inklusion und Dominanzbeziehungen

Lösungen 3 3. Standoff-Notation
Trennung von Primärdaten und Markup und anschließende Referenzierung durch Zeigemechanismen Vorteile Beliebig viele Annotationsebenen kombinierbar, auch Sub-Wort-Ebene Prinzipiell gut skalierbar, da Verwendung von beliebiger Anzahl von Dateien möglich Widersprechende Auszeichnung möglich Nachteile Für menschliche Leser sehr schlecht verarbeitbar Maschinelle Verarbeitung problematisch Je nach Ansatz geringe Robustheit bzgl. Integrität der Primärdaten

TEI Die TEI Guidelines sind seit über 20 Jahren weltweit im Einsatz
Neue Fassungen sind entweder abwärtskompatibel oder erlauben die Transformation bestehender Daten Für die Annotation linguistischer Daten bietet die TEI Elemente zur Segmentierung hinunter auf Zeichenenebene Die TEI unterstützt eine Vielzahl an Mechanismen zur Speicherung multiplerAnnotationen Für die Auszeichnung konkreter linguistischer Merkmale fehlen Elemente undAttribute – hier müssen externe Ressourcen herangezogen werden Das Tagset ist sehr komplex und ermöglicht mehrere Wege, um Phänomene zu beschreiben, daher zusätzliche Annotation Guidelines notwendig

XCES Teil der EAGLES Guidelines (Expert Advisory Group on Language
Engineering Standards) XCES ist eine weiterentwickelte XML-Fassung des Corpus Encoding Standards (CES), das eine Modifikation der TEI-P3 Richtlinien ist Beim IDS in Mannheim wird aktuell an einer TEI P5-kompatiblen XCES-Version gearbeitet (IDS-XCES) XCES sieht eine Kodierung der Primärdaten (in Form einer Basisannotation) sowie die Annotation der eigentlichen linguistischen Phänomene vor Metadaten (analog zur TEI) werden in einer externen Datei gespeichert Annotationsebenen werden mittels Merkmalsstrukturen (definiert in der Dokumentgrammatik cesAna) kodiert; die eigentliche Annotation erfolgt inStandoff-Notation auf Basis der Primärdatenkodierung

XCES Beispiel: Metadaten Primärdaten
<?xml version="1.0" encoding="UTF-8"?> <cesHeader creator="KBS" date.created=" "> <fileDesc> <titleStmt> <title>The Story Continues</title> <author>Ferd Eggan</author> </titleStmt> <sourceDesc></sourceDesc> </fileDesc> <profileDesc> <textClass> <domain>Fiction</domain> <subdomain>General fiction</subdomain>  </textClass> <annotations> <annotation ann.loc="TheStory.txt" type="content">Text content</annotation> <annotation ann.loc="TheStory-logical.xml" type="logical">Logical structure</annotation> </annotations> </profileDesc> </cesHeader> Primärdaten <?xml version="1.0" encoding="UTF-8"?> <cesDoc xmlns=" version="0.4"> <text> <body> The Story Continues a serial enovel by Ferd Eggan 1 Welcome to Hotel Real Desert But he never fell into the error of arresting his intellectual development by any formal acceptance of creed or system, or of mistaking, for a house in which to live, an inn that is but suitable for the sojourn of a night in which there are no stars and the moon is in travail The Hotel Hotel is next door to a perfect metaphor for the mind, and thus for psychoanalysis. In my father’s house are many mansions?To get there you have to leave somewhere else... <!􀀀􀀀 [...] 􀀀􀀀> </body> </text> </cesDoc>

XCES Beispiel 2 Annotationen 23.10.2014
<?xml version="1.0" encoding="UTF-8"?> <cesAna xmlns=" version="1.0.4"> <struct type="cesDoc" from="0" to="400307"> <feat name="xmlns" value=" <feat name="version" value="1.0.4"/> </struct> <struct type="text" from="2" to="400306"/> <struct type="body" from="5" to="400304"/> <struct type="div" from="9" to="73"/> <struct type="p" from="14" to="69"> <feat name="id" value="p1"/> <struct type="head" from="77" to="108"> <feat name="type" value="h1"/> <struct type="p" from="112" to="414"> <feat name="id" value="p2"/> <struct type="hi" from="409" to="410"> <feat name="rend" value="sup"/>  </cesAna>

Quellen Storrer: „Korpusgestützte Sprachanalyse in Lexikographie und Phraseologie“ ( ) Lemnitzer, L. / Zinsmeister, H. (2006): Korpuslinguistik: Eine Einführung. Tübingen: Narr. ( ) ( )

Vielen Dank für Eure Aufmerksamkeit!

Linguistische Annotationen

Ähnliche Präsentationen

Präsentation zum Thema: "Linguistische Annotationen"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback

Anmelden

Anmeldung über soziales Netzwerk:

Linguistische Annotationen

Ähnliche Präsentationen

Präsentation zum Thema: "Linguistische Annotationen"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback