Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Ausblick 7.6. U – Termextraktion U über abstr. & tagging

Ähnliche Präsentationen


Präsentation zum Thema: "Ausblick 7.6. U – Termextraktion U über abstr. & tagging"—  Präsentation transkript:

1 Ausblick 7.6. U – Termextraktion U über abstr. & tagging
14.6. N - Abstracting & Tagging 21.6. U - Voice 2 Text U über voice & browsing 28.6. N – Intelligent Browsing U – Rechtschreib & Web-Crawling U über Rechtschrkontr. 12.7. N – Visualisierung Sem. Netze 19.7. ?? -“Zoom”algorithmen

2 Abstracting & Tagging Unterschiedliche Sorten von Zusammenfassungen:
Indikativ Informativ Extracting Welche Stufen ling. Wissen sind notwendig für die verschiedenen Sorten: Gar keins (nur Kookkurrenzen und und andere Statistiken) Kohäsion (schwächer als sem. und gramm.) Generierung sem. und gramm. korrekter Sätze

3 Aufgabe Erstellen Sie eine Zusammenfassung nach einer der vier Methoden des folgenden Beispieltextes Formulieren Sie jeweils einen Algorithmus, der diese Sorte von Zusammenfassung produziert

4 Beispieltext Laser (http://de.wikipedia.org/wiki/Laser)
Laser sind Strahlungsquellen, (Infrarot, sichtbares Licht, Ultraviolett), deren Gemeinsamkeit im Entstehungsprozess der Strahlung liegt, nämlich in der sogenannten induzierten Emission. So gibt es eine Vielzahl unterschiedlicher Lasermodelle mit den verschiedensten Eigenschaften. Ein Laser besteht dabei immer aus einem optisch aktiven Medium, in dem die Strahlung erzeugt wird, und meistens einem Resonator, der für die Eigenschaften des Laserstrahls, wie Parallelität oder Strahlprofil, mitverantwortlich ist. Laser haben faszinierende Eigenschaften, die sie stark von klassischen Lichtquellen (wie z. B. einer Glühlampe) unterscheiden. Aufgrund ihrer hohen Kohärenz kann mittels Lasern die Wellennatur des Lichts direkt beobachtet werden (z. B. durch Interferenzeffekte). Laserlicht kann zeitlich kohärent sein. Dadurch ist es einfarbig (monochromatisch). Wegen der hohen räumlichen Kohärenz kann Laserstrahlung hoch intensiv und gut gebündelt (fokussiert) werden, was sie für Anwendungen als Schneid- und Schweißwerkzeug oder auch als Laserskalpell in der Medizin geeignet macht. Laser können auch so konstruiert werden, dass sie Impulse mit extrem geringer Dauer (~10-fs-Bereich) aussenden, so dass die zeitaufgelöste Laserspektroskopie ein Standardverfahren zur Untersuchung schneller Prozesse geworden ist.

5 Extracting (Luhn 58) Erster Ansatz überhaupt
Verteilt Punktzahl für jeden Satz Jedes Wort trägt zur Punktzahl eines Satzes bei Punktwert ergibt sich aus Vergleich mit grösserem Korpus (genau wie bei Terminologieextraktion) Danach können entspr. einem Ranking der Sätze gerade so viele Sätze gewählt werden, um Zielkomprimierung zu erreichen

6 Endmunson‘s surface method (69)
Jeder Satz im Text hat Eigenschaften: Cue: Wortgruppen (The aim of this study is …) Key: Vorhandensein von Key words Title: Gemeinsame Wörter mit Titel Loc.: Position im Text

7 Kohäsion (nach Marcu 00) Dem liegt die Rhetorical Structure Theory (RST) zugrunde Unterscheidung von Sätzen bzw. Aussagen in Nucleus Satellit Zweiteres hängt immer von ersterem ab: Rauchen gefährdet die Gesundheit. Zum Beispiel enthält die Studie … Problem: Es gibt keinen (voll)automatischen RST Parser

8 Vollständiges Linguistisches Wissen
Nur so kann echtes abstracting erreicht werden: Synt. und sem. Parsen des Ausgangstextes Erkennung des Hauptgegenstands Generierung einer kurzen Aussage gleichen Inhalts Wie weit sind gegenwärtige vollautomatische Methoden davon entfernt? Bzw. wie könnten die einzelnen Teile simuliert werden?

9 Randbedingungen (Auch nur) Extrahierte Sätze sollten zusammenstehend lesbar sein Daher lieber Drei aufeinanderfolgenden Sätze extrahieren, als nur die beiden äusseren Sind wirklich alle (grösseren) Themen des Textes in der Zusammenfassung? Lassen sich vielleicht einfach grössere Teile von langen Sätzen „herausoperieren“, ohne etwas kaputt zu machen und ohne einen Parser zu benötigen? Welche Sorten von Texten sind inhärent schlecht geeignet für reines Extracting? Romane? Fachartikel? Methode prinzipiell für lange Texte ungeeignet (schon weil 10% eines langen Textes immer noch viel ist, wir von einem Extrakt aber maximal eine halbe Seite lesen wollen)

10 Evaluierungsproblem Extracting
Abhängig von Textsorte werden lediglich 40% bis 90% Übereinstimmung zwischen Menschen erreicht (welche Sätze sie für die wichtigsten erachten) Abstracting Evaluierung noch viel schwieriger, da zwei grundverschiedene Abstracts identischer Qualität sein können Daher automatische Evaluierung nicht üblich oder auch nur machbar

11 Tagging Hier nur eine kleine Übung zu einem ansonsten äusserst umfänglichen Thema! Grundannahme ist, dass Wörter verschiedene Klassen haben und in bestimmten Satzsituationen eine davon konkret annehmen Es gilt also, die Rolle eines jeden Wortes in einem Satz zu bestimmen Dazu gibt es vorgegebene Klassen, wie das STTS Tagset, sowie von Hand annotierte Beispielsätze, von den gelernt werden kann, wann welches Wort wohl welche Rolle spielt

12 Nutzen von Tagging Information über die Struktur des Satzes erlaubt es, verschiedene Information Extraction und andere Algorithmen anzuwenden Es kann gezielt nach Strukturmustern, bzw. verallgemeinerten Kontexten gesucht werden Nennen Sie konkrete Anwendungen, die ohne Tagging (nicht Parsen!) nicht oder kaum funktionieren würden

13 Aufgabe Gegeben sei ein Satz, Taggen Sie ihn mit den STTS Tags!
Ich werde doch nicht in diesem Haus oder auch nur in der Nähe dieses Ortes mein Quartier beziehen! Im Folgenden sei eine automatisch generierte Analyse gegeben, geben Sie die Qualität der Analyse an. Der Verwendete Tagger ist der TreeTagger:

14 Automatische Analyse Brauchte immerhin 1 Sekunde (TreeTagger)!
Ich PPER ich werde VAFIN werden doch ADV doch nicht PTKNEG nicht in APPR in diesem PDAT dies Haus NN Haus oder KON oder auch ADV auch nur ADV nur der ART d Nähe NN Nähe dieses PDAT dies Ortes NN Ort mein PPOSAT mein Quartier NN Quartier beziehen VVINF beziehen

15


Herunterladen ppt "Ausblick 7.6. U – Termextraktion U über abstr. & tagging"

Ähnliche Präsentationen


Google-Anzeigen