Ausblick 7.6. U – Termextraktion U über abstr. & tagging

Slides:



Advertisements
Ähnliche Präsentationen
Flächenberechnung Seminar: Fachdidaktik Mathematik
Advertisements

Polynomial Root Isolation
Vom graphischen Differenzieren
1 Wie weiter oben eingehend behandelt, sind elektromagnetische Wellen trans- versal, haben also zwei Polarisationsrichtungen senkrecht zur Ausbreitungs-
Kapitel 6: Klassifizierung von Sortiertechniken
Seminar Textmining WS 06/07 Themen I Übung in erster Linie um zugrundeliegende Methoden zu verstehen. D.h. es gibt immer einen/mehrere Themenschwerpunkte,
Termextraktion Ziele der Extraktion Stand der Extraktionsprogramme
Seminar Textmining WS 06/07 Themen Übung 8 Diskussion über Erkennung von Eigennamen Question Answering Stemming.
Seminar Textmining WS 06/07 Themen Übung 9 Multilingualität Weitere Termine: 13.7.Symbolfolgen und PageRank Findlinks mitstreiter gesucht!
WS 05/06Automatische Akquisition linguistischen Wissens1 Partielles Wissen erweitern 1.Zusammenhang mit bisherigen Algorithmen 2.Vom offensichtlichen zum.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (27 – Kürzeste Wege) Prof. Th. Ottmann.
Vorlesung Informatik 3 Einführung in die Theoretische Informatik (04 – Automaten mit ε-Transitionen) Prof. Dr. Th. Ottmann.
Kapitel 1 Das Schubfachprinzip
Kapitel 6 Differenzierbarkeit. Kapitel 6: Differenzierbarkeit © Beutelspacher Juni 2005 Seite 2 Inhalt 6.1 Die Definition 6.2 Die Eigenschaften 6.3 Extremwerte.
1 Ein Computermodell zur Bestimmung von Begriffstypen Christof Rumpf Heinrich-Heine-Universität Tag der Forschung
1 Automatische Klassifikation von Nomen nach Begriffstyp Christof Rumpf Heinrich-Heine-Universität
Jürgen-Maria Mustermensch ... sonstiges ...
Situationen Verteilte Anwendungen Wintersemester 06/07 © Wolfgang Schönfeld.
Im FuN-Projekt Lehr- und Lernprozesse für die Ausbildung und Entwicklung der Lese- und Schreibfähigkeit in der Primarstufe sollten die Befunde aus LUSTin.
Reminder: Abstract Definition:
Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)
Relationentheorie AIFB SS Algorithmen zur Bildung von 3NF-Relationsschemata Algorithmen zur Bildung von 3NF-Relationsschemata (2|8) (2)Synthese.
Dr. Barbara Strohbücker
Themenfeld „Daten und Zufall“ – arithmetisches Mittel – Klassenstufe 5/6 Ariane Dubiel, Azida Shahabuddin, Sandra Mense.
Kakuro Regeln und Strategien
Variationsformalismus für das freie Teilchen
Ideen der Informatik Suchen und Sortieren [Ordnung muss sein…]
1 Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)
Effiziente Algorithmen
Fotos and pps by Monika Müller
Effiziente Algorithmen
Internet ohne Barrieren - Und was ist mit der Sprache?
Gleichförmige Bewegung
Messgrößen vereinbaren
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/ /23.1.
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Hartmut Klauck Universität Frankfurt SS
Information und Kommunikation Hartmut Klauck Universität Frankfurt SS
Was uns das Leben lehrt –
Künstliches Neuronales Netz nach John Hopfield
TOBIAS GONSCHOREK   Der weg zum Erfolg.
Die Inhaltsangabe Teil 2
...und alle heißen Leo Der täuschende Zuruf. Hab ihn! Lass ihn! LEO!
Lernfortschritt sichtbar machen
Kleiner Wegweiser für das Erstellen von (Powerpoint-)Präsentationen
Präsentiert….
Befragung Verantwortlicher in der KLJB Bayern zu Glaube und Kirche 2004.
Das Bose-Einstein Kondensat
1 Hauptziele Ihrer Schule Hauptziel 1 Bessere Leistungen der Schüler und Schülerinnen (hier Hauptziel 1 eintragen) Hauptziel 2 Bessere Leistungen der Schüler.
Institut für Kartographie und Geoinformation Prof. Dr. Lutz Plümer Geoinformation III Vorlesung 1 WS 2001/02 Punkt-in-Landkarte I (Streifenkarte)
Frauen mit 18 sind süß, Frauen mit 25 bezaubernd, Frauen ab 30 sind gefährlich, aber Frauen ab 40 sind hinreißend, unwiderstehlich, atemberaubend.
Management, Führung & Kommunikation
Sensible Themen Was Sie tun können, wenn die Unzufriedenheit mit dem Aussehen für eine/n Lernende/n oder KollegIn ein Problem darstellt LIFELONG LEARNING.
Anfänge und Der weg zum Erfolg
Analyse der Laufzeit von Algorithmen
Methoden Die klassische Methode der Psycholinguistik (genauso wie der experimentellen Psychologie im Allgemeinen) ist die Messung von Reaktionszeiten.
Vom graphischen Differenzieren
Zusammenwirkung von Licht und Werkstoffen.. Es ist schon bekannt: wird Materie mit Licht bestrahlt, werden Elektronen frei.
Photoemission von Elektronen. Mit Hilfe ultrakurzer Laserpulse haben den zeitlichen Ablauf des Photoeffekts an Festkörpern näher erforscht. Die Photoemission.
Grammatikalische Begriffe im Unterricht
Präsentation mit dem Medium PowerPoint
Computer Algebra für Brüche --- angepasst an Ausbildungszwecke
Vorbereitung einer Reflexion der Testdurchführung
Georg Spitaler PS Interpretative Zugänge zu Popularkultur WS 2004/05
The content of this presentation is designed to promote print media’s power to communicate. You are welcome to use this as part of your own materials but.
Programmiersprachen II Fortsetzung Datenstrukturen Balancierte Bäume 1 Prof. Dr. Reiner Güttler Fachbereich GIS HTW.
Vergleichen Sie die direkte Rede im Text mit der indirekten Rede in der Leixoletti-Inhaltsangabe. Dann hatte ich natürlich Hunger, nicht wahr? Und ich.
 Präsentation transkript:

Ausblick 7.6. U – Termextraktion U über abstr. & tagging 14.6. N - Abstracting & Tagging 21.6. U - Voice 2 Text U über voice & browsing 28.6. N – Intelligent Browsing 5.7. U – Rechtschreib & Web-Crawling U über Rechtschrkontr. 12.7. N – Visualisierung Sem. Netze 19.7. ?? -“Zoom”algorithmen

Abstracting & Tagging Unterschiedliche Sorten von Zusammenfassungen: Indikativ Informativ Extracting Welche Stufen ling. Wissen sind notwendig für die verschiedenen Sorten: Gar keins (nur Kookkurrenzen und und andere Statistiken) Kohäsion (schwächer als sem. und gramm.) Generierung sem. und gramm. korrekter Sätze

Aufgabe Erstellen Sie eine Zusammenfassung nach einer der vier Methoden des folgenden Beispieltextes Formulieren Sie jeweils einen Algorithmus, der diese Sorte von Zusammenfassung produziert

Beispieltext Laser (http://de.wikipedia.org/wiki/Laser) Laser sind Strahlungsquellen, (Infrarot, sichtbares Licht, Ultraviolett), deren Gemeinsamkeit im Entstehungsprozess der Strahlung liegt, nämlich in der sogenannten induzierten Emission. So gibt es eine Vielzahl unterschiedlicher Lasermodelle mit den verschiedensten Eigenschaften. Ein Laser besteht dabei immer aus einem optisch aktiven Medium, in dem die Strahlung erzeugt wird, und meistens einem Resonator, der für die Eigenschaften des Laserstrahls, wie Parallelität oder Strahlprofil, mitverantwortlich ist. Laser haben faszinierende Eigenschaften, die sie stark von klassischen Lichtquellen (wie z. B. einer Glühlampe) unterscheiden. Aufgrund ihrer hohen Kohärenz kann mittels Lasern die Wellennatur des Lichts direkt beobachtet werden (z. B. durch Interferenzeffekte). Laserlicht kann zeitlich kohärent sein. Dadurch ist es einfarbig (monochromatisch). Wegen der hohen räumlichen Kohärenz kann Laserstrahlung hoch intensiv und gut gebündelt (fokussiert) werden, was sie für Anwendungen als Schneid- und Schweißwerkzeug oder auch als Laserskalpell in der Medizin geeignet macht. Laser können auch so konstruiert werden, dass sie Impulse mit extrem geringer Dauer (~10-fs-Bereich) aussenden, so dass die zeitaufgelöste Laserspektroskopie ein Standardverfahren zur Untersuchung schneller Prozesse geworden ist.

Extracting (Luhn 58) Erster Ansatz überhaupt Verteilt Punktzahl für jeden Satz Jedes Wort trägt zur Punktzahl eines Satzes bei Punktwert ergibt sich aus Vergleich mit grösserem Korpus (genau wie bei Terminologieextraktion) Danach können entspr. einem Ranking der Sätze gerade so viele Sätze gewählt werden, um Zielkomprimierung zu erreichen

Endmunson‘s surface method (69) Jeder Satz im Text hat Eigenschaften: Cue: Wortgruppen (The aim of this study is …) Key: Vorhandensein von Key words Title: Gemeinsame Wörter mit Titel Loc.: Position im Text

Kohäsion (nach Marcu 00) Dem liegt die Rhetorical Structure Theory (RST) zugrunde Unterscheidung von Sätzen bzw. Aussagen in Nucleus Satellit Zweiteres hängt immer von ersterem ab: Rauchen gefährdet die Gesundheit. Zum Beispiel enthält die Studie … Problem: Es gibt keinen (voll)automatischen RST Parser

Vollständiges Linguistisches Wissen Nur so kann echtes abstracting erreicht werden: Synt. und sem. Parsen des Ausgangstextes Erkennung des Hauptgegenstands Generierung einer kurzen Aussage gleichen Inhalts Wie weit sind gegenwärtige vollautomatische Methoden davon entfernt? Bzw. wie könnten die einzelnen Teile simuliert werden?

Randbedingungen (Auch nur) Extrahierte Sätze sollten zusammenstehend lesbar sein Daher lieber Drei aufeinanderfolgenden Sätze extrahieren, als nur die beiden äusseren Sind wirklich alle (grösseren) Themen des Textes in der Zusammenfassung? Lassen sich vielleicht einfach grössere Teile von langen Sätzen „herausoperieren“, ohne etwas kaputt zu machen und ohne einen Parser zu benötigen? Welche Sorten von Texten sind inhärent schlecht geeignet für reines Extracting? Romane? Fachartikel? Methode prinzipiell für lange Texte ungeeignet (schon weil 10% eines langen Textes immer noch viel ist, wir von einem Extrakt aber maximal eine halbe Seite lesen wollen)

Evaluierungsproblem Extracting Abhängig von Textsorte werden lediglich 40% bis 90% Übereinstimmung zwischen Menschen erreicht (welche Sätze sie für die wichtigsten erachten) Abstracting Evaluierung noch viel schwieriger, da zwei grundverschiedene Abstracts identischer Qualität sein können Daher automatische Evaluierung nicht üblich oder auch nur machbar

Tagging Hier nur eine kleine Übung zu einem ansonsten äusserst umfänglichen Thema! Grundannahme ist, dass Wörter verschiedene Klassen haben und in bestimmten Satzsituationen eine davon konkret annehmen Es gilt also, die Rolle eines jeden Wortes in einem Satz zu bestimmen Dazu gibt es vorgegebene Klassen, wie das STTS Tagset, sowie von Hand annotierte Beispielsätze, von den gelernt werden kann, wann welches Wort wohl welche Rolle spielt

Nutzen von Tagging Information über die Struktur des Satzes erlaubt es, verschiedene Information Extraction und andere Algorithmen anzuwenden Es kann gezielt nach Strukturmustern, bzw. verallgemeinerten Kontexten gesucht werden Nennen Sie konkrete Anwendungen, die ohne Tagging (nicht Parsen!) nicht oder kaum funktionieren würden

Aufgabe Gegeben sei ein Satz, Taggen Sie ihn mit den STTS Tags! Ich werde doch nicht in diesem Haus oder auch nur in der Nähe dieses Ortes mein Quartier beziehen! Im Folgenden sei eine automatisch generierte Analyse gegeben, geben Sie die Qualität der Analyse an. Der Verwendete Tagger ist der TreeTagger: http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/DecisionTreeTagger.html

Automatische Analyse Brauchte immerhin 1 Sekunde (TreeTagger)! Ich PPER ich werde VAFIN werden doch ADV doch nicht PTKNEG nicht in APPR in diesem PDAT dies Haus NN Haus oder KON oder auch ADV auch nur ADV nur der ART d Nähe NN Nähe dieses PDAT dies Ortes NN Ort mein PPOSAT mein Quartier NN Quartier beziehen VVINF beziehen