Termextraktion Ziele der Extraktion Stand der Extraktionsprogramme

Slides:



Advertisements
Ähnliche Präsentationen
1 Wie weiter oben eingehend behandelt, sind elektromagnetische Wellen trans- versal, haben also zwei Polarisationsrichtungen senkrecht zur Ausbreitungs-
Advertisements

Streuungsmaß 3: absolute Abweichung vom Mittelwert
Ausblick 7.6. U – Termextraktion U über abstr. & tagging
Seminar Textmining WS 06/07 Themen Übung 11 unsupervised vs. supervised Symbolfolgen, Kunstsprachen Page Rank.
Seminar Textmining WS 06/07 Themen Übung 8 Diskussion über Erkennung von Eigennamen Question Answering Stemming.
Finale Semantik und beobachtbares Verhalten
Hardware, Speichersysteme, Workflow
7. Struktur der Materie Elementare Bausteine
Auswertung der Interviews
Kommunikation – Allgemeines, Grundlagen, Definition
Klaus J. Kohler IPDS, Kiel
Universität Stuttgart Institut für Kernenergetik und Energiesysteme LE 3.1 ProzessqualitätLM 5 V-Modell-AnwendungenFolie 1 V-Modell für große Projekte.
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/8 Thesauren In gewisser Weise bilden Thesauren (Singular Thesaurus, Plural auch Thesauri)
Internetstruktur Das Internet besteht aus vielen Computern, die weltweit untereinander vernetzt sind.
Datenbanken vs. Markup Manfred Thaller WS 2009/2010 Humanities Computing Linda Scholz.
Kapitel 1 Die natürlichen und die ganze Zahlen. Kapitel 1: Die natürlichen und die ganzen Zahlen © Beutelspacher/Zschiegner April 2005 Seite 2 Inhalt.
Grundkurs praktische Philosophie 10
Grundkurs praktische Philosophie 19. Januar 2006
Laser und Laserbeamline bei PITZ
Grundbegriffe der Schulgeometrie
Entitäten Extraktion Wichtige Schritte Petra Maier WS 05/06.
Spezifikation von Anforderungen
Herzlich willkommen in Pilsen! Workshop
Externe Bewertung in IB-Biologie
Knowledge Discovery mit Wordnet und Alembic Workbench
Light Amplification by Stimulated Emission of Radiation
Internet ohne Barrieren - Und was ist mit der Sprache?
Spektroskopie Die Analyse von Licht.
Den menschen verstehen lernen
Optische Halbleiterbauelemente
Ein Vortrag von Joke Frerichs
Erzeugen von Karten, Layern und Legenden
Project Perseus Der volle Projektname lautet Perseus Digital Library Project. Das Projekt begann in 1985 als Experiment zur Digitalisierung von Bibliotheken.
Reflexion, Brechung und Totalreflexion
Wie schreibe ich eine Diplom- bzw. Masterarbeit ?
Erfindervon Fuzzy Logic
Analyse von Arbeitsaufträgen „Durch Geschichte zur Gegenwart 2“
Nucleus-International.net Visualisierung Wie und Warum 04/2008
Abteilung für automatische Sprachverarbeitung
Studieren Lernen Claudia Lischke-Arzt.
Context-awareness Andreas Bossard, Matthias Hert.
Die „neue“ FKM Nutzen für Aussteller und Veranstalter
Übung zu Einführung in die LDV I
DI Dr. Helmut Leitner HLS Softwareentwicklung WIKISERVICE, Graz
Vision2020 Eine Vision für meine Gruppe.
Wahrnehmung Christopher Frank
So schreiben Sie eine klare, verständliche Sprache
Deutsche Nobelpreisträger
Das Gespräch über Illettrismus
Worauf sollte man beim Gestalten von Folien achten?
Barrierefrei texten Warum verständliche Sprache - ?
Leitfaden zum Mini-Funday Sira für Jugendliche Teil I-III
Messergebnis Das Messergebnis ist der Näherungswert für den wahren Wert der Messgröße, der durch Auswertung der mit einer Messeinrichtung gewonnenen Messwerte.
Zusammenwirkung von Licht und Werkstoffen.. Es ist schon bekannt: wird Materie mit Licht bestrahlt, werden Elektronen frei.
Online-Kooperation: Vielfalt von Webmethoden
Der Laser Röggla Thomas, Furlan Lukas, Anranter Patrick.
Rechtschreibung erforschen
Das Schreiblabor an der Universität Bielefeld
Niko Zenker1 Besondere Aspekte in Multimedia-Datenbanken Methoden zur iterativen Anfrageverfeinerung (Relevanz Feedback)
Faszination Naturdiamant
Optik und Photonik I+II
Üben, Lernen, Anwenden Das Medium Digital beeinflusst aus seinen typischen Eigenschaften heraus die Art der Vorstellung vom Lernen. Schon bevor die Allgemeinheit.
Optik Licht und Schatten Die Optik ist die „Lehre vom Licht“!
Medizinische Gerätetechnik II Medizinische Optik und Laser Schall und Ultraschall weitere Themen… WiSe 2014/15.
ZAHLENBUCH IM KINDERGARTEN. „Mathematik ist die Wissenschaft der Muster“ Das Auge für Muster schulen: Regelmässigkeiten/ Beziehungen erkennen.
1. Betreuer: Prof. Dr. Jörg Striegnitz 2. Betreuer: Dr. Martin Schindler Kontextsensitive Autocompletion für Klassendiagramme in der UML/P Florian Leppers.
Präsentation zur Projektphase „Frühjahr 2006“
Laser (Nd:YAG) Michael Grömer.
Terminologie-Extraktion
 Präsentation transkript:

Termextraktion Ziele der Extraktion Stand der Extraktionsprogramme Praktische Übung -“Zoom”algorithmen

Ziele der Extraktion Laien … die ein schwieriges Buch lesen wollen Ausländer … die nur über Grundkenntnisse Verfügen Definitionen/Glossare Wenn ich eine Diplomarbeit schreibe, welche Begriffe soll ich in den Index tun? Kann mir mein Bearbeitungsprogramm automatisch Vorschläge generieren? Kommunikationsoptimierung z.B. Behördendeutsch abschaffen Bilinguale Terminologie-Extraktion

Was ist Sollzustand für einen Eintrag Was ist Sollzustand für einen Eintrag? (und was ist automatisch extrahierbar) Wort: Definition : Vor allem Unterscheidungskriterien und Eingrenzungen Kontext : In welchen Kontexten nutzbar, in welchen nicht, kann durch Positiv-Negativ Liste gegeben werden Benutzungsbeispiele : weiterführende Beispiele (im Gegensatz zum Kontext nicht ausgedachte!) Kommentare und Phraseologismen Referenzen

Stand der Software 1999 Studie Uni Zürich: 20% Precision, 80% Recall 2005 Arbeit von Frieder Witschel 60% F-Value Allgemeines Problem ist, dass Systeme zu ungenau sind – zu viele zu normale Terme werden geliefert Übliche Komponenten Morphologie (sehr spezifisch für Europäische Sprachen durch Regelmässigkeit des Lateinischen und Griechischen, welche oftmals Fachtermini produzieren) Grundformreduktion, Trigrammanalyse Syntax – Erkennung typischer Strukturen (NP aller Sorten) Frequenzvergleiche – mit Hintergrundkorpus

Frequenzvergleich richtig gemacht Prinzip ist Vergleich Frequenz in grossem Korpus und kleinem Text Allerdings reicht einfache absolute Grösse der Abweichung nicht – dann würden immer Funktionswörter gewinnen Daher Signifikanzmass, welches errechnet, wie gross Überraschung für plötzlichen Frequenzanstieg

Übung Gegeben sei ein Text, extrahieren Sie alle Fachtermini Welche Zielgruppe? Welcher allgemeine Kenntnisstand? Analyse der Vorgehensweise In mehreren Gruppen: Eine hauptsächlich Morphologie Eine Syntax Eine nach Intuition Vergleichen der Ergebnisse Rangliste der extrahierten Termini Analyse der Unterschiede

Beispieltext Laser (http://de.wikipedia.org/wiki/Laser) Laser sind Strahlungsquellen, (Infrarot, sichtbares Licht, Ultraviolett), deren Gemeinsamkeit im Entstehungsprozess der Strahlung liegt, nämlich in der sogenannten induzierten Emission. So gibt es eine Vielzahl unterschiedlicher Lasermodelle mit den verschiedensten Eigenschaften. Ein Laser besteht dabei immer aus einem optisch aktiven Medium, in dem die Strahlung erzeugt wird, und meistens einem Resonator, der für die Eigenschaften des Laserstrahls, wie Parallelität oder Strahlprofil, mitverantwortlich ist. Laser haben faszinierende Eigenschaften, die sie stark von klassischen Lichtquellen (wie z. B. einer Glühlampe) unterscheiden. Aufgrund ihrer hohen Kohärenz kann mittels Lasern die Wellennatur des Lichts direkt beobachtet werden (z. B. durch Interferenzeffekte). Laserlicht kann zeitlich kohärent sein. Dadurch ist es einfarbig (monochromatisch). Wegen der hohen räumlichen Kohärenz kann Laserstrahlung hoch intensiv und gut gebündelt (fokussiert) werden, was sie für Anwendungen als Schneid- und Schweißwerkzeug oder auch als Laserskalpell in der Medizin geeignet macht. Laser können auch so konstruiert werden, dass sie Impulse mit extrem geringer Dauer (~10-fs-Bereich) aussenden, so dass die zeitaufgelöste Laserspektroskopie ein Standardverfahren zur Untersuchung schneller Prozesse geworden ist.

Automatische Extraktion Initialoutput Verfeinerung Endoutput Phrasensuche schweißwerkzeug strahlprofil kohärenz medizin strahlung laserlicht strahlungsquelle strahlungsquelle laserskalpell laserstrahlung medium kohärent laserspektroskopie entstehungsprozess lasermodell prozess lichtquelle laser laserstrahl