Terminologie-Extraktion

Slides:



Advertisements
Ähnliche Präsentationen
Statistische Aspekte der PSG
Advertisements

Termextraktion Ziele der Extraktion Stand der Extraktionsprogramme
Interaktive Hilfesysteme
Maschinelle Übersetzung I
Konzeption und Realisierung eines Text- Analysesystems zur Automatisierung der Bewerberauswahl von diesem Datenformat jede beliebige Anwendung adaptieren.
Customer Relationship Management
1 Automatische Klassifikation von Nomen nach Begriffstyp Christof Rumpf Heinrich-Heine-Universität
1 Endliche Automaten in der Sprachtechnologie Kursthemen Karin Haenelt
EINI-I Einführung in die Informatik für Naturwissenschaftler und Ingenieure I Kapitel 9 Claudio Moraga; Gisbert Dittrich FBI Unido
EINI-I Einführung in die Informatik für Naturwissenschaftler und Ingenieure I Vorlesung 2 SWS WS 99/00 Gisbert Dittrich FBI Unido
Anwendungen. © Prof. T. Kudraß, HTWK Leipzig Historie des WWW Grundlage Internet – Entwickelt Ende der 60er Jahre vom US-Militär (ARPA-Net) – Technische.
Lexikalisch-Funktionale Grammatik
Knowledge Discovery mit Wordnet und Alembic Workbench
Wortarten-Tagging für Nomen
Peter Grzybek ( Graz ) Das Grazer Projekt »Wortlängen(häufigkeiten) in Texten slawischer Sprachen« FWF #15485 ( )
Übung zu Einführung in die LDV I
Trust and context using the RDF- Source related Storage System (RDF‑S3) and easy RQL (eRQL) Karsten Tolle und Fabian Wleklinski.
IT Kosten Reduzierung und effizientere Dienstleistungen Wir optimieren Strukturen und Prozesse und reduzieren dabei Ihre IT Kosten Ihr OPTICONSULT International.
Using latent semantic analysis to find different names for the same entity in free text Präsentation und Diskussion des Papers Im Rahmen des PS Web-Information.
Kontrastive Untersuchung von Präpositionen (D-Fr)
Lexikalisch-Funktionale Grammatik   Subsumption   Unifikation   Von der K-Struktur zur F-Struktur.
Lexikalische Semantik
Sprachprodukttechnologie SS 2001G. Heyer 1 Sprachstatistik  Grundlegende Definitionen  Alphabet Sei NL eine natürliche Sprache und sei A eine Menge von.
Videoausschnitte aus der Serie Saturnin Des Menschen Wille ist sein Himmelreich Wem nicht zu raten ist, dem ist auch nicht zu helfen Reu und guter Rat.
VO#1: Lexikologie als sprachwissenschaftliche Disziplin Lexikologie, Matej-Bel-Univeristät in Banská Bystrica, Z. Tuhárska.
Deutsche Wörterbücher Part 3 Tipps zum richtigen Umgang mit deutschen Wörterbüchern Developed by Elisabeth Wielander, Aston University.
Wohnungssuche Mobiles georeferenziertes Informationssystem am Beispiel der aktiven und passiven Wohnungssuche Michael Raber.
Fachsprache in Automobilprospekten Am Beispiel des Prospektes zum Hummer H2 Bastian Ludwig, Wissenschaftliches Arbeiten.
Computergestützte Studie von Molekülstrukturen - Vergleich von gemessenen und berechneten Spektren Richard Moha Institut für organische Chemie RWTH Aachen.
Latein braucht doch niemand mehr... Oh doch!!!. Latein schreibt man, wie man es spricht: die Zeit zu größerer Sicherheit in deutscher Rechtschreibung.
Vorbereitet zur Rechenübung – Die HAITI-Methode LiT-Shortcut Unterstützung der Selbstlernphase Studierender zur Vorbereitung auf Rechenübungen.
Beschleunigungsmessungen beim Fahrradfahren mit GPS Jasmin Kupisch Dennis Loosen.
MusicXML und MEI.
Qualität der Finanzstatistik
שיעור בענין חצות בשעות זמניות
Datentypen: integer, char, string, boolean
Bildungs- und Fachsprache: Beispiele
Das Problem des Handlungsreisenden
Einfacher und verständlich formulieren
Downstream Leistungsrücknahme (DPBO) Zentraleseitiges Kabel
Sommersemester 2016 Dr. Ileana-Maria RATCU
Von Miriam Herczeg und Kimberley Winkler
Downstream Leistungsrücknahme (DPBO) Zentraleseitiges Kabel
Deterministische Kellerautomaten und das Wortproblem
Bildungs- und Fachsprache: Beispiele
Titel: Quelle: Übungsart: Titel: Textquelle: Wörter finden
Bildungs- und Fachsprache: Beispiele
Bei dieser Präsentation wird sicher eine Diskussion mit dem Publikum entstehen, die zu Aktionsschritten führt. Verwenden Sie PowerPoint, um diese Aktionsschritte.
Ingenieurwissenschaften
Bildungs- und Fachsprache: Beispiele
Günter Grass‘ Bildkunst in ihrem literarischen Kontext
Bildungs- und Fachsprache: Beispiele
Einführung in die übersetzungsbezogene Terminologiearbeit
Bildungs- und Fachsprache: Beispiele
Bildungs- und Fachsprache: Beispiele
Bildungs- und Fachsprache: Beispiele
GLOBAL POSITIONING SYSTEM
Konzepte von Terminologie-Datenbanken
Geschäftsplanpräsentation
Textrezeption
Projektname | Firmenname | Name des Referenten
Geschäftsplanpräsentation
Vergleich von Terminologie-Datenbanksystemen
Google-Kalender Präsentation:
Lage, Schnitte und Schnittwinkel
Firmenname Geschäftsplan.
§11 Skalarprodukt. Euklidische Räume
Wie erbringe ich den Nachweis für fähige Prozesse?
1.5 Verkettung von Funktionen
 Präsentation transkript:

Terminologie-Extraktion Martin Volk Uni Zürich Dolmetscherschule Zürich / ZHW

Terminologie-Extraktion Die automatische Gewinnung von Term-Kandidaten aus einem Text Erste Systeme auf dem Markt: Xerox TermFinder System Quirk Problem: Systeme sind noch ungenau. Studie der Uni Zürich vom Dez. 1999: Präzision: Nur 20% aller gelieferten Termkandidaten sind Terme. Vollständigkeit: Nur 80% aller Terme eines Textes werden gefunden. 8/2/2019 Martin Volk

Arbeitsweise des TermFinders Bei monolingualer Term-Extraktion Der Text wird in Worte und Satzzeichen (genauer: Zeichenketten) zerhackt. (Einschliesslich Unterscheidung Satzendepunkte vs. Abkürzungspunkte und Ordinalzahlenpunkte) Jedes Wort wird morphologisch analysiert. (Basis: ein grosses Lexikon mit dt. Wortstämmen): liefert alle möglichen Lesarten und die zugehörigen Grundformen zu jeder Wortform. Wörter, die nicht im Lexikon sind, werden geraten. Die Lesarten werden mit Hilfe des Kontextes disambiguiert. (= Part-of-Speech Tagging; erreicht 95% Genauigkeit) Alle Nominalphrasen (NP = Nomen mit seinen Attributen) werden extrahiert. 8/2/2019 Martin Volk

Arbeitsweise des TermFinders Bei bilingualer Term-Extraktion Die Texte werden aligniert (d.h. es werden parallele Übersetzungseinheiten gebildet). Bei beiden Texten werden die Term-Kandidaten extrahiert wie bei monolingualer Term-Extraktion. Jeder Term-Kandidat aus der A-Text-Einheit bildet mit jedem Term-Kandidaten aus der parallelen Z-Text-Einheit ein Term-Entsprechungs-Paar. 8/2/2019 Martin Volk

Vorteile des TermFinders Berechnet Grundform eines Wortes Viele Sprachen (DE, EN, FR, IT, ES, PT, NL) Kombination mit der DB TermOrganizer Term-Kandidaten in DB Grundform in DB Auftretenshäufigkeit in DB Kontext in DB Bei Mehrwortausdruck: Headword in DB 8/2/2019 Martin Volk

Probleme des TermFinders Bestehende Term-Sammlungen werden bei der Extraktion nicht berücksichtigt. Die Häufigkeit eines Term-Kandidaten bzgl. eines allgemeinsprachlichen Korpus wird nicht berücksichtigt. Die interne Struktur eines Term-Kandidaten wird nicht berücksichtigt. Bei bilingualer Extraktion: Die Strukturäquivalenz wird nicht berücksichtigt. Die Länge eines Term-Kandidaten im Vergleich zu der Länge der Term-Entsprechung wird nicht berücksichtigt. 8/2/2019 Martin Volk