Abteilung für automatische Sprachverarbeitung

Slides:



Advertisements
Ähnliche Präsentationen
Seite 1 Find Economic Literature Stand
Advertisements

Algorithmen und Datenstrukturen
Kap. 13 Sweep-Line Algorithmen Kap Schnittprobleme
Kohonennetze für Information Retrieval mit User Feedback
PC-Senioren Ludwigsburg
Hash-Tabellen und -Funktionen Hash-Tabellen in Java
Gliederung 1. Grundlagen der Bottom-Up-Syntaxanalyse
Zusammenfassung der Vorwoche
Inhaltlich orientierter Zugriff auf unstrukturierte Daten
IT – Struktur an Schulen
Harmonisierung von Ontologien Martin Zobel. Was versteht man in der Informatik unter einer Ontologie? Wikipedia: Unter Ontologie versteht man in der Informatik.
Grammatiken, Definitionen
1 HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Einführung in Berechenbarkeit, Formale Sprachen und Komplexitätstheorie Wintersemester.
Mein EBSCOhost-Lernprogramm
Literaturverwaltung und Wissensorganisation
SendEplanung Datenbank
Indirekte Adressierung
FH-Hof Indirekte Adressierung Richard Göbel. FH-Hof Einfache Speicherung von Daten Eine "einfache" Deklaration definiert direkt eine Speicherplatz für.
Formale Sprachen – Mächtigkeit von Maschinenmodellen
WS Algorithmentheorie 01 – Divide and Conquer (Segmentschnitt) Prof. Dr. Th. Ottmann.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (27 – Kürzeste Wege) Prof. Th. Ottmann.
Prof. Dr. rer.nat. Ralph Großmann Fakultät Informatik / Mathematik Sommersemester 2012 Internet-Technologien XML-basierte Techniken Teil Metasprache der.
Grundkurs Theoretische Informatik, Folie 3.1 © 2004 G. Vossen,K.-U. Witt Grundkurs Theoretische Informatik Kapitel 3 Gottfried Vossen Kurt-Ulrich Witt.
Fakten, Regeln und Anfragen
Universität Dortmund, Lehrstuhl Informatik 1 EINI II Einführung in die Informatik für Naturwissenschaftler und Ingenieure.
PKJ 2005/1 Stefan Dissmann Zusammenfassung Bisher im Kurs erarbeitete Konzepte(1): Umgang mit einfachen Datentypen Umgang mit Feldern Umgang mit Referenzen.
Vorlesung 3: Verschiedenes Universität Bielefeld – Technische Fakultät AG Rechnernetze und verteilte Systeme Peter B. Ladkin
Christian Schindelhauer
Christian Schindelhauer
Was sind Histogramme? (1)
ExKurs ImportD 1/10 Dr. Barbara Hoffmann LiteraturKompetenz Import von Dateien aus einer Fachdatenbank Das Transferieren von Daten zwischen.
Kapitel 14: Recovery Oliver Vornberger
Hauptseminar Automaten und Formale Sprachen
1 Vorlesung 3 Verschiedenes Peter B. Ladkin
Der Supermarkt: Eine beispielhafte Erklärung für die fünf untersten Schichten des Semantic Web Protocol Stack Nicola Henze.
Maschinelles Lernen und automatische Textklassifikation
Entitäten Extraktion Einführung
Kakuro Regeln und Strategien
Normdaten und Metadaten Die Idee eines Internationalen Authority File Christel Hengel Die Deutsche Bibliothek META-LIB-Workshop, 22. Oktober 2002, Die.
Citavi im Prozess der wissenschaftlichen Arbeit
Datenbanken finden und nutzen
Knowledge Discovery mit Wordnet und Alembic Workbench
1 Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)
University of Applied Sciences Übung Objektorientierte Programmierung II Dipl.-Inf. (FH) Markus Vogler.
Halbjahresarbeit Thema: Computer
Computational Thinking Suchen und Sortieren [Ordnung muss sein…]
Quantum Computing Hartmut Klauck Universität Frankfurt WS 04/
Information und Kommunikation Hartmut Klauck Universität Frankfurt SS
Wer weiß, gewinnt Wissens- und Medienplattformen im Internet w w w. s a f e r i n t e r n e t. a t.
Ganzheitliches Projekt-, Ressourcen- und Qualitätsmanagement 1 Reports und AddOns Auf den folgenden Seiten wird Ihnen die Funktionsweise der Reports und.
Programmieren in C Einführung
Vom Kontext zum Projekt V Carina Berning Sabrina Gursch Pierre Streicher Intelligente Dateisysteme.
Ehrennadeln ermitteln Wenn Sie diese Präsentation im Internet-Explorer ablaufen lassen wollen, so klicken Sie bitte auf das Leinwandsymbol unten rechts.
Trust and context using the RDF- Source related Storage System (RDF‑S3) and easy RQL (eRQL) Karsten Tolle und Fabian Wleklinski.
DATEISPEICHER in der S P S
Informatik III Christian Schindelhauer Wintersemester 2006/07
Christian Schindelhauer Wintersemester 2006/07 3. Vorlesung
1 Albert-Ludwigs-Universität Freiburg Rechnernetze und Telematik Prof. Dr. Christian Schindelhauer Informatik III Christian Schindelhauer Wintersemester.
Arne Vater Wintersemester 2006/ Vorlesung
Christian Schindelhauer Wintersemester 2006/07 2. Vorlesung
1 Albert-Ludwigs-Universität Freiburg Rechnernetze und Telematik Prof. Dr. Christian Schindelhauer Informatik III Christian Schindelhauer Wintersemester.
1 Albert-Ludwigs-Universität Freiburg Rechnernetze und Telematik Prof. Dr. Christian Schindelhauer Informatik III Christian Schindelhauer Wintersemester.
Copyright © 2010 Accenture All Rights Reserved. Accenture, its logo, and High Performance Delivered are trademarks of Accenture. Homepage-System der SPORTUNION.
Bedeutungsbeziehungen
„Wenn du den Fluss Halys überschreitest, wirst du
Modellbasierte Software- Entwicklung eingebetteter Systeme Prof. Dr. Holger Schlingloff Institut für Informatik der Humboldt Universität und Fraunhofer.
Die Übersetzung von “Diskursdialekten” für die Suche: Das Mapping zwischen Fachsprachen und Indexierungssprachen Vivien Petras Vortrag im Berliner Bibliothekswissenschaftlichen.
Pool Informatik, Sj 11/12 GZG FN W.Seyboldt 1 Pool Informatik 5 GZG FN Sj. 11/12 Kopieren, Daten, Programme.
Grundlagen von CAMPUSonline. Anmeldung campusonline.uni-bayreuth.de 1 Anmelden mit bt- oder s-Kennung 2.
Excel-Tool: Beschwerdeanalyse  Folie 1 von Bitte Makros aktivieren Das Excel-Tool funktioniert nur mit eingeschalteten Makros. Eventuell erhalten.
 Präsentation transkript:

Abteilung für automatische Sprachverarbeitung WikiWord Extraktion einer Bedeutungs- und Übersetzungsdatenbank aus der Wikipedia Daniel Kinzler Abteilung für automatische Sprachverarbeitung Universität Leipzig

Idee Wikipedia als Grundlage Eine Seite pro Konzept Linktext–Linkziel ergibt Term–Konzept-Beziehung Kategorisierung (Hyperonyme) Übersetzungslinks

Vorgehen Extraktion der relevanten Beziehungen aus dem WikiText Übertragen in eine (sprachspezifische) Datenbank Zusammenführen der sprachspezifischen Datenbanken zu einem gemeinsamen Wörterbuch

Sprachspezifische Datenbank

Extraktion Typisierung der Seite („echte“ Artikel, Redirects, Begriffsklärungen, Listen) Typisierung des Konzepts Linktext-Linkziel Kategorien, Übersetzungen

Extraktion - Seitentyp Pattern-Matching auf Titel und Inhalt Konventionen müssen bekannt sein Wilhelm Busch (Begriffsklärung) '''Wilhelm Busch''' ist der Name mehrerer Personen: ... CPU #REDIRECT [[Hauptprozessor]] disambig Redirect Brücken von Venedig ... [[Kategorie:Liste (Bauwerk)]] Du bist Doof {{löschen}} List Bad

Extraktion - Konzept-Typ Wohldefinierte kleine Menge von Typen u.U. nicht übersetzbar Leipzig ... [[Kategorie:Ort in Sachsen]] Wilhelm Busch {{Personendaten| NAME=Busch, Wilhelm |ALTERNATIVNAMEN= ... Place person Drosseln {| class="taxobox" ! Drosseln ... lifeform 1960er ... [[Kategorie:Jahrzehnt]] Time

Extraktion - Kategorie/Domain Prozess (Informatik) Als '''Prozess''' wird in der Informatik der Ablauf eines [[Computerprogramm|Programms]] bezeichnet. Zum Ablauf ist das Speicherabbild des Programms, Speicher für die Daten, vom... [[Kategorie:Betriebssystemtheorie]] [[da:Proces]] [[en:Process (computing)]] Concepts Definitions Category

Extraktion - Bedeutungen Prozess (Informatik) Als '''Prozess''' wird in der Informatik der Ablauf eines [[Computerprogramm|Programms]] bezeichnet. Zum Ablauf ist das Speicherabbild des Programms, Speicher für die Daten, vom... [[Kategorie:Betriebssystemtheorie]] [[da:Proces]] [[en:Process (computing)]] Concepts meaning Terms links

Extraktion - Übersetzungen Prozess (Informatik) Als '''Prozess''' wird in der Informatik der Ablauf eines [[Computerprogramm|Programms]] bezeichnet. Zum Ablauf ist das Speicherabbild des Programms, Speicher für die Daten, vom... [[Kategorie:Betriebssystemtheorie]] [[da:Proces]] [[en:Process (computing)]] Foreign concepts Concepts Translation

Probleme Granularität – manche Konzepte fehlen Links zeigen auf allgemeinere Konzepte Betrifft „normale“ Links, Übersetzungen und Redirects (Aliase) Finden und Zusammenfassen äquivalenter Konzepte aus verschiedenen Sprachen.

WikiWord Online

Übersetzungen finden Idee: Konzepte in verschiedenen Sprachen, die „ähnliche“ Übersetzungen haben, sind vermutlich äquivalent. Betrachte also Kollokationen bezüglich der Übersetzungsrelation Bilde Cluster bezüglich dieser Kollokation. Beschränke Suche auf „benachbarte“ Konzepte

Meta-Wörterbuch

Clustering - Vorbereitung Importiere Concept-Records aus den Sprach- Datenbanken, lege zu jedem Concept einen Meaning- Eintrag an. Löse „Redirects“ (Aliase) auf Kopiere Translation-Records, lege zusätzlich für jedes Meaning eine Selbstreferenz an Ordne jedem Meaning seine „Nachbarn“ (Vereinigungskandidaten) zu

Clustering - Nachbarn Nachbarn eines Meanings M sind: Meanings, die Ziel einer M zugeordneten Übersetzung sind (direkte Nachbarn) Meanings, die ein Übersetzungsziel mit M gemeinsam haben (indirekte Nachbarn) Meanings aus der selben Sprache können nicht benachbart sein M N en fr de M N fi fr da de fr

Clustering - Ablauf Für jedes Meaning M, bestimme alle Übersetzungen T(M) und alle Nachbarn N(M) Für jeden Nachbarn Ni, bestimme anhand seiner Übersetzungen T(Ni) die Ähnlichkeit zu M s(M,Ni) Vereinige M mit dem ähnlichsten Ni, falls die Ähnlichkeit über einem Schwellwert k liegt. Wiederhole, bis keine Änderungen mehr eintreten.

Clustering - Ähnlichkeit Die „Ähnlichkeit“ zweier Meanings ergibt sich daraus, wie sehr sich ihre Übersetzungen überlappen Der Ähnlichkeitswert ist die Größe der Schnittmenge von T(M) und T(N), geteilt durch die Größe der kleineren der beiden Übersetzungsmengen. In Zeichen:

Clustering - Nachbereitung Alle Paare von Meanings M und N, die jeweils das andere Meaning als Übersetzung haben, werden vereinigt. Import von Termen, Definitionen und der Hyponym- Relation aus den Sprach-Datenbanken.

Mögliche Anfragen Alle Terme (Wörter) für ein Meaning (Bedeutung) – also Synonyme, Wortformen und Übersetzungen Alle Bedeutungen für einen Term (Wort einer gegebenen Sprache) - Homonyme Definitionen einer Bedeutung in verschiedenen Sprachen Übersetzungen eines Wortes aus einer Sprache in eine andere, unter Berücksichtigung aller Bedeutungen Über- bzw. untergeordnete Meanings, also Hypero- bzw. Hyponyme Evtl. auch Homonym-Auflösung nach Kontext

Projektstatus Analyse von Wikitext und Aufbau der sprachspezifischen Datenbanken funktioniert Anfragen an diese Datenbasis liefern bereits brauchbare Ergebnisse Clustering funktioniert im Prinzip, muss aber noch optimiert werden Kollokationsanalyse auf der Linkstruktur wäre hilfreich, ist aber recht aufwändig.

Verfügbare Daten http://aspra27.informatik.uni-leipzig.de/~dkinzler/WikiSense/WikiWord.php http://wortschatz.uni-leipzig.de/snipsnap/space/WikiWord http://brightbyte.de/papers/WikiWord.pdf

WikiWord Ende