Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Abteilung für automatische Sprachverarbeitung

Ähnliche Präsentationen


Präsentation zum Thema: "Abteilung für automatische Sprachverarbeitung"—  Präsentation transkript:

1 Abteilung für automatische Sprachverarbeitung
WikiWord Extraktion einer Bedeutungs- und Übersetzungsdatenbank aus der Wikipedia Daniel Kinzler Abteilung für automatische Sprachverarbeitung Universität Leipzig

2 Idee Wikipedia als Grundlage Eine Seite pro Konzept
Linktext–Linkziel ergibt Term–Konzept-Beziehung Kategorisierung (Hyperonyme) Übersetzungslinks

3 Vorgehen Extraktion der relevanten Beziehungen aus dem WikiText
Übertragen in eine (sprachspezifische) Datenbank Zusammenführen der sprachspezifischen Datenbanken zu einem gemeinsamen Wörterbuch

4 Sprachspezifische Datenbank

5 Extraktion Typisierung der Seite („echte“ Artikel, Redirects, Begriffsklärungen, Listen) Typisierung des Konzepts Linktext-Linkziel Kategorien, Übersetzungen

6 Extraktion - Seitentyp
Pattern-Matching auf Titel und Inhalt Konventionen müssen bekannt sein Wilhelm Busch (Begriffsklärung) '''Wilhelm Busch''' ist der Name mehrerer Personen: ... CPU #REDIRECT [[Hauptprozessor]] disambig Redirect Brücken von Venedig ... [[Kategorie:Liste (Bauwerk)]] Du bist Doof {{löschen}} List Bad

7 Extraktion - Konzept-Typ
Wohldefinierte kleine Menge von Typen u.U. nicht übersetzbar Leipzig ... [[Kategorie:Ort in Sachsen]] Wilhelm Busch {{Personendaten| NAME=Busch, Wilhelm |ALTERNATIVNAMEN= ... Place person Drosseln {| class="taxobox" ! Drosseln ... lifeform 1960er ... [[Kategorie:Jahrzehnt]] Time

8 Extraktion - Kategorie/Domain
Prozess (Informatik) Als '''Prozess''' wird in der Informatik der Ablauf eines [[Computerprogramm|Programms]] bezeichnet. Zum Ablauf ist das Speicherabbild des Programms, Speicher für die Daten, vom... [[Kategorie:Betriebssystemtheorie]] [[da:Proces]] [[en:Process (computing)]] Concepts Definitions Category

9 Extraktion - Bedeutungen
Prozess (Informatik) Als '''Prozess''' wird in der Informatik der Ablauf eines [[Computerprogramm|Programms]] bezeichnet. Zum Ablauf ist das Speicherabbild des Programms, Speicher für die Daten, vom... [[Kategorie:Betriebssystemtheorie]] [[da:Proces]] [[en:Process (computing)]] Concepts meaning Terms links

10 Extraktion - Übersetzungen
Prozess (Informatik) Als '''Prozess''' wird in der Informatik der Ablauf eines [[Computerprogramm|Programms]] bezeichnet. Zum Ablauf ist das Speicherabbild des Programms, Speicher für die Daten, vom... [[Kategorie:Betriebssystemtheorie]] [[da:Proces]] [[en:Process (computing)]] Foreign concepts Concepts Translation

11 Probleme Granularität – manche Konzepte fehlen
Links zeigen auf allgemeinere Konzepte Betrifft „normale“ Links, Übersetzungen und Redirects (Aliase) Finden und Zusammenfassen äquivalenter Konzepte aus verschiedenen Sprachen.

12 WikiWord Online

13 Übersetzungen finden Idee: Konzepte in verschiedenen Sprachen, die „ähnliche“ Übersetzungen haben, sind vermutlich äquivalent. Betrachte also Kollokationen bezüglich der Übersetzungsrelation Bilde Cluster bezüglich dieser Kollokation. Beschränke Suche auf „benachbarte“ Konzepte

14 Meta-Wörterbuch

15 Clustering - Vorbereitung
Importiere Concept-Records aus den Sprach- Datenbanken, lege zu jedem Concept einen Meaning- Eintrag an. Löse „Redirects“ (Aliase) auf Kopiere Translation-Records, lege zusätzlich für jedes Meaning eine Selbstreferenz an Ordne jedem Meaning seine „Nachbarn“ (Vereinigungskandidaten) zu

16 Clustering - Nachbarn Nachbarn eines Meanings M sind:
Meanings, die Ziel einer M zugeordneten Übersetzung sind (direkte Nachbarn) Meanings, die ein Übersetzungsziel mit M gemeinsam haben (indirekte Nachbarn) Meanings aus der selben Sprache können nicht benachbart sein M N en fr de M N fi fr da de fr

17 Clustering - Ablauf Für jedes Meaning M, bestimme alle Übersetzungen T(M) und alle Nachbarn N(M) Für jeden Nachbarn Ni, bestimme anhand seiner Übersetzungen T(Ni) die Ähnlichkeit zu M s(M,Ni) Vereinige M mit dem ähnlichsten Ni, falls die Ähnlichkeit über einem Schwellwert k liegt. Wiederhole, bis keine Änderungen mehr eintreten.

18 Clustering - Ähnlichkeit
Die „Ähnlichkeit“ zweier Meanings ergibt sich daraus, wie sehr sich ihre Übersetzungen überlappen Der Ähnlichkeitswert ist die Größe der Schnittmenge von T(M) und T(N), geteilt durch die Größe der kleineren der beiden Übersetzungsmengen. In Zeichen:

19 Clustering - Nachbereitung
Alle Paare von Meanings M und N, die jeweils das andere Meaning als Übersetzung haben, werden vereinigt. Import von Termen, Definitionen und der Hyponym- Relation aus den Sprach-Datenbanken.

20 Mögliche Anfragen Alle Terme (Wörter) für ein Meaning (Bedeutung) – also Synonyme, Wortformen und Übersetzungen Alle Bedeutungen für einen Term (Wort einer gegebenen Sprache) - Homonyme Definitionen einer Bedeutung in verschiedenen Sprachen Übersetzungen eines Wortes aus einer Sprache in eine andere, unter Berücksichtigung aller Bedeutungen Über- bzw. untergeordnete Meanings, also Hypero- bzw. Hyponyme Evtl. auch Homonym-Auflösung nach Kontext

21 Projektstatus Analyse von Wikitext und Aufbau der sprachspezifischen Datenbanken funktioniert Anfragen an diese Datenbasis liefern bereits brauchbare Ergebnisse Clustering funktioniert im Prinzip, muss aber noch optimiert werden Kollokationsanalyse auf der Linkstruktur wäre hilfreich, ist aber recht aufwändig.

22 Verfügbare Daten

23 WikiWord Ende


Herunterladen ppt "Abteilung für automatische Sprachverarbeitung"

Ähnliche Präsentationen


Google-Anzeigen