Abteilung für automatische Sprachverarbeitung WikiWord Extraktion einer Bedeutungs- und Übersetzungsdatenbank aus der Wikipedia Daniel Kinzler Abteilung für automatische Sprachverarbeitung Universität Leipzig
Idee Wikipedia als Grundlage Eine Seite pro Konzept Linktext–Linkziel ergibt Term–Konzept-Beziehung Kategorisierung (Hyperonyme) Übersetzungslinks
Vorgehen Extraktion der relevanten Beziehungen aus dem WikiText Übertragen in eine (sprachspezifische) Datenbank Zusammenführen der sprachspezifischen Datenbanken zu einem gemeinsamen Wörterbuch
Sprachspezifische Datenbank
Extraktion Typisierung der Seite („echte“ Artikel, Redirects, Begriffsklärungen, Listen) Typisierung des Konzepts Linktext-Linkziel Kategorien, Übersetzungen
Extraktion - Seitentyp Pattern-Matching auf Titel und Inhalt Konventionen müssen bekannt sein Wilhelm Busch (Begriffsklärung) '''Wilhelm Busch''' ist der Name mehrerer Personen: ... CPU #REDIRECT [[Hauptprozessor]] disambig Redirect Brücken von Venedig ... [[Kategorie:Liste (Bauwerk)]] Du bist Doof {{löschen}} List Bad
Extraktion - Konzept-Typ Wohldefinierte kleine Menge von Typen u.U. nicht übersetzbar Leipzig ... [[Kategorie:Ort in Sachsen]] Wilhelm Busch {{Personendaten| NAME=Busch, Wilhelm |ALTERNATIVNAMEN= ... Place person Drosseln {| class="taxobox" ! Drosseln ... lifeform 1960er ... [[Kategorie:Jahrzehnt]] Time
Extraktion - Kategorie/Domain Prozess (Informatik) Als '''Prozess''' wird in der Informatik der Ablauf eines [[Computerprogramm|Programms]] bezeichnet. Zum Ablauf ist das Speicherabbild des Programms, Speicher für die Daten, vom... [[Kategorie:Betriebssystemtheorie]] [[da:Proces]] [[en:Process (computing)]] Concepts Definitions Category
Extraktion - Bedeutungen Prozess (Informatik) Als '''Prozess''' wird in der Informatik der Ablauf eines [[Computerprogramm|Programms]] bezeichnet. Zum Ablauf ist das Speicherabbild des Programms, Speicher für die Daten, vom... [[Kategorie:Betriebssystemtheorie]] [[da:Proces]] [[en:Process (computing)]] Concepts meaning Terms links
Extraktion - Übersetzungen Prozess (Informatik) Als '''Prozess''' wird in der Informatik der Ablauf eines [[Computerprogramm|Programms]] bezeichnet. Zum Ablauf ist das Speicherabbild des Programms, Speicher für die Daten, vom... [[Kategorie:Betriebssystemtheorie]] [[da:Proces]] [[en:Process (computing)]] Foreign concepts Concepts Translation
Probleme Granularität – manche Konzepte fehlen Links zeigen auf allgemeinere Konzepte Betrifft „normale“ Links, Übersetzungen und Redirects (Aliase) Finden und Zusammenfassen äquivalenter Konzepte aus verschiedenen Sprachen.
WikiWord Online
Übersetzungen finden Idee: Konzepte in verschiedenen Sprachen, die „ähnliche“ Übersetzungen haben, sind vermutlich äquivalent. Betrachte also Kollokationen bezüglich der Übersetzungsrelation Bilde Cluster bezüglich dieser Kollokation. Beschränke Suche auf „benachbarte“ Konzepte
Meta-Wörterbuch
Clustering - Vorbereitung Importiere Concept-Records aus den Sprach- Datenbanken, lege zu jedem Concept einen Meaning- Eintrag an. Löse „Redirects“ (Aliase) auf Kopiere Translation-Records, lege zusätzlich für jedes Meaning eine Selbstreferenz an Ordne jedem Meaning seine „Nachbarn“ (Vereinigungskandidaten) zu
Clustering - Nachbarn Nachbarn eines Meanings M sind: Meanings, die Ziel einer M zugeordneten Übersetzung sind (direkte Nachbarn) Meanings, die ein Übersetzungsziel mit M gemeinsam haben (indirekte Nachbarn) Meanings aus der selben Sprache können nicht benachbart sein M N en fr de M N fi fr da de fr
Clustering - Ablauf Für jedes Meaning M, bestimme alle Übersetzungen T(M) und alle Nachbarn N(M) Für jeden Nachbarn Ni, bestimme anhand seiner Übersetzungen T(Ni) die Ähnlichkeit zu M s(M,Ni) Vereinige M mit dem ähnlichsten Ni, falls die Ähnlichkeit über einem Schwellwert k liegt. Wiederhole, bis keine Änderungen mehr eintreten.
Clustering - Ähnlichkeit Die „Ähnlichkeit“ zweier Meanings ergibt sich daraus, wie sehr sich ihre Übersetzungen überlappen Der Ähnlichkeitswert ist die Größe der Schnittmenge von T(M) und T(N), geteilt durch die Größe der kleineren der beiden Übersetzungsmengen. In Zeichen:
Clustering - Nachbereitung Alle Paare von Meanings M und N, die jeweils das andere Meaning als Übersetzung haben, werden vereinigt. Import von Termen, Definitionen und der Hyponym- Relation aus den Sprach-Datenbanken.
Mögliche Anfragen Alle Terme (Wörter) für ein Meaning (Bedeutung) – also Synonyme, Wortformen und Übersetzungen Alle Bedeutungen für einen Term (Wort einer gegebenen Sprache) - Homonyme Definitionen einer Bedeutung in verschiedenen Sprachen Übersetzungen eines Wortes aus einer Sprache in eine andere, unter Berücksichtigung aller Bedeutungen Über- bzw. untergeordnete Meanings, also Hypero- bzw. Hyponyme Evtl. auch Homonym-Auflösung nach Kontext
Projektstatus Analyse von Wikitext und Aufbau der sprachspezifischen Datenbanken funktioniert Anfragen an diese Datenbasis liefern bereits brauchbare Ergebnisse Clustering funktioniert im Prinzip, muss aber noch optimiert werden Kollokationsanalyse auf der Linkstruktur wäre hilfreich, ist aber recht aufwändig.
Verfügbare Daten http://aspra27.informatik.uni-leipzig.de/~dkinzler/WikiSense/WikiWord.php http://wortschatz.uni-leipzig.de/snipsnap/space/WikiWord http://brightbyte.de/papers/WikiWord.pdf
WikiWord Ende