Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

WikiWord – Daniel Kinzler - 1 WikiWord Daniel Kinzler Abteilung für automatische Sprachverarbeitung Universität Leipzig Extraktion einer Bedeutungs- und.

Ähnliche Präsentationen


Präsentation zum Thema: "WikiWord – Daniel Kinzler - 1 WikiWord Daniel Kinzler Abteilung für automatische Sprachverarbeitung Universität Leipzig Extraktion einer Bedeutungs- und."—  Präsentation transkript:

1 WikiWord – Daniel Kinzler - 1 WikiWord Daniel Kinzler Abteilung für automatische Sprachverarbeitung Universität Leipzig Extraktion einer Bedeutungs- und Übersetzungsdatenbank aus der Wikipedia

2 WikiWord – Daniel Kinzler - 2 Idee Wikipedia als Grundlage Eine Seite pro Konzept Linktext–Linkziel ergibt Term–Konzept-Beziehung Kategorisierung (Hyperonyme) Übersetzungslinks

3 WikiWord – Daniel Kinzler - 3 Vorgehen Extraktion der relevanten Beziehungen aus dem WikiText Übertragen in eine (sprachspezifische) Datenbank Zusammenführen der sprachspezifischen Datenbanken zu einem gemeinsamen Wörterbuch

4 WikiWord – Daniel Kinzler - 4 Sprachspezifische Datenbank

5 WikiWord – Daniel Kinzler - 5 Extraktion Typisierung der Seite (echte Artikel, Redirects, Begriffsklärungen, Listen) Typisierung des Konzepts Linktext-Linkziel Kategorien, Übersetzungen

6 WikiWord – Daniel Kinzler - 6 Extraktion - Seitentyp Pattern-Matching auf Titel und Inhalt Konventionen müssen bekannt sein CPU #REDIRECT [[Hauptprozessor]] Wilhelm Busch (Begriffsklärung) '''Wilhelm Busch''' ist der Name mehrerer Personen:... Du bist Doof {{löschen}} disambig Redirect Bad Brücken von Venedig... [[Kategorie:Liste (Bauwerk)]] List

7 WikiWord – Daniel Kinzler - 7 Extraktion - Konzept-Typ Wohldefinierte kleine Menge von Typen u.U. nicht übersetzbar Leipzig... [[Kategorie:Ort in Sachsen]] Wilhelm Busch {{Personendaten| NAME=Busch, Wilhelm |ALTERNATIVNAMEN=... person 1960er... [[Kategorie:Jahrzehnt]] Time Place Drosseln {| class="taxobox" ! Drosseln... lifeform

8 WikiWord – Daniel Kinzler - 8 Extraktion - Kategorie/Domain Prozess (Informatik) Als '''Prozess''' wird in der Informatik der Ablauf eines [[Computerprogramm|Programms]] bezeichnet. Zum Ablauf ist das Speicherabbild des Programms, Speicher für die Daten, vom... [[Kategorie:Betriebssystemtheorie]] [[da:Proces]] [[en:Process (computing)]] Concepts Category Definitions

9 WikiWord – Daniel Kinzler - 9 Extraktion - Bedeutungen Prozess (Informatik) Als '''Prozess''' wird in der Informatik der Ablauf eines [[Computerprogramm|Programms]] bezeichnet. Zum Ablauf ist das Speicherabbild des Programms, Speicher für die Daten, vom... [[Kategorie:Betriebssystemtheorie]] [[da:Proces]] [[en:Process (computing)]] Concepts meaning Terms links

10 WikiWord – Daniel Kinzler - 10 Extraktion - Übersetzungen Prozess (Informatik) Als '''Prozess''' wird in der Informatik der Ablauf eines [[Computerprogramm|Programms]] bezeichnet. Zum Ablauf ist das Speicherabbild des Programms, Speicher für die Daten, vom... [[Kategorie:Betriebssystemtheorie]] [[da:Proces]] [[en:Process (computing)]] Concepts Translation Foreign concepts

11 WikiWord – Daniel Kinzler - 11 Probleme Granularität – manche Konzepte fehlen Links zeigen auf allgemeinere Konzepte Betrifft normale Links, Übersetzungen und Redirects (Aliase) Finden und Zusammenfassen äquivalenter Konzepte aus verschiedenen Sprachen.

12 WikiWord – Daniel Kinzler - 12 WikiWord Online

13 WikiWord – Daniel Kinzler - 13 Übersetzungen finden Idee: Konzepte in verschiedenen Sprachen, die ähnliche Übersetzungen haben, sind vermutlich äquivalent. Betrachte also Kollokationen bezüglich der Übersetzungsrelation Bilde Cluster bezüglich dieser Kollokation. Beschränke Suche auf benachbarte Konzepte

14 WikiWord – Daniel Kinzler - 14 Meta-Wörterbuch

15 WikiWord – Daniel Kinzler - 15 Clustering - Vorbereitung Importiere Concept-Records aus den Sprach- Datenbanken, lege zu jedem Concept einen Meaning- Eintrag an. Löse Redirects (Aliase) auf Kopiere Translation-Records, lege zusätzlich für jedes Meaning eine Selbstreferenz an Ordne jedem Meaning seine Nachbarn (Vereinigungskandidaten) zu

16 WikiWord – Daniel Kinzler - 16 Clustering - Nachbarn Nachbarn eines Meanings M sind: Meanings, die Ziel einer M zugeordneten Übersetzung sind (direkte Nachbarn) Meanings, die ein Übersetzungsziel mit M gemeinsam haben (indirekte Nachbarn) Meanings aus der selben Sprache können nicht benachbart sein N M fr de en N M fr de fi fr da

17 WikiWord – Daniel Kinzler - 17 Clustering - Ablauf Für jedes Meaning M, bestimme alle Übersetzungen T(M) und alle Nachbarn N(M) Für jeden Nachbarn N i, bestimme anhand seiner Übersetzungen T(N i ) die Ähnlichkeit zu M s(M,N i ) Vereinige M mit dem ähnlichsten N i, falls die Ähnlichkeit über einem Schwellwert k liegt. Wiederhole, bis keine Änderungen mehr eintreten.

18 WikiWord – Daniel Kinzler - 18 Clustering - Ähnlichkeit Die Ähnlichkeit zweier Meanings ergibt sich daraus, wie sehr sich ihre Übersetzungen überlappen Der Ähnlichkeitswert ist die Größe der Schnittmenge von T(M) und T(N), geteilt durch die Größe der kleineren der beiden Übersetzungsmengen. In Zeichen:

19 WikiWord – Daniel Kinzler - 19 Clustering - Nachbereitung Alle Paare von Meanings M und N, die jeweils das andere Meaning als Übersetzung haben, werden vereinigt. Import von Termen, Definitionen und der Hyponym- Relation aus den Sprach-Datenbanken.

20 WikiWord – Daniel Kinzler - 20 Mögliche Anfragen Alle Terme (Wörter) für ein Meaning (Bedeutung) – also Synonyme, Wortformen und Übersetzungen Alle Bedeutungen für einen Term (Wort einer gegebenen Sprache) - Homonyme Definitionen einer Bedeutung in verschiedenen Sprachen Übersetzungen eines Wortes aus einer Sprache in eine andere, unter Berücksichtigung aller Bedeutungen Über- bzw. untergeordnete Meanings, also Hypero- bzw. Hyponyme Evtl. auch Homonym-Auflösung nach Kontext

21 WikiWord – Daniel Kinzler - 21 Projektstatus Analyse von Wikitext und Aufbau der sprachspezifischen Datenbanken funktioniert Anfragen an diese Datenbasis liefern bereits brauchbare Ergebnisse Clustering funktioniert im Prinzip, muss aber noch optimiert werden Kollokationsanalyse auf der Linkstruktur wäre hilfreich, ist aber recht aufwändig.

22 WikiWord – Daniel Kinzler - 22 Verfügbare Daten

23 WikiWord – Daniel Kinzler - 23 WikiWord Ende


Herunterladen ppt "WikiWord – Daniel Kinzler - 1 WikiWord Daniel Kinzler Abteilung für automatische Sprachverarbeitung Universität Leipzig Extraktion einer Bedeutungs- und."

Ähnliche Präsentationen


Google-Anzeigen