Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Seminar Textmining WS 06/07 Themen Übung 9 Multilingualität Weitere Termine: 13.7.Symbolfolgen und PageRank Findlinks mitstreiter gesucht!

Ähnliche Präsentationen


Präsentation zum Thema: "Seminar Textmining WS 06/07 Themen Übung 9 Multilingualität Weitere Termine: 13.7.Symbolfolgen und PageRank Findlinks mitstreiter gesucht!"—  Präsentation transkript:

1 Seminar Textmining WS 06/07 Themen Übung 9 Multilingualität Weitere Termine: 13.7.Symbolfolgen und PageRank Findlinks mitstreiter gesucht!

2 Seminar Textmining WS 06/07 Arten von Problemen mit Multilingualität Was ist: –Multilingual document –Multilingual collection –Multilingual system –Cross-language system –Translingual system Technische Probleme –Charactersets, Fonts, Lokalisierungen, Segmentierungen Inhaltliche Probleme –Inkompatible Morphologien –Unterschiedlicher Sprachaufbau, Grammatik, semantik –Lassen sich unterschiedliche Inhalte dennoch nutzen?

3 Seminar Textmining WS 06/07 Aufgabe Formulieren Sie ein System, welches aus einem Parallelkorpus Anfragen in einer Sprache Dokumente aus beiden Sprachen retrieven kann. 2 Gruppen: Eine setzt auf qualitative manuelle Annotationen usw., die andere auf rein statistische Verfahren. Diskutieren Sie bei dem Vorschlag der jeweils anderen Gruppe für welche Sprachpaare welche Probleme auftreten würden.

4 Seminar Textmining WS 06/07 Beispiel Assisting Translators in Indirect Lexical Transfer System, welches beim Übersetzen hilftSystem –Insbesondere bei indirekten Übersetzungen –Lets have a walk > Lass uns einen Spaziergang machen / eine Runde drehen / frische Luft schnappen / nach draussen gehen Verwendet Kookkurrenzbasierte semantische Wortähnlichkeit, um zu Wort-Wort Übersetzung aus Wörterbuch semantisch ähnliche Wörter zu finden Dabei wird jedes Wort übersetzt und nur im Zielsprachigen Korpus vorkommende Phrasen mit diesen Wörtern angezeigt Erreicht damit 50% höheren Recall als bisherige Systeme! Damit wurde lediglich Wissen in der Zielsprache genutzt, um Übersetzungsqualität zu erhöhen.

5 Seminar Textmining WS 06/07 Interaktivität Beim Suchen: –Spezifikation der Suchsprache explizit oder inhärent (also keine explizite Unterscheidung der Sprachen im Index) –Spezifikation der Antwortseiten explizit oder nicht. –Wenn Explizit – wie erkennt man dann die Sprache eines Dokuments? Oder pro Satz? Oder pro Domainname? … Beim Übersetzen: –Auswahl der besten Übersetzung oder vorgenerierung

6 Seminar Textmining WS 06/07 Woher kommt Wissen? Wortübersetzungen –Aus manuell erstellen Wörterbüchern –Oder aus statistischer Alinierung von Wörtern aus parallelen Korpora Übersetzungen von Phrasen –Parser in Quell- und Zielsprache –Statistische Korrelation von Konstruktionen (funktioniert mit unsupervised Parsing evtl. besser als mit supervised, siehe Rens Bod) Referenzauflösungen –Peter warf den Stein. Er fiel ins Wasser.Ist ambig –Peter threw the stone. He fell into the water.Ist falsch


Herunterladen ppt "Seminar Textmining WS 06/07 Themen Übung 9 Multilingualität Weitere Termine: 13.7.Symbolfolgen und PageRank Findlinks mitstreiter gesucht!"

Ähnliche Präsentationen


Google-Anzeigen