Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Seminar Textmining WS 06/07 Themen I Übung in erster Linie um zugrundeliegende Methoden zu verstehen. D.h. es gibt immer einen/mehrere Themenschwerpunkte,

Ähnliche Präsentationen


Präsentation zum Thema: "Seminar Textmining WS 06/07 Themen I Übung in erster Linie um zugrundeliegende Methoden zu verstehen. D.h. es gibt immer einen/mehrere Themenschwerpunkte,"—  Präsentation transkript:

1 Seminar Textmining WS 06/07 Themen I Übung in erster Linie um zugrundeliegende Methoden zu verstehen. D.h. es gibt immer einen/mehrere Themenschwerpunkte, aber auch Platz für Diskussion und Fragen, die gemeinsam bearbeitet werden. Themenschwepunkte heute: Automatische Text, Absatz, Satz und Wortalinierung Automatische Übersetzung Zeitreihenanalyse Themen nächstes Mal: Terminologieextraktion Visualisierung semantischer Netze

2 Seminar Textmining WS 06/07 Alinierung Ziel bei Wörterbuchgenerierung ist erstellen oder vergrössern von Wörterbüchern. Anfang meist bei Textalinierung, d.h. zwei Texte sind gegeben, von welchen bekannt ist, dass sie den gleichen Inhalt haben. Dann Absatzalinierung (meist trivial) und Satzalinierung (nicht trivial). Anschliessend Wortalinierung (schwierig).

3 Seminar Textmining WS 06/07 Linktypen Gegeben seien zwei Sätze. Geben Sie eine Wortalinierung an. And the aboriginal people dont have any money. Die Ureinwohner aber nutzen keine Währung. Welche Linktypen lassen sich ableiten? Was bedeutet das für die automatische Wortalinierung?

4 Seminar Textmining WS 06/07 Wortalinierung, Wörterbuchgenerierung Gegeben seien zwei alinierte Absätze in Deutsch und Englisch. Erstellen Sie eine perfekte Satz- und Wortalinierung. Circa 1,000 years ago, the continent of Australia was full with intelligent life, being the original location of the lost city of Atlantis and the landing area for a peaceful alien civilization (see Cylons). Since these heady days, Australia has never regained any lifeforms that could be defined as intelligent. Shortly thereafter, the current day inhabitants who call themselves Aboriginals invaded the continent. Vor ungefähr 1,000 Jahren war der Kontinent Australien voll von intelligentem Leben. Schliesslich war es der Ort der verlorenen Stadt Atlantis, aber auch wegen der Landung von friedlichen Außerirdischen (siehe Cylons). Seit jenen schönen Tagen allerdings, wurden auf Australien keine Wesen mit nennenswerter Intelligenz beobachtet, insbesondere seit der Kontinent von den heutigen Einwohnern überrannt wurde, die sich Aboriginees nennen.

5 Seminar Textmining WS 06/07 Wortalinierung Was fällt Ihnen dabei auf? Erstellen Sie eine Wortalinierung nach dictionary match + exact match + Wortlänge Algorithmus. Bekannte Übersetzungen: continent - Kontinentalien- Fremd Australia - AustralienSince- seit years - Jahrenever- niemals full - volldefined- definiert with - mitcurrent- Strom of - vonthe- der area- Raumcall- rufen Welche Fehler entstehen? Was fällt Ihnen ein, um diese zu vermeiden? Wieviel Prozent des Lexikons wurden wirklich genutzt?

6 Seminar Textmining WS 06/07 Automatische Übersetzung Gegeben der erste Satz von Folie 4: Circa 1,000 years ago, the continent of Australia was full with intelligent life, being the original location of the lost city of Atlantis and the landing area for a peaceful alien civilization (see Cylons). Angenommen, Sie haben ein Wörterbuch, wo zu jedem Wort die direkte Übersetzung steht. Wie sieht die Übersetzung aus? Dagegen sagt Babelfish: Vor Circa Jahren, der Kontinent von Australien war mit intelligentem Leben voll und war die ursprüngliche Position der verlorenen Stadt von Atlantis und des Landungbereichs für eine ruhige ausländische Zivilisation (sehen Sie Cylons). Was macht Babelfish besser? Und vor allem, wie? Und was schafft es nicht?

7 Seminar Textmining WS 06/07 Zeitreihenanalyse Wichtige Faktoren beim Vergleich zweier Woerter –Relative Haeufigkeit statt absoluter –Korrelation zwischen Wörtern per Tag, Text oder Satz Welche Faktoren gibt es beim Neologismensuchen zu beachten? –Wirklich neu? –Wirklich Dauerhaft? –Zu jedem Neologismus gibt es eine Langform? (siehe LASER) Zusätzlich zu den im Seminar gezeigten, welche Möglichkeiten zur Visualisierung von Zeitbasierten Abhängigkeiten fallen Ihnen noch ein? –Graphenbasiert?


Herunterladen ppt "Seminar Textmining WS 06/07 Themen I Übung in erster Linie um zugrundeliegende Methoden zu verstehen. D.h. es gibt immer einen/mehrere Themenschwerpunkte,"

Ähnliche Präsentationen


Google-Anzeigen