WS 05/06Automatische Akquisition linguistischen Wissens1 Partielles Wissen erweitern 1.Zusammenhang mit bisherigen Algorithmen 2.Vom offensichtlichen zum.

WS 05/06Automatische Akquisition linguistischen Wissens1 Partielles Wissen erweitern 1.Zusammenhang mit bisherigen Algorithmen 2.Vom offensichtlichen zum fehlerhaften 3.Konkrete Ideen für Algorithmen 4.Referate Referat: Übersicht über Annotationsprojekt, einige weitere Erweiterungsregeln

WS 05/06Automatische Akquisition linguistischen Wissens2 1. Zusammenhang mit bisher behandelten Themen Partielles Wissen erweitern eigentlich schon ausführlich behandelt bisher, sämtliche halb-automatisch Verfahren sind solche –Clustern, bzw. Klassifizieren, nutzen von Features usw. Es gibt allerdings auch eine Reihe Verfahren/Ideen, die sich nicht so recht einordnen lassen, z.B. da sie auf Graphen basieren –Graphen basiert besonders von Interesse, da intuitiv und leicht visualisierbar, intuitive Komplexitätsreduktion Knoten sind dabei gewöhnlich Wörter, während Kanten stets das Ergebnis eines Korrelations- oder Ähnlichkeitsalgorithmus sind

WS 05/06Automatische Akquisition linguistischen Wissens3 2. Schnittmengen von Wörtern (Biem04) Loslösung von Semantik, und ähnliche kaum definierbare Bereiche und Konzentrieren auf Mengentheorie Beginn bei Menge von Synsets (wiederum einfach Mengen von Wörtern S={s 1, s 2, …, s n }) Wir haben Pool von Ähnlichkeitsmassen und Algorithmen (Kookkurrenz, Vergleich, POS-Tagger usw.), die jeweils auch wiederum Mengen von möglicherweise semantisch homogenen Wörtern liefern: M={m 1, m 2, …, m n }. Danach suchen wir die Menge M, die also grösste Schnittmenge SM produziert. Der Überschuss M\S ist Erweiterung –Entweder M aus gesamtem Pool aussuchen –Oder anschliessend selektieren den Algorithmus, der am meisten beste Treffer hatte und alles nochmal nur mit diesem

WS 05/06Automatische Akquisition linguistischen Wissens4 2.1. Schnittmengen von Wörtern Mit einem Schwellwert kann auch eine Menge von passenden Mengen gesucht werden und deren Schnittmenge dann als Erweiterung nehmen: S\M 1 M 2 …M n Insgesamt lassen sich diverse Strategien zur Eingrenzung des Algorithmus oder Masses oder einer Auswahl der Mengen M einsetzen, teilweise mit selbsttestenden Methoden

WS 05/06Automatische Akquisition linguistischen Wissens5 3.1. Konkrete Idee für weiterführenden Algorithmus: die iterierten Kookkurrenzen Berechnung von Kookkurrenzen oder Ähnlichkeiten lässt sich natürlich beliebig oft iterieren –Iterierung v. Ähnlichkeiten: Berechnung von Ähnlichkeiten basiert auf Liste von Wörtern und liefert Liste von Wörtern –Iterierung von Kookkurrenzen: Berechnung basiert auf Sätzen und darin gemeinsamem Auftreten Und resultiert in Liste von Wörtern, die auch als Satz genommen werden kann, da Reihenfolge ohnehin nicht berücksichtigt wird Berechnung von Ähnlichkeit liefert semantisch reinere Gruppen, wie aus früheren Evaluierungen bekannt. Wird es reiner pro Iterationsschritt?

WS 05/06Automatische Akquisition linguistischen Wissens6 3.2. Precision und Recall iterierter Kookkurrenzen Nachbarschaftskookkurrenzen Satzkookkurrenzen

WS 05/06Automatische Akquisition linguistischen Wissens7 3.3. Resultate Im Gegensatz zu sx wird im ersten Schritt bei nx die Qualität besser, um danach wieder abzufallen, Vermuteter Grund ist data sparseness, da Nachbarschaftskookkurrenzen wesentlich weniger Information haben: –Auf Deutscher DB: 4.736.277 Paare Nachbarschaftskookkurrenzen 57.611.582 Paare Satzkookkurrenzen –Allerdings normalerweise pro Satz 15 Wörter, bei nx aber pro Wort bis zu 200 Kookkurrenzen, ausserdem Iteration als Satzkookkurrenz, insgesamt im ersten Schritt also wesentlich mehr Information –Abfallende Qualität durch Einpegelung auf Clustern und langsames Wegfallen, bzw. Absorption kleinerer und dadurch verwässerung vorhandener Weitere Effekte durch Schwellwerte (warum nx schlechter nx)

WS 05/06Automatische Akquisition linguistischen Wissens8 4. Weitere konkrete Idee: Schließen auf Graphen Idee ist, dass offensichtliche Fälle durch abstrakte Regeln ausformuliert und automatisch abgearbeitet werden können Iteration dieser Abarbeitung könnte sich hochpendeln zu grosser Wissensbasis, hoffentlich ohne die Fehler schneller hochzupendeln Beispiel: Wenn starkes Cluster von 5 Wörtern und zwischen 4 der Wörter Kohyponymbeziehungen bekannt, dann schliesse, dass 5. Wort auch Kohyponym ist. Fehler: Kann auch gerade Hyperonym gewesen sein Lösungsvorschlag: Kombination mit Satzstrukturen

WS 05/06Automatische Akquisition linguistischen Wissens9

WS 05/06Automatische Akquisition linguistischen Wissens10

WS 05/06Automatische Akquisition linguistischen Wissens1 Partielles Wissen erweitern 1.Zusammenhang mit bisherigen Algorithmen 2.Vom offensichtlichen zum.

Ähnliche Präsentationen

Präsentation zum Thema: "WS 05/06Automatische Akquisition linguistischen Wissens1 Partielles Wissen erweitern 1.Zusammenhang mit bisherigen Algorithmen 2.Vom offensichtlichen zum."— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback

Anmelden

Anmeldung über soziales Netzwerk:

WS 05/06Automatische Akquisition linguistischen Wissens1 Partielles Wissen erweitern 1.Zusammenhang mit bisherigen Algorithmen 2.Vom offensichtlichen zum.

Ähnliche Präsentationen

Präsentation zum Thema: "WS 05/06Automatische Akquisition linguistischen Wissens1 Partielles Wissen erweitern 1.Zusammenhang mit bisherigen Algorithmen 2.Vom offensichtlichen zum."— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback