WS 05/06Automatische Akquisition linguistischen Wissens1 Partielles Wissen erweitern 1.Zusammenhang mit bisherigen Algorithmen 2.Vom offensichtlichen zum.

Slides:

Advertisements

Ähnliche Präsentationen

Motivations- und Selbstmanagement-Training

Advertisements

Entscheiden unter Unsicherheit: Heuristiken und Biases

Informatik II: Algorithmen und Datenstrukturen SS 2013

Graphen Ein Graph ist eine Kollektion von Knoten und Kanten. Knoten sind einfache Objekte. Sie haben Namen und können Träger von Werten, Eigenschaften.

Prof. Dr. W. Conen 15. November 2004

7. Natürliche Binärbäume

Suche in Texten (Stringsuche )

Seminar Textmining WS 06/07 Themen Übung 9 Multilingualität Weitere Termine: 13.7.Symbolfolgen und PageRank Findlinks mitstreiter gesucht!

WS 05/06Automatische Akquisition linguistischen Wissens1 Vollautomatisches bestimmen von Relationen 1.Anforderungen Welches Wissen und welches nicht Komplexitätsprobleme.

Automatische Akquisition linguistischen Wissens

Automatische Akquisition linguistischen Wissens

WS 05/06Automatische Akquisition linguistischen Wissens1 Extraktion Morphologischen Wissens 1.Problemstellung - Facetten der Morphologie 2.Anwendungen.

Automatische Akquisition linguistischen Wissens

Automatische Akquisition linguistischen Wissens

Anwendung und Visual Basic

Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/4 Manuelle Verfahren Klassifizierung Hier werden Dokumente in ein fest vorgegebenes System.

Heuristiken Automatic Problem Solving Institut für Informatik

Algorithmentheorie 6 – Greedy-Verfahren

Prof.Dr.S. Albers Prof. Dr. Th. Ottmann

WS Prof. Dr. Th. Ottmann Algorithmentheorie 09 - Suche in Texten Suffix –Tree –Konstruktion Ukkonen Algorithmus.

Vorlesung Informatik 2 Algorithmen und Datenstrukturen (27 – Kürzeste Wege) Prof. Th. Ottmann.

1 Vorlesung Informatik 2 Algorithmen und Datenstrukturen (21 – Kürzeste Wege) T. Lauer.

Algorithmentheorie 7 – Bin Packing

Informatik II, SS 2008 Algorithmen und Datenstrukturen Vorlesung 16 Prof. Dr. Thomas Ottmann Algorithmen & Datenstrukturen, Institut für Informatik Fakultät.

Kapitel 1 Das Schubfachprinzip

Martin Böhmer/Dennis Treder/Marina Schwacke Übungen zu Automatisches Zeichnen von Graphen Ausgabe: Besprechung: Gruppe 2 - Übungsblatt.

Qualitätskriterien zur Beurteilung von Dokumentationen

Relevanz Ranking Bisher: Sind wir davon ausgegangen, dass das Ergebnis des Rankings des statistischen Verfahrens in den Index geschrieben wird und dem.

Relevanz Ranking Bisher:

Minimum Spanning Tree: MST

Mathematische Grundlagen und Rechnen mit algebraischen Zahlen

Grundsätzliche Resultate Theorem: Für jeden Relationstyp R(A 1,...,A n ) und jede Menge von FDs über {A 1,...,A n } gibt es: –eine verlustlose (aber nicht.

Hinweise zum 10. Übungsblatt zu GIN1b, WS04/05 Prof. Dr. W. Conen (Version 1.0alpha, )

Maschinelles Lernen Bayessche Verfahren (Mitchell Kap. 6), Teil 1.

GlobalStorehouseGlobalStorehouse Institut für Modellbildung und Simulation IMS Bemerkung: Mit diesem "MB" und "WBM" lässt sich der ganze Zyklus abdecken.

Ideen der Informatik Suchen und Sortieren [Ordnung muss sein…]

Institut für Kartographie und Geoinformation Prof. Dr. Lutz Plümer Diskrete Mathematik II Vorlesung 1 SS 2001 Algorithmus von Dijkstra.

Effiziente Algorithmen

Effiziente Algorithmen

Brainstorming Hinweis: Susi Sonne Aufgabe 1: Ansichten wechseln

Die feinen Lederhandschuhe

Kleine Weisheit.

Abschlussvortrag zur Studienarbeit

Computational Thinking Online Algorithmen [Was ist es wert, die Zukunft zu kennen?] Kurt Mehlhorn Konstantinos Panagiotou.

Theorien, Methoden, Modelle und Praxis

Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS

Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/

Effiziente Algorithmen

Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS

Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS

Effiziente Algorithmen

Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/

Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS

Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS

Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS

Effiziente Algorithmen

Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS

Hartmut Klauck Universität Frankfurt SS

Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/

Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/

Quantum Computing Hartmut Klauck Universität Frankfurt WS 04/

Der kleine Satz des Fermat

Informatik Datenstruktur Graph 3.3 Durchlaufen von Graphen

Institut für Kartographie und Geoinformation Prof. Dr. Lutz Plümer Diskrete Mathematik II Vorlesung Suche des kürzesten Weges in einem Netz.

Gliederung der Vorlesung

„Fairness“ Auswertung des Jahresthemas 2014 / 2015

Programmiersprachen II Vorbesprechung Klausur Prof. Dr. Reiner Güttler Fachbereich GIS HTW.

Spärliche Kodierung von Videos natürlicher Szenen Vortragender: Christian Fischer.

Präsentation transkript:

WS 05/06Automatische Akquisition linguistischen Wissens1 Partielles Wissen erweitern 1.Zusammenhang mit bisherigen Algorithmen 2.Vom offensichtlichen zum fehlerhaften 3.Konkrete Ideen für Algorithmen 4.Referate Referat: Übersicht über Annotationsprojekt, einige weitere Erweiterungsregeln

WS 05/06Automatische Akquisition linguistischen Wissens2 1. Zusammenhang mit bisher behandelten Themen Partielles Wissen erweitern eigentlich schon ausführlich behandelt bisher, sämtliche halb-automatisch Verfahren sind solche –Clustern, bzw. Klassifizieren, nutzen von Features usw. Es gibt allerdings auch eine Reihe Verfahren/Ideen, die sich nicht so recht einordnen lassen, z.B. da sie auf Graphen basieren –Graphen basiert besonders von Interesse, da intuitiv und leicht visualisierbar, intuitive Komplexitätsreduktion Knoten sind dabei gewöhnlich Wörter, während Kanten stets das Ergebnis eines Korrelations- oder Ähnlichkeitsalgorithmus sind

WS 05/06Automatische Akquisition linguistischen Wissens3 2. Schnittmengen von Wörtern (Biem04) Loslösung von Semantik, und ähnliche kaum definierbare Bereiche und Konzentrieren auf Mengentheorie Beginn bei Menge von Synsets (wiederum einfach Mengen von Wörtern S={s 1, s 2, …, s n }) Wir haben Pool von Ähnlichkeitsmassen und Algorithmen (Kookkurrenz, Vergleich, POS-Tagger usw.), die jeweils auch wiederum Mengen von möglicherweise semantisch homogenen Wörtern liefern: M={m 1, m 2, …, m n }. Danach suchen wir die Menge M, die also grösste Schnittmenge SM produziert. Der Überschuss M\S ist Erweiterung –Entweder M aus gesamtem Pool aussuchen –Oder anschliessend selektieren den Algorithmus, der am meisten beste Treffer hatte und alles nochmal nur mit diesem

WS 05/06Automatische Akquisition linguistischen Wissens Schnittmengen von Wörtern Mit einem Schwellwert kann auch eine Menge von passenden Mengen gesucht werden und deren Schnittmenge dann als Erweiterung nehmen: S\M 1 M 2 …M n Insgesamt lassen sich diverse Strategien zur Eingrenzung des Algorithmus oder Masses oder einer Auswahl der Mengen M einsetzen, teilweise mit selbsttestenden Methoden

WS 05/06Automatische Akquisition linguistischen Wissens Konkrete Idee für weiterführenden Algorithmus: die iterierten Kookkurrenzen Berechnung von Kookkurrenzen oder Ähnlichkeiten lässt sich natürlich beliebig oft iterieren –Iterierung v. Ähnlichkeiten: Berechnung von Ähnlichkeiten basiert auf Liste von Wörtern und liefert Liste von Wörtern –Iterierung von Kookkurrenzen: Berechnung basiert auf Sätzen und darin gemeinsamem Auftreten Und resultiert in Liste von Wörtern, die auch als Satz genommen werden kann, da Reihenfolge ohnehin nicht berücksichtigt wird Berechnung von Ähnlichkeit liefert semantisch reinere Gruppen, wie aus früheren Evaluierungen bekannt. Wird es reiner pro Iterationsschritt?

WS 05/06Automatische Akquisition linguistischen Wissens Precision und Recall iterierter Kookkurrenzen Nachbarschaftskookkurrenzen Satzkookkurrenzen

WS 05/06Automatische Akquisition linguistischen Wissens Resultate Im Gegensatz zu sx wird im ersten Schritt bei nx die Qualität besser, um danach wieder abzufallen, Vermuteter Grund ist data sparseness, da Nachbarschaftskookkurrenzen wesentlich weniger Information haben: –Auf Deutscher DB: Paare Nachbarschaftskookkurrenzen Paare Satzkookkurrenzen –Allerdings normalerweise pro Satz 15 Wörter, bei nx aber pro Wort bis zu 200 Kookkurrenzen, ausserdem Iteration als Satzkookkurrenz, insgesamt im ersten Schritt also wesentlich mehr Information –Abfallende Qualität durch Einpegelung auf Clustern und langsames Wegfallen, bzw. Absorption kleinerer und dadurch verwässerung vorhandener Weitere Effekte durch Schwellwerte (warum nx schlechter nx)

WS 05/06Automatische Akquisition linguistischen Wissens8 4. Weitere konkrete Idee: Schließen auf Graphen Idee ist, dass offensichtliche Fälle durch abstrakte Regeln ausformuliert und automatisch abgearbeitet werden können Iteration dieser Abarbeitung könnte sich hochpendeln zu grosser Wissensbasis, hoffentlich ohne die Fehler schneller hochzupendeln Beispiel: Wenn starkes Cluster von 5 Wörtern und zwischen 4 der Wörter Kohyponymbeziehungen bekannt, dann schliesse, dass 5. Wort auch Kohyponym ist. Fehler: Kann auch gerade Hyperonym gewesen sein Lösungsvorschlag: Kombination mit Satzstrukturen

WS 05/06Automatische Akquisition linguistischen Wissens9

WS 05/06Automatische Akquisition linguistischen Wissens10