Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

WS 05/06Automatische Akquisition linguistischen Wissens1 Extraktion Morphologischen Wissens II 1.Semantikbasierte Ansätze 2.Letter successor variety basierte.

Ähnliche Präsentationen


Präsentation zum Thema: "WS 05/06Automatische Akquisition linguistischen Wissens1 Extraktion Morphologischen Wissens II 1.Semantikbasierte Ansätze 2.Letter successor variety basierte."—  Präsentation transkript:

1 WS 05/06Automatische Akquisition linguistischen Wissens1 Extraktion Morphologischen Wissens II 1.Semantikbasierte Ansätze 2.Letter successor variety basierte Ansätze 3.Kombinierte Ansätze Referat: Schone und Jurafskys papers und Algorithmus Referat 2: Baronis Ansatz

2 WS 05/06Automatische Akquisition linguistischen Wissens2 1. Allgemein Semantikbasierte Ansätze Hier ist Idee darauf basiert, dass inhaltlich ähnliche Wortformen (mit einem der vielen bereits vorgestellten Verfahren als inhaltlich ähnlich berechnet) auch grammatisch ähnlich sein sollten Das würde bedeuten, dass in der Liste der als ähnlich berechneten Wortformen –Wortformen mit dem gleichen Stamm, oder –Wortformen mit einer gleichen grammatischen Markierung auftreten –Z.B. glücklich, witzig, unglücklich, Glück Danach ließe sich ja eine Gruppe von Wortformen, die besonders ähnlich –Problematisch sind z.B. Alternationen und sehr kurze Stämme Diese Sorte von Ansätzen soll in Referaten vorgestellt werden

3 WS 05/06Automatische Akquisition linguistischen Wissens Alternativ eine Art Konstituentenanalyse Konstituentenanalyse würde bedeuten, dass man heraussucht, welche andere Wörter in eine Menge von gleichartigen Kontexten passt: Beispiel Wort glückliche –… war es eine glückliche/gute/traurige/schlechte Entscheidung –… saß die glückliche/gute/traurige Mutter Vereinfachtes Modell davon ist Nachbarschaftskookkurrenzbasierte Ähnlichkeitsberechnung: –Berechne signifikante Nachbarn –Finde entsprechend den Nachbarn ähnliche Wörter –Wende danach Letter Successor Variety von Harris an

4 WS 05/06Automatische Akquisition linguistischen Wissens4 2. Letter successor variety Letter successor variety: Harris (55) where word-splitting occurs if the number of distinct letters that follows a given sequence of characters surpasses the threshold. Es soll also gemessen werden, wie viele verschiedene Buchstaben nach jedem möglichen Wortanfang folgen (und umgekehrt) Die Idee dabei ist, dass nach Wortstämmen die Anzahl von Buchstaben explodiert, da danach ja viele verschiedene Endungen möglich sind Hafer & Weiss 74 haben das als erste implementiert und in einem IR System verwendet, um nicht jede Wortform, sondern nur Wortstämme zu indexieren Beispiel Wortform witzige (vom Beginn und dann vom Ende): –w 42e –wi 31ge –wit 17ige –witz 15zige –witzi 4tzige –witzig 6itzige –witzige 6witzige

5 WS 05/06Automatische Akquisition linguistischen Wissens Probleme bei LSV Bereits bei Hafer & Weiss 74 gabe es Probleme, da die Ergebnisse nicht wie erhofft waren und LSV recht viele Fehler produziert, insbesondere an Beginnen und Enden von Wörtern, aber auch bei überrepräsentativen Wortenden Es schien auch so zu sein, dass je länger die Wortliste, umso mehr Rauschen tritt ein und Peaks schlechter erkennbar Sie experimentieren eine Weile mit verschiedenen Strategien wie z.B. plötzliches Gefälle statt Peaks oder Plateaus Schlussfolgering ist, dass Fehler nicht so schlimm, solange Indexierung besser und messen in der Tat leicht bessere Ergebnisse beim Information Retrieval task

6 WS 05/06Automatische Akquisition linguistischen Wissens6 3. Kombinierter Ansatz Überblick: Nutze kontextuelle Information und berechne Nachbarschaftskookkurrenzen pro Eingabewort –Frequenz von word A and B ist n A und n B –Frequenz von gemeinsamen Auftreten von A mit B ist n AB –Korpus Größe ist n –Signifikanzberechnung ist eine Poisson Approximation des log- likelihood (Dunning 93) (Quasthoff & Wolff 02)

7 WS 05/06Automatische Akquisition linguistischen Wissens7 Nachbarn von glückliche Signifikanteste linke Nachbarn wunschlos besonders welch sehr Lauter überaus sonderlich Kinogängern wahrhaft unendlich Signifikanteste rechte Nachbarn Fügung Hand Ehe Kindheit Gewinner Gewinnerin Figur Familie Wendung Heimkehr glückliche

8 WS 05/06Automatische Akquisition linguistischen Wissens Kombinierter Ansatz Überblick: Nutze kontextuelle Information und berechne Nachbarschaftskookkurrenzen pro Eingabewort Nutze berechnete Nachbarn, um mit anderen Wörtern zu vergleichen und ähnliche zu finden sie tragen mit größter Wahrscheinlichkeit gleiche grammatische Markierung

9 WS 05/06Automatische Akquisition linguistischen Wissens9 Ähnliche Wortformen für glückliche Signifikanteste linke Nachbarn wunschlos besonders welch sehr Lauter überaus sonderlich Kinogängern wahrhaft unendlich Signifikanteste rechte Nachbarn Fügung Hand Ehe Kindheit Gewinner Gewinnerin Figur Familie Wendung Heimkehr … allmähliche unglückliche traurige glückliche glücklicher witziger gemütlicher Wirkliche …

10 WS 05/06Automatische Akquisition linguistischen Wissens Kombinierter Ansatz Overview: Nutze kontextuelle Information und berechne Nachbarschaftskookkurrenzen pro Eingabewort Nutze berechnete Nachbarn, um mit anderen Wörtern zu vergleichen und ähnliche zu finden sie tragen mit größter Wahrscheinlichkeit gleiche grammatische Markierung Sortiere diese nach Editierabstand und behalte nur 150 ähnlichste weil weitere nur zusätzliches Rauschen beinhalten

11 WS 05/06Automatische Akquisition linguistischen Wissens11 Ähnliche Wörter zu glückliche nach Editierdistanz Signifikanteste linke Nachbarn wunschlos besonders welch sehr Lauter überaus sonderlich Kinogängern wahrhaft unendlich Signifikanteste rechte Nachbarn Fügung Hand Ehe Kindheit Gewinner Gewinnerin Figur Familie Wendung Heimkehr SortierteSortierte Liste glückliche glücklichen glücklicher Glückliche unglückliche glücklich glücklichsten unglücklichen unglücklicher unglücklich schreckliche … möglichen persönlichen persönlicher

12 WS 05/06Automatische Akquisition linguistischen Wissens Kombinierter Ansatz Overview: Nutze kontextuelle Information und berechne Nachbarschaftskookkurrenzen pro Eingabewort Nutze berechnete Nachbarn, um mit anderen Wörtern zu vergleichen und ähnliche zu finden sie tragen mit größter Wahrscheinlichkeit gleiche grammatische Markierung Sortiere diese nach Editierabstand und behalte nur 150 ähnlichste weil weitere nur zusätzliches Rauschen beinhalten Berechne letter successor variety für jede Transition zwischen zwei Buchstaben Melde alle Stellen als Morphemgrenzen, wo LSV größer als Schwellwert

13 WS 05/06Automatische Akquisition linguistischen Wissens Overlap Faktor zur Balanzierung Es gibt Problem mit plötzlichen Frequenzverschiebungen (von Teilstrings) mitten im Wort Die Frequenzverschiebung kann gemessen und als Gewichtungsfaktor genommen werden: wenn 140 von 150 mit – n# enden, dann ist Gewicht 140/150 Aber wenn (wie mit glückliche) nur 16 von 150 mit #g- beginnen, dann ist Gewicht nur 16/150 g l ü c k l i c h e von links 1 1 3/ von rechts

14 WS 05/06Automatische Akquisition linguistischen Wissens Beispielrechnung Berechne letter split variety: # g l ü c k l i c h e # , 1, 1, 2, Berechne overlap factor: # g l ü c k l i c h e # also overlap faktoren: / Multipliziere LSV mit OF: / Summiere links- und rechtswerte: # g l ü c k l i c h e # Schwellwert: 7 Resultat: glück-lich-e

15 WS 05/06Automatische Akquisition linguistischen Wissens Problem #1: Unbekannte Affixverteilungen Verteilung von Prä- und Suffixen ist unbekannt Daher bekommen frequente Endungen wie –e# besonders hohe Werte, da sie nach praktisch allem vorkommen In seltenen Fällen sind sie jedoch nicht Endungen (z.B. Junge) Daher einfach vorläufige normalisierung durch Multiplikation von erster und zweiter Stelle von vorne und von hinten mit Gewichten 0.3 und 0.6 jeweils: s 1 s 2 s 3 … s n-2 s n-1 s n … Das benachteiligt stark kurze Affixe an Rändern von Wortformen, die Hoffnung ist aber, dass sie dennoch häufig genug vorkommen, um in einem folgenden Lernschritt hilfreich zu sein

16 WS 05/06Automatische Akquisition linguistischen Wissens Problem #2: Multiletter Grapheme (Grenzen vorher und danach) Problem: Zwei oder mehr Buchstaben repräsentieren ein Graphem und verschleppen den Nenner beim overlap faktor: Letter split variety: # s c h l i m m e Berechne overlap factor: ^ also ist LSV 7 und OL Gewicht1 (18/18), aber weil sch ein Graphem ist, sollte es eher 18/150 sein! Lösung: Ranking von Bi- und Trigrammen, höchster bekommt Gewicht von 1.0 Overlap faktor wird als gewichtetes Mittel zwischen normalem und verschlepptem berechnet, wobei Gewicht vom Ranking das Gewicht im Mittel bestimmt:

17 WS 05/06Automatische Akquisition linguistischen Wissens Problem #3: Multiletter Grapheme (Grenzen in der Mitte) Multiletter Grapheme sollten natürlich auch nie getrennt werden Zum Beispiel das –th– im Englischen sollte niemals getrennt werden Lösung ist wieder das Bigramrankung, welches direkt ein Gewicht für die Multiplikation mit LSV abgibt: 0.1 Gewicht für die am höchsten gerankten und 1.0 für die niedrigsten.

18 WS 05/06Automatische Akquisition linguistischen Wissens Beispielrechnung II Finales LSV mit OF von vorhergehenden Schritten: # g l ü c k l i c h e # , 1, 1, 2, Berechne overlap factor: # g l ü c k l i c h e # Problem #1: Unbekannte Affixverteilung: Problem #2: Multiletter Bi- und Trigramm Gewichte: Problem #3: Bigrammgewicht: Summiere Links- und Rechtswerte: # g l ü c k l i c h e # Beispiel i-c von rechts: 4*(36/ *36/129)/( )*0.8 = 2.18 Schwellwert: 3 Finales Resultat: glück-lich-e -lich und –e# sind Suffixe, weil LSV score von rechts war

19 WS 05/06Automatische Akquisition linguistischen Wissens Morphemklassifikation Simple Klassifikation von Morphemen in Präfixe, Stämme und Suffixe möglich –Wenn LSV score von rechts, dann Suffix, sonst Präfix –Wenn Suffix länger als die Hälfte des Wortes, dann verdopple den Schwellwert, z.B.: 40-jähr-ig-er (Stamm 40) –Was zwischen Suffix und Präfix übrig bleibt, ist Stamm Probleme zum Beispiel: –Komposita und verbindende Morpheme –Alternationen, Löschungen usw. Da wäre ein komplexerer Ansatz nötig Könnte kombiniert werden mit Klassifikation in freie und gebundene Morpheme

20 WS 05/06Automatische Akquisition linguistischen Wissens Freie Parameter Es bleiben allerdings arbiträre einzustellende Parameter, die möglicherweise Sprachabhängig sind (kleine Änderungen haben allerdings kaum Effekt): 150 ähnlichste Wörter – hängt vermutlich von Flektivität der Sprache ab Schwellwert zwischen 3 und 7 Schwellwert scheint vor allem von Anzahl der möglichen Buchstaben einer Sprache abzuhängen (einschliesslich multiletter Grapheme!) Weitere weniger wichtige Parameter: –cooccscue 200nicht wirklich jedes Wort mit jedem vergleichen –cooccsfeature 50Beim vergleichen nur max 50 Wörter nehmen –minsig 4Minimum significanz 4 –maxresults 70 Maximal 70 resultate aufheben –minanzahl 2Profile müssen mindestens 2 Wörter gemeinsam haben

21 WS 05/06Automatische Akquisition linguistischen Wissens21 Zusammenfassung Momentan leidglich Morphemgrenzen finden Selbst dabei unklar, wie Sprachunabhängig das wirklich ist Weitere Analysen (Klassifizieren von freien vs. Gebunden Morphemen z.B.) nächster Schritt

22 WS 05/06Automatische Akquisition linguistischen Wissens22 Referate Referate sollen semantikbasierte Ansätze genauer beschreiben und evtl. vorführen Erstes Referat ist über Schone & Jurafskys Idee beschreiben Zweites Referat ist über Baronis Ansatz

23 WS 05/06Automatische Akquisition linguistischen Wissens23


Herunterladen ppt "WS 05/06Automatische Akquisition linguistischen Wissens1 Extraktion Morphologischen Wissens II 1.Semantikbasierte Ansätze 2.Letter successor variety basierte."

Ähnliche Präsentationen


Google-Anzeigen