Automatische Akquisition linguistischen Wissens

Name: Automatische Akquisition linguistischen Wissens
Uploaded: 2018-01-11T14:53:47+00:00
Duration: PTM19S24
Channel: Jï¿½rgen Gerberich
Description: Automatische Akquisition linguistischen Wissens

Automatische Akquisition linguistischen Wissens
Extraktion Morphologischen Wissens II Semantikbasierte Ansätze Letter successor variety basierte Ansätze Kombinierte Ansätze Referat: Schone und Jurafskys papers und Algorithmus Referat 2: Baronis Ansatz WS 05/06 Automatische Akquisition linguistischen Wissens

1. Allgemein Semantikbasierte Ansätze
Hier ist Idee darauf basiert, dass inhaltlich ähnliche Wortformen (mit einem der vielen bereits vorgestellten Verfahren als inhaltlich ähnlich berechnet) auch grammatisch ähnlich sein sollten Das würde bedeuten, dass in der Liste der als ähnlich berechneten Wortformen Wortformen mit dem gleichen Stamm, oder Wortformen mit einer gleichen grammatischen Markierung auftreten Z.B. glücklich, witzig, unglücklich, Glück Danach ließe sich ja eine Gruppe von Wortformen, die besonders ähnlich Problematisch sind z.B. Alternationen und sehr kurze Stämme Diese Sorte von Ansätzen soll in Referaten vorgestellt werden WS 05/06 Automatische Akquisition linguistischen Wissens

1.1. Alternativ eine Art Konstituentenanalyse
Konstituentenanalyse würde bedeuten, dass man heraussucht, welche andere Wörter in eine Menge von gleichartigen Kontexten passt: Beispiel Wort glückliche … war es eine glückliche/gute/traurige/schlechte Entscheidung … saß die glückliche/gute/traurige Mutter Vereinfachtes Modell davon ist Nachbarschaftskookkurrenzbasierte Ähnlichkeitsberechnung: Berechne signifikante Nachbarn Finde entsprechend den Nachbarn ähnliche Wörter Wende danach Letter Successor Variety von Harris an WS 05/06 Automatische Akquisition linguistischen Wissens

2. Letter successor variety
Letter successor variety: Harris (55) where word-splitting occurs if the number of distinct letters that follows a given sequence of characters surpasses the threshold. Es soll also gemessen werden, wie viele verschiedene Buchstaben nach jedem möglichen Wortanfang folgen (und umgekehrt) Die Idee dabei ist, dass nach Wortstämmen die Anzahl von Buchstaben „explodiert“, da danach ja viele verschiedene Endungen möglich sind Hafer & Weiss 74 haben das als erste implementiert und in einem IR System verwendet, um nicht jede Wortform, sondern nur Wortstämme zu indexieren Beispiel Wortform witzige (vom Beginn und dann vom Ende): w e wi ge wit ige witz zige witzi 4 tzige witzig 6 itzige witzige 6 witzige WS 05/06 Automatische Akquisition linguistischen Wissens

2.1. Probleme bei LSV Bereits bei Hafer & Weiss 74 gabe es Probleme, da die Ergebnisse nicht wie erhofft waren und LSV recht viele Fehler produziert, insbesondere an Beginnen und Enden von Wörtern, aber auch bei überrepräsentativen Wortenden Es schien auch so zu sein, dass je länger die Wortliste, umso mehr Rauschen tritt ein und Peaks schlechter erkennbar Sie experimentieren eine Weile mit verschiedenen Strategien wie z.B. plötzliches Gefälle statt Peaks oder Plateaus Schlussfolgering ist, dass Fehler nicht so schlimm, solange Indexierung besser und messen in der Tat leicht bessere Ergebnisse beim Information Retrieval task WS 05/06 Automatische Akquisition linguistischen Wissens

3. Kombinierter Ansatz Überblick: Nutze kontextuelle Information und berechne Nachbarschaftskookkurrenzen pro Eingabewort Frequenz von word A and B ist nA und nB Frequenz von gemeinsamen Auftreten von A mit B ist nAB Korpus Größe ist n Signifikanzberechnung ist eine Poisson Approximation des log-likelihood (Dunning 93) (Quasthoff & Wolff 02) WS 05/06 Automatische Akquisition linguistischen Wissens

Nachbarn von “glückliche“
Signifikanteste linke Nachbarn wunschlos besonders welch sehr Lauter überaus sonderlich Kinogängern wahrhaft unendlich Signifikanteste rechte Nachbarn Fügung Hand Ehe Kindheit Gewinner Gewinnerin Figur Familie Wendung Heimkehr glückliche WS 05/06 Automatische Akquisition linguistischen Wissens

3.1. Kombinierter Ansatz Überblick: Nutze kontextuelle Information und berechne Nachbarschaftskookkurrenzen pro Eingabewort Nutze berechnete Nachbarn, um mit anderen Wörtern zu vergleichen und ähnliche zu finden → sie tragen mit größter Wahrscheinlichkeit gleiche grammatische Markierung WS 05/06 Automatische Akquisition linguistischen Wissens

Ähnliche Wortformen für “glückliche“
Signifikanteste linke Nachbarn wunschlos besonders welch sehr Lauter überaus sonderlich Kinogängern wahrhaft unendlich Signifikanteste rechte Nachbarn Fügung Hand Ehe Kindheit Gewinner Gewinnerin Figur Familie Wendung Heimkehr … allmähliche unglückliche traurige glückliche glücklicher witziger gemütlicher Wirkliche WS 05/06 Automatische Akquisition linguistischen Wissens

3.1. Kombinierter Ansatz Overview: Nutze kontextuelle Information und berechne Nachbarschaftskookkurrenzen pro Eingabewort Nutze berechnete Nachbarn, um mit anderen Wörtern zu vergleichen und ähnliche zu finden → sie tragen mit größter Wahrscheinlichkeit gleiche grammatische Markierung Sortiere diese nach Editierabstand und behalte nur 150 ähnlichste → weil weitere nur zusätzliches Rauschen beinhalten WS 05/06 Automatische Akquisition linguistischen Wissens

Ähnliche Wörter zu “glückliche“ nach Editierdistanz
Signifikanteste linke Nachbarn wunschlos besonders welch sehr Lauter überaus sonderlich Kinogängern wahrhaft unendlich Sortierte Liste glückliche glücklichen glücklicher Glückliche unglückliche glücklich glücklichsten unglücklichen unglücklicher unglücklich schreckliche … möglichen persönlichen persönlicher Signifikanteste rechte Nachbarn Fügung Hand Ehe Kindheit Gewinner Gewinnerin Figur Familie Wendung Heimkehr WS 05/06 Automatische Akquisition linguistischen Wissens

3.1. Kombinierter Ansatz Overview: Nutze kontextuelle Information und berechne Nachbarschaftskookkurrenzen pro Eingabewort Nutze berechnete Nachbarn, um mit anderen Wörtern zu vergleichen und ähnliche zu finden → sie tragen mit größter Wahrscheinlichkeit gleiche grammatische Markierung Sortiere diese nach Editierabstand und behalte nur 150 ähnlichste → weil weitere nur zusätzliches Rauschen beinhalten Berechne letter successor variety für jede Transition zwischen zwei Buchstaben Melde alle Stellen als Morphemgrenzen, wo LSV größer als Schwellwert WS 05/06 Automatische Akquisition linguistischen Wissens

3.2.2. Overlap Faktor zur Balanzierung
Es gibt Problem mit plötzlichen Frequenzverschiebungen (von Teilstrings) mitten im Wort Die Frequenzverschiebung kann gemessen und als Gewichtungsfaktor genommen werden: wenn 140 von 150 mit –n# enden, dann ist Gewicht 140/150 Aber wenn (wie mit glückliche) nur 16 von 150 mit #g- beginnen, dann ist Gewicht nur 16/150 g l ü c k l i c h e von links / von rechts WS 05/06 Automatische Akquisition linguistischen Wissens

Beispielrechnung Berechne letter split variety: # g l ü c k l i c h e # 2, 1, 1, 2, Berechne overlap factor: also overlap faktoren: / Multipliziere LSV mit OF: / Summiere links- und rechtswerte: Schwellwert: 7 Resultat: glück-lich-e WS 05/06 Automatische Akquisition linguistischen Wissens

3.2.4. Problem #1: Unbekannte Affixverteilungen
Verteilung von Prä- und Suffixen ist unbekannt Daher bekommen frequente Endungen wie –e# besonders hohe Werte, da sie nach praktisch allem vorkommen In seltenen Fällen sind sie jedoch nicht Endungen (z.B. Junge) Daher einfach vorläufige “normalisierung” durch Multiplikation von erster und zweiter Stelle von vorne und von hinten mit Gewichten 0.3 und 0.6 jeweils: s1 s2 s3 … sn-2 sn-1 sn … Das benachteiligt stark kurze Affixe an Rändern von Wortformen, die Hoffnung ist aber, dass sie dennoch häufig genug vorkommen, um in einem folgenden Lernschritt hilfreich zu sein WS 05/06 Automatische Akquisition linguistischen Wissens

3.2.6. Problem #2: Multiletter Grapheme (Grenzen vorher und danach)
Problem: Zwei oder mehr Buchstaben repräsentieren ein Graphem und “verschleppen” den Nenner beim overlap faktor: Letter split variety: # s c h l i m m e Berechne overlap factor: ^ also ist LSV 7 und OL Gewicht1 (18/18), aber weil sch ein Graphem ist, sollte es eher 18/150 sein! Lösung: Ranking von Bi- und Trigrammen, höchster bekommt Gewicht von 1.0 Overlap faktor wird als gewichtetes Mittel zwischen normalem und verschlepptem berechnet, wobei Gewicht vom Ranking das Gewicht im Mittel bestimmt: WS 05/06 Automatische Akquisition linguistischen Wissens

3.2.5. Problem #3: Multiletter Grapheme (Grenzen in der Mitte)
Multiletter Grapheme sollten natürlich auch nie getrennt werden Zum Beispiel das –th– im Englischen sollte niemals getrennt werden Lösung ist wieder das Bigramrankung, welches direkt ein Gewicht für die Multiplikation mit LSV abgibt: 0.1 Gewicht für die am höchsten gerankten und 1.0 für die niedrigsten. WS 05/06 Automatische Akquisition linguistischen Wissens

Beispielrechnung II Finales LSV mit OF von vorhergehenden Schritten: # g l ü c k l i c h e # 2, 1, 1, 2, Berechne overlap factor: Problem #1: Unbekannte Affixverteilung: Problem #2: Multiletter Bi- und Trigramm Gewichte: Problem #3: Bigrammgewicht: Summiere Links- und Rechtswerte: Beispiel i-c von rechts: 4*(36/ *36/129)/( )*0.8 = 2.18 Schwellwert: 3 Finales Resultat: glück-lich-e -lich und –e# sind Suffixe, weil LSV score von rechts war WS 05/06 Automatische Akquisition linguistischen Wissens

3.3. Morphemklassifikation
Simple Klassifikation von Morphemen in Präfixe, Stämme und Suffixe möglich Wenn LSV score von rechts, dann Suffix, sonst Präfix Wenn Suffix länger als die Hälfte des Wortes, dann verdopple den Schwellwert, z.B.: 40-jähr-ig-er (Stamm 40) Was zwischen Suffix und Präfix übrig bleibt, ist Stamm Probleme zum Beispiel: Komposita und verbindende Morpheme Alternationen, Löschungen usw. Da wäre ein komplexerer Ansatz nötig Könnte kombiniert werden mit Klassifikation in freie und gebundene Morpheme WS 05/06 Automatische Akquisition linguistischen Wissens

3.4. Freie Parameter Es bleiben allerdings arbiträre einzustellende Parameter, die möglicherweise Sprachabhängig sind (kleine Änderungen haben allerdings kaum Effekt): 150 ähnlichste Wörter – hängt vermutlich von Flektivität der Sprache ab Schwellwert zwischen 3 und 7 Schwellwert scheint vor allem von Anzahl der möglichen Buchstaben einer Sprache abzuhängen (einschliesslich multiletter Grapheme!) Weitere weniger wichtige Parameter: cooccscue 200 nicht wirklich jedes Wort mit jedem vergleichen cooccsfeature 50 Beim vergleichen nur max 50 Wörter nehmen minsig 4 Minimum significanz 4 maxresults 70 Maximal 70 resultate aufheben minanzahl 2 Profile müssen mindestens 2 Wörter gemeinsam haben WS 05/06 Automatische Akquisition linguistischen Wissens

Zusammenfassung Momentan leidglich Morphemgrenzen finden Selbst dabei unklar, wie Sprachunabhängig das wirklich ist Weitere Analysen (Klassifizieren von freien vs. Gebunden Morphemen z.B.) nächster Schritt WS 05/06 Automatische Akquisition linguistischen Wissens

Referate Referate sollen semantikbasierte Ansätze genauer beschreiben und evtl. vorführen Erstes Referat ist über Schone & Jurafskys Idee beschreiben Zweites Referat ist über Baronis Ansatz WS 05/06 Automatische Akquisition linguistischen Wissens

WS 05/06 Automatische Akquisition linguistischen Wissens

Automatische Akquisition linguistischen Wissens

Ähnliche Präsentationen

Präsentation zum Thema: "Automatische Akquisition linguistischen Wissens"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback

Anmelden

Anmeldung über soziales Netzwerk:

Automatische Akquisition linguistischen Wissens

Ähnliche Präsentationen

Präsentation zum Thema: "Automatische Akquisition linguistischen Wissens"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback