Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Einführung in die KI – Sprachverarbeitung

Ähnliche Präsentationen


Präsentation zum Thema: "Einführung in die KI – Sprachverarbeitung"—  Präsentation transkript:

1 Einführung in die KI – Sprachverarbeitung
Michael Schenke | Einführung in die KI - Sprachverarbeitung 16/09/18 | Seite 1

2 6.1 Computer-linguistik (Vorbemer-kungen)

3 Computerlinguistik Das Fachgebiet, das sich mit der maschinellen Verarbeitung natürlicher Sprache beschäftigt, heißt Computerlinguistik. Anwendungen sind geprägt durch die Natur und Funktionsweise natürlicher Sprache. Sprache dient vor allem der Interaktion und der Kommunikation von Inhalten.   Aber sie hat auch andere Funktionen.

4 Computerlinguistik Genau wie die menschliche Sprachverwendung ist auch die maschinelle Sprachverarbeitung mit den Barrieren der Vielfalt natürlicher Sprachen konfrontiert. Die Frage, wie die Verarbeitung von Sprache bis hin zur Repräsentation des entsprechenden Wissens zu beschreiben ist, beschäftigt die Computerlinguistik.

5 Probleme der Computerlinguistik
Sprache ist nicht klar definiert. Sprache ist nicht formal. Sprache ist nicht statisch. Exakte Behandlung dauert zu lange.

6 Geschichte der Computerlinguistik
Bereits in den 50er Jahren wurde versprochen, daß es möglich sei, einen Text automatisch in eine andere Sprache zu übersetzen. Daß dies nicht so einfach ist, wie es auf den ersten Blick zu seien scheint, zeigen viele Interferenzfehler. Beispiele? Geschichte der Computerlinguistik

7 Geschichte der Computerlinguistik
Seit den 70er Jahren wird intensiv an diesen Übersetzungsproblemen geforscht, ohne eine konkrete allgemeine Lösung. Das liegt vor allem an der Vielseitigkeit von Sprachen. So sind vor allem die Semantik für Computer nicht so umsetzbar, wie für den Menschen. Allerdings gibt es für einige begrenzte Gebiete durchaus automatische Übersetzungen, die auch funktionsfähig sind. So werden Wetterberichte automatisch korrekt übersetzt und auch unterstützend für bei der Humanübersetzung verwendet. Welche Gebiete könnten Sie sich noch vorstellen? Geschichte der Computerlinguistik

8 Geschichte der Computerlinguistik
Computerlinguistik ist heutzutage vielfältig zu finden, egal ob direkt am Computer oder im Smartphone oder bei automatischen Telefonannahmen bei einer Servicehotline. Dabei ist Computerlinguistik ein Gebiet, das zwei Bereiche überschneidet. Informatik und Linguistik sind die Grunddisziplinen, die hier verwendet werden. Die Linguistik, welche sich mit Sprache befaßt, leistet dabei den Grundstock, auf den die Informatik aufbaut, um Algorithmen zur automatischen Verarbeitung zu erstellen. Auf der Grundlage der Computerlinguistik entstanden neue und eigenständige Methoden maschineller Verarbeitungen geschriebener und gesprochener Sprachen. Geschichte der Computerlinguistik

9 6.2 Sprache und ihre Funktionen

10 Funktionen im Allgemeinem:
Kommunikation Kognition Kreativität Kontakt Expressivität

11 anderen Menschen etwas mitteilen
Kommunikation anderen Menschen etwas mitteilen

12 Kognition Ohne Sprache kann man nur rudimentär denken, da man das innere Bild der Welt mit Hilfe der Sprache ordnet. Heidegger: Sprache ist ein Erkenntnisinstrument.

13 Kreativität Man kann durch Sprache eine virtuelle Wirklichkeit strukturieren, kommunizieren. Einhorn, Liebe, Sehnsucht, Romanwelten … Planungen, Alternativen, Geschichte …

14 Kontakt Man reguliert beim Sprechen auch den Kontakt. Der läuft aber auch teilweise nonverbal ab.

15 Expressivität Man drückt sich aus (Lebendigkeit, Monotonie...), man bringt seine Persönlichkeit ein.

16 Funktionen der Sprache nach Jakobson
Referentielle Funktion Emotive Funktion Konative Funktion Phatische Funktion Metasprachliche Funktion Poetische Funktion

17 Roman Ossipowitsch Jakobson
23. Oktober 1896 in Moskau † 18. Juli 1982 in Boston war ein russischer Philologe, Linguist und Semiotiker entwicklete das Kommunikationsmodell

18 Übersicht Gegenstand referentielle Funktion Sender
Bezugspunkt Jakobson Gegenstand referentielle Funktion Sender expressive, emotive Funktion Empfänger appellative (konative) Funktion Kontaktmedium phatische Funktion Kode metasprachliche Funktion Botschaft poetische Funktion

19 Referentielle Funktion
Orientierung auf das Referenzierte Die Sprache bezieht sich auf die Welt, auf die Gegenstände und Sachverhalte. Dies ist die Funktion, an die man normalerweise zuerst denkt.

20 Zorn, Freude, Langeweile, … Mittel (beispielsweise):
Emotive Funktion Die emotive Funktion bringt die Haltung des Sprechers zum Gesprochenen unmittelbar zum Ausdruck. Zorn, Freude, Langeweile, … Mittel (beispielsweise): Ironie, Parodie Interjektionen,Flüche Lautstärke, Spachmelodie, …

21 Konative Funktion primäre Ausrichtung auf den Empfänger, findet reinsten grammatischen Ausdruck im Vokativ(Anrede) und Imperativ(Befehl) Sie sucht eine Handlung oder eine Emotion zu erwecken.

22 Phatische Funktion Die Phatische Funktion ist die Funktion des Haltens, Herstellens, Verlängerns oder Unterbrechens eines sprachlichen Kontaktes. Bsp. der Anfang von Telefongesprächen, die mit immer der gleichen oder ähnlichen Wendung beginnen und versuchen, Kommunikation herzustellen, zu verlängern oder zu erhalten Bsp.: Bist Du noch dran? Hörst Du mir zu?

23 Metasprachliche Funktion
Metasprache bezeichnet allgemein eine Sprache über eine Sprache. Es liegt auch eine erläuternde Funktion vor: Man orientiert sich am Code. Sender u./o. Empfänger wollen kontrollieren, ob beide denselben Code gebrauchen. Bsp.: die Frage an einen Gesprächspartner, was er mit einem bestimmten Wort meine

24 Poetische Funktion Einstellung auf die Botschaft Die poetische Funktion steht für die Struktur, den Aufbau der Mitteilung. Nicht „was“ gesprochen wird ist entscheidend, sondern auch „wie“. Mit welchen Mitteln, auf welche Art und Weise etwas gesprochen oder geschrieben wird, ist entscheidend.  dichterische Sprache, Lautmalerei, rhetorische Mittel (Alliteration, …)

25 6.3 Bereiche der traditionellen Grammatik

26 Bereiche der traditionellen Grammatik
Phonetik/Phonologie Morphologie Flexionsmorphologie Derivationsmorphologie Syntax Semantik Pragmatik Lexik

27 6.3.1 Phonetik

28 Phonetik Die Bezeichnung Phonetik ist aus dem griechischen Wort ϕωνÞ (phōnē) abgeleitet, welches „Laut, Stimme“ bedeutet. Die wissenschaftliche Disziplinen Phonetik hat also etwas mit Lauten zu tun, und zwar mit solchen Lauten, die von Menschen mithilfe ihrer Sprechwerkzeuge hervorgebracht werden, und als Bestandteil menschlicher gesprochener Sprache fungieren können.

29 Phonetik Aufgabe: Laute des menschlichen Sprechapparats beschreiben und klassifizieren Umfang: das gesamte Potential menschlicher Lautbildung Die Klassifikation von Lauten erfolgt über die Beschreibung der physiologischen Mechanismen. Untersuchung des Zusammenspiels von z.B. Zunge, Kehlkopf zur Bildung des Lautes

30 Die Artikulatorische Phonetik beschäftigt sich mit den Eigenschaften von Sprachlauten während des Sprechvorgangs und ihrer Erzeugung durch die Sprechorgane. Die Akustische Phonetik untersucht die physikalischen Eigenschaften des bei der Produktion von Sprachlauten aufgetretenen Schallsignals und seiner Übertragung. Die Auditive (oder perzeptive) Phonetik befaßt sich mit der Wahrnehmung des Schallsignals durch den Hörer und seiner Verarbeitung im Gehirn. Phonetik

31 Phonetik

32 Phonetik

33 Der Luftstrom wird bei Konsonanten im Mund‐ oder Rachenraum behindert
Der Luftstrom wird bei Konsonanten im Mund‐ oder Rachenraum behindert. Konsonanten werden nach drei Kriterien eingeteilt: Artikulationsart: die Art der Luftbehinderung Artikulationsort: die Stelle der Luftbehinderung Stimmton: stimmlos vs. stimmhaft, abhängig von der Position der Stimmlippen. Phonetik

34 Phonetik (Artikulationsarten)
Plosive (Verschlußlaute) werden durch einen totalen Verschluß im Mundraum mit anschließender plötzlicher Öffnung der beteiligten Organe gebildet. Das Velum ist in angehobener Position. Dadurch strömt die Luft durch den Mundraum und nicht durch die Nase (z.B. [p], [k]). Frikative (Reibelaute) werden dadurch gebildet, daß der Luftstrom verengt wird (z.B. [s], [f]).

35 Phonetik (Artikulationsarten)
Nasale: Bei diesen Konsonanten wird das Velum gesenkt, so daß die Luft durch die Nase und nicht durch den Mund entweicht (z.B. [n], [m]). Laterale entstehen durch eine Verschlußbildung in der Mitte des Mundraums. Die Luft entweicht an einer oder an den beiden Zungenseiten (z.B. [l]). Phonetik (Artikulationsarten)

36 Phonetik (Artikulationsarten)
Vibranten werden durch Vibration eines relativ beweglichen Artikulationsorgans erzeugt, z.B. wenn die Zungenspitze mehrmals gegen die Alveolen schlägt (z.B. das sogenannte Zungenspitzen‐r [r]). Affrikaten sind Kombinationen aus einem Plosiv (Verschlußlaut) und einem Frikativ (Reibelaut), die an derselben Artikulationsstelle gebildet werden bzw. deren Artikulationsstellen unmittelbar benachbart sind. Phonetik (Artikulationsarten)

37 Phonetik (Artikulationsarten)
Zu den Affrikaten des Deutschen gehören die folgenden vier Abfolgen von je einem Plosiv und einem Frikativ: [p͡f] wie in <Pflaume>, [t͡s] wie in <Zauber>, [t͡ʃ] wie in <Matsch>, [d͡ʒ] wie in <Dschungel>. Phonetik (Artikulationsarten)

38 Phonetik (Vokale) Im Gegensatz zu Konsonanten wird bei der Artikulation von Vokalen der Luftstrom im Ansatzrohr nicht behindert. Das Ansatzrohr weist eine offene Passage auf, so daß die Luft ungehindert durch den Mundraum strömen kann.

39 Phonetik (Vokale) Vokale sind im allgemeinen orale und stimmhafte Sprachlaute, d.h. sie werden mit Hilfe ausgeatmeter Luft bei angehobenem Velum produziert und die ausgeatmete Luft versetzt beim Passieren der Glottis die Stimmlippen in Schwingungen.

40 Phonetik (Vokale)

41 Phonetik (Vokale) Vokale werden aufgrund dreier artikulatorischer Hauptparameter klassifiziert: Zungenhöhe: die vertikale Lage des höchsten Zungenpunktes im Mundraum. Entsprechend der Entfernung dieses Punktes vom Gaumen ist ein Vokal offen (tief), halboffen (halbtief), halbgeschlossen (halbhoch) oder geschlossen (hoch).

42 Phonetik (Vokale) Zungenlage: die horizontale Lage des höchsten Zungenpunktes im Mundraum. Entsprechend der horizontalen Lage des höchsten Zungenpunktes ist ein Vokal vorne, zentral oder hinten. Lippenrundung: Je nachdem, ob ein Vokal mit gerundeten oder ungerundeten Lippen produziert wird, wird zwischen gerundeten und ungerundeten Vokalen unterschieden.

43 Phonetik (Diphtonge) Diphthonge sind Kombinationen aus zwei Vokalen, die innerhalb einer Silbe vorkommen. Während der Artikulation von Diphthongen sind die Artikulationsorgane beweglicher als bei der Artikulation von Monophthongen: Die Zunge und die Lippen bewegen sich aus einer Vokalposition in eine andere. Das Deutsche kennt drei Diphthonge:

44 Phonetik (Diphtonge) [aɪ]̯ wie in <leise>, <Laib>, [aʊ̯] wie in <Rauch>, <Kakao>, [ɔɪ]̯ wie in <Beute>, <Läuse>, <Leute>.

45 6.3.2 Morphologie

46 Morphologie: Definition
Unter dem Begriff „Morphologie“ (gr.: morphe = Gestalt) versteht man in der Sprachwissenschaft die Lehre von den Formen der Wörter. Sie befaßt sich mit der inneren Struktur von Wörtern und widmet sich der Erforschung der kleinsten bedeutungs- bzw. funktionstragenden Elemente einer Sprache.

47 Begriffsherkunft August Schleicher ( ) Übernahme des Begriffs „Morphologie“ in die Sprachwissenschaft (1860) Leonard Bloomfield ( ) Erstmalige Verwendung des Begriffs „Morphem“ (1926)

48 Terminologie Morph: = kleinster bedeutungstragender Bestandteil eines Wortes  kleinste konkrete sprachliche Äußerung nicht weiter zerlegbare Einheit einer Sprache Ergebnis der Morphemsegmentierung Unterscheidung: grammatische/lexikalische Morphe repräsentieren ein Morphem in bestimmten Umgebungen Bsp: er, Kinder, besser  /er/, /Kind/,/er/, /bess/, /er/ Ein Morph kann als eine Lautform (phonetisch) oder eine Schriftform (graphematisch) aufgefasst werden. er, Kinder, besser: Die drei Morphe /er/ gehören zu unterschiedlichen Morphemen (Personalpronomen, Pluralendung, Komparativendung).

49 Teilbereiche der Morphologie
Die Morphologie wird traditionell in zwei Hauptgebiete bzw. drei Teilbereiche aufgeteilt: Flexionsmorphologie (Flexion) Wortbildung: Derivationsmorphologie (Wortableitung) Komposition (Wortzusammensetzung) Flexion = Wortformenbildung

50 Flexionsmorphologie (Flexion):
bezeichnet die Änderung der Gestalt eines Wortes (Lexem) zum Ausdruck seiner grammatischen Merkmale/Funktion im Satz beschäftigt sich mit der Abwandlung von Wörtern, um sie ihrem syntaktischen Kontext anzupassen Zur Flexionsmorphologie gehören: Deklination Konjugation Komparation Flexion = Wortformenbildung

51 Derivationsmorphologie (Wortableitung)
Sie untersucht die Möglichkeiten einer Sprache, neue Wörter aus vorhandenen Bestandteilen zu bilden, besonders die Art der Wortbildung, bei der ein Basiswort (= Stamm) mit einem Wortbildungselement (= Affix, meist Präfix oder Suffix) verbunden wird. Affix = Bildungselement, das zur Wurzel oder zum Stamm eines Wortes hinzutritt (Präfix, Suffix) Präfix = vor ein Wort, einen Wortstamm gesetzte Ableitungssilbe; Vorsilbe (z. B. be-, ent-, un-, ver-, zer-) Suffix = an ein Wort, einen Wortstamm angehängte Ableitungssilbe; Nachsilbe (z. B. -ung, -heit, -chen)

52 Kompositionsmorphologie
untersucht die Möglichkeiten einer Sprache, Wörter zusammenzusetzen, die auch alleine (frei bzw. selbstständig) stehen können. Wortbildung durch „Stamm + Stamm“ => Erzeugung eines neuen Wortes („Kompositum“)

53 Teilbereiche der Morphologie
Die deutsche Sprache ist bekannt für Möglichkeit, potentiell unendlich lange Komposita zu bilden z. B.: Donaudampfschiffahrtskapitänswitwenlebensversicherungsvertragsnovellierungsgesetz Problem für automatische Sprachverarbeitung : Wo hört ein Wortbestandteil auf, wo fängt der nächste an? im Englischen Tendenz zur Phrasenbildung Im Englischen Tendenz zur Phrasenbildung, aber: Welche Wörter gehören zu einer Phrase zusammen?

54 Teilbereiche der Morphologie

55 Morphologie in der CL wesentliche Aufgaben in der Computerlinguistik: Reduktion komplexer Wörter/Wortformen auf ihre Bestandteile, Identifikation von grammatischer Information, die in den Wörtern kodiert ist (z. B. Kasus, Numerus, Tempus).

56 Morphologie in der CL Die wesentliche Methode, wie Morphologie in der Computerlinguistik behandelt wird, ist die Verwendung von Transduktoren. Das sind Übersetzungsmaschinen, die auf endlichen Automaten beruhen.

57 6.3.3 Lexik

58 Lexik Die Lexik ist die Disziplin, die sich mit der Wortebene beschäftigt. Unter dem Lexikon einer Sprache versteht man den Wortbestand der gesamten Sprache. Mit dem Lexikon beschäftigen sich zwei Disziplinen: die Lexikologie und die Lexikographie. Die Lexikologie untersucht Strukturen und Zusammenhänge im Wortbestand.

59 Lexik Die Lexikographie hat die Aufgabe, den Wortbestand einer Sprache zu beschreiben. Dies geschieht in der Regel mittels Wörterbüchern. Es gibt eine Reihe verschiedener Wörterbuchtypen. Beispiele sind Rechtschreibwörterbücher, Übersetzungswörterbücher, Häufigkeitswörterbücher, grammatische (z.B. morphologische) Wörterbücher, Synonym-Wörterbücher (die Wörter gleicher oder ähnlicher Bedeutung angeben), etymologische (oder Herkunfts-) Wörterbücher u.v.m.

60 6.3.4 Semantik

61 Semantik Was soll eine semantische Analyse der natürlichen Sprache leisten? Erfassen der Bedeutung von sprachlichen Ausdrücken durch deren intuitiv angemessene und korrekte Repräsentation, Erklärung von Folgerungsbeziehungen und Synonymien zwischen Sätzen,

62 Semantik Aufklärung von Ambiguitäten, Anomalien und Kontradiktionen,
Spezifikation der kombinatorischen Prinzipien, mittels derer aus den Bedeutungen einfacher Ausdrücke die Bedutung komplexerer Ausdrücke gebildet werden, Explikation des systematischen Bezugs zwischen Ausdrücken und den Begebenheiten in der Welt, insbesondere die Bedingungen, unter denen Sätze wahr sind.

63 Semantik Die formale Semantik ist aus der Tradition der sprachanalytischen Philosophie (Frege, Russell, Wittgenstein,…) hervorgegangen. Sie nutzt Begriffe und Methoden der mathematischen Logik für die semantische Analyse.

64 Prädikatenlogische Semantik
Aussagesätze werden mit Hilfe von Prädikatssymbolen im Rahmen der PL interpretiert. Nur Peter ist intelligent. intelligent(Peter)  x((x = Peter)  (intelligent(x)))

65 Probleme der PL- Semantik
Nicht nur Peter ist intelligent. (intelligent(Peter)  x((x = Peter)  (intelligent(x)))) korrekt wäre  x((x = Peter)  (intelligent(x))))

66 PL-Semantik Solche Probleme haben zunächst dazu geführt, zwei Schichten der Interpretation anzunehmen, eine mit der direkten Aussage (Assertion) beschäftigte und eine, die eine Anforderung an die sinnvolle Verwendbarkeit der Äußerung überhaupt darstellt (Präsupposition). Im letzten Beispiel ist „Peter ist intelligent.“ eine unausgesprochene Voraussetzung und überlebt daher die Negation.

67 Weitere Probleme der PL-Semantik
Weitere Probleme der PL-Semantik 1. Wie wird die Semantik dem sprachlichen Ausdruck zugeordnet? Die Semantik kann nicht kompositionell sein. Lösungsversuche: andere Logiken höhere Logik λ-Kalkül

68 Weitere Probleme der PL-Semantik
Weitere Probleme der PL-Semantik 2. PL-Semantik ist nicht hinreichend ausdrucksstark. Neben abgrenzbaren Objekten gibt es generische („Das Mammut ist ausgestorben“) und beliebig teilbare Objekte („Wasser“). Zeiten bei Verben Relationen bei Präpositionen Peter ist ein leidenschaftlicher Informatiker. vs. Peter ist ein promovierter Informatiker.

69 Weitere Probleme der PL-Semantik
Weitere Probleme der PL-Semantik 3. PL-Semantik ist zu präzise. Mehrdeutigkeit Skopus der Quantoren Kontextabhängigkeit Andere Semantikformalismen können auch nicht alle Probleme lösen, aber zum Glück wird eine hundert-prozentige Präzision auch gar nicht benötigt.

70 Montague-Semantik Der amerikanische Logiker Richard Montague war
Montague-Semantik Der amerikanische Logiker Richard Montague war der Ansicht, daß kein wesentlicher Unterschied bestehe zwischen natürlichen und formalen Sprachen. Natürliche Sprachen sind prinzipiell den selben formalen Methoden zugänglich wie z.B. die Sprachen der formalen Logik.

71 Montague-Semantik In der Montague-Semantik, dem Prototyp einer formal-semantischen Theorie der natürlichen Sprache, wird ein abstrakter logischer Rahmen angenommen, in den sich sowohl natürliche als auch formale Sprachen einbetten lassen. Die Montague-Semantik gilt als die angemessene semantische Entsprechung zu den auf Chomski-Grammatiken aufbauenden Syntax-Formalismen.

72 Typen in der Montague-Semantik
Typen in der Montague-Semantik In der Montague-Semantik gibt es zwei Basistypen: e („entity“, Individuenausdrücke) t („truth value“, Sätze)

73 Typen in der Montague-Semantik
Kategorie Beispiele Typ Prädikats-konstanten Student arbeitet <e,t> Relationskonst.(2-stellig) größer als <e,<e,t>> Adjektive gut <<e,t>,<e,t>> Gradmodifi-katoren sehr <<<e,t>,<e,t>>, <<e,t>,<e,t>>> Determina-toren jeder <<e,t>,<<e,t>,t>>

74 Montague-Semantik Die Montague-Semantik fußt auf dem λ-Kalkül. So werden beispielsweise Sätze angesehen als Abbildungen von Syntaxkonstrukten in Wahrheitswerte, Nominalphrasen als Abbildungen von Verbalphrasen in ganze Sätze (falls die Syntax das erlaubt), Verbalphrasen als Abbildungen von Nominalphrasen in ganze Sätze (falls die Syntax das erlaubt),

75 Montague-Semantik Nominalphrasen können dargestellt werden durch
Montague-Semantik Nominalphrasen können dargestellt werden durch λ vp. satz(np vp). Verbalphrasen können dargestellt werden durch λ np. satz(np vp). Beides sind Spezialfälle von λ np. λ vp. satz(np vp) ( = λ vp. λ np. satz(np vp) ).

76 Montague-Semantik Beispiele: Was bedeuten λF λG x(F(x)  G(x)),
λF λG x(y( F(y)  x=y)  G(x))?

77 Montague-Semantik Beispiele: Was bedeuten λF λG x(F(x)  G(x)),
λF λG x(y( F(y)  x=y)  G(x))? jeder mindestens ein der

78 Montague-Semantik λF λG x(F(x)  G(x))(student)(arbeitet)
λG x(student(x)  G(x))(arbeitet) x(student(x)  arbeitet(x))

79 Montague-Semantik λF λG x(y( F(y)  x=y)  G(x)) (Bundespräsident)(wohnt_in_Berlin) λG x(y(Bundespräsident(y)  x=y)  G(x)) (wohnt_in_Berlin) x(y(Bundespräsident(y)  x=y)  wohnt_in_Berlin(x))

80 Montague-Semantik Kritik-Punkte: Fixierung auf Wahrheitswerte ,
Gleichsetzung natürlicher und formaler Sprachen, Ausklammerung anderer Sprachfunktionen, keine Möglichkeit, mögliche Welten zu definieren (modale Logik), keine befriedigende Einbeziehung von Kontexten.

81 Was fehlt? lexikalische Semantik Diskurssemantik

82 Lexikalische Semantik
Der Bereich der lexikalischen Semantik ist der Teil der Semantik, der für praktische Anwendungen am wenigsten erschlossen ist. Es sollen einige Beispiele für Probleme vorgeführt werden. Trotzdem waren solche Überlegungen gerade für die Informatik fruchtbar. Insbesondere die Vererbung in der OO ist eins ihrer Resultate.

83 Lexikalische Semantik
Der Gedanke liegt nahe, die Wörter wie in der Prädikatenlogik durch Relationen mit einer Semantik zu versehen: Das Wort promoviert wird über eine Relation promoviert vom Typ <e,t> interpretiert. Die Semantik ist dann λF λx(promoviert(x)  F(x))

84 Lexikalische Semantik
Es hat viele Versuche gegeben, den Wortschatz mit Hilfe einer kleinen Zahl atomarer semantischer Konzepte zu dekomponieren. Trotz vieler Ansätze und Teilerfolge sind diese Versuche angesichts der Größe und der Heterogenität des Lexikons letztlich alle gescheitert.

85 Lexikalische Semantik
Ein Versuche war es, den Wörtern Sortenbeschränkungen zuzuordnen. Funktor und Argument müssen zusammenpassen. reden -> menschliches Subjekt sterben -> belebtes Subjekt wiegen -> physisches Subjekt Entstehung von Sortenverbänden (Vererbung)

86 Lexikalische Semantik
Hans und Peter schlafen. λF λx λy(F(x)  F(y))(schlafen)(Hans)(Peter) Aber als Kollektiv geht das nicht. Hans und Peter streiten. Andere kollektive Prädikate: beraten, beschließen … „Lösung“: Gruppenbildungsoperator: H+P Das geht für Stoffe (Wasser, Gold) nicht, da es keine elementaren Objekte gibt.

87 Diskurssemantik Die traditionelle typentheoretische Semantik ist satzgebunden. Ein wichtiges Problem ist es, im Kontext Referrenzobjekte in einer Reihe von Fällen zu finden: definite Artikel Personalpronomen zeigende Pronomen (Deixis) Infinitivsätze

88 Diskurssemantik – weitere Probleme
Präsupposition: Der gegenwärtige König von Frankreich ist kahlköpfig. Ellipse: Hans hat seine Freundin getroffen. Peter auch.

89 6.3.5 Pragmatik

90 Pragmatik Die Pragmatik (von griechisch pragma „Handlung“, „Sache“) beschäftigt sich mit der Beschreibung von kontextabhängigen und nicht-wörtlichen Bedeutungen bei der Verwendung von sprachlichen Ausdrücken in jeweils konkreten Situationen und mit den Bedingungen für ihr Entstehen. Die Pragmatik untersucht den Inhalt konkreter sprachlicher Äußerungen (also Akte, welche in einer konkreten Situation und im Zusammenhang mit einem Kontext von einem Sprecher ausgeführt werden oder von einem Hörer wahrgenommen wurden).

91 Pragmatik Beispiel: „Können Sie mir sagen, wie ich zum Bahnhof komme?“
„Ja.“

92 6.4 Syntax  

93 6.4.1 Kontextfreie Grammatiken

94 Kontextfreie Grammatiken
Kontextfreie Grammatiken liefern einen formalen Kalkül, also ein Ersetzungssystem. Dieses definiert im Sinne der Informatik die Sprache als eine Menge von Wörtern (im Sinne der Linguistik: Sätzen). Jedes Wort ist eine Folge von Symbolen (Wörtern). Jeder Satz kann durch einen Ableitungsbaum dargestellt werden. Dieser repräsentiert die Struktur des Satzes.

95 Kontextfreie Grammatiken
Eine kontextfreie Grammatik ist ein 4-Tupel G = (N,T,P, S). Dabei seien: N die endliche Menge der Nichtterminale, T die endliche Menge der Terminale, P die endliche Menge der Produktionen (Regeln) mit 𝐴→𝑏 mit linker Seite 𝐴∈𝑁 und rechter Seite 𝑏∈ 𝑁∪𝑇 ∗ , S das Startsymbol 𝑆∈𝑁 . Wir verlangen, daß N und T disjunkte Mengen sind (𝑁∩𝑇= ∅) und |b| > 0.

96 Kontextfreie Grammatiken
In der Computerlinguistik wird gefordert, daß die Regeln sogar eingeschränkt sind: 𝐴→𝑏 mit linker Seite 𝐴∈𝑁. Die rechte Seite soll dann eine von zwei Formen haben: 𝑏∈ 𝑁 ∗ 𝑏∈ T Die ersten Regeln heißen strukturelle Regeln, die zweiten lexikalische Regeln. Die Sprachklasse ändert sich durch diese Einschränkung nicht.

97 Kontextfreie Grammatiken
Gegeben: Grammatik G = (N,T,S,P), Wort w ∈ (N*  T), p  q Ersetzungsregel aus P, w habe die Form w = xpy. Dann ist v = xqy ableitbar aus w, geschrieben w  v. Es ist L(G) = {w ∈ T ∗ | S * w} die Sprache von G.

98 Ein Ableitungsbaum <Satz> <VP> <NP> <NP>
<Artikel> <Substantiv> <Verb> <Artikel> <Substantiv> die hund jagt der maus

99 Probleme mit Ableitungsbäumen in der Computerlinguistik
Finde Baum zu gegebenem Satz /Grammatik. Parsing, Compilerbau Übereinstimmung (Kongruenz) in Kasus Numerus Genus Subkategorisierung (Stelligkeit der Satzglieder)

100 6.4.2 F-Strukturen

101 Kongruenz der Kasus Nom. Gen. Dat. Numerus Sg. Pl. Genus mask fem
Kasus Nom. Gen. Dat. Numerus Sg. Pl. Genus mask fem beliebig

102 Kongruenz Hund Kasus Nom. Dat. Akkus. Numerus Sg Genus mask

103 Kontextfreie Grammatiken
Damit ist „der Hund“ eindeutig bestimmt. Problem: Die Bestimmung ist nicht immer eindeutig; so kommt es zu Doppeldeutigkeiten in der inhaltlichen Interpretation. So kann „der Händler“ ein nom. Sg. oder ein gen. pl. sein. Manchmal läßt sich die Doppeldeutigkeit durch die Einbettung in den Satz klären. Manchmal ist der Satz selber doppeldeutig.

104 Subkategorisierung Stelligkeit der Verben schlafen sehen vertrauen geben kosten gedenken anklagen

105 Subkategorisierung Die Subkategorisierung wird mit Hilfe von „F-Strukturen“ behandelt. Eine F-Struktur ist eine partielle Funktion mit den folgenden Eigenschaften: Die Elemente der Urbildmenge entsprechen grammatikalischen Kategorien. Die Elemente der Bildmenge sind Werte der Kategorien oder wieder F-Strukturen.

106 Subkategorisierung TEMP PERS PRÄS 3 NUM sg PRED < ↑SUBJ, ↑ OBJ >
PRÄS 3 NUM sg PRED < ↑SUBJ, ↑ OBJ > SUBJ CASE nom OBJ CASE akk

107 Subkategorisierung Getreu der Bottom-Up-Philosophie wird mit den einzelnen Terminalen begonnen. Hierzu werden die Lexikoneinträge herangezogen. In der F-Struktur für „jagt“ wird eine Liste der Ergänzungen eröffnet. Das Objekt, das sich auf „jagt“ bezieht, muss im 4. Fall stehen und entspricht „die maus“. Dann soll die F-Struktur des Satzes entwickelt werden, indem auf die Bottom-Up-Weise die einzelnen F-Strukturen der Terminale „in einander eingesetzt“ werden.

108 Subkategorisierung TEMP PERS PRÄS 3 NUM sg PRED < ↑SUBJ, ↑ OBJ >
PRÄS 3 NUM sg PRED < ↑SUBJ, ↑ OBJ > SUBJ CASE nom OBJ CASE akk NUM sg GEN fem Subkategorisierung

109 Subkategorisierung TEMP PERS PRÄS 3 NUM sg PRED < ↑SUBJ, ↑ OBJ >
PRÄS 3 NUM sg PRED < ↑SUBJ, ↑ OBJ > SUBJ CASE nom NUM sg GEN masc. OBJ CASE akk GEN fem Subkategorisierung

110 6.5 Natural Language Processing

111 Information Retrieval (IR)
Information Retrieval heißt Informationsrückgewinnung. IR beschäftigt sich mit der computergestützten Suche nach komplexen Inhalten. Mit Einzug des Internet, wurde IR in den 90ern für die Allgemeinheit besonders interessant, da plötzlich jeder Nutzer des Netzes vor einer gigantischen Sammlung von Online-Dokumenten stand. Mit den Websuchmaschinen zogen IR Systeme dann in den Alltag ein.

112 Klassischer Suchzyklus

113 Precision und Recall Die Qualität einer Recherche kann anhand von zwei Bezugsgrößen gemessen werden: Precision und Recall. Sie sind die klassischen Standardmaße des Information Retrievals zur Evaluierung der Effektivität von Suchergebnissen. Die Precision mißt, wie groß der Anteil der für eine Fragestellung relevanten Treffer an der Gesamttreffermenge ist und ist somit ein Maß für die Genauigkeit der Recherche. Eine Treffermenge mit hoher Precision enthält nur wenig irrelevante Treffer.

114 Precision und Recall Der Recall mißt, wie viele der für eine Fragestellung relevanten Dokumente im Verhältnis zum Gesamtbestand der relevanten Dokumente gefunden werden. Er ist ein Maß für die Vollständigkeit der Recherche. Mit steigender Precision sinkt in der Regel der Recall und umgekehrt. (trade off)

115 Klassischer Suchzyklus Suchergebnisse
𝑷𝒓𝒆𝒄𝒊𝒔𝒊𝒐𝒏: 𝒂 𝒃+𝒂 𝑹𝒆𝒄𝒂𝒍𝒍: 𝒂 𝒄+𝒂

116 6.5.1 Linguistische Vorbereitung des IR

117 Inzidenzmatrix Zur technischen Darstellung von Dokumenten gibt es mehrere Möglichkeiten. Die Inzidenzmatrix ist eine der möglichen Darstellungsformen, deren Anwendung im folgenden anhand eines praktischen Beispiels erläutert wird. Als Menge D der Ausgangsdokumente dienen die gesammelten Werke von W. Shakespeare.

118 Inzidenzmatrix Die Anfrage lautet: Welche dieser Werke enthalten die Worte „Brutus“, „Caesar“ aber nicht „Calpurnia“?

119 Inzidenzmatrix ↑Lexikon Dokumente werden durch Spaltenvektoren dargestellt, Wörter durch Zeilenvektoren.

120 Die Anfrage wird durch boolesche Operationen auf Vektoren von Wahrheitswerten beantwortet.
Dokumente werden lediglich nach dem Vorkommen oder Fehlen von Stichwörtern untersucht. Vorteile Nachteile korrektes Ergebnis; einfach zu verstehen und zu implementieren keine Information über die Wichtigkeit der Wörter

121 6.5.2 Der invertierte Index Inzidenzmatrizen enthalten sehr viele Nullen und nur wenige Einsen. Die Idee ist daher, nur die 1-Einträge zu speichern und die 0-Einträge auszulassen. Als Ergebnis erhält man eine Liste, die angibt, in welchen Dokumenten ein Wort zu finden ist. Der invertierte Index erlaubt es, sehr effizient die Liste der Dokumente festzulegen, in denen ein bestimmter Term auftritt.

122 N Anzahl der Dokumente M Worte/Dokument L Lexikongröße Die Gesamtlänge aller Listen entspricht der Anzahl der 1- Einträge. M∗N Zusätzlicher Platzbedarf: 1∗L für das Lexikon und 1∗L für den Zeiger

123 Die Kosten für die Erstellung des invertierten Indexes sind in
o(M*log M*N+L) Zu jeder Liste wird ihre Länge hinzugefügt. Dabei handelt es sich um die Anzahl der Dokumente, in denen das Wort vorkommt. Diese Größe wird als document frequency ( 𝑑𝑓 𝑤 ) bezeichnet. 5M*N

124 Algorithmen auf dem Invertierten Index
Aufwand: o(x+y) Dieser Algorithmus ist relativ schnell.

125 6.5.3 Ranked Retrieval Gegeben sei die Dokumentmenge {Doc1, …, DocN}, außerdem eine Anfrage q (query). Man will eine Reihenfolge auf der Menge der Dokumente finden, die ihre Relevanz für q angibt. Die Anfrage wird als zusätzliches Dokument aufgefaßt. Zunächst sollen nur Anfragen der Länge 1 behandelt werden.

126 6.5.3 Ranked Retrieval Um die Problemstellung zu lösen, wird ein Ähnlichkeitsmaß s (similarity) auf der Menge D = {Doc1, …, DocN, q} benötigt. Dazu werden folgende Vorüberlegungen getroffen: s: D x D -> [0,1] s(d1, d1) = 1, s(d1, d2) = s(d2, d1) Im Prinzip ist normales Retrieval auch ein „Ranked Retrieval“. Allerdings ist der Bildbereich von s in {0,1} enthalten.

127 Der große Nachteil des normalen Retrievals besteht darin, daß es sehr schwer ist, ja/nein-Anfragen so zu formulieren, daß nur die besten 100 Ergebnisse ausgegeben werden (meistens 0 oder ). Auch folgende Überlegungen bezüglich der Anfrageergebnisse müssen berücksichtigt werden: Ein Dokument, in dem das Suchwort häufiger vorkommt ist wichtiger. Seltene Wörter sind signifikanter, als häufige Wörter (die | Arachnophobie).

128 Der Jacquard-Koeffizient
Die Dokumente werden als Menge betrachtet. Allerdings gehen dabei folgende Dokumenteigenschaften verloren: Sinnzusammenhänge Häufigkeit der Wörter Positionsinformation Der bekannteste mathematische Ansatz für Ähnlichkeitsmaße auf Mengen ist der sogenannte Jacquard- Koeffizient (endliche Mengen A, B). 𝑱 𝑨, 𝑩 = |𝑨𝑩| |𝑨𝑩|

129 Eigenschaften: 𝐉 𝐀, 𝐀 =𝟏 𝐉 𝐀, 𝐁 =𝟎↔𝐀𝐁=∅ Warum ist der Jacquard-Koeffizient hier nicht die beste Lösung?

130 Anfrage Q: Oktober Revolution
Dokumente: D1 Lenin war der Held der großen Revolution D2 Wein goldener Oktober Ergebnisse: 𝐉 𝐐, 𝐃 𝟏 = 𝟏 𝟖 𝐉 𝐐, 𝐃 𝟐 = 𝟏 𝟒 Das Dokument D1 schneidet im Vergleich mit Dokument D2 schlechter ab.

131 Mathematischer Exkurs: Multimengen
Eine Multimenge (engl. bag) ist eine Verallgemeinerung des Begriffs der Charakteristischen Funktion einer Menge: Sei 𝑴 eine Menge, dann heißt die Funktion 𝜸 𝑴 charakteristische Funktion von 𝑴, falls gilt: 𝜸 𝑴 𝒙 = 𝟏 𝒙∈𝑴 𝟎 𝒙∉𝑴 Verallgemeinerung auf Multimengen: Sei 𝑴 Multimenge 𝜸 𝑴 𝒙 =𝑨𝒏𝒛𝒂𝒉𝒍 𝒅𝒆𝒓 𝑽𝒐𝒓𝒌𝒐𝒎𝒎𝒆𝒏 𝒗𝒐𝒏 𝒙 𝒊𝒏 𝑴

132 Term-Dokument-Zählmatrix
Jede Spalte ist die Multimengen-Darstellung eines Dokuments. Die Wichtigkeit eines Begriffes für ein Dokument wächst einerseits mit der Häufigkeit. Andererseits …

133 Exkurs: Information Die Information eines Ereignisses e ist eine Funktion f der Wahrscheinlichkeit p(e). Sie ist additiv für unabhängige Ereignisse e1, e2 . 𝐼 𝑒 1 ,𝑒 2 = 𝐼 ( 𝑒 1 )+ 𝐼 ( 𝑒 2 ) Die Funktion f besitzt folgende Eigenschaften: f ist streng monoton fallend, f ist stetig, f(1) = 0, f(x) ->  für x -> 0,

134 Exkurs: Information Seien e1, e2 unabhängige Ereignisse. Dann gilt  𝑝 𝑒 1 , 𝑒 2 = 𝑝 𝑒 1 ∗ 𝑝 𝑒 2 und daher 𝐼( 𝑒 1 , 𝑒 2 ) = 𝑓(𝑝( 𝑒 1 , 𝑒 2 )) = 𝑓(𝑝( 𝑒 1 ) ∗ 𝑓(𝑝 ( 𝑒 2 )) andererseits 𝐼( 𝑒 1 ) + 𝐼( 𝑒 2 ) = 𝑓(𝑝( 𝑒 1 ) + 𝑓(𝑝 ( 𝑒 2 ))  folglich f(x*y) = f(x)+f(y) für alle x,y  [0,1]

135 Exkurs: Information Die mathematische Analyse ergibt, daß nur eine Klasse von Funktionen alle genannten Eigenschaften erfüllt: die negativen Logarithmus-Funktionen. Die Basis ist unwichtig. Praktisch ist die Basis 2. Beispiel: Münzwurf (Kopf oder Zahl) I (Zahl) = f (p(Zahl)) = −log 2 (p(Zahl)) = −log = 1 (ein Bit)

136 = & 𝑙𝑜𝑔 𝑡𝑓 𝑡𝑑 +1 𝑓ü𝑟 𝑡𝑓 𝑡𝑑 >0 &0 𝑓ü𝑟 𝑡𝑓 𝑡𝑑 =0
Die Wichtigkeit des Terms t im Dokument d wächst mit der Term-Frequenz (Häufigkeit von t in d). Die Wichtigkeit wächst nicht proportional mit der Häufigkeit. Die Wichtigkeit wächst proportional zur Information, die t in d liefert – also mit log tf td . Das Gewicht w td des Terms t im Dokument d wird definiert durch: = & 𝑙𝑜𝑔 𝑡𝑓 𝑡𝑑 +1 𝑓ü𝑟 𝑡𝑓 𝑡𝑑 >0 & 𝑓ü𝑟 𝑡𝑓 𝑡𝑑 =0 𝑤 𝑡𝑑

137 Die Wertetabelle verdeutlicht die Gewichtung
in Abhängigkeit von der Häufigkeit.

138 Die Dokument-Frequenz dft
Die Dokument-Frequenz 𝑑𝑓 𝑡 entspricht der Anzahl der Dokumente, in denen der Term t vorkommt. Beispiel: N = Dokumente

139 Die Dokument-Frequenz dft
Der Informationswert eines Terms t ist also 𝐼 𝑡 =− log 𝑑𝑓 𝑡 N =log(N/ df t ) Dieser Wert wird als inverse Dokumentfrequenz von t bezeichnet.

140 Die 𝑡𝑓−𝑖𝑑𝑓-Gewichtung ist das Produkt von 𝑤𝑡 𝑑 (der mit dem Logarithmus gewichteten 𝑡𝑓) und 𝑖𝑑𝑓 (der ebenfalls mit dem Logarithmus gewichteten inversen Häufigkeit des Terms in verschiedenen Dokumenten). Die Term-Dokument-Zählmatrix wird in eine Matrix überführt, deren Einträge anstelle der 𝑡𝑓 𝑑𝑡 die zugehörigen 𝑡𝑓−𝑖𝑑𝑓- Gewichte enthalten. Falls 𝑡 in 𝑑 vorhanden ist, steht in der Gewichtsmatrix folgender Eintrag: 𝑡𝑓 𝑖𝑑𝑓 𝑡𝑑 = 1+𝑙𝑜𝑔 𝑡𝑓 𝑡𝑑 ∗𝑙𝑜𝑔 𝑁 𝑑𝑓 𝑡

141 Die 𝒕𝒇 𝒊𝒅𝒇−𝑴𝒂𝒕𝒓𝒊𝒙 ist dünn besetzt (fast ausschließlich Nullen)
Die 𝒕𝒇 𝒊𝒅𝒇−𝑴𝒂𝒕𝒓𝒊𝒙 ist dünn besetzt (fast ausschließlich Nullen). Daher ist es unter Umständen am günstigsten, nur die Positionen im Werk zu suchen, die ungleich 0 sind. Die Datenstruktur wird dadurch viel kleiner. Ein Nachteil ist aber andererseits, daß die Algorithmen in der Positionsdarstellung langsamer sind.

142 Welches der beiden Worte eignet sich besser als Suchbegriff?
Welches der beiden Worte eignet sich besser als Suchbegriff? Das Wort Versicherung eignet sich im Vergleich zu Versuchen eindeutig besser, da es in wenigen Dokumenten häufig vorkommt und daher signifikanter ist.

143 Anfrage mit mehreren Wörtern
Gegeben seien die Anfrage 𝑞 mit unter Umständen mehreren Wörtern und ein Dokument 𝑑. Der score (also die Wichtigkeit) berechnet sich wie folgt: 𝑠𝑐𝑜𝑟𝑒 𝑞, 𝑑 = 𝑡 ∈𝑞 ∩𝑑 𝑡𝑓 𝑖𝑑𝑓 𝑡𝑑

144 Ähnlichkeit auf Mengen
Bei der Definition der Ähnlichkeit auf Mengen existieren traditionell zwei Ansätze: Distanzfunktionen (Metriken) Direkte Ähnlichkeitsmaße

145 Metrik Der Begriff Metrik umschreibt die Abstandsmessung in der Mathematik. Wie wird der Abstand zwischen zwei Punkten gemessen? 𝒅=𝑽𝒙𝑽 → ℝ + 𝒅 𝒗 𝟏 ,𝒗 𝟐 =𝟎 genau für 𝒗 𝟏 =𝒗 𝟐 𝒅( 𝒗 𝟏 ,𝒗 𝟐 )=𝒅( 𝒗 𝟐 ,𝒗 𝟏 ) 𝒅 𝒗 𝟏 ,𝒗 𝟑 ≤𝒅 𝒗 𝟏 ,𝒗 𝟐 + 𝒅 𝒗 𝟐 ,𝒗 𝟑 (Dreiecksungleichung)

146 Ein einfaches Beispiel einer Distanzfunktion ist die chaotische Metrik.
&0 für 𝑥=𝑦 &1 sonst 𝑑 𝑥,𝑦 =

147 Dokumente im Vektorraum
Die Spalten der Gewichts- wie auch der Term-Dokument- Zählmatrix bilden Vektoren eines Vektorraumes V. Die Wörter bilden eine Orthogonal-Basis von V, also der Dimension L. In der tf idf−Matrix gilt: Das Dokument 𝒅 𝒊 ist dargestellt als: 𝑑 𝑖 = 𝑡𝑓 𝑖𝑑𝑓 1, 𝑖 : : 𝑡𝑓 𝑖𝑑𝑓 2, 𝑖 : 0 +…+ 𝑡𝑓 𝑖𝑑𝑓 𝐿, 𝑖 0 : : 0 1

148 Beispiel: Euklidischer Abstand
𝑑 𝑥 1 𝑥 2 , 𝑦 1 𝑦 2 = ( 𝑥 1 − 𝑦 1 ) 2 + ( 𝑥 2 − 𝑦 2 ) 2  Berechnung von 𝑑 , 2 7 𝑥 1 − 𝑦 1 =3 𝑥 2 − 𝑦 2 =4 𝑑= = 5

149 Beispiel: Manhattan Distanz
Die Manhattan-Distanz ist der kürzeste Weg zwischen zwei Feldern, wenn nur horizontale und vertikale Schritte von Feld zu Feld erlaubt sind. Das Bild links zeigt drei verschiedene Wege zwischen den beiden Punkten A und B; alle drei sind gleich lang. 𝒅 𝒙 𝟏 𝒙 𝟐 , 𝒚 𝟏 𝒚 𝟐 =| 𝒙 𝟏 − 𝒚 𝟏 |+| 𝒙 𝟐 − 𝒚 𝟐 |

150 Die Verallgemeinerung auf beliebige Dimensionen ist offensichtlich.
Euklidisch: 𝑑 𝑥 1 … 𝑥 𝑘 , 𝑦 1 … 𝑦 𝑘 = 𝑖=1 𝑘 ( 𝑥 𝑖 − 𝑦 𝑖 ) 2 Manhattan: 𝑑 𝑥 1 … 𝑥 𝑘 , 𝑦 1 … 𝑦 𝑘 = 𝑖=1 𝑘 | 𝑥 𝑖 − 𝑦 𝑖 |

151 Die Aufgabe bei einer Anfrage q mit Dokumenten 𝐷 1,…, 𝐷 𝑛 lautet also beim metrischen Ansatz:
Bestimme alle 𝑑(𝑞, 𝐷 𝑖 ), wobei 𝑞, 𝐷 𝑖 als Elemente des Vektorraumes V aufgefaßt sind. Suche davon die kleinsten.

152 Beispiel 1: Ein Teilraum, der von „Gerücht“ und
„Eifersucht“ aufgespannt wird. Anfrage q: Gesucht wird ein Dokument d, in dem die Worte „Gerücht“ und „eifersüchtig“ vorkommen. q={Gerücht,eifersüchtig} In Manhattan-Distanz: d q, d 1 = 3 d q, d 2 =3 d q, d 3 =5 Welches Dokument würde bei der Euklidischen Metrik ausgewählt?

153 Die Bedeutung von Winkeln
Sei d ein Dokument. Das Dokument d‘ bestehe aus drei aneinander gehängten Kopien von d. Inhaltlich sind d und d‘ identisch, also sollte d(d,d‘)=0 sein. Die Distanzen können aber beliebig groß werden, wenn Viele Kopien konkateniert werden. In der Praxis hat sich der Winkel zwischen beiden Dokumenten als das praktikabelste Maß herausgestellt. Daher ergeben sich folgende Problemstellungen: Wie gelangt man vom Abstand (Winkel) zum Ähnlichkeitsmaß? Wie wird der Winkel überhaupt berechnet?

154 Der Abstand sei gegeben durch den Winkel: ∠: 𝑉×𝑉→[0, 𝜋 2 ]
Vom Winkel zu Ähnlichkeitsmaß Der Abstand sei gegeben durch den Winkel: ∠: 𝑉×𝑉→[0, 𝜋 2 ] Die Ähnlichkeit s soll zwischen 0 und 1 liegen, also: s: 𝑉×𝑉→ [0, 1] Um aus dem Abstand ein Ähnlichkeitsmaß zu generieren, muß hinter den Winkel eine weitere Funktion 𝑓 gestellt werden.

155 streng monoton fallend
Eigenschaften von 𝒇: Funktionalität: 𝟎, 𝝅 𝟐 →[𝟎, 𝟏] stetig streng monoton fallend Gesucht ist außerdem eine Winkelfunktion. Geeignet und leicht zu implementieren ist 𝒇=𝒄𝒐𝒔 . Frage 1 ist damit beantwortet. Frage 2 wird folgendermaßen modifiziert: Wie wird der cos des Winkels berechnet?

156 Mathematischer Exkurs: Berechnung des Cosinus
Zur Bestimmung des Cosinus, zunächst auf dem Einheitskreis, muß nur das Skalarprodukt gebildet werden. 𝜐=(1, 0) 𝜐′=(x, y) 𝑐𝑜𝑠 ∠ 𝜐, 𝜐 ′ =𝜐∗ 𝜐 ′ =1∗𝑥+0∗𝑦=𝑥

157 Mathematischer Exkurs: Berechnung des Cosinus
Falls man sich nicht auf dem Einheitskreis befindet , hängt der Winkel nicht von der Länge der Vektoren ab. Also wird jeder Vektor auf den Einheitskreis projiziert. Allgemeine Cosinus-Formel: cos ∠ 𝜐 1 , 𝜐 2 = 𝜐 1 | 𝑣 1 | ∗ 𝜐 2 | 𝜐 2 |

158 Beispiel: Englische Schauerliteratur
Untersucht werden ausgewählte Wörter in drei Romanen englischer Schriftstellerinnen des 19. Jahrhunderts SaS…Sense and sensibility PaP …Pride and Prejudice WH …Wuthering Heights Häufigkeitstabelle affection jealous gossip wuthering SaS 115 10 2 PaP 58 7 WH 20 12 6 38

159 Beispiel: Englische Schauerliteratur
nach der Gewichtung affection jealous gossip Wuthering SaS 3,06 2,0 1,3 PaP 2,76 1,85 WH 2,30 2,04 1,78 2,58 𝑤 𝑡𝑑 = 1+ 𝑙𝑜𝑔 𝑡𝑓 𝑡𝑑 ∗ 𝑙𝑜𝑔 𝑁 𝑑 𝑓𝑡 Bei der Gewichtsformel ist der zweite Faktor für kleinen Umfang sinnlos. Er kann daher entfallen.

160 Beispiel: Englische Schauerliteratur
Nach der Längennormalisierung affection jealous gossip wuthering SaS 0,789 0,515 0,335 PaP 0,832 0,555 WH 0,542 0,465 0,405 0,588 Ähnlichkeitsbestimmung (Berechnung des cos): cos ∠υ,ω =υ∗ω ∠ 𝑆𝑎𝑆, 𝑃𝑎𝑃 = 0,789∗0,832+0,515∗0,555+0,335∗0+0∗0=0,94 Der Wert 0,94 bedeutet, daß die beiden Werke von Jane Austen einander sehr ähnlich sind.


Herunterladen ppt "Einführung in die KI – Sprachverarbeitung"

Ähnliche Präsentationen


Google-Anzeigen