Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Spree SoSe 2011 Optimierung von Volltextindices Mit welchen Verfahren lassen sich Volltextindices so verbessern, dass sich Recall und Precision erhöhen?

Ähnliche Präsentationen


Präsentation zum Thema: "Spree SoSe 2011 Optimierung von Volltextindices Mit welchen Verfahren lassen sich Volltextindices so verbessern, dass sich Recall und Precision erhöhen?"—  Präsentation transkript:

1 Spree SoSe 2011 Optimierung von Volltextindices Mit welchen Verfahren lassen sich Volltextindices so verbessern, dass sich Recall und Precision erhöhen? Volltextinvertierung – Ist das denn wirklich automatische Indexierung?

2 Spree SoSe 2011 Probleme von Volltextindices

3 Gliederung: gliederung Seminar I-Prax: Inhaltserschließung visueller Medien, Spree SoSe Informationslinguistik in 5 Minuten 2.Quiz Morphologie 3.Teaser: Verbesserung der Volltextindices durch regelbasierte Methoden - Stemming

4 1. Informationslinguistik in 5 Minuten informationslinguistik Seminar I-Prax: Inhaltserschließung visueller Medien, Spree SoSe 2011 Theoretische Linguistik = Untersuchung der Sprache als System Semiotik, die Lehre der (sprachlichen) Zeichen Lexikologie, die Lehre des Wortschatzes einer Sprache Grammatik, die Lehre der regelhaften Baumuster und Eigenschaften von Sprache Phonologie, die Lehre vom Lautsystem einer Sprache Morphologie, der Lehre von den kleinsten bedeutungstragenden Elementen einer Sprache Syntax, die Lehre von Form und Struktur von Sprache Semantik, die Lehre von Sinn und Bedeutung von Sprache Pragmatik, die Lehre von Verwendung und Zweck von Sprache Welche Wissenschaften beschäftigen sich mit der Sprache? Relevanz für Wissensorganisation? Verstehen Menschen Zeichen? Hat grün in Brasilien denselben Bedeutungsumfang wie in Deutschland? Automatische Übersetzung Automatische Indexierung Suchmaschine erkennt, wann Ente im Sinne von Auto und wann im Sinne von Vogel gesucht wird Eine Luft ist das hier bedeutet mach mal Fenster auf

5 1. Informationslinguistik in 5 Minuten autoübersetzung Seminar I-Prax: Inhaltserschließung visueller Medien, Spree SoSe 2011 Automatische Übersetzung Das ist nicht immer so einfach mit der Grammatik: Ein Beispiel aus Babelfish (http://de.babelfish.yahoo.com/translate_txt)http://de.babelfish.yahoo.com/translate_txt Wortbestandteile, die zur Flexion, zur Derivation oder zur Komposition herangezogen werden, nennt die Linguistik Morpheme. Sie sind die kleinsten bedeutungstragenden Einheiten der Sprache. Wird zu: The linguistics of morphemes calls word components, which are consulted for the inflection, for the Derivation or for the composition. They are the smallest meaning-meaning units of the language.

6 1. Informationslinguistik in 5 Minuten Computerlinguistik computerlinguistik Seminar I-Prax: Inhaltserschließung visueller Medien, Spree SoSe 2011 Computerlinguistik = Verwendung von natürlicher Sprache am Computer um Sprache im Computer anwenden zu können, müssen wir verstehen, wie Sprache funktioniert Durch die Analyse der Sprache entdeckte Regelmäßigkeiten werden dann in Computerprogramme umgesetzt Computer lösen die sprachlichen Probleme aber häufig anders als Menschen. Besonders Ausnahmen sind schwierig für Computer zu erkennen. Kinder Kind (Singular) Inder Ind (Singular)?

7 1. Informationslinguistik in 5 Minuten Morpheme – kleinste bedeutungstragende Einheiten morphologie Seminar I-Prax: Inhaltserschließung visueller Medien, Spree SoSe 2011 Bitte zerlegen Sie die folgenden Wörter in ihre kleinsten bedeutungstragenden Einheiten: Unfreundlichkeit Pferdes der Schwerstarbeit Rosen Un-freund-lich-keit Pferd-es der Schwer-st-arbeit Ros-en Problem: Wie bringe ich einem Programm bei, dass wenn Informationen zu Mensch gesucht werden, Dokumente, in denen das Wort Menschen vorkommt, auch relevant sind?

8 Informationslinguistik in 5 Minuten Morpheme – kleinste bedeutungstragende Einheiten morpheme Seminar I-Prax: Inhaltserschließung visueller Medien, Spree SoSe 2011 Bitte zerlegen Sie die folgenden Wörter in ihre kleinsten bedeutungstragenden Einheiten: Unfreundlichkeit Pferdes der Schwerstarbeit Rosen Un-freund-lich-keit Pferd-es der Schwer-st-arbeit Ros-en freund pferd ros schwer arbeit Lexikalische Bedeutung Welche Funktion haben die Bestandteile: -es -en -der -st Grammati- kalische Bedeutung -un -lich -keit Wort- bildung

9 Morpheme – kleinste bedeutungstragende Einheiten morpheme Seminar I-Prax: Inhaltserschließung visueller Medien, Spree SoSe 2011 Bitte zerlegen Sie die folgenden Wörter in ihre kleinsten bedeutungstragenden Einheiten: unfriendliness horses the heavier roses Un-friend-li-ness Hors-es the heav-ier ros-es friend hors ros heav Lexikalische Bedeutung Welche Funktion haben die Bestandteile: -es -ier -li Grammati- kalische Bedeutung -un -ness Wort- bildung

10 Morpheme – Übersicht Seminar I-Prax: Inhaltserschließung visueller Medien, Spree SoSe 2011 Tipp: in eine guten Sprachwörterbuch lassen sich die morphologischen Informationen zu einem Wort nachschauen: Wortschatz-Lexikon: URL: Eine Teildisziplin der Linguistik, die Morphologie, untersucht Fragen der Wortbildung wissenschaftlich. Lesen Sie bitte nach: Lernmodul a-step: Morphologische GrundlagenMorphologische Grundlagen flexionsmorphologie

11 Morpheme – Übersicht morphemarten Seminar I-Prax: Inhaltserschließung visueller Medien, Spree SoSe 2011

12 Jetzt Sie: Quiz Morphologie Morpheme_quiz Seminar I-Prax: Inhaltserschließung visueller Medien, Spree SoSe Definieren Sie Morphem. 2.Was ist ein Derivativ? 3.Nennen Sie ein Beispiel für ein lexikalisches Morphem. 4.Warum bilden freie Morpheme eine offene Klasse? 5.Handelt es sich bei der Konjugation eines Verbes um eine Flexion oder eine Derivation? 6.Nennen Sie ein Beispiel für ein Wort mit einem Suffix. 7.In welche Morphemklasse ordnen Sie nur ein? 8.Nennen Sie ein Beispiel für ein Verb mit einem Präfix. 9.Nennen Sie ein Beispiel für ein Verb mit einem Zirkumfix 10.Was versteht man unter der Grundform eines Wortes? 11.Was versteht man unter der Stammform eines Wortes? 12.Nennen Sie ein Beispiel für eine Wortkomposition. 13.Nennen Sie zwei Beispiele für Derivationen von kaufen. 14.Nennen Sie je ein Beispiel für ein freies Morphem und eine gebundenes Morphem 15.Zerlegen Sie Facebookkonten in die kleinsten bedeutungstragenden Einheiten (Morpheme) und benennen sie die Morphemarten. 16.Zerlegen Sie Geburtstagskuchen in die kleinsten bedeutungstragenden Einheiten (Morpheme) und benennen sie die Morphemarten. Stichfrage: Himbeerkuchen

13 2. Verbesserung der Volltextinvertierung - Stemming stemming Seminar I-Prax: Inhaltserschließung visueller Medien, Spree SoSe 2011 Durch das Stemming werden die verschiedenen Wortformen auf eine einheitliche Form gebracht. Man unterscheidet zwei Wortformen: Grundform Wortform abzüglich aller Flexive Verkleidungen -> Verkleidung Girls -> girl Stammform Grundform abzüglich aller Derivative Verkleidung -> Kleid fishing -> fish Einfache Verfahren zur Optimierung von Volltextindices arbeiten mit der Grundformreduktion = Vereinheitlichung aller Indextermini auf die Grundform, seltener mit der Stammformreduktion Achtung: für die Suchanfrage und für den indexierten Text müssen dieselben Verfahren eingesetzt werden.

14 Probleme des Stemming Probleme stemming Seminar I-Prax: Inhaltserschließung visueller Medien, Spree SoSe 2011 Buchen (Bäume) Buch Buches Buch Overstemming: Eine zu lange Zeichenkette wird abgeschnitten; Wörter mit unterschiedlichen Bedeutungen werden auf ein und dieselbe Form reduziert Themen them Themas thema schlechtester schlechtest schlechter schlecht Absorbieren absorb Apsorption absorp Understemming: Eine zu kurze Zeichenkette wird abgeschnitten.; Wörter mit derselben Bedeutung werden auf unterschiedliche Formen reduziert

15 Porter Stemmer porter Seminar I-Prax: Inhaltserschließung visueller Medien, Spree SoSe 2011 Stemmingprogramme: Porter Stemmer Demoprogramm für die deutsche Sprache

16 Plural Die nachfolgenden Beispiele gelten vor allem für das Plural-S. Mit diesem Operator können Sie die Suche auf Plural- und Possessivformen im Plural begrenzen. Wenn Sie den Singular angeben, finden Sie Singular, Plural und Genitivformen vieler Begriffe. Beispiel: city findet city, cities, city's, and cities' Das System erfasst jedoch nicht unregelmäßige Pluralbildungen, wie es im Englischen beispielsweise die Endungen "us" oder "is" sind. Beispiel: Mit bonus finden Sie nicht bonuses Beispiel: Mit child finden Sie nicht children Hinweis: Verwenden Sie für Suchen nach unregelmäßigen Pluralformen den Operator ODER | OR. Wer setzt solche Verfahren ein? Quelle: Ausschnitt Hilfetext LexisNexis (http://www.lexisnexis.com/help/global/globalhelp_frameset.asp?locale=de_DE&lbu=DE&adaptation=busine ss&sPage=gh_terms&sAnchor=general&fromHelp=true ) Im Hilfetext des Hostes LexisNexis können Sie Folgendes lesen:


Herunterladen ppt "Spree SoSe 2011 Optimierung von Volltextindices Mit welchen Verfahren lassen sich Volltextindices so verbessern, dass sich Recall und Precision erhöhen?"

Ähnliche Präsentationen


Google-Anzeigen