Optimierung von Volltextindices

Slides:



Advertisements
Ähnliche Präsentationen
VERB KONJUGATION (Regular Verbs)
Advertisements

Seminar Textmining WS 06/07 Themen Übung 8 Stemming Crawling.
Seminar Textmining WS 06/07 Themen Übung 9 Multilingualität Weitere Termine: 13.7.Symbolfolgen und PageRank Findlinks mitstreiter gesucht!
Auswertung der Interviews
Parser generieren Yet Another Compiler – Compiler YACC.
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/5 Grundtechniken des Information Retrieval Deskribierung Hierunter versteht man eine manuelle.
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/4 Manuelle Verfahren Klassifizierung Hier werden Dokumente in ein fest vorgegebenes System.
Datenbanken vs. Markup Manfred Thaller WS 2009/2010 Humanities Computing Linda Scholz.
Grundkurs Linguistik Programm der Vorlesung Oktober
Grundkurs Linguistik Programm der Vorlesung Oktober
Einführendes Sprachpsychologie.
Optimierung von Volltextindices
Automatisches Clustering und automatische Klassifikation
Spree SoSe 2007 Titel Lexikographie – Produktion lexikographischer Werke (am Beispiel lookedup4you) Abb.: Relaunch lookedup4you Betaversion.
Spree SoSe 2011 Qualität einer Erschließung Relevanz- und Vollständigkeitsrate Zur Erinnerung: Zweck der Erschließung von Dokumenten/Texten ist nicht in.
Optimierung von Volltextinvertierung durch Stemming
Spree SoSe 2011 Feedback Thesaurus / Facettenklassifikation Feedback Thesaurus / Facettenklassifikation Einstieg Schöne Ergebnisse – bei strengster Bewertung:
Spree SoSe 2007 Titel Lexikographie und Metalexikographie Lexikonproduktion und Lexikontheorie Dank an Franziskus Geeb, der mir seine Unterrichtsmaterialien.
1 Indexierung - Begriffszerlegung Alphabete Seminar I-Prax: Inhaltserschließung visueller Medien, Spree WS 2005/2006 Begriffszerlegung – wo gibt.
Indexierung - Verschlagwortung
IndexierungsqualitätEinstieg
Diskussion Dezimalklassifikation - Expertendiskussion Seminar I-Prax: Inhaltserschließung visueller Medien, Spree WS 2006/76 Diskusion Woran.
Spree SoSe 2006 Titel Typen von Informationsressourcen Eine systematische Übersicht.
Informationsarchitektur Beschreiben und Benennen
Spree SoSe 2011 Volltextsuche Sequentielle Suche und interviertes Dateisystem.
Feedback Hörfunkdokumentation
Spree SoSe 2007 Titel Lexika und ihre Benutzer Benutzervoraussetzungen Dank an Franziskus Geeb, der mir seine Unterrichtsmaterialien zum Thema Lexikographie.
Fortgeschrittene Methoden der Wissensorganisation
Spree SoSe 2010 Optimierung von Volltextinvertierung durch den Einsatz von Indexierungswörterbüchern Artikelstrecke ab BUTTERBLUME im Deutschen Wörterbuch.
IMSLex – ein NLP Lexikon
Komponenten eines Information Retrieval Systems
Verfahren zur Stammformreduktion
Die Naturgesetze der Sprache
Suchmaschinen am Theo Groß und Bernhard Meyer.
Die sechs Modalverben.
Don`t make me think! A Common Sense Approach to Web Usability
Suchen im Internet Eine Einführung. Suchen im Internet Wer bietet Informationen an? è Privatpersonen è Kommerzielle Organisationen, Firmen è Universitäten,
Deutsch II Der Eingang:
Maike Schulte-Hochmuth
Wortbildung: Grundlagen, Klassen von Affixen
Übung zu Einführung in die LDV I
You need to use your mouse to see this presentation © Heidi Behrens.
Automaten, formale Sprachen und Berechenbarkeit II SoSe 2004 Prof. W. Brauer Teil 1: Wiederholung (Vor allem Folien von Priv.-Doz. Dr. Kindler vom WS 2001/02.
Die Ganze Welt im Computer? Informationsbeschaffung im Internet
Übung zu Einführung in die LDV I
Sommersemester 2015 Dr. Ileana-Maria RATCU
Lexikologie I TIT Sommersemester 2015
Grammatikalische Begriffe im Unterricht
Äquivalenz.
EINFÜHRUNG IN DIE MORPHOLOGIE Morphologie = Formenlehre
Die Fragen Wörter Wer? Was? Wann?.
- Für die meisten bedeutet Internetrecherche das Eintippen eines Suchbegriffs in eine Suchmaschine. - Wenn das Gesuchte aber schwieriger ist, muss man.
Gegenstand der Lexikologie. Geschichte der Lexikologie.
I.B.&IA Anfänger Structura limbii Sommersemester 2015 Dr. Ileana-Maria Ratcu.
IB+IA Anfänger Structura limbii Sommersemester 2015 Dr. Ileana-Maria Ratcu.
Merkmale und Merkmalstrukturen
Lexikalische Semantik
Sprachprodukttechnologie SS 2001G. Heyer 1 Sprachstatistik  Grundlegende Definitionen  Alphabet Sei NL eine natürliche Sprache und sei A eine Menge von.
Guten Morgen, Deutsch 1! Heute ist der 30. September. Jetzt: Mach das Kreuzwort! Nimm die Hausaufgaben heraus. Nimm die Hausaufgaben heraus. Später: Lernen.
Thema 4: Das Wort als linquistische Grundeinheit Teil 1. Das Wort als sprachliches Zeichen.
Methodische Gesichtspunkte für das analytische Lesen 5.Studienjahr.
VO#1: Lexikologie als sprachwissenschaftliche Disziplin Lexikologie, Matej-Bel-Univeristät in Banská Bystrica, Z. Tuhárska.
Das Zahlwort. Die Zahlwörter bezeichnen: -eine Zahl oder (in Verbindung mit Substantiven) eine bestimmte Anzahl von Gegenständen: Grundzahlwörter; -Den.
1) Das Wort als sprachliche Grundeinheit; 2) Das Problem der Grundeinheit der Sprache 3) Die Definition des Wortes;
VORLESUNG 1 Sprachbau Sememe Sätze Redeteilen Wortformen Wortgruppe Morpheme (Begriffe)
Vo#1:Semantik als Wissenschaft Semantik I Matej-Bel-Universität in Banská Bystrica Zuzana Tuhárska.
Trainingscamp Hörverstehen Katharina Leiss  In Teil 1 gibt es 6 Punkte.  In Teil 2 gibt es 7 Punkte.  In Teil 3 gibt es 7 Punkte. A2 bekommst.
THEORETISCHE PHONETIK DER DEUTSCHEN SPRACHE
Sommersemester 2016 Dr. Ileana-Maria RATCU
 Präsentation transkript:

Optimierung von Volltextindices Volltextinvertierung – Ist das denn wirklich automatische Indexierung? Mit welchen Verfahren lassen sich Volltextindices so verbessern, dass sich Recall und Precision erhöhen? Spree SoSe 2011

Probleme von Volltextindices Spree SoSe 2011

 Gliederung: Informationslinguistik in 5 Minuten Quiz Morphologie Teaser: Verbesserung der Volltextindices durch regelbasierte Methoden - Stemming Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004 Spree SoSe 2011

informationslinguistik  1. Informationslinguistik in 5 Minuten informationslinguistik Welche Wissenschaften beschäftigen sich mit der Sprache? Theoretische Linguistik = Untersuchung der Sprache als System Semiotik, die Lehre der (sprachlichen) Zeichen Lexikologie, die Lehre des Wortschatzes einer Sprache Grammatik, die Lehre der regelhaften Baumuster und Eigenschaften von Sprache Phonologie, die Lehre vom Lautsystem einer Sprache Morphologie, der Lehre von den kleinsten bedeutungstragenden Elementen einer Sprache Syntax, die Lehre von Form und Struktur von Sprache Semantik, die Lehre von Sinn und Bedeutung von Sprache Pragmatik, die Lehre von Verwendung und Zweck von Sprache Relevanz für Wissensorganisation? Verstehen Menschen Zeichen? Hat grün in Brasilien denselben Bedeutungsumfang wie in Deutschland? Automatische Übersetzung Automatische Indexierung Suchmaschine erkennt, wann Ente im Sinne von Auto und wann im Sinne von Vogel gesucht wird „Eine Luft ist das hier“ bedeutet „mach mal Fenster auf“ Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004 Spree SoSe 2011

1. Informationslinguistik in 5 Minuten  1. Informationslinguistik in 5 Minuten autoübersetzung Automatische Übersetzung Das ist nicht immer so einfach mit der Grammatik: Ein Beispiel aus Babelfish (http://de.babelfish.yahoo.com/translate_txt) Wortbestandteile, die zur Flexion, zur Derivation oder zur Komposition herangezogen werden, nennt die Linguistik Morpheme. Sie sind die kleinsten bedeutungstragenden Einheiten der Sprache. Wird zu: The linguistics of morphemes calls word components, which are consulted for the inflection, for the Derivation or for the composition. They are the smallest meaning-meaning units of the language. Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004 Spree SoSe 2011

1. Informationslinguistik in 5 Minuten  1. Informationslinguistik in 5 Minuten Computerlinguistik computerlinguistik Computerlinguistik = Verwendung von natürlicher Sprache am Computer um Sprache im Computer anwenden zu können, müssen wir verstehen, wie Sprache funktioniert Durch die Analyse der Sprache entdeckte Regelmäßigkeiten werden dann in Computerprogramme umgesetzt Computer lösen die sprachlichen Probleme aber häufig anders als Menschen. Besonders Ausnahmen sind schwierig für Computer zu erkennen. Kinder  Kind (Singular) Inder  Ind (Singular)? Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004 Spree SoSe 2011

 1. Informationslinguistik in 5 Minuten Morpheme – kleinste bedeutungstragende Einheiten morphologie Problem: Wie bringe ich einem Programm bei, dass wenn Informationen zu Mensch gesucht werden, Dokumente, in denen das Wort Menschen vorkommt, auch relevant sind? Bitte zerlegen Sie die folgenden Wörter in ihre kleinsten bedeutungstragenden Einheiten: Unfreundlichkeit Pferdes der Schwerstarbeit Rosen Un-freund-lich-keit Pferd-es der Schwer-st-arbeit Ros-en Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004 Spree SoSe 2011

 Informationslinguistik in 5 Minuten Morpheme – kleinste bedeutungstragende Einheiten morpheme Bitte zerlegen Sie die folgenden Wörter in ihre kleinsten bedeutungstragenden Einheiten: Unfreundlichkeit Pferdes der Schwerstarbeit Rosen Un-freund-lich-keit Pferd-es der Schwer-st-arbeit Ros-en Welche Funktion haben die Bestandteile: freund pferd ros schwer arbeit -es -en -der -st -un -lich -keit Grammati-kalische Bedeutung Wort-bildung Lexikalische Bedeutung Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004 Spree SoSe 2011

 Morpheme – kleinste bedeutungstragende Einheiten Bitte zerlegen Sie die folgenden Wörter in ihre kleinsten bedeutungstragenden Einheiten: unfriendliness horses the heavier roses Un-friend-li-ness Hors-es the heav-ier ros-es Welche Funktion haben die Bestandteile: friend hors ros heav -es -ier -li -un -ness Grammati-kalische Bedeutung Wort-bildung Lexikalische Bedeutung Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004 Spree SoSe 2011

 Morpheme – Übersicht flexionsmorphologie Eine Teildisziplin der Linguistik, die Morphologie, untersucht Fragen der Wortbildung wissenschaftlich. Lesen Sie bitte nach: Lernmodul a-step: Morphologische Grundlagen Tipp: in eine guten Sprachwörterbuch lassen sich die morphologischen Informationen zu einem Wort nachschauen: Wortschatz-Lexikon: URL: http://wortschatz.uni-leipzig.de/ Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004 Spree SoSe 2011

 Morpheme – Übersicht morphemarten Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004 Spree SoSe 2011

 Jetzt Sie: Quiz Morphologie Definieren Sie Morphem. Morpheme_quiz Definieren Sie Morphem. Was ist ein Derivativ? Nennen Sie ein Beispiel für ein lexikalisches Morphem. Warum bilden freie Morpheme eine offene Klasse? Handelt es sich bei der Konjugation eines Verbes um eine Flexion oder eine Derivation? Nennen Sie ein Beispiel für ein Wort mit einem Suffix. In welche Morphemklasse ordnen Sie „nur“ ein? Nennen Sie ein Beispiel für ein Verb mit einem Präfix. Nennen Sie ein Beispiel für ein Verb mit einem Zirkumfix Was versteht man unter der Grundform eines Wortes? Was versteht man unter der Stammform eines Wortes? Nennen Sie ein Beispiel für eine Wortkomposition. Nennen Sie zwei Beispiele für Derivationen von kaufen. Nennen Sie je ein Beispiel für ein freies Morphem und eine gebundenes Morphem Zerlegen Sie Facebookkonten in die kleinsten bedeutungstragenden Einheiten (Morpheme) und benennen sie die Morphemarten. Zerlegen Sie Geburtstagskuchen in die kleinsten bedeutungstragenden Einheiten (Morpheme) und benennen sie die Morphemarten. Stichfrage: Himbeerkuchen Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004 Spree SoSe 2011

 2. Verbesserung der Volltextinvertierung - Stemming Durch das Stemming werden die verschiedenen Wortformen auf eine einheitliche Form gebracht. Man unterscheidet zwei Wortformen: Grundform Wortform abzüglich aller Flexive Verkleidungen -> Verkleidung Girls -> girl Stammform Grundform abzüglich aller Derivative Verkleidung -> Kleid fishing -> fish Einfache Verfahren zur Optimierung von Volltextindices arbeiten mit der Grundformreduktion = Vereinheitlichung aller Indextermini auf die Grundform, seltener mit der Stammformreduktion Achtung: für die Suchanfrage und für den indexierten Text müssen dieselben Verfahren eingesetzt werden. Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004 Spree SoSe 2011

 Probleme des Stemming Buchen (Bäume)  Buch Buches  Buch Probleme stemming Overstemming: Eine zu lange Zeichenkette wird abgeschnitten; Wörter mit unterschiedlichen Bedeutungen werden auf ein und dieselbe Form reduziert Buchen (Bäume)  Buch Buches  Buch Themen  them Themas  thema schlechtester  schlechtest schlechter  schlecht Absorbieren  absorb Apsorption  absorp Understemming: Eine zu kurze Zeichenkette wird abgeschnitten.; Wörter mit derselben Bedeutung werden auf unterschiedliche Formen reduziert Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004 Spree SoSe 2011

 Porter Stemmer Stemmingprogramme: Porter Stemmer Demoprogramm für die deutsche Sprache Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004 Spree SoSe 2011

 Wer setzt solche Verfahren ein? Im Hilfetext des Hostes LexisNexis können Sie Folgendes lesen: Plural Die nachfolgenden Beispiele gelten vor allem für das Plural-S. Mit diesem Operator können Sie die Suche auf Plural- und Possessivformen im Plural begrenzen. Wenn Sie den Singular angeben, finden Sie Singular, Plural und Genitivformen vieler Begriffe. Beispiel: city findet city, cities, city's, and cities' Das System erfasst jedoch nicht unregelmäßige Pluralbildungen, wie es im Englischen beispielsweise die Endungen "us" oder "is" sind. Beispiel: Mit bonus finden Sie nicht bonuses Beispiel: Mit child finden Sie nicht children Hinweis: Verwenden Sie für Suchen nach unregelmäßigen Pluralformen den Operator ODER | OR. Quelle: Ausschnitt Hilfetext LexisNexis (http://www.lexisnexis.com/help/global/globalhelp_frameset.asp?locale=de_DE&lbu=DE&adaptation=business&sPage=gh_terms&sAnchor=general&fromHelp=true)