Optimierung von Volltextinvertierung durch Stemming

Slides:



Advertisements
Ähnliche Präsentationen
Fluch oder Segen? Gentechnik.
Advertisements

Seminar Textmining WS 06/07 Themen Übung 8 Stemming Crawling.
Seminar Textmining WS 06/07 Themen Übung 8 Diskussion über Erkennung von Eigennamen Question Answering Stemming.
FH-Hof Optimierungsverfahren für kombinatorische Probleme Richard Göbel.
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/7 Information Retrieval auf Texten An ihre Grenzen stoßen relationale Datenbanken bei der.
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/5 Grundtechniken des Information Retrieval Deskribierung Hierunter versteht man eine manuelle.
Konstruktion von Suffix Bäumen
Konstruktion von Suffix Bäumen
WS Prof. Dr. Th. Ottmann Algorithmentheorie 09 - Suche in Texten Suffix –Tree –Konstruktion Ukkonen Algorithmus.
Datenbanken vs. Markup Manfred Thaller WS 2009/2010 Humanities Computing Linda Scholz.
WAS WILL WISSENSCHAFT? - Sagen: Was WIE ist
Seminar: Verteilte Datenbanken
SoSe 2004 Spree Entwicklung einer Wissensbasis Aufgaben und Techniken.
Optimierung von Volltextindices
Optimierung von Volltextindices
Spree/Worg2/LE 10 Automatische Klassifikation = Zuordnung von Dokumenten zu bereits vorher festgelegten Klassen Zielsetzung: Dem Nutzer Informationen.
Automatisches Clustering und automatische Klassifikation
Spree SoSe 2007 Titel Lexikographie – Produktion lexikographischer Werke (am Beispiel lookedup4you) Abb.: Relaunch lookedup4you Betaversion.
Spree SoSe 2011 Qualität einer Erschließung Relevanz- und Vollständigkeitsrate Zur Erinnerung: Zweck der Erschließung von Dokumenten/Texten ist nicht in.
Spree SoSe 2009 Feedback Thesaurus Feedback Thesaurus Einstieg Frau Spree Schöne Ergebnisse – bei strengster Bewertung: 1,01,31,72,02,32,73,03,74,
SoSe 2005/Spree Datenbankretrieval Wirtschaftsrecherchen Beispiele.
Spree SoSe 2007 Titel Herausforderungen bei der Erstellung von (allgemeinen) Nachschlagewerken Among these unhappy mortals is the writer of dictionaries;
Spree SoSe 2011 Feedback Thesaurus / Facettenklassifikation Feedback Thesaurus / Facettenklassifikation Einstieg Schöne Ergebnisse – bei strengster Bewertung:
1 Indexierung - Begriffszerlegung Alphabete Seminar I-Prax: Inhaltserschließung visueller Medien, Spree WS 2005/2006 Begriffszerlegung – wo gibt.
Indexierung - Verschlagwortung
IndexierungsqualitätEinstieg
1 Letzte Aktualisierung: Spree WS 2005/2006 Feedback Arbeitsaufgabe - Regelwerk Viele interessante Einsendungen Ich glaube, Sie haben verstanden,
Diskussion Dezimalklassifikation - Expertendiskussion Seminar I-Prax: Inhaltserschließung visueller Medien, Spree WS 2006/76 Diskusion Woran.
SoSe 2005/Spree Datenbankretrieval AOS-Survival-Kit.
Feedback Thesaurus-Projekt
Spree SoSe 2006 Titel Typen von Informationsressourcen Eine systematische Übersicht.
Informationsarchitektur Beschreiben und Benennen
Spree SoSe 2011 Volltextsuche Sequentielle Suche und interviertes Dateisystem.
Feedback Hörfunkdokumentation
Spree SoSe 2010 Feedback Thesaurus / Facettenklassifikation Feedback Thesaurus / Facettenklassifikation Einstieg Frau Spree Schöne Ergebnisse – bei strengster.
Spree WS 2008/2009 Facetmap debugged Debugging macht teilweise mehr als 50% der Arbeitszeit eines Programmierers aus Proof of concept: Ihre Facetmaps funktionieren.
Spree SoSe 2007 Titel Lexika und ihre Benutzer Benutzervoraussetzungen Dank an Franziskus Geeb, der mir seine Unterrichtsmaterialien zum Thema Lexikographie.
Erste Schritte im §§§§§§§ Dschungel Spree SoSe 2010 Rechtsinformationen.
Information Broking als Beruf? Spree SoSe 2010 Quelle: 0/ /
Spree SoSe 2006 Titel Fortgeschrittene Methoden der Wissensorganisation Rückblick und Vorschau.
Qualität einer Dokumentation Relevanz- und Vollständigkeitsrate
Spree SoSe 2010 Optimierung von Volltextinvertierung durch den Einsatz von Indexierungswörterbüchern Artikelstrecke ab BUTTERBLUME im Deutschen Wörterbuch.
Linguistik Stellen Sie Fragen zum Text (schauen Sie auf Ihre Unterlagen)! Versuchen Sie die gestellten Fragen zu beantworten!
Tutorium Willkommen zurück, in der wunderbaren Welt der Statistik Teil II.
Stemming und Lemmatisierung
Verfahren zur Stammformreduktion
RDF MT Resource Description Framework Model Theory © 2002 by Emir Blažević
Chaos und Fraktale M. Bostelmann Michael Bostelmann.
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Information und Kommunikation
Wird ganz am Anfang der HTML-Datei geschrieben Doctype html public bedeutet, dass man sich auf die Öffentlichkeit der html-dtd bezieht Html ist die meist.
Wegweiser im Datenjungel
Automaten, formale Sprachen und Berechenbarkeit II SoSe 2004 Prof. W. Brauer Teil 1: Wiederholung (Vor allem Folien von Priv.-Doz. Dr. Kindler vom WS 2001/02.
Using latent semantic analysis to find different names for the same entity in free text Präsentation und Diskussion des Papers Im Rahmen des PS Web-Information.
Proseminar GMA Web Suche und Information Retrieval (SS07)
Allgemeine Informationen
PHP: Operatoren und Kontrollstrukturen
Die Ganze Welt im Computer? Informationsbeschaffung im Internet
Erstellung einer Facettenklassifikation
Grammatikalische Begriffe im Unterricht
Teil I: Sprache im Kontext
XML Schema Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung WS2011/2012 Hist.-kult.wiss. Informationsverarbeitung (Teil.
Lexikalische Semantik
Sprachprodukttechnologie SS 2001G. Heyer 1 Sprachstatistik  Grundlegende Definitionen  Alphabet Sei NL eine natürliche Sprache und sei A eine Menge von.
Information - syntaktisch
Sortierverfahren Mit VB 2010 express edition JBS Tr, info Q1.
Leseverstehen Strategien für das erfolgreiche Lesen Transition Module 3 developed by Elisabeth Wielander.
Wie verwende ich Suchmaschinen richtig?
Suchen und Finden Wie verwende ich Suchmaschinen richtig?
 Präsentation transkript:

Optimierung von Volltextinvertierung durch Stemming Spree SoSe 2010

 Wer setzt solche Verfahren ein? Im Hilfetext des Hostes LexisNexis können Sie Folgendes lesen: Plural Die nachfolgenden Beispiele gelten vor allem für das Plural-S. Mit diesem Operator können Sie die Suche auf Plural- und Possessivformen im Plural begrenzen. Wenn Sie den Singular angeben, finden Sie Singular, Plural und Genitivformen vieler Begriffe. Beispiel: city findet city, cities, city's, and cities' Das System erfasst jedoch nicht unregelmäßige Pluralbildungen, wie es im Englischen beispielsweise die Endungen "us" oder "is" sind. Beispiel: Mit bonus finden Sie nicht bonuses Beispiel: Mit child finden Sie nicht children Hinweis: Verwenden Sie für Suchen nach unregelmäßigen Pluralformen den Operator ODER | OR. Quelle: Ausschnitt Hilfetext LexisNexis (http://www.lexisnexis.com/help/global/globalhelp_frameset.asp?locale=de_DE&lbu=DE&adaptation=business&sPage=gh_terms&sAnchor=general&fromHelp=true)

 Stemming - Wiederholung genau Durch das Stemming werden die verschiedenen Wortformen auf eine einheitliche Form gebracht. Man unterscheidet zwei Wortformen: Grundform Wortform abzüglich aller Flexive Verkleidungen -> Verkleidung Stammform Grundform abzüglich aller Derivative Verkleidung -> Kleid Einfache Verfahren zur Optimierung von Volltextindices arbeiten mit der Grundformreduktion = Vereinheitlichung aller Indextermini auf die Grundform, seltener mit der Stammformreduktion Achtung: für die Suchanfrage und für den indexierten Text müssen dieselben Verfahren eingesetzt werden. Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004 Spree SoSe 2010

 Probleme des Stemming Briefpapiere Briefpapi Buchen (Bäume)  Buch genau Briefpapiere Briefpapi Buchen (Bäume)  Buch Buches  Buch Overstemming: Eine zu lange Zeichenkette wird abgeschnitten; Wörter mit unterschiedlichen Bedeutungen werden auf ein und dieselbe Form reduziert Themen  them Themas  thema schlechtester  schlechtest schlechter  schlecht Absorbieren  absorb Apsorption  absorp Understemming: Eine zu kurze Zeichenkette wird abgeschnitten.; Wörter mit derselben Bedeutung werden auf unterschiedliche Formen reduziert Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004 Spree SoSe 2010

 Übung: Porter Stemmer Stemmingprogramme: Porter Stemmer genau Stemmingprogramme: Porter Stemmer Demoprogramm für die deutsche Sprache Aufgabe: Sie erhalten einen Text und ein Indexierungsergebnis. Schauen Sie sich das Ergebnis an und beantworten Sie folgende Fragen: Was hat das Programm gemacht? Was vermuten Sie, wie funktioniert das? Hätte ein Nutzer das Dokument bekommen, wenn er recherchiert hätte: Informationswirtin Kundschaft AND Industrie Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004 Spree SoSe 2010

 Porter Stemmer - Funktionsweise genau Abtrennung von Endungen (keine Präfixe, Zirkumfixe, Infixe) basiert auf statistischen Erkenntnissen über Wortendungen und ihre Funktion / kein wirkliches morphologisches Wissen hinterlegt trunkiere alles, was länger als x Buchstaben ist, wenn .. iteratives (schrittweises) Vorgehen in Form der Abarbeitung aufeinanderfolgender Regeln basiert auf Erfahrungswissen Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004 Spree SoSe 2010

 Porter Stemmer – Elemente des Codes C, V, (C=Konsonant; V=Vokal) genau C, V, (C=Konsonant; V=Vokal) Zeichenfolgenlänge - Abfolgen von VC werden gezählt, um die Zeichenfolgenlänge festzulegen - Gezählt wird immer nur die VC Abfolge, C zu Beginn und V zum Ende zählt nicht: Oats =VC, also m=1 Tree = CV also m=0 Zusatzbedingungen: - *S (Stamm endet mit S) - *V* (Stamm enthält Vokal) Eine einfache Erklärung des Porter-Algorithmus liefert der Artikel Porter-Stemmer-Algorithmus der Wikipedia http://de.wikipedia.org/wiki/Porter-Stemmer-Algorithmus Den Originaltext finden Sie im Lernmodul http://www.bui.haw-hamburg.de/pers/ulrike.spree/astep/porter.doc Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004 Spree SoSe 2010

 Porter Stemmer – Regeln genau Einfache Regelstruktur für die Suffixbearbeitung Identifikation von Endungen (ate, s, ies …) Endungen werden abgehängt, wenn der übrigbleibender Stamm, bestimmte Bedingungen erfüllt Abhängen des Suffix erfolgt nur ab festgelegter Wortlänge (VC-Folge) Insgesamt 5 Bearbeitungsschritte Prinzip des „longest match“ Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004 Spree SoSe 2010

 Porter Stemmer – Beispielregeln Step 1a genau Step 1a SSES -> SS caresses -> caress IES -> I ponies -> poni ties -> ti SS -> SS caress -> caress S -> cats -> cat Step 1b (m>0) EED -> E feed -> feed agreed -> agree (*v*) ED -> plastered -> plaster bled -> bled (*v*) ING -> motoring -> motor sing -> sing Wenn die erste oder zweite Regel zutrifft, wird folgendes getan: AT -> ATE conflat(ed) -> conflate BL -> BLE troubl(ed) -> trouble IZ -> IZE siz(ed) -> size (*d and not (*L or *S or *Z)) Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004 Spree SoSe 2010

 Porter Stemmer – Beispielregeln Step 2 genau  Porter Stemmer – Beispielregeln Step 2 (m>0) ATIONAL -> ATE relational -> relate (m>0) TIONAL -> TION conditional -> condition rational -> rational (m>0) ENCI -> ENCE valenci -> valence ... Insgesamt 20 Fälle Step 3 (m>0) ICATE -> IC triplicate -> triplic (m>0) ATIVE -> formative -> form (m>0) ALIZE -> AL formalize -> formal (m>0) ICAL -> IC electrical -> electric Step 4 (m>1) AL -> revival -> reviv (m>1) ANCE -> allowance -> allow (m>1) ENCE -> inference -> infer The suffixes are now removed. All that remains is a little tidying up. Step 5a (m>1) E -> probate -> probat Step 5b (m > 1 and *d and *L) -> single letter controll -> control roll -> roll Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004 Spree SoSe 2010

 Porter Stemmer – Maßnahmen gegen overstemming Regel: (m>1) ATE  genau  Porter Stemmer – Maßnahmen gegen overstemming Regel: (m>1) ATE  Suffixe werden nicht entfernt, wenn der Stamm zu kurz ist. Maß ist m, also Abfolge VokalConsonant. Es gibt keine linguistische Grundlage für diese Beobachtung, sie beruht nur auf Beobachtung. RELATE RELATE DERIVATE DERIV m=1 m=2/m>1 Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004 Spree SoSe 2010

 Porter Algorithmus als Flussdiagramm

 Porter Algorithmus : Beispiel für iteratives Vorgehen SSES -> SS IES -> SS -> SS S -> International  intern Anwendung von Step 1 ? Step 1 wird nicht angewandt, weil keine der Regeln zutrifft Anwendung von Step 2 Bedingung (m>0) ? Ja, denn VCVC Regel: (m>0) ational ate international  internate Anwendung von Step 3? Step 3 wird nicht angewandt, da keine der Regeln zutrifft Anwendung von Step 4? Regel: (m>1) ate  internate  intern (m>0) ATIONAL -> ATE (m>0) TIONAL -> TION (m>1) ATE ->

 Einschränkungen regebasierter Verfahren Fehler werden in Kauf genommen Tolerierbar, da Sucheingabe nach demselben Prinzip gestemmt wird wie der Text Nur sinnvoll, wenn Sprache über in hohem Maße regelhafte Wortbildung verfügt Anzahl der Regeln überschaubar ist Ausnahmen begrenzt sind Das System hat kein wirkliches morphologisches Verständnis Prefixe werden nicht berücksichtigt