Optimierung von Volltextinvertierung durch Stemming Spree SoSe 2010
Wer setzt solche Verfahren ein? Im Hilfetext des Hostes LexisNexis können Sie Folgendes lesen: Plural Die nachfolgenden Beispiele gelten vor allem für das Plural-S. Mit diesem Operator können Sie die Suche auf Plural- und Possessivformen im Plural begrenzen. Wenn Sie den Singular angeben, finden Sie Singular, Plural und Genitivformen vieler Begriffe. Beispiel: city findet city, cities, city's, and cities' Das System erfasst jedoch nicht unregelmäßige Pluralbildungen, wie es im Englischen beispielsweise die Endungen "us" oder "is" sind. Beispiel: Mit bonus finden Sie nicht bonuses Beispiel: Mit child finden Sie nicht children Hinweis: Verwenden Sie für Suchen nach unregelmäßigen Pluralformen den Operator ODER | OR. Quelle: Ausschnitt Hilfetext LexisNexis (http://www.lexisnexis.com/help/global/globalhelp_frameset.asp?locale=de_DE&lbu=DE&adaptation=business&sPage=gh_terms&sAnchor=general&fromHelp=true)
Stemming - Wiederholung genau Durch das Stemming werden die verschiedenen Wortformen auf eine einheitliche Form gebracht. Man unterscheidet zwei Wortformen: Grundform Wortform abzüglich aller Flexive Verkleidungen -> Verkleidung Stammform Grundform abzüglich aller Derivative Verkleidung -> Kleid Einfache Verfahren zur Optimierung von Volltextindices arbeiten mit der Grundformreduktion = Vereinheitlichung aller Indextermini auf die Grundform, seltener mit der Stammformreduktion Achtung: für die Suchanfrage und für den indexierten Text müssen dieselben Verfahren eingesetzt werden. Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004 Spree SoSe 2010
Probleme des Stemming Briefpapiere Briefpapi Buchen (Bäume) Buch genau Briefpapiere Briefpapi Buchen (Bäume) Buch Buches Buch Overstemming: Eine zu lange Zeichenkette wird abgeschnitten; Wörter mit unterschiedlichen Bedeutungen werden auf ein und dieselbe Form reduziert Themen them Themas thema schlechtester schlechtest schlechter schlecht Absorbieren absorb Apsorption absorp Understemming: Eine zu kurze Zeichenkette wird abgeschnitten.; Wörter mit derselben Bedeutung werden auf unterschiedliche Formen reduziert Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004 Spree SoSe 2010
Übung: Porter Stemmer Stemmingprogramme: Porter Stemmer genau Stemmingprogramme: Porter Stemmer Demoprogramm für die deutsche Sprache Aufgabe: Sie erhalten einen Text und ein Indexierungsergebnis. Schauen Sie sich das Ergebnis an und beantworten Sie folgende Fragen: Was hat das Programm gemacht? Was vermuten Sie, wie funktioniert das? Hätte ein Nutzer das Dokument bekommen, wenn er recherchiert hätte: Informationswirtin Kundschaft AND Industrie Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004 Spree SoSe 2010
Porter Stemmer - Funktionsweise genau Abtrennung von Endungen (keine Präfixe, Zirkumfixe, Infixe) basiert auf statistischen Erkenntnissen über Wortendungen und ihre Funktion / kein wirkliches morphologisches Wissen hinterlegt trunkiere alles, was länger als x Buchstaben ist, wenn .. iteratives (schrittweises) Vorgehen in Form der Abarbeitung aufeinanderfolgender Regeln basiert auf Erfahrungswissen Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004 Spree SoSe 2010
Porter Stemmer – Elemente des Codes C, V, (C=Konsonant; V=Vokal) genau C, V, (C=Konsonant; V=Vokal) Zeichenfolgenlänge - Abfolgen von VC werden gezählt, um die Zeichenfolgenlänge festzulegen - Gezählt wird immer nur die VC Abfolge, C zu Beginn und V zum Ende zählt nicht: Oats =VC, also m=1 Tree = CV also m=0 Zusatzbedingungen: - *S (Stamm endet mit S) - *V* (Stamm enthält Vokal) Eine einfache Erklärung des Porter-Algorithmus liefert der Artikel Porter-Stemmer-Algorithmus der Wikipedia http://de.wikipedia.org/wiki/Porter-Stemmer-Algorithmus Den Originaltext finden Sie im Lernmodul http://www.bui.haw-hamburg.de/pers/ulrike.spree/astep/porter.doc Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004 Spree SoSe 2010
Porter Stemmer – Regeln genau Einfache Regelstruktur für die Suffixbearbeitung Identifikation von Endungen (ate, s, ies …) Endungen werden abgehängt, wenn der übrigbleibender Stamm, bestimmte Bedingungen erfüllt Abhängen des Suffix erfolgt nur ab festgelegter Wortlänge (VC-Folge) Insgesamt 5 Bearbeitungsschritte Prinzip des „longest match“ Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004 Spree SoSe 2010
Porter Stemmer – Beispielregeln Step 1a genau Step 1a SSES -> SS caresses -> caress IES -> I ponies -> poni ties -> ti SS -> SS caress -> caress S -> cats -> cat Step 1b (m>0) EED -> E feed -> feed agreed -> agree (*v*) ED -> plastered -> plaster bled -> bled (*v*) ING -> motoring -> motor sing -> sing Wenn die erste oder zweite Regel zutrifft, wird folgendes getan: AT -> ATE conflat(ed) -> conflate BL -> BLE troubl(ed) -> trouble IZ -> IZE siz(ed) -> size (*d and not (*L or *S or *Z)) Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004 Spree SoSe 2010
Porter Stemmer – Beispielregeln Step 2 genau Porter Stemmer – Beispielregeln Step 2 (m>0) ATIONAL -> ATE relational -> relate (m>0) TIONAL -> TION conditional -> condition rational -> rational (m>0) ENCI -> ENCE valenci -> valence ... Insgesamt 20 Fälle Step 3 (m>0) ICATE -> IC triplicate -> triplic (m>0) ATIVE -> formative -> form (m>0) ALIZE -> AL formalize -> formal (m>0) ICAL -> IC electrical -> electric Step 4 (m>1) AL -> revival -> reviv (m>1) ANCE -> allowance -> allow (m>1) ENCE -> inference -> infer The suffixes are now removed. All that remains is a little tidying up. Step 5a (m>1) E -> probate -> probat Step 5b (m > 1 and *d and *L) -> single letter controll -> control roll -> roll Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004 Spree SoSe 2010
Porter Stemmer – Maßnahmen gegen overstemming Regel: (m>1) ATE genau Porter Stemmer – Maßnahmen gegen overstemming Regel: (m>1) ATE Suffixe werden nicht entfernt, wenn der Stamm zu kurz ist. Maß ist m, also Abfolge VokalConsonant. Es gibt keine linguistische Grundlage für diese Beobachtung, sie beruht nur auf Beobachtung. RELATE RELATE DERIVATE DERIV m=1 m=2/m>1 Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004 Spree SoSe 2010
Porter Algorithmus als Flussdiagramm
Porter Algorithmus : Beispiel für iteratives Vorgehen SSES -> SS IES -> SS -> SS S -> International intern Anwendung von Step 1 ? Step 1 wird nicht angewandt, weil keine der Regeln zutrifft Anwendung von Step 2 Bedingung (m>0) ? Ja, denn VCVC Regel: (m>0) ational ate international internate Anwendung von Step 3? Step 3 wird nicht angewandt, da keine der Regeln zutrifft Anwendung von Step 4? Regel: (m>1) ate internate intern (m>0) ATIONAL -> ATE (m>0) TIONAL -> TION (m>1) ATE ->
Einschränkungen regebasierter Verfahren Fehler werden in Kauf genommen Tolerierbar, da Sucheingabe nach demselben Prinzip gestemmt wird wie der Text Nur sinnvoll, wenn Sprache über in hohem Maße regelhafte Wortbildung verfügt Anzahl der Regeln überschaubar ist Ausnahmen begrenzt sind Das System hat kein wirkliches morphologisches Verständnis Prefixe werden nicht berücksichtigt