Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Spree SoSe 2010 Optimierung von Volltextinvertierung durch Stemming.

Ähnliche Präsentationen


Präsentation zum Thema: "Spree SoSe 2010 Optimierung von Volltextinvertierung durch Stemming."—  Präsentation transkript:

1 Spree SoSe 2010 Optimierung von Volltextinvertierung durch Stemming

2 Plural Die nachfolgenden Beispiele gelten vor allem für das Plural-S. Mit diesem Operator können Sie die Suche auf Plural- und Possessivformen im Plural begrenzen. Wenn Sie den Singular angeben, finden Sie Singular, Plural und Genitivformen vieler Begriffe. Beispiel: city findet city, cities, city's, and cities' Das System erfasst jedoch nicht unregelmäßige Pluralbildungen, wie es im Englischen beispielsweise die Endungen "us" oder "is" sind. Beispiel: Mit bonus finden Sie nicht bonuses Beispiel: Mit child finden Sie nicht children Hinweis: Verwenden Sie für Suchen nach unregelmäßigen Pluralformen den Operator ODER | OR. Wer setzt solche Verfahren ein? Quelle: Ausschnitt Hilfetext LexisNexis (http://www.lexisnexis.com/help/global/globalhelp_frameset.asp?locale=de_DE&lbu=DE&adaptation=busine ss&sPage=gh_terms&sAnchor=general&fromHelp=true ) Im Hilfetext des Hostes LexisNexis können Sie Folgendes lesen:

3 Stemming - Wiederholung genau Seminar I-Prax: Inhaltserschließung visueller Medien, Spree SoSe 2010 Durch das Stemming werden die verschiedenen Wortformen auf eine einheitliche Form gebracht. Man unterscheidet zwei Wortformen: Grundform Wortform abzüglich aller Flexive Verkleidungen -> Verkleidung Stammform Grundform abzüglich aller Derivative Verkleidung -> Kleid Einfache Verfahren zur Optimierung von Volltextindices arbeiten mit der Grundformreduktion = Vereinheitlichung aller Indextermini auf die Grundform, seltener mit der Stammformreduktion Achtung: für die Suchanfrage und für den indexierten Text müssen dieselben Verfahren eingesetzt werden.

4 Probleme des Stemming genau Seminar I-Prax: Inhaltserschließung visueller Medien, Spree SoSe 2010 Briefpapiere Briefpapi Buchen (Bäume) Buch Buches Buch Overstemming: Eine zu lange Zeichenkette wird abgeschnitten; Wörter mit unterschiedlichen Bedeutungen werden auf ein und dieselbe Form reduziert Themen them Themas thema schlechtester schlechtest schlechter schlecht Absorbieren absorb Apsorption absorp Understemming: Eine zu kurze Zeichenkette wird abgeschnitten.; Wörter mit derselben Bedeutung werden auf unterschiedliche Formen reduziert

5 Übung: Porter Stemmer genau Seminar I-Prax: Inhaltserschließung visueller Medien, Spree SoSe 2010 Aufgabe: Sie erhalten einen Text und ein Indexierungsergebnis. Schauen Sie sich das Ergebnis an und beantworten Sie folgende Fragen: Was hat das Programm gemacht? Was vermuten Sie, wie funktioniert das? Hätte ein Nutzer das Dokument bekommen, wenn er recherchiert hätte: Informationswirtin Kundschaft AND Industrie Stemmingprogramme: Porter Stemmer Demoprogramm für die deutsche Sprache

6 Porter Stemmer - Funktionsweise genau Seminar I-Prax: Inhaltserschließung visueller Medien, Spree SoSe 2010 Abtrennung von Endungen (keine Präfixe, Zirkumfixe, Infixe) basiert auf statistischen Erkenntnissen über Wortendungen und ihre Funktion / kein wirkliches morphologisches Wissen hinterlegt trunkiere alles, was länger als x Buchstaben ist, wenn.. iteratives (schrittweises) Vorgehen in Form der Abarbeitung aufeinanderfolgender Regeln basiert auf Erfahrungswissen

7 Porter Stemmer – Elemente des Codes genau Seminar I-Prax: Inhaltserschließung visueller Medien, Spree SoSe 2010 C, V, (C=Konsonant; V=Vokal) Zeichenfolgenlänge - Abfolgen von VC werden gezählt, um die Zeichenfolgenlänge festzulegen - Gezählt wird immer nur die VC Abfolge, C zu Beginn und V zum Ende zählt nicht: Oats =VC, also m=1 Tree = CV also m=0 Zusatzbedingungen: - *S (Stamm endet mit S) - *V* (Stamm enthält Vokal) Eine einfache Erklärung des Porter-Algorithmus liefert der Artikel Porter-Stemmer-Algorithmus der Wikipedia Algorithmus Algorithmus Den Originaltext finden Sie im Lernmodul hamburg.de/pers/ulrike.spree/astep/porter.doc hamburg.de/pers/ulrike.spree/astep/porter.doc

8 Porter Stemmer – Regeln genau Seminar I-Prax: Inhaltserschließung visueller Medien, Spree SoSe 2010 Einfache Regelstruktur für die Suffixbearbeitung -Identifikation von Endungen (ate, s, ies …) -Endungen werden abgehängt, wenn der übrigbleibender Stamm, bestimmte Bedingungen erfüllt - Abhängen des Suffix erfolgt nur ab festgelegter Wortlänge (VC- Folge) Insgesamt 5 Bearbeitungsschritte Prinzip des longest match

9 Porter Stemmer – Beispielregeln genau Seminar I-Prax: Inhaltserschließung visueller Medien, Spree SoSe 2010 Step 1a SSES -> SS caresses -> caress IES -> I ponies -> poni ties -> ti SS -> SS caress -> caress S -> cats -> cat Step 1b (m>0) EED -> E feed -> feed agreed -> agree (*v*) ED -> plastered -> plaster bled -> bled (*v*) ING -> motoring -> motor sing -> sing Wenn die erste oder zweite Regel zutrifft, wird folgendes getan: AT -> ATE conflat(ed) -> conflate BL -> BLE troubl(ed) -> trouble IZ -> IZE siz(ed) -> size (*d and not (*L or *S or *Z))

10 Porter Stemmer – Beispielregeln genau Seminar I-Prax: Inhaltserschließung visueller Medien, Spree SoSe 2010 Step 2 (m>0) ATIONAL -> ATE relational -> relate (m>0) TIONAL -> TION conditional -> condition rational -> rational (m>0) ENCI -> ENCE valenci -> valence... Insgesamt 20 Fälle Step 3 (m>0) ICATE -> IC triplicate -> triplic (m>0) ATIVE -> formative -> form (m>0) ALIZE -> AL formalize -> formal (m>0) ICAL -> IC electrical -> electric Step 4 (m>1) AL -> revival -> reviv (m>1) ANCE -> allowance -> allow (m>1) ENCE -> inference -> infer The suffixes are now removed. All that remains is a little tidying up. Step 5a (m>1) E -> probate -> probat Step 5b (m > 1 and *d and *L) -> single letter controll -> control roll -> roll

11 Porter Stemmer – Maßnahmen gegen overstemming genau Seminar I-Prax: Inhaltserschließung visueller Medien, Spree SoSe 2010 Regel: (m>1) ATE Suffixe werden nicht entfernt, wenn der Stamm zu kurz ist. Maß ist m, also Abfolge VokalConsonant. Es gibt keine linguistische Grundlage für diese Beobachtung, sie beruht nur auf Beobachtung. RELATE RELATE DERIVATE DERIV m=1 m=2/m>1

12 Porter Algorithmus als Flussdiagramm

13 Porter Algorithmus : Beispiel für iteratives Vorgehen International intern 1.Anwendung von Step 1 ? –Step 1 wird nicht angewandt, weil keine der Regeln zutrifft 2.Anwendung von Step 2 –Bedingung (m>0) ? Ja, denn VCVC Regel: (m>0) ational ate international internate 3.Anwendung von Step 3? –Step 3 wird nicht angewandt, da keine der Regeln zutrifft Anwendung von Step 4? Regel: (m>1) ate –internate intern SSES -> SS IES -> SS -> SS S -> (m>0) ATIONAL -> ATE (m>0) TIONAL -> TION (m>1) ATE ->

14 Fehler werden in Kauf genommen Tolerierbar, da Sucheingabe nach demselben Prinzip gestemmt wird wie der Text Nur sinnvoll, wenn Sprache über in hohem Maße regelhafte Wortbildung verfügt Anzahl der Regeln überschaubar ist Ausnahmen begrenzt sind Das System hat kein wirkliches morphologisches Verständnis Prefixe werden nicht berücksichtigt Einschränkungen regebasierter Verfahren


Herunterladen ppt "Spree SoSe 2010 Optimierung von Volltextinvertierung durch Stemming."

Ähnliche Präsentationen


Google-Anzeigen