Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Optimierung von Volltextinvertierung durch Stemming

Ähnliche Präsentationen


Präsentation zum Thema: "Optimierung von Volltextinvertierung durch Stemming"—  Präsentation transkript:

1 Optimierung von Volltextinvertierung durch Stemming
Spree SoSe 2010

2  Wer setzt solche Verfahren ein?
Im Hilfetext des Hostes LexisNexis können Sie Folgendes lesen: Plural Die nachfolgenden Beispiele gelten vor allem für das Plural-S. Mit diesem Operator können Sie die Suche auf Plural- und Possessivformen im Plural begrenzen. Wenn Sie den Singular angeben, finden Sie Singular, Plural und Genitivformen vieler Begriffe. Beispiel: city findet city, cities, city's, and cities' Das System erfasst jedoch nicht unregelmäßige Pluralbildungen, wie es im Englischen beispielsweise die Endungen "us" oder "is" sind. Beispiel: Mit bonus finden Sie nicht bonuses Beispiel: Mit child finden Sie nicht children Hinweis: Verwenden Sie für Suchen nach unregelmäßigen Pluralformen den Operator ODER | OR. Quelle: Ausschnitt Hilfetext LexisNexis (http://www.lexisnexis.com/help/global/globalhelp_frameset.asp?locale=de_DE&lbu=DE&adaptation=business&sPage=gh_terms&sAnchor=general&fromHelp=true)

3  Stemming - Wiederholung
genau Durch das Stemming werden die verschiedenen Wortformen auf eine einheitliche Form gebracht. Man unterscheidet zwei Wortformen: Grundform Wortform abzüglich aller Flexive Verkleidungen -> Verkleidung Stammform Grundform abzüglich aller Derivative Verkleidung -> Kleid Einfache Verfahren zur Optimierung von Volltextindices arbeiten mit der Grundformreduktion = Vereinheitlichung aller Indextermini auf die Grundform, seltener mit der Stammformreduktion Achtung: für die Suchanfrage und für den indexierten Text müssen dieselben Verfahren eingesetzt werden. Seminar I-Prax: Inhaltserschließung visueller Medien, Spree SoSe 2010

4  Probleme des Stemming Briefpapiere Briefpapi Buchen (Bäume)  Buch
genau Briefpapiere Briefpapi Buchen (Bäume)  Buch Buches  Buch Overstemming: Eine zu lange Zeichenkette wird abgeschnitten; Wörter mit unterschiedlichen Bedeutungen werden auf ein und dieselbe Form reduziert Themen  them Themas  thema schlechtester  schlechtest schlechter  schlecht Absorbieren  absorb Apsorption  absorp Understemming: Eine zu kurze Zeichenkette wird abgeschnitten.; Wörter mit derselben Bedeutung werden auf unterschiedliche Formen reduziert Seminar I-Prax: Inhaltserschließung visueller Medien, Spree SoSe 2010

5  Übung: Porter Stemmer Stemmingprogramme: Porter Stemmer
genau Stemmingprogramme: Porter Stemmer Demoprogramm für die deutsche Sprache Aufgabe: Sie erhalten einen Text und ein Indexierungsergebnis. Schauen Sie sich das Ergebnis an und beantworten Sie folgende Fragen: Was hat das Programm gemacht? Was vermuten Sie, wie funktioniert das? Hätte ein Nutzer das Dokument bekommen, wenn er recherchiert hätte: Informationswirtin Kundschaft AND Industrie Seminar I-Prax: Inhaltserschließung visueller Medien, Spree SoSe 2010

6  Porter Stemmer - Funktionsweise
genau Abtrennung von Endungen (keine Präfixe, Zirkumfixe, Infixe) basiert auf statistischen Erkenntnissen über Wortendungen und ihre Funktion / kein wirkliches morphologisches Wissen hinterlegt trunkiere alles, was länger als x Buchstaben ist, wenn .. iteratives (schrittweises) Vorgehen in Form der Abarbeitung aufeinanderfolgender Regeln basiert auf Erfahrungswissen Seminar I-Prax: Inhaltserschließung visueller Medien, Spree SoSe 2010

7  Porter Stemmer – Elemente des Codes C, V, (C=Konsonant; V=Vokal)
genau C, V, (C=Konsonant; V=Vokal) Zeichenfolgenlänge - Abfolgen von VC werden gezählt, um die Zeichenfolgenlänge festzulegen - Gezählt wird immer nur die VC Abfolge, C zu Beginn und V zum Ende zählt nicht: Oats =VC, also m=1 Tree = CV also m=0 Zusatzbedingungen: - *S (Stamm endet mit S) - *V* (Stamm enthält Vokal) Eine einfache Erklärung des Porter-Algorithmus liefert der Artikel Porter-Stemmer-Algorithmus der Wikipedia Den Originaltext finden Sie im Lernmodul Seminar I-Prax: Inhaltserschließung visueller Medien, Spree SoSe 2010

8  Porter Stemmer – Regeln
genau Einfache Regelstruktur für die Suffixbearbeitung Identifikation von Endungen (ate, s, ies …) Endungen werden abgehängt, wenn der übrigbleibender Stamm, bestimmte Bedingungen erfüllt Abhängen des Suffix erfolgt nur ab festgelegter Wortlänge (VC-Folge) Insgesamt 5 Bearbeitungsschritte Prinzip des „longest match“ Seminar I-Prax: Inhaltserschließung visueller Medien, Spree SoSe 2010

9  Porter Stemmer – Beispielregeln Step 1a
genau Step 1a SSES -> SS caresses -> caress IES -> I ponies -> poni ties > ti SS -> SS caress -> caress S -> cats > cat Step 1b (m>0) EED -> E feed > feed agreed -> agree (*v*) ED -> plastered -> plaster bled > bled (*v*) ING -> motoring -> motor sing > sing Wenn die erste oder zweite Regel zutrifft, wird folgendes getan: AT -> ATE conflat(ed) -> conflate BL -> BLE troubl(ed) -> trouble IZ -> IZE siz(ed) > size (*d and not (*L or *S or *Z)) Seminar I-Prax: Inhaltserschließung visueller Medien, Spree SoSe 2010

10  Porter Stemmer – Beispielregeln Step 2
genau Porter Stemmer – Beispielregeln Step 2 (m>0) ATIONAL -> ATE relational -> relate (m>0) TIONAL -> TION conditional -> condition rational > rational (m>0) ENCI -> ENCE valenci > valence ... Insgesamt 20 Fälle Step 3 (m>0) ICATE -> IC triplicate -> triplic (m>0) ATIVE -> formative > form (m>0) ALIZE -> AL formalize > formal (m>0) ICAL -> IC electrical -> electric Step 4 (m>1) AL -> revival > reviv (m>1) ANCE -> allowance > allow (m>1) ENCE -> inference > infer The suffixes are now removed. All that remains is a little tidying up. Step 5a (m>1) E -> probate > probat Step 5b (m > 1 and *d and *L) -> single letter controll > control roll > roll Seminar I-Prax: Inhaltserschließung visueller Medien, Spree SoSe 2010

11  Porter Stemmer – Maßnahmen gegen overstemming Regel: (m>1) ATE 
genau Porter Stemmer – Maßnahmen gegen overstemming Regel: (m>1) ATE  Suffixe werden nicht entfernt, wenn der Stamm zu kurz ist. Maß ist m, also Abfolge VokalConsonant. Es gibt keine linguistische Grundlage für diese Beobachtung, sie beruht nur auf Beobachtung. RELATE RELATE DERIVATE DERIV m= m=2/m>1 Seminar I-Prax: Inhaltserschließung visueller Medien, Spree SoSe 2010

12 Porter Algorithmus als Flussdiagramm

13  Porter Algorithmus : Beispiel für iteratives Vorgehen
SSES -> SS IES -> SS -> SS S -> International  intern Anwendung von Step 1 ? Step 1 wird nicht angewandt, weil keine der Regeln zutrifft Anwendung von Step 2 Bedingung (m>0) ? Ja, denn VCVC Regel: (m>0) ational ate international  internate Anwendung von Step 3? Step 3 wird nicht angewandt, da keine der Regeln zutrifft Anwendung von Step 4? Regel: (m>1) ate  internate  intern (m>0) ATIONAL -> ATE (m>0) TIONAL -> TION (m>1) ATE ->

14  Einschränkungen regebasierter Verfahren
Fehler werden in Kauf genommen Tolerierbar, da Sucheingabe nach demselben Prinzip gestemmt wird wie der Text Nur sinnvoll, wenn Sprache über in hohem Maße regelhafte Wortbildung verfügt Anzahl der Regeln überschaubar ist Ausnahmen begrenzt sind Das System hat kein wirkliches morphologisches Verständnis Prefixe werden nicht berücksichtigt


Herunterladen ppt "Optimierung von Volltextinvertierung durch Stemming"

Ähnliche Präsentationen


Google-Anzeigen