Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Verfahren zur Stammformreduktion

Ähnliche Präsentationen


Präsentation zum Thema: "Verfahren zur Stammformreduktion"—  Präsentation transkript:

1 Verfahren zur Stammformreduktion
(z.B. snowball, vorwiegend für die deutsche Sprache) Bryan Beck

2 Agenda Stammformreduktion Nutzen Verfahren Snowball
Nachteile & Alternativen Quellen

3 Stammformreduktion [Inf12]
Rückführung verschiedener Varianten eines Wortes auf gemeinsamen Wortstamm Information Retrieval Erster Algorithmus 1968 von Julie Beth Lovins Sprachabhängig Unterschiedliche Algorithmen für verschiedene Sprachen

4 Wieso? [Lan12] Häufigeres auftreten des Stammwortes  mehr Suchergebnisse  bessere Suchergebnisse Kleinere Indizierungslisten  weniger Speicherplatz notwendig  bessere Performance Weniger Redundanz

5 Anwendungsgebiete Freitextsuche Indexierung
(teilweise in Suchmaschinen) Tagging Filterung von Stoppwörtern

6 Beispiel schneller, schnelle, schnelles, schnellen Stammform: schnell
schlechtester, schlecht, schlechter, Stammform: schlecht

7 Deutsche Sprache Schwierige Sprache Starke Flexion Viele Sonderfälle
 viele Varianten eines Wortes

8 Verfahren [Inf12] Porter-Stemmer-Algorithmus N-Gramm Verfahren
Lexikographische Verfahren Kombinationen aus mehreren Verfahren können nicht verifiziert, sondern nur getestet werden

9 Porter-Stemmer 1980 von Dr. Martin Porter veröffentlicht
5 Schritte Algorithmus Entfernt Suffixe & Affixe im Wort Implementierung für mehrere Sprachen

10 Porter-Stemmer (Deutsch) [Lan12]
Definition zweier Wortregionen R1 und R2 R1 ist die Region nach dem ersten Nicht-Vokal, welcher einem Vokal folgt oder null R2 ist die Region (in R1) nach dem ersten Nicht-Vokal, welcher einem Vokal folgt oder null R1 anpassen, sodass die Wortregion davor mind. 3 Zeichen enthält Markiere s-Endungen, wenn davor ein b, d, f, g, h, k, l, m, n, r oder t steht Markiere st-Endungen, wenn davor ein b, d, f, g, h, k, l, m, n oder t steht Wandle ß in ss um

11 Porter-Stemmer (Deutsch) [Lan12]
Suche nach der längsten der folgenden Endungen und lösche diese, wenn sie innerhalb von R1 steht. e, em, en, ern, er, es eine markierte s-Endung 1 en, er, est eine markierte st-Endung 1, sofern mind. 3 Buchstaben davor stehen 1 Der Buchstabe vor der Endung muss nicht zwangsweise in R1 enthalten sein

12 Porter-Stemmer (Deutsch) [Lan12]
Suche nach der längsten der folgenden Endungen end, ung  Lösche aus R2 Wenn ig davor steht, siehe ig Regel ig, ik, isch Lösche aus R2, sofern kein e davor steht lich, heit Lösche aus R2 Wenn er oder en davor steht, lösche aus R1 keit Wenn lich oder ig davor steht, lösche aus R2

13 Porter-Stemmer (Deutsch) [Lan12]
Entferne Umlaut Akzente (ä ö ü  a o u)

14 Snowball [Por12] Framework für Stemming-Algorithmen
eigene Programmiersprache, konzipiert für Stemming Algorithmen Compiler für Übersetzung von Snowball Script (.sbl) nach Java und C

15 Nachteile [Ste12] Alternativen Sprachabhängig
Schwer anzupassen/verbessern Algorithmen nicht verifizierbar Fehleranfällig Alternativen Grundformreduktion Trunkierung (Wildcard Suche)

16 Vielen Dank für Ihre Aufmerksamkeit
Fragen?

17 Quellen [Por12] Dr Martin Porter: Snowball Tartarus. Online im Internet: , Stand [Inf12] Infobiber, McKaot , EmausBot u.W.: Stemming. Online im Internet: Stemming , Stand [Clau12] Prof. Michael Clausen, Dr. Frank Kurth: Grundlagen des Multimediaretrievals I. Online im Internet: MMRws0304/skriptMMRI.pdf , Stand

18 Quellen [Lan12] Johannes Lang, Rossen Kowatschew : HS Information Retrieval: Stemming. Online im Internet: kurs/Referate/Kowatschew_Lang/stemming.pdf, Stand [Ste12] Stein: Stammformreduktion. Online im Internet: teaching/lecturenotes/information-retrieval/ unit-de-stemming.pdf , Stand


Herunterladen ppt "Verfahren zur Stammformreduktion"

Ähnliche Präsentationen


Google-Anzeigen