Präsentation herunterladen
Die Präsentation wird geladen. Bitte warten
1
Verfahren zur Stammformreduktion
(z.B. snowball, vorwiegend für die deutsche Sprache) Bryan Beck
2
Agenda Stammformreduktion Nutzen Verfahren Snowball
Nachteile & Alternativen Quellen
3
Stammformreduktion [Inf12]
Rückführung verschiedener Varianten eines Wortes auf gemeinsamen Wortstamm Information Retrieval Erster Algorithmus 1968 von Julie Beth Lovins Sprachabhängig Unterschiedliche Algorithmen für verschiedene Sprachen
4
Wieso? [Lan12] Häufigeres auftreten des Stammwortes mehr Suchergebnisse bessere Suchergebnisse Kleinere Indizierungslisten weniger Speicherplatz notwendig bessere Performance Weniger Redundanz
5
Anwendungsgebiete Freitextsuche Indexierung
(teilweise in Suchmaschinen) Tagging Filterung von Stoppwörtern
6
Beispiel schneller, schnelle, schnelles, schnellen Stammform: schnell
schlechtester, schlecht, schlechter, Stammform: schlecht
7
Deutsche Sprache Schwierige Sprache Starke Flexion Viele Sonderfälle
viele Varianten eines Wortes
8
Verfahren [Inf12] Porter-Stemmer-Algorithmus N-Gramm Verfahren
Lexikographische Verfahren Kombinationen aus mehreren Verfahren … können nicht verifiziert, sondern nur getestet werden
9
Porter-Stemmer 1980 von Dr. Martin Porter veröffentlicht
5 Schritte Algorithmus Entfernt Suffixe & Affixe im Wort Implementierung für mehrere Sprachen
10
Porter-Stemmer (Deutsch) [Lan12]
Definition zweier Wortregionen R1 und R2 R1 ist die Region nach dem ersten Nicht-Vokal, welcher einem Vokal folgt oder null R2 ist die Region (in R1) nach dem ersten Nicht-Vokal, welcher einem Vokal folgt oder null R1 anpassen, sodass die Wortregion davor mind. 3 Zeichen enthält Markiere s-Endungen, wenn davor ein b, d, f, g, h, k, l, m, n, r oder t steht Markiere st-Endungen, wenn davor ein b, d, f, g, h, k, l, m, n oder t steht Wandle ß in ss um
11
Porter-Stemmer (Deutsch) [Lan12]
Suche nach der längsten der folgenden Endungen und lösche diese, wenn sie innerhalb von R1 steht. e, em, en, ern, er, es eine markierte s-Endung 1 en, er, est eine markierte st-Endung 1, sofern mind. 3 Buchstaben davor stehen 1 Der Buchstabe vor der Endung muss nicht zwangsweise in R1 enthalten sein
12
Porter-Stemmer (Deutsch) [Lan12]
Suche nach der längsten der folgenden Endungen end, ung Lösche aus R2 Wenn ig davor steht, siehe ig Regel ig, ik, isch Lösche aus R2, sofern kein e davor steht lich, heit Lösche aus R2 Wenn er oder en davor steht, lösche aus R1 keit Wenn lich oder ig davor steht, lösche aus R2
13
Porter-Stemmer (Deutsch) [Lan12]
Entferne Umlaut Akzente (ä ö ü a o u)
14
Snowball [Por12] Framework für Stemming-Algorithmen
eigene Programmiersprache, konzipiert für Stemming Algorithmen Compiler für Übersetzung von Snowball Script (.sbl) nach Java und C
15
Nachteile [Ste12] Alternativen Sprachabhängig
Schwer anzupassen/verbessern Algorithmen nicht verifizierbar Fehleranfällig Alternativen Grundformreduktion Trunkierung (Wildcard Suche)
16
Vielen Dank für Ihre Aufmerksamkeit
Fragen?
17
Quellen [Por12] Dr Martin Porter: Snowball Tartarus. Online im Internet: , Stand [Inf12] Infobiber, McKaot , EmausBot u.W.: Stemming. Online im Internet: Stemming , Stand [Clau12] Prof. Michael Clausen, Dr. Frank Kurth: Grundlagen des Multimediaretrievals I. Online im Internet: MMRws0304/skriptMMRI.pdf , Stand
18
Quellen [Lan12] Johannes Lang, Rossen Kowatschew : HS Information Retrieval: Stemming. Online im Internet: kurs/Referate/Kowatschew_Lang/stemming.pdf, Stand [Ste12] Stein: Stammformreduktion. Online im Internet: teaching/lecturenotes/information-retrieval/ unit-de-stemming.pdf , Stand
Ähnliche Präsentationen
© 2024 SlidePlayer.org Inc.
All rights reserved.