Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Verfahren zur Stammformreduktion (z.B. snowball, vorwiegend für die deutsche Sprache) Bryan Beck 09.01.2013.

Ähnliche Präsentationen


Präsentation zum Thema: "Verfahren zur Stammformreduktion (z.B. snowball, vorwiegend für die deutsche Sprache) Bryan Beck 09.01.2013."—  Präsentation transkript:

1 Verfahren zur Stammformreduktion (z.B. snowball, vorwiegend für die deutsche Sprache) Bryan Beck

2 Agenda Stammformreduktion Nutzen Verfahren Snowball Nachteile & Alternativen Quellen

3 Stammformreduktion [Inf12] Rückführung verschiedener Varianten eines Wortes auf gemeinsamen Wortstamm Information Retrieval Erster Algorithmus 1968 von Julie Beth Lovins Sprachabhängig Unterschiedliche Algorithmen für verschiedene Sprachen

4 Wieso? [Lan12] Häufigeres auftreten des Stammwortes mehr Suchergebnisse bessere Suchergebnisse Kleinere Indizierungslisten weniger Speicherplatz notwendig bessere Performance Weniger Redundanz

5 Anwendungsgebiete Freitextsuche Indexierung (teilweise in Suchmaschinen) Tagging Filterung von Stoppwörtern

6 Beispiel schneller, schnelle, schnelles, schnellen Stammform: schnell schlechtester, schlecht, schlechter, Stammform: schlecht

7 Deutsche Sprache Schwierige Sprache Starke Flexion Viele Sonderfälle viele Varianten eines Wortes

8 Verfahren [Inf12] Porter-Stemmer-Algorithmus N-Gramm Verfahren Lexikographische Verfahren Kombinationen aus mehreren Verfahren … können nicht verifiziert, sondern nur getestet werden

9 Porter-Stemmer 1980 von Dr. Martin Porter veröffentlicht 5 Schritte Algorithmus Entfernt Suffixe & Affixe im Wort Implementierung für mehrere Sprachen

10 Porter-Stemmer (Deutsch) [Lan12] Definition zweier Wortregionen R1 und R2 R1 ist die Region nach dem ersten Nicht-Vokal, welcher einem Vokal folgt oder null R2 ist die Region (in R1) nach dem ersten Nicht-Vokal, welcher einem Vokal folgt oder null R1 anpassen, sodass die Wortregion davor mind. 3 Zeichen enthält Markiere s-Endungen, wenn davor ein b, d, f, g, h, k, l, m, n, r oder t steht Markiere st-Endungen, wenn davor ein b, d, f, g, h, k, l, m, n oder t steht Wandle ß in ss um

11 Porter-Stemmer (Deutsch) [Lan12] 1.Suche nach der längsten der folgenden Endungen und lösche diese, wenn sie innerhalb von R1 steht. e, em, en, ern, er, es eine markierte s-Endung 1 2.Suche nach der längsten der folgenden Endungen und lösche diese, wenn sie innerhalb von R1 steht. en, er, est eine markierte st-Endung 1, sofern mind. 3 Buchstaben davor stehen 1 Der Buchstabe vor der Endung muss nicht zwangsweise in R1 enthalten sein

12 Porter-Stemmer (Deutsch) [Lan12] 3.Suche nach der längsten der folgenden Endungen end, ung Lösche aus R2 Wenn ig davor steht, siehe ig Regel ig, ik, isch Lösche aus R2, sofern kein e davor steht lich, heit Lösche aus R2 Wenn er oder en davor steht, lösche aus R1 keit Lösche aus R2 Wenn lich oder ig davor steht, lösche aus R2

13 Porter-Stemmer (Deutsch) [Lan12] 4.Entferne Umlaut Akzente (ä ö ü a o u)

14 Snowball [Por12] Framework für Stemming-Algorithmen eigene Programmiersprache, konzipiert für Stemming Algorithmen Compiler für Übersetzung von Snowball Script (.sbl) nach Java und C

15 Nachteile [Ste12] Sprachabhängig Schwer anzupassen/verbessern Algorithmen nicht verifizierbar Fehleranfällig Alternativen Grundformreduktion Trunkierung (Wildcard Suche)

16 Vielen Dank für Ihre Aufmerksamkeit Fragen?

17 Quellen [Por12]Dr Martin Porter: Snowball Tartarus. Online im Internet: Stand [Inf12]Infobiber, McKaot, EmausBot u.W.: Stemming. Online im Internet: Stemming, Stand [Clau12]Prof. Michael Clausen, Dr. Frank Kurth: Grundlagen des Multimediaretrievals I. Online im Internet: MMRws0304/skriptMMRI.pdf, Stand

18 Quellen [Lan12]Johannes Lang, Rossen Kowatschew : HS Information Retrieval: Stemming. Online im Internet: kurs/Referate/Kowatschew_Lang/stemming.pdf, Stand [Ste12]Stein: Stammformreduktion. Online im Internet: teaching/lecturenotes/information-retrieval/ unit-de-stemming.pdf, Stand


Herunterladen ppt "Verfahren zur Stammformreduktion (z.B. snowball, vorwiegend für die deutsche Sprache) Bryan Beck 09.01.2013."

Ähnliche Präsentationen


Google-Anzeigen