Verfahren zur Stammformreduktion

Slides:



Advertisements
Ähnliche Präsentationen
Fluch oder Segen? Gentechnik.
Advertisements

Die neue Sulzer Website Internet Core Team | Juli 2012.
Definition Überlappung und Überdeckung
Kohonennetze für Information Retrieval mit User Feedback
Programmiersprachen Eine allgemeine Übersicht der gängigsten Sprachen und ihrer Einteilung Gabriel Bretschner IG08 Fach: Informatiksysteme Einleitung Definition.
vorgestellt von Arndt Heinemann
Vorlesung 15, Dienstag, 12. Februar 2013
Informatik II: Algorithmen und Datenstrukturen SS 2013
Das LCA – Problem in Suffixbäumen
Grundstudiumspraktikum “Maschinelle Übersetzung”
Nutzergruppen von Weiterbildungsdatenbanken 2013 Wolfgang Plum BBPro - Büro für Beratung und Projektentwicklung Leverkusenstr. 13, Hamburg,
Einführung in Berechenbarkeit und Formale Sprachen
Die Plural.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (27 – Kürzeste Wege) Prof. Th. Ottmann.
Deklaratives Debugging (Seminar Software Engineering) Tim Sender Deklaratives Debugging Seminar Software Engineering.
© Karin Haenelt 2006, Operationen auf Akzeptoren und Transduktoren, ( ) 1 Operationen auf endlichen Akzeptoren und Transduktoren.
R-tree, R*-tree und R+-tree
Betreuer: Christian Brose
Medieneinsatz im Unterricht am Beispiel „Podcasting“
RO-Stemmer mit Snowball Spezifikation Doina Gligă Erwin Glockner Marina Stegărescu.
RO-Stemmer mit Snowball Abschlussvortrag Doina Gligă Erwin Glockner Marina Stegărescu RO-Stemmer mit Snowball D. Gligă, M. Stegărescu,
Optimierung von Volltextindices
Optimierung von Volltextindices
Optimierung von Volltextinvertierung durch Stemming
Beispielrelation Buchbestellungen H = Menge der bedeutenden Ziele = {a, d} Schwelle T = 4 Stichprobe S = {a, b, a, a, a, a} mit s = |S| = 6 N = Anzahl.
Intelligentes Crawling im WWW mit Hilfe intuitiver Suchbedingungen
Hauptseminar Automaten und Formale Sprachen
DIE EUROPÄISCHE KOMMISSION Sarah Dreier & Patrick Kaserer [März&April 2012]
Literatursuche leicht gemacht Universität Wien Zentrum für Sportwissenschaft.
7.1 Externes Suchen Bisherige Algorithmen: geeignet, wenn alle Daten im Hauptspeicher. Große Datenmengen: oft auf externen Speichermedien, z.B. Festplatte.
Zusammenfassung der Vorlesung
HILFEN, LERNEN & NACHSCHLAGEN IM INTERNET Impulsvortrag vom 17. Juni 2013 Kevin Rechsteiner.
Im Internet geht alles schneller, aber es dauert länger
1 Internet, Internet, Internet 1.2 – Online in Kontakt bleiben.
Kollektionen in Java Aufzählungstypen, Generische Typen
Grammatik Fodor Sándorné.
Cloud-Computing Tomic Josip.
Wird ganz am Anfang der HTML-Datei geschrieben Doctype html public bedeutet, dass man sich auf die Öffentlichkeit der html-dtd bezieht Html ist die meist.
Blended Learning.
Wer weiß, gewinnt Wissens- und Medienplattformen im Internet w w w. s a f e r i n t e r n e t. a t.
WebQuest Reiseziel Schwäbisch Hall Ein Unterrichtsprojekt mit Computer und Internet Klickt nun bitte weiter auf Einführung.Einführung Einführung Aufgabe.
Suchen In Texten Von Adriano Feola & Marc Draschl.
Ein Vortrag von Simon Bayer
Programmieren in C Einführung
Herzlich Willkommen.
Bericht der Gruppe Avatare Universität zu Köln BA Medienkulturwissenschaft/Medieninformatik Historisch-Kulturwissenschaftliche Informationsverarbeitung.
Automaten, formale Sprachen und Berechenbarkeit II SoSe 2004 Prof. W. Brauer Teil 1: Wiederholung (Vor allem Folien von Priv.-Doz. Dr. Kindler vom WS 2001/02.
Dieser nicht Fehler finden Algorithmus enthält einfach einen gravierenden welcher zu ist.
Wie sicher ist W-LAN?.
Programmieren ... in C++ Prof. Dr.-Ing. Franz-Josef Behr, HfT Stuttgart Programmeiren I.
TDD mit MSTest Stefan Lieser Web:
Christian Schindelhauer Wintersemester 2006/07 6. Vorlesung
Information Retrieval, Vektorraummodell
„Erstellen“ anklicken. Für Geräte mit gelben Aufkleber auf „Reparatur eines Gerätes mit Ident-Nummer“ anklicken. Erfahrene Ticket-Ersteller können „Direkterstellung“
Die Ganze Welt im Computer? Informationsbeschaffung im Internet
TDD mit MSTest Stefan Lieser Web:
12. Januar 2005Autor: Walter Leuenberger Computeria Urdorf Treff vom 12. Januar 2005 «Firefox»
Die Präsentation des Lehrers der 21- allgemeinbildenden Schule des Bezirks Peschkö in Gebiet Buchara von Alijor Jahjojev.
Vorlesung Einführendes Beispiel-
The PicSOM Retrieval System 1 Christian Steinberg.
Algorithmen und Datenstrukturen Prof. Dr. Ralf Möller Universität zu Lübeck Institut für Informationssysteme Stefan Werner (Übungen) sowie viele Tutoren.
Programmiersprachen II Fortsetzung Datenstrukturen Balancierte Bäume 3 Prof. Dr. Reiner Güttler Fachbereich GIS HTW.
Christoph Wirtz | Seminarvortrag EBC | Lehrstuhl für Gebäude- und Raumklimatechnik Ein Tool zum automatisierten Erstellen von Conversion Scripts.
1. Betreuer: Prof. Dr. Jörg Striegnitz 2. Betreuer: Dr. Martin Schindler Kontextsensitive Autocompletion für Klassendiagramme in der UML/P Florian Leppers.
EGO | Europäische Geschichte Online EGO | Europäische Geschichte Online Eine transkulturelle Geschichte Europas im Internet.
Wie verwende ich Suchmaschinen richtig?
Präsens.
Interpretieren Sie folgende Texte!
Suchen und Finden Wie verwende ich Suchmaschinen richtig?
 Präsentation transkript:

Verfahren zur Stammformreduktion (z.B. snowball, vorwiegend für die deutsche Sprache) Bryan Beck 09.01.2013

Agenda Stammformreduktion Nutzen Verfahren Snowball Nachteile & Alternativen Quellen

Stammformreduktion [Inf12] Rückführung verschiedener Varianten eines Wortes auf gemeinsamen Wortstamm Information Retrieval Erster Algorithmus 1968 von Julie Beth Lovins Sprachabhängig Unterschiedliche Algorithmen für verschiedene Sprachen

Wieso? [Lan12] Häufigeres auftreten des Stammwortes  mehr Suchergebnisse  bessere Suchergebnisse Kleinere Indizierungslisten  weniger Speicherplatz notwendig  bessere Performance Weniger Redundanz

Anwendungsgebiete Freitextsuche Indexierung (teilweise in Suchmaschinen) Tagging Filterung von Stoppwörtern

Beispiel schneller, schnelle, schnelles, schnellen Stammform: schnell schlechtester, schlecht, schlechter, Stammform: schlecht

Deutsche Sprache Schwierige Sprache Starke Flexion Viele Sonderfälle  viele Varianten eines Wortes

Verfahren [Inf12] Porter-Stemmer-Algorithmus N-Gramm Verfahren Lexikographische Verfahren Kombinationen aus mehreren Verfahren … können nicht verifiziert, sondern nur getestet werden

Porter-Stemmer 1980 von Dr. Martin Porter veröffentlicht 5 Schritte Algorithmus Entfernt Suffixe & Affixe im Wort Implementierung für mehrere Sprachen

Porter-Stemmer (Deutsch) [Lan12] Definition zweier Wortregionen R1 und R2 R1 ist die Region nach dem ersten Nicht-Vokal, welcher einem Vokal folgt oder null R2 ist die Region (in R1) nach dem ersten Nicht-Vokal, welcher einem Vokal folgt oder null R1 anpassen, sodass die Wortregion davor mind. 3 Zeichen enthält Markiere s-Endungen, wenn davor ein b, d, f, g, h, k, l, m, n, r oder t steht Markiere st-Endungen, wenn davor ein b, d, f, g, h, k, l, m, n oder t steht Wandle ß in ss um

Porter-Stemmer (Deutsch) [Lan12] Suche nach der längsten der folgenden Endungen und lösche diese, wenn sie innerhalb von R1 steht. e, em, en, ern, er, es eine markierte s-Endung 1 en, er, est eine markierte st-Endung 1, sofern mind. 3 Buchstaben davor stehen 1 Der Buchstabe vor der Endung muss nicht zwangsweise in R1 enthalten sein

Porter-Stemmer (Deutsch) [Lan12] Suche nach der längsten der folgenden Endungen end, ung  Lösche aus R2 Wenn ig davor steht, siehe ig Regel ig, ik, isch Lösche aus R2, sofern kein e davor steht lich, heit Lösche aus R2 Wenn er oder en davor steht, lösche aus R1 keit Wenn lich oder ig davor steht, lösche aus R2

Porter-Stemmer (Deutsch) [Lan12] Entferne Umlaut Akzente (ä ö ü  a o u)

Snowball [Por12] Framework für Stemming-Algorithmen eigene Programmiersprache, konzipiert für Stemming Algorithmen Compiler für Übersetzung von Snowball Script (.sbl) nach Java und C

Nachteile [Ste12] Alternativen Sprachabhängig Schwer anzupassen/verbessern Algorithmen nicht verifizierbar Fehleranfällig Alternativen Grundformreduktion Trunkierung (Wildcard Suche)

Vielen Dank für Ihre Aufmerksamkeit Fragen?

Quellen [Por12] Dr Martin Porter: Snowball Tartarus. Online im Internet: http://snowball.tartarus.org , Stand 26.12.2012 [Inf12] Infobiber, McKaot , EmausBot u.W.: Stemming. Online im Internet: http://de.wikipedia.org/wiki/ Stemming , Stand 26.12.2012 [Clau12] Prof. Michael Clausen, Dr. Frank Kurth: Grundlagen des Multimediaretrievals I. Online im Internet: http://www-mmdb.iai.unibonn.de/lehre/material MMRws0304/skriptMMRI.pdf , Stand 26.12.2012

Quellen [Lan12] Johannes Lang, Rossen Kowatschew : HS Information Retrieval: Stemming. Online im Internet: http://kontext.fraunhofer.de/haenelt/ kurs/Referate/Kowatschew_Lang/stemming.pdf, Stand 26.12.2012 [Ste12] Stein: Stammformreduktion. Online im Internet: http://www.uni-weimar.de/medien/webis/ teaching/lecturenotes/information-retrieval/ unit-de-stemming.pdf , Stand 09.01.2013