RO-Stemmer mit Snowball Abschlussvortrag 05.07.2006 Doina Gligă Erwin Glockner Marina Stegărescu 05.07.2006 RO-Stemmer mit Snowball D. Gligă, M. Stegărescu,

Slides:



Advertisements
Ähnliche Präsentationen
Eine dynamische Menge, die diese Operationen unterstützt,
Advertisements

Inhalt Saarbrücken,.
Tipps & Tricks zu benutzerdefinierten Animationspfaden
Frame-Logik Eine Einführung Andreas Glausch.
What Computers still cant do A Critique of Artificial Reason Hubert L. Dreyfus.
Seminar Textmining WS 06/07 Themen Übung 8 Stemming Crawling.
Inhaltlich orientierter Zugriff auf unstrukturierte Daten
8 Behandlung von Begriffen 8.1 Grundlagen aus Logik und Psychologie
Klaus J. Kohler IPDS, Kiel
Sortierverfahren Richard Göbel.
Seminar zum pi-Kalkül betreut von Andreas Rossberg
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/8 Thesauren In gewisser Weise bilden Thesauren (Singular Thesaurus, Plural auch Thesauri)
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/5 Grundtechniken des Information Retrieval Deskribierung Hierunter versteht man eine manuelle.
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/4 Manuelle Verfahren Klassifizierung Hier werden Dokumente in ein fest vorgegebenes System.
Mixed Models Jonathan Harrington library(ez) library(lme4)
DOM (Document Object Model)
Implementierung von Gender Mainstreaming in die Evaluation
Algorithmentheorie 04 –Hashing
Suche in Texten: Suffix-Bäume
WS Algorithmentheorie 05 - Treaps Prof. Dr. Th. Ottmann.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (27 – Kürzeste Wege) Prof. Th. Ottmann.
WS Prof. Dr. Th. Ottmann Algorithmentheorie 09 - Suche in Texten Suffix - Bäume.
Mathematische Grundlagen
FS_Geschwindigkeitsmessung
Universität Dortmund, Lehrstuhl Informatik 1 EINI II Einführung in die Informatik für Naturwissenschaftler und Ingenieure.
Huffmans Kompressionsverfahren
PG 478 – Open Graph Drawing Framework Thema: Compounds & Force-Directed Francois Bertault & Mirka Miller – An Algorithm for Drawing Compound Graphs [1999]
Christian Schindelhauer
Explizite und editierbare Metainformationen für Software Muster.
RO-Stemmer mit Snowball Spezifikation Doina Gligă Erwin Glockner Marina Stegărescu.
Excel Kurs Teil VII Textfunktionen ( TEXT, LÄNGE, LINKS, RECHTS, TEIL, FINDEN ) Einladen von Textdateien Text in Spalten F. Bäumer.
Beispielrelation Buchbestellungen H = Menge der bedeutenden Ziele = {a, d} Schwelle T = 4 Stichprobe S = {a, b, a, a, a, a} mit s = |S| = 6 N = Anzahl.
Hauptseminar Automaten und Formale Sprachen
Weiteres Programm Studium des Breitendurchlaufs Hierzu
Linguistik Stellen Sie Fragen zum Text (schauen Sie auf Ihre Unterlagen)! Versuchen Sie die gestellten Fragen zu beantworten!
UML Begleitdokumentation des Projekts
Maschinelles Lernen und automatische Textklassifikation
Entitäten Extraktion Einführung
Verfahren zur Stammformreduktion
Ideen der Informatik Suchen und Sortieren [Ordnung muss sein…]
7.1 Externes Suchen Bisherige Algorithmen: geeignet, wenn alle Daten im Hauptspeicher. Große Datenmengen: oft auf externen Speichermedien, z.B. Festplatte.
Splay Trees Von Projdakov Benjamin.
Übersetzungskurs 12 KL:SUN Yu.
Effiziente Algorithmen
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Information und Kommunikation Hartmut Klauck Universität Frankfurt SS
Information und Kommunikation
Polynome und schnelle Fourier-Transformation
Dynamische Programmierung mit Anwendung auf Sequence Alignment Problem
Einführung in die Programmierung Wintersemester 2008/09 Prof. Dr. Günter Rudolph Lehrstuhl für Algorithm Engineering Fakultät für Informatik TU Dortmund.
Suchen In Texten Von Adriano Feola & Marc Draschl.
Formale Sprachen Grammatiken und die Chomsky-Hierarchie
Übung zu Einführung in die LDV I
Objectives Verstehen was unterDelegate verstanden wird
Oberschule, Klassenstufe 2 von Eliza Woldan und Izabela Osińska
Programmieren ... in C++ Prof. Dr.-Ing. Franz-Josef Behr, HfT Stuttgart Programmeiren I.
Information Retrieval, Vektorraummodell
© 2001 Sven Dammann1 Aufbau Integrierter Informationssysteme XML Bearbeitung und relationale Abbildung Sven Dammann Martin-Luther-Universität Halle-Wittenberg.
Übung zu Einführung in die LDV I
Software Design Patterns
Institut für Kartographie und Geoinformation Prof. Dr. Lutz Plümer Diskrete Mathematik II Foliendesign: Jörg Steinrücken & Tobias Kahn Vorlesung
Lexikalische Semantik
Modal auxiliaries Chris can read the book. (has the ability to) Chris may read the book (is allowed to) Chris must read the book (has to) Chris should.
Algorithmen und Datenstrukturen Prof. Dr. Ralf Möller Universität zu Lübeck Institut für Informationssysteme Stefan Werner (Übungen) sowie viele Tutoren.
Algorithm Engineering „Suffix-Bäume und Suffix-Arrays“ Stefan Edelkamp.
Programmiersprachen II Vorbesprechung Klausur Prof. Dr. Reiner Güttler Fachbereich GIS HTW.
Terminologie-Extraktion
 Präsentation transkript:

RO-Stemmer mit Snowball Abschlussvortrag Doina Gligă Erwin Glockner Marina Stegărescu RO-Stemmer mit Snowball D. Gligă, M. Stegărescu, E. Glockner

Inhaltsübersicht Stemmer: Idee des Algorithmus, Porters Snowball, Stemdefinition, Problematik Rumänisch: Flexionsstruktur Implementierung: Pseudocode Evaluation RO-Stemmer mit Snowball D. Gligă, M. Stegărescu, E. Glockner

Was haben wir gemacht? Stemmer in Snowball für Rumänisch RO-Stemmer mit Snowball D. Gligă, M. Stegărescu, E. Glockner

Was sind Stemmer? Programme, die Wörter auf ihren gemeinsamen Kern zurückführen vor allem als Komponente der IR- Systeme entwickelt und benutzt Linguistische Analyse RO-Stemmer mit Snowball D. Gligă, M. Stegărescu, E. Glockner

Stemmer Lexikonbasierte Korpusbasierte Regelbasierte RO-Stemmer mit Snowball D. Gligă, M. Stegărescu, E. Glockner

Regelbasierter Stemmer Verfahren Porters Algorithmus Sprache Snowball RO-Stemmer mit Snowball D. Gligă, M. Stegărescu, E. Glockner

Porters Algorithmus Menge von Verkürzungsregeln: Bedingungen und Ableitungen für verschiedene Suffixe Vokal-Konsonant-Sequenzen Regelanwendung RO-Stemmer mit Snowball D. Gligă, M. Stegărescu, E. Glockner

Snowball Snowball: stringverarbeitende Sprache ermöglicht das einfache und exakte Repräsentieren von Stemmingalgorithmen entwickelt von Martin Porter RO-Stemmer mit Snowball D. Gligă, M. Stegărescu, E. Glockner

Stem Nicht mit dem linguistischen Stamm identisch, da Derivationssuffixe nicht immer entfernt werden Vielmehr ein gemeinsamer Kern von Termen RO-Stemmer mit Snowball D. Gligă, M. Stegărescu, E. Glockner

Problematik Entsteht dadurch, dass eine Zeichensequenz sowohl als Suffix, als auch als Teil des Kerns vorkommen kann Keine Formalisierung für diese semantische Unterscheidung möglich, da die Wörter von der Form her die gleiche Struktur aufweisen z.B. capital vs lovit, iscusitul; castană vs americană; palatalizare vs spălat RO-Stemmer mit Snowball D. Gligă, M. Stegărescu, E. Glockner

Ziel Minimierung von: Overstemming: zu lange Zeichenkette wird abgeschnitten militar -> mil statt milit Understemming: zu kurze Zeichenkette wird abgeschnitten robotizată -> robotiza statt robot Misstemming: subjektiv RO-Stemmer mit Snowball D. Gligă, M. Stegărescu, E. Glockner

Stemmer fürs Rumänische Was ist die Idee hinten dem Code? Begriffe und Definitionen Was ist fürs Rumänische zu beachten? Was wollen wir erreichen? Pseudo-Algortihmus RO-Stemmer mit Snowball D. Gligă, M. Stegărescu, E. Glockner

Begriffe Wurzel (Root) - die Sequenz des Wortes, die nicht mehr zerlegbar ist und in lautlicher und semantischer Hinsicht, als Ausgangsbasis entsprechender Wortfamilie angesehen wird –Cânt-a (singen) Stamm – Morphem oder Morphemkonstruktion, an die Flexionsendungen treten können –Descânt-a (durch Sprüche Zauber verzaubern) Flexionselemente – die Menge aller Elemente, die in paradigmatischer Relation mit dem Stamm eines Wortes sind, und das Flexionsparadigma dieses Wortes bildet Flexionsparadigma – die Menge aller Flexionsformen des Wortes RO-Stemmer mit Snowball D. Gligă, M. Stegărescu, E. Glockner

Porter's Begriffe a – Suffixe -> mit dem Wort zusammen gebundenen Suffixe (enclitics) Italienisch, Spanisch, Portugiesisch it. mandarglielo = mandare + gli + lo = to send + it + to him Rumänisch – Bestimmte Artikel i – Suffixe (Inflektionssuffixe) fit + ed -> fitted (doppel t) love + ed -> loved (e final von love verschwindet ) d – Suffixe (Derivationssuffixe) Englisch: -ly -> greatly, kingly Französisch: -ement -> rapprochement) RO-Stemmer mit Snowball D. Gligă, M. Stegărescu, E. Glockner

Das Rumänische Romanische Sprache 7 Vokalen 22 Konsonnanten Flexionsstruktur und Derivationsstruktur – umfangreich und multistratal P:: Stamm +(Vok)+ (Suffix) + (Suffix) + Flektionsmarker 1-3 Stämme –Pom pom -i pom-u-lui –Fat-afet-e –Om oamen -i –Frumos frumoş –I frumoas-e RO-Stemmer mit Snowball D. Gligă, M. Stegărescu, E. Glockner

Probleme Homonymie der Endungen: –-e: case (Häuser) merge (gehen) bine(gut) –-i copaci (bäumer) frumoşi (schöne (Kinder) iubi (lieben) mergi (du gehest) crai (Prinz) F i i i Stamm->fiu pl. b.Art. - ar familiar marar Dill) RO-Stemmer mit Snowball D. Gligă, M. Stegărescu, E. Glockner

Ziel des Porters Stemmer vs. Rumänischen Stemmer Usually we want to remove all a- and i-suffixes, and some of the d-suffixes. Fürs Rumänische -> a-Suffixe, i-Suffixe, d – Suffixe (vielfältiger als im Englischen oder Deutschen) stabil stabili stabilit stabilire stabilibil stabiliza stabilizat stabilizant stabilizare stabilizator RO-Stemmer mit Snowball D. Gligă, M. Stegărescu, E. Glockner

Pseudocode RO-Stemmer mit Snowball D. Gligă, M. Stegărescu, E. Glockner Diakritika integrieren die feste unstemmbare Grenze des Strings definieren /* Wörter von zwei Buchstaben nicht betrachten; r1 – ab dem ersten Konsonant, dem ein Vokal in dem String folgt; r2 – nach dem ersten in r1 eines Vokals folgender Konsonant* / Wenn String nicht in Exception1 vorhanden und wenn String > als 2 Buchstaben: /* Exc1-> stopp words und Wörter die eine a- und i-Funktion verletzen */ Suche nach a und i Suffixe und, wenn gefunden, entferne sie Suche nach d Suffixe und, wenn vorhanden, entferne sie Suche nach Suffixe, die zusätzlich in dem Derivationsprozess erscheinen können (munci vs. muncitor), oder nach Suffixe [+Partizip ] (->verbale, adjektivale oder substantivale Distribution: mâncat, mâncata, mâncatul), und wenn vorhanden, entferne sie

Evaluierung Vorbereitung Durchführung Zusammenfassung RO-Stemmer mit Snowball D. Gligă, M. Stegărescu, E. Glockner

Vorbereitung/Durchführung Sammlung von Online-Texte Text in Wörter gesplittet, Wortwiederholungen (identische Wörter) und Satzzeichen entfernt Stopwords entfernt Manuell gestemmt Mit Snowball gestemmt Vergleich manueller Stem mit Snowball-Stem => Prozentsatz RO-Stemmer mit Snowball D. Gligă, M. Stegărescu, E. Glockner

Manueller Text RO-Stemmer mit Snowball D. Gligă, M. Stegărescu, E. Glockner Manueller Stem Snowball Stem 1. Methode 2. Methode Random-Liste Doina Stem Marina Stem Erwin Stem Snowball 1 Snowball 2 Snowball 3 / 3 Ergebnis Vergleich

Statistik RO-Stemmer mit Snowball D. Gligă, M. Stegărescu, E. Glockner

Fazit Hohe Kompressionsrate schnell Problem wegen vielfältiger Inflektions- und Derivationsbasis Wenn man keine Deriovationsfälle betrachtet, sondern nur die Inflektionssuffixe => hohes Ergebnis Daten-Abgleich und manchmal Einigung im Team schwierig RO-Stemmer mit Snowball D. Gligă, M. Stegărescu, E. Glockner

Literaturverzeichnis Luciana Peev, Lidia Bibolar, Jodal, Endre, A Formalization Model of the Romanian Morphology Jörg Meibauer & al., Einführung in die germanistische Linguistik, Stuttgart, 2002 I. Coteanu, Limba română contemporană, vol. I, Bucureşti, dex.html dex.html RO-Stemmer mit Snowball D. Gligă, M. Stegărescu, E. Glockner