Stemming und Lemmatisierung

Slides:



Advertisements
Ähnliche Präsentationen
Relative Clauses.
Advertisements

Strategie (Strategy / Policy) Ein objektbasiertes Verhaltensmuster Stephan Munkelt, Stefan Salzmann - 03IN.
NER Named Entity Recognition
6. Regelbasierte Systeme
Apriori-Algorithmus zur Entdeckung von Assoziationsregeln
Von David Keß, Heinrich Wölk, Daniel Hauck
7. Natürliche Binärbäume
Suche in Texten (Stringsuche )
Seminar Textmining WS 06/07 Themen Übung 8 Stemming Crawling.
Kapitel 6. Suchverfahren
Kapitel 3: Listen Lineare Liste: endliche Folge von Elementen eines Grundtyps (n>=0), leere Liste falls n=0 Listenelemente besitzen.
Ich habe nie gelernt, Aufgaben zu lösen
Art der Arbeit (Projekt-/Studien-/Diplomarbeit/
Kapitel 4 Syntaktische Analyse: LR Parsing.
Fallstudie. 2 Statistik April Dokumente Jan Mio. Dokumente Performance 3 Mio. Queries pro Tag 9. Juni 2000 Most popular search engines.
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/8 Thesauren In gewisser Weise bilden Thesauren (Singular Thesaurus, Plural auch Thesauri)
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/4 Manuelle Verfahren Klassifizierung Hier werden Dokumente in ein fest vorgegebenes System.
WS Prof. Dr. Th. Ottmann Algorithmentheorie 09 - Suche in Texten Suffix –Tree –Konstruktion Ukkonen Algorithmus.
Text-Retrieval mit Oracle Vortrag von Andreas Mück & David Diestel.
Sprachkonstruktion I Konstruktion einer neuen Sprache Einladung zu einem Sprachexperiment Sie sind eingeladen, sich an einem Sprachexperiment zu beteiligen.
Algorithmen und Komplexität
Was ist Lemmatisierung und wie wird sie maschinell durchgeführt?
Wie arbeitet der Brill-Tagger und warum macht er Fehler? Der Brill-Tagger basiert auf der Kombination von regelbasierten und statistischen Verfahren. Er.
RO-Stemmer mit Snowball Spezifikation Doina Gligă Erwin Glockner Marina Stegărescu.
Optimierung von Volltextindices
Optimierung von Volltextindices
Optimierung von Volltextinvertierung durch Stemming
Grammatikentwicklung
Beispielrelation Buchbestellungen H = Menge der bedeutenden Ziele = {a, d} Schwelle T = 4 Stichprobe S = {a, b, a, a, a, a} mit s = |S| = 6 N = Anzahl.
Hauptseminar Automaten und Formale Sprachen
Spree SoSe 2010 Optimierung von Volltextinvertierung durch den Einsatz von Indexierungswörterbüchern Artikelstrecke ab BUTTERBLUME im Deutschen Wörterbuch.
Morphologiesystem MORPHY Für Deutsche Sprache:
Machine Learning Decision Trees (2).
Spezifikation von Anforderungen
Komponenten eines Information Retrieval Systems
Verfahren zur Stammformreduktion
1 Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)
grundlagen der Wirtschafts- informatik
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Project Perseus Der volle Projektname lautet Perseus Digital Library Project. Das Projekt begann in 1985 als Experiment zur Digitalisierung von Bibliotheken.
Effiziente Algorithmen
Effiziente Algorithmen
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Freitag den 5. Juli Probleme in der Schule. Starteraktivität Finde diese Wörter im Wörterbuch um/ziehen wechseln verlieren bestehen bekommen zu/nehmen.
INTAKT- Interkulturelle Berufsfelderkundungen als ausbildungsbezogene Lerneinheiten in berufsqualifizierenden Auslandspraktika DE/10/LLP-LdV/TOI/
Dynamische Datentypen
Suchen In Texten Von Adriano Feola & Marc Draschl.
Context-awareness Andreas Bossard, Matthias Hert.
Übung zu Einführung in die LDV I
Automaten, formale Sprachen und Berechenbarkeit II SoSe 2004 Prof. W. Brauer Teil 1: Wiederholung (Vor allem Folien von Priv.-Doz. Dr. Kindler vom WS 2001/02.
Elman-Netzwerke Wintersemester 2004/05 Seminar Kindlicher Spracherwerb C. Friedrich & R. Assadollahi vorgestellt von Christian Scharinger & Guido Heinecke.
Dieser nicht Fehler finden Algorithmus enthält einfach einen gravierenden welcher zu ist.
Using latent semantic analysis to find different names for the same entity in free text Präsentation und Diskussion des Papers Im Rahmen des PS Web-Information.
Betriebssysteme Übung Tutorium „TLB & Virtual Memory“
Das Traveling Salesman Problem (TSP)
Information Retrieval, Vektorraummodell
Topic 4B Immigration – Advantages and Problems LO: Talk about benefits and problems for immigrants and for country of destination. Einwanderung – Vorteile.
Monomorphemisch: Haus, Baum etc Morphologisch komplex
Lust auf Lesen Treffpunkt Deutsch Sixth Edition. Relative Pronoun object of a preposition Recall from chapter 9 that relative clauses describe people,
Algebraische Optimierung (1)
Kapitel 4: Mein Tag Sprache.
CL Tree MW 31.1 Business Intelligence Wintersemester 2015 / 2016 Stanislav Prokupetz.
Arbeiten mit WordSmith 4. Inhalt 1. Arbeiten mit der Funktion Wortliste (im getaggten Korpus) 1. Arbeiten mit der Funktion Wortliste (im getaggten Korpus)
Academic writing in German Deutsche Wissenschaftssprache Transition Module 5a developed by Elisabeth Wielander.
1 Suchprofile erstellen und verwalten. 2 Suchprofile bei Registrierung Hier können Sie bis zu drei Suchprofile einrichten. Diese finden Sie später unter.
Adjektiven und Adverbien Endungen. Das prädikativ gebrauchte Adjektiv Predicate adjectives follow the verbs sein, werden or bleiben. The modify the subject.
Technische Universität München Institute of Aeronautical Engineering Prof. Dr.-Ing. Horst Baier Presentation of the Institute (December 2009)
1Crypto AG / P_M_HC-2650-Course-Notes-d_0833_rd.PPT Training and Education HC-2650 Kursunterlagen.
 Präsentation transkript:

Stemming und Lemmatisierung Orthographische und morphologische Normalisierung von Index/Query Termen

Motivation Simultane Suche nach allen morphologischen oder orthographischen Varianten Verbesserung des Recalls ohne Verschlechterung der Precision „einfache Lösung“: Benutzer muss durch Verwendung von Trunkierungsoperatoren (*) oder Disjunktion über alle Formen selbst dafür Sorge tragen Problem bei Trunkierung: es werden ungewollte Fortsetzungen erzeugt: auto* findet Auto und Autos, aber auch automatisch, Autor oder Automorphismus usw.

Beispiele (Zahlen von AltaVista) „grosser Busen“ : 152 „großer Busen“ : 180 „große Busen“ : 175 „grosse Busen“ : 126 „grossen Busen“ : 277 „großen Busen“ : 478 „großem Busen“ : 77 „grossem Busen“ : 110 Disjunktion: : 2.869 „neuer Markt“ : 102.117 „neue Markt“ : 15.058 „neuen Markt“ : 90.716 „neuem Markt“: 404 Disjunktion: 176.749

Vorgehen Führe alle morphologischen oder orthographischen Varianten auf eine kanonische Form zurück Stemming: kanonische Form ist ein (künstlicher) Wortstamm, der durch regelbasiertes Abschneiden von Suffixen entsteht, ohne Konsultation eines Wörterbuchs. z.B. {Museum, Museen}-> muse Lemmatisierung: kanonische Form ist die Grundform, die in einem (elektronischen) Wörterbuch nachgeschlagen wird. Z.B {Museum, Museen} -> Museum

Stopwörter Stopwörter sind Wörter, die in einer Dokumentenkollektion so häufig vorkommen, dass es keinen Sinn macht nach ihnen zu suchen bzw. sie zu indexieren (z.B. der, die, das, ist, ...) Erstellung einer Stopwortliste entweder auf der Basis einer Frequenzliste, oder nach linguistischen Kriterien: Funktionswörter Vorteil der Eliminierung von Stopwörtern: Index wird wesentlich kleiner Nachteil: keine Phrasensuche möglich: „to be or not to be“

Stemming Algorithmen Bekanntester und verbreitetster: Porter Stemmer Entwickelt fürs Englische Idee: in verschiedenen Durchgängen werden jeweils unterschiedliche Suffixe entfernt (soll Abfolge von Flexions- und Derivationssuffixen widerspiegeln) Entfernung von Suffixen kann durch Bedingungen an den verbleibenden Stamm eingeschränkt werden

Porter Stemmer Jedes Wort hat die Form C?(VC){m}V?, C ist beliebige Folge von Konsonanten, V beliebige Folge von Vokalen, 0<=m Jede Regel hat die Form: (condition) S1 -> S2 Mögliche Conditions: m > n, *S (Stamm endet mit s), *v* (Stamm enthält Vokal), *d (Stamm endet mit Doppelkonsonant), *o (Stamm endet mit cvc) S1 ist ein Suffix des Worts, S2 kann entweder leer sein oder ein neues Suffix sein

Porter Algorithmus Step 1a SSES -> SS caresses -> caress IES -> I ponies -> poni ties -> ti SS -> SS caress -> caress S -> cats -> cat Step 1b (m>0) EED -> EE feed -> feed agreed -> agree (*v*) ED -> plastered -> plaster bled -> bled (*v*) ING -> motoring -> motor sing -> sing

Porter Algorithmus If the second or third of the rules in Step 1b is successful, the following is done: AT -> ATE conflat(ed) -> conflate BL -> BLE troubl(ed) -> trouble IZ -> IZE siz(ed) -> size (*d and not (*L or *S or *Z)) -> single letter hopp(ing) -> hop fall(ing) -> fall hiss(ing) -> hiss fizz(ed) -> fizz (m=1 and *o) -> E fail(ing) -> fail fil(ing) -> file Step 1c (*v*) Y -> I happy -> happi sky -> sky

Porter Algorithmus Step 2 (m>0) ATIONAL -> ATE relational -> relate (m>0) TIONAL -> TION conditional -> condition rational -> rational (m>0) ENCI -> ENCE valenci -> valence (m>0) ANCI -> ANCE hesitanci -> hesitance (m>0) IZER -> IZE digitizer -> digitize (m>0) ABLI -> ABLE conformabli -> conformable (m>0) ALLI -> AL radicalli -> radical (m>0) ENTLI -> ENT differentli -> different (m>0) ELI -> E vileli - > vile (m>0) OUSLI -> OUS analogousli -> analogous (m>0) IZATION -> IZE vietnamization -> vietnamize (m>0) ATION -> ATE predication -> predicate (m>0) ATOR -> ATE operator -> operate (m>0) ALISM -> AL feudalism -> feudal (m>0) IVENESS -> IVE decisiveness -> decisive (m>0) FULNESS -> FUL hopefulness -> hopeful (m>0) OUSNESS -> OUS callousness -> callous (m>0) ALITI -> AL formaliti -> formal (m>0) IVITI -> IVE sensitiviti -> sensitive (m>0) BILITI -> BLE sensibiliti -> sensible

Porter Algorithmus Step 3 (m>0) ICATE -> IC triplicate -> triplic (m>0) ATIVE -> formative -> form (m>0) ALIZE -> AL formalize -> formal (m>0) ICITI -> IC electriciti -> electric (m>0) ICAL -> IC electrical -> electric (m>0) FUL -> hopeful -> hope (m>0) NESS -> goodness -> good Step 4 (m>1) AL -> revival -> reviv (m>1) ANCE -> allowance -> allow (m>1) ENCE -> inference -> infer (m>1) ER -> airliner -> airlin (m>1) IC -> gyroscopic -> gyroscop (m>1) ABLE -> adjustable -> adjust (m>1) IBLE -> defensible -> defens (m>1) ANT -> irritant -> irrit (m>1) EMENT -> replacement -> replac (m>1) MENT -> adjustment -> adjust (m>1) ENT -> dependent -> depend (m>1 and (*S or *T)) ION -> adoption -> adopt (m>1) OU -> homologou -> homolog (m>1) ISM -> communism -> commun (m>1) ATE -> activate -> activ (m>1) ITI -> angulariti -> angular (m>1) OUS -> homologous -> homolog (m>1) IVE -> effective -> effect (m>1) IZE -> bowdlerize -> bowdler

Porter Algorithmus Step 5a (m>1) E -> probate -> probat rate -> rate (m=1 and not *o) E -> cease -> ceas Step 5b (m > 1 and *d and *L) -> single letter controll -> control roll -> roll

Probleme beim Porter Stemmer Erzeugung nicht existenter Stämme: iteration -> iter, general -> gener. An sich kein Problem, da bei der Query derselbe Stamm erzeugt wird. Künstliche Ambiguitäten: {organization, organ} -> organ, {policy, police} -> polic, {execute, executive} -> execut, {arm, army} -> arm, usw. Verwandte Formen werden nicht identifiziert: european/europe, create/creation, matrices/matrix, usw.

Stemming im Deutschen nicht anwendbar Wortinterne Prozesse, Präfigierung: lesen – las – gelesen, Baum – Bäume Komposita verhindern sinnvolle Formulierung von Constraints: Ferienende – lesende – Ende Zerlegung von Komposita notwendig für wirkliche Verbesserung der Suche

Beispiel (mit Stopwortelimination) This document will describe marketing strategies carried out by U.S. companies for their agricultural chemicals, report predictions for market share of such chemicals, or report market statistics for agrochemicals, pesticide, herbicide, fungicide, insecticide, fertilizer, predicted sales, market share, stimulate demand and price cut, volume of sales market strateg carr compan agricultur chemic report predict market share chemic report market statist agrochem pesticid harbicid fungicid insecticid fertil sale stimul demand price cut volum sale

Lemmatisierung Reduktion der Wortformen auf ihre Grundform (und weitere Information) durch Nachschlagen in einem elektronischen Wörterbuch Vollformenlexikon: jede Wortform kann direkt im Lexikon nachgeschlagen werden Grundformenlexikon: Wortform wird durch morphologische Regeln auf eine potentielle Grundform reduziert, die dann im Lexikon nachgeschlagen wird Vollformenlexikon ist aufwendiger hinsichtlich Speicherplatz aber effizienter bei der Verarbeitung

Nachteile von Lemmatisierung Erfordert umfangreiches elektronisches Wörterbuch, aufwendig in der Erstellung und Wartung Relativ hohe Anforderungen an Verarbeitungszeit oder Speicherplatz Was passiert mit Wortformen, die nicht im Lexikon gefunden werden Eigennamen Komposita im Deutschen In der Regel keine Derivationsanalyse

Probleme bei der Lemmatisierung im Deutschen Ambiguitäten: „laden“ kann lemmatisiert werden zu (laden, N, mask), (lade, N, fem), (laden, V), „geäst“ kann lemmatisiert werden zu (äsen, V), (geäst, N, neut) Was wird als Lemma bei systematischen Konversionen angenommen: Verbinfinitiv – Nomen (lachen – das Lachen), Partizip – Adjektiv (gestrichen), Adjektiv – Nomen (süchtig – der Süchtige) Erfassung aller Komposita im Lexikon unmöglich, deshalb Kompositazerlegung notwendig

Probleme bei der Kompositazerlegung im Deutschen Verschiedene korrekte Zerlegungen: Wachstube in wachs + tube oder wach + stube Simplizia können irrtümlich zerlegt werden: Pomade -> po + made, Proletarier -> prolet + arier, Tangente -> tang + ente große Anzahl von Zerlegungsambiguitäten, die nicht korrekt sind: Aluminiumherstellung kann auf 12 versch. Arten zerlegt werden, z.B. alu+mini+umher+stellung, Alleinerziehende -> all+ein+erzieh+ende

Lemmatisierung und Suchmaschinen Grundformreduktion bei Query- und Index- Termen Query-Expansion um alle anderen Flexionsformen Expansion der Indexterme um alle Flexionsformen

Query-Expansion Vorteile: Nachteile: Leicht in bestehende Systeme zu integrieren, da Index nicht verändert werden muss Keine Vergrößerung des Indexes Expandierte Query kann vom Benutzer nacheditiert werden Nachteile: Sprache der Query muss bekannt sein Disjunktion kann bei stark flektierenden Sprachen zu grossem Performanzverlust führen Problematisch im Zusammenhang mit Phrasensuche Nicht vorhersehbare Interaktion mit dem Ranking

Expansion der Indexterme Vorteile: Sprache der Query muss nicht bekannt sein, Dokumentensprache i.d.R. leicht zu ermitteln Keine Manipulation der Query notwendig Kein Performanzverlust durch aufgeblasene Query Zur Disambiguierung steht der Kontext zur Verfügung Nachteile: Immense Vergrößerung des Index Wörtliche Suche muss weiterhin möglich sein (Eigennamen) Keine Phrasensuche wenn kein Positionsindex vorhanden Einbeziehung der expandierten Formen ins Ranking unklar

Normalisierung von Query- und Index-Termen Nachteile: Sprache der Query muss bekannt sein Wörtliche Suche muss weiterhin möglich sein (Eigennamen) Keine Phrasensuche wenn kein Positionsindex vorhanden Behandlung ambiger Grundformen unklar Vorteile: Index wird im schlimmsten Fall doppelt so groß Kein Performanzverlust bei der Suche durch große Disjunktionen Fehlertolerant: bei Index- und Query-Termen wird derselbe Fehler gemacht