Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Spree SoSe 2010 Optimierung von Volltextinvertierung durch den Einsatz von Indexierungswörterbüchern Artikelstrecke ab BUTTERBLUME im Deutschen Wörterbuch.

Ähnliche Präsentationen


Präsentation zum Thema: "Spree SoSe 2010 Optimierung von Volltextinvertierung durch den Einsatz von Indexierungswörterbüchern Artikelstrecke ab BUTTERBLUME im Deutschen Wörterbuch."—  Präsentation transkript:

1 Spree SoSe 2010 Optimierung von Volltextinvertierung durch den Einsatz von Indexierungswörterbüchern Artikelstrecke ab BUTTERBLUME im Deutschen Wörterbuch von Jacob und Wilhelm Grimm (http://edoc.hu- berlin.de/e_histfor/10_I/PHP/Woerterbuecher_2007-10-I.php)

2 Fehler werden in Kauf genommen Tolerierbar, da Sucheingabe nach demselben Prinzip gestemmt wird wie der Text Nur sinnvoll, wenn Sprache über in hohem Maße regelhafte Wortbildung verfügt Anzahl der Regeln überschaubar ist Ausnahmen begrenzt sind Prefixe werden in der Regel nicht berücksichtigt Eigennamen werden nicht berücksichtigt Keine Kompositazerlegung möglich Phrasen werden nicht erkannt Synonyme werden nicht erkannt Wir erinnern uns: Einschränkungen regebasierter Verfahren http://blogs.taz.de/wp-inst/wp- content/blogs.dir/20/files/2006/07/pr oblem-moslem.jpg

3 1)Aufbau eines Wortformen-Wörterbuchs als Positivliste, in der entweder alle Wörter in Grundform oder in Vollform aufgenommen sind 2)Vergleich der Wortform aus dem zu indexierenden Text Buchstabe für Buchstabe (Beginn mit dem letzten Buchstaben) mit den Lexikoneintragungen (=Lemma/ta) bis eine Übereinstimmung erkannt wird. Diesen Prozess nennt man Lemmatisierung 3)Aufbau eines Relationen-Wörterbuchs 4)Festlegen einer Erkennungsstrategie, um Wörter erkennen und in Grundform bringen zu können 5)Festlegung eines Verfahrens zur Identifizierung von Komposita Lösung: Einsatz von Indexierungswörterbüchern? blogspot.com/.../sofort+l%C3%B 6sung.jpg

4 Beispiel Wörterbucheintrag a-step Grundform: Benutzertest Wortart: Substantiv Vorzugsbenennung : Usability-Test Wortformen: Benutzertestes, Benutzertests alternative Schreibweisen: Benutzer-Test, Benutzer-Testes, Benutzer-Tests Abkürzung: -- Teilwörter: Benutzer, Benuter, Test äquivalente Begriffe: Usertest, Nutzertest Typischer Schreibfehler von Frau Spree

5 Lemmatisierung Geschichten von Kindern, Tieren und Steinen TierenTexteingang Analyse Lemma Tieren (Dativ Plural) Tier Tier (lexikalische Beschreibung) Worterkennung: Zeichenkette zw., und Leerzeichen

6 Beispiel Grundformenwörterbuch Quelle: Klaus Lepsky: Sprachengineering : Grundlagen und Methoden sprachverarbeitender Verfahren (2003)

7 Wörterbuchabgleich Quelle: Gödert, Lepsky, Nagelschmidt: Textsammlung automtische Indexierung. linux2.fbi.fh-koeln.de/kram/textsammlung-automatische- indexierung.pdf

8 Relationenwörterbuch Im Relationenwörterbuch werden die vorkommenden Wörter auf Grundformen zurückgeführt im Text (bzw. Titel) vorkommende Mehrwortbegriffe/Phrasen werden identifiziert; soweit es sich um Komposita handelt, werden auch Beziehungen zwischen den Teilwörtern und dem im Text / Titel stehenden Wort hergestellt. Beziehungen zwischen Derivationen werden hergestellt (Beispiele: besuchen / Besuch, anfahren / Anfahrt, Begehung / begehen / begehbar...). Synonymbeziehungen können abgebildet werden "Sonnabend" zu "Samstag" Mit Hilfe der "Übersetzungsrelation" lassen sich schließlich auch Wörtern einer Sprache Übersetzungsäquivalente zuordnen. (verkürzt aus: Harald H. Zimmermann: Automatische Indexierung und elektronische Thesauri [http://www.uni-duesseldorf.de/ulb/mil_zimm.htm])

9 Beispiel schematisch Relationenwörterbuch Haustür Haus Tür Fristlose Kündigung fristlos Frist Kündigung Kindergarten Kinderstuhl Kind Stuhl Eintrag im Relationen- Wörterbuch hat Priorität vor Zerlegung

10 Was leisten lexikonbasierte Programme? Selektion sinntragender Stichwörter Nur die Wörter, die im Wörterbuch stehen, werden in den Index übernommen Reduktion von Wortformen im Text auf ihre Grundform Zerlegung von Komposita (Dekomposition) Phrasenerkennung / Bindestrichergänzungen Wortsubstitution / Thesaurusfunktion Einschränkung: hoher Entwicklungs- und Pflegeaufwand


Herunterladen ppt "Spree SoSe 2010 Optimierung von Volltextinvertierung durch den Einsatz von Indexierungswörterbüchern Artikelstrecke ab BUTTERBLUME im Deutschen Wörterbuch."

Ähnliche Präsentationen


Google-Anzeigen