Spree SoSe 2010 Optimierung von Volltextinvertierung durch den Einsatz von Indexierungswörterbüchern Artikelstrecke ab BUTTERBLUME im Deutschen Wörterbuch.

Slides:



Advertisements
Ähnliche Präsentationen
Kantenbasierte Verfahren
Advertisements

Kohonennetze für Information Retrieval mit User Feedback
Vorlesung Compilertechnik Sommersemester 2008
Vorgehensweise Website Besprechung am 11. Februar 2008 Gründung und Partnerunternehmen der Wirtschaftsuniversität Wien.
Studientag Facharbeit 2003/04
„Philosopher‘s Index“ by OvidSP
HTML - Einführung Richard Göbel.
FH-Hof Grammatiken Richard Göbel. FH-Hof Begriffe Eine Grammatik definiert die Struktur (Syntax) einer Zeichenkette Eine Grammatik definiert nicht die.
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/8 Thesauren In gewisser Weise bilden Thesauren (Singular Thesaurus, Plural auch Thesauri)
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/5 Grundtechniken des Information Retrieval Deskribierung Hierunter versteht man eine manuelle.
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/4 Manuelle Verfahren Klassifizierung Hier werden Dokumente in ein fest vorgegebenes System.
Vorlesung Informatik 3 Einführung in die Theoretische Informatik (06 – Reduktion endlicher Automaten) Prof. Dr. Th. Ottmann.
Fakten, Regeln und Anfragen
Integrierte Übersetzungsprozesse
SYSTRAN Information and translation technologies.
Support.ebsco.com Lernprogramm zur einfachen Suche in wissenschaftlichen Bibliotheken.
(1) (2) Lichtschranken - Funktion und Nutzen - (3)
Was ist Lemmatisierung und wie wird sie maschinell durchgeführt?
Optimierung von Volltextindices
Optimierung von Volltextindices
Spree SoSe 2011 Einführung: Statistische Verfahren der automatischen Indexierung.
Spree/Worg2/LE 10 Automatische Klassifikation = Zuordnung von Dokumenten zu bereits vorher festgelegten Klassen Zielsetzung: Dem Nutzer Informationen.
Spree SoSe 2007 Titel Lexikographie – Produktion lexikographischer Werke (am Beispiel lookedup4you) Abb.: Relaunch lookedup4you Betaversion.
Optimierung von Volltextinvertierung durch Stemming
Spree SoSe 2007 Titel Lexikographie und Metalexikographie Lexikonproduktion und Lexikontheorie Dank an Franziskus Geeb, der mir seine Unterrichtsmaterialien.
1 Indexierung - Begriffszerlegung Alphabete Seminar I-Prax: Inhaltserschließung visueller Medien, Spree WS 2005/2006 Begriffszerlegung – wo gibt.
Indexierung - Verschlagwortung
IndexierungsqualitätEinstieg
Spree SoSe 2011 Volltextsuche Sequentielle Suche und interviertes Dateisystem.
Fortgeschrittene Methoden der Wissensorganisation
FH-Hof HTML - Einführung Richard Göbel. FH-Hof Komponenten des World Wide Webs WWW Browser HyperText Transfer Protocol (HTTP) via Internet WWW Server.
Automatisches Generieren eines Inhaltsverzeichnisses
von Julia Pfander und Katja Holzapfel E 12/2
Komponenten eines Information Retrieval Systems
Knowledge Discovery mit Wordnet und Alembic Workbench
1 Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)
Online -Wörterbücher (Schwerpunkt D-E / E-D)
Woran erkennst du, dass du gestern zu viel getrunken hast?
Abteilung für automatische Sprachverarbeitung
Suchen und Finden. Vielfältig vorgehen Kompetenzen aufbauen Recherche als Prozess Ziel: Ergebnismengen minimieren, Qualität maximieren.
Automatische Texterkennung
Natürliche und künstliche Sprachen
WECHSELSTROM Widerstand und Spule.
Übung zu Einführung in die LDV I
Dieser nicht Fehler finden Algorithmus enthält einfach einen gravierenden welcher zu ist.
Automatisierte Worterkennung (Autocorrect) Automatisierung in der Medientechnik, Labor, KulturMediaTechnologie Lucia Winsauer SS14.
PS Onlinejournalismus WS 2003/04 Usability Fragestellung Verstehen Web-Only Medien mehr von Usability als konventionelle Web- Ausgaben von Printmedien?
Stationenarbeit und Projektmethode im DaF
DSD I Trainingsstunde 1 LESEVERSTEHEN Teil 1.
SOAP.
Das kostenlose Lexikon im Internet Stelle dir eine Welt vor, in der alle freien Zugang zum gesamten Wissen der Menschen haben Computeria Wallisellen Joachim.
Die Brüder Grimm.
BRÜDER GRIMM VON JOHANN. FRÜHEN LEBENS Jacob Ludwig Carl Grimm- 4 Januar 1785 Wilhelm Carl Grimm Februar 1786 Tod des Vaters – 1796 Viele Aufgaben.
Der Hund jagt die Katze. Theoretische Informatik Satz S P O
Berechenbarkeit Klaus Becker Berechenbarkeit.
Institut für Softwarewissenschaft – Universität WienP.Brezany 1 Beispiele (Frist: ) Beispiel 1: Sei  = {a, b} ein Alphabet und Q = {q 0, q 1 } eine.
die wichtigsten Wörterbücher des Deutschen elektronische Lexikographie
2 Grundlagen In diesem Abschnitt werden die Grundbegriffe und Methoden der Theorie der formalen Sprachen und der Automaten wiederholt, soweit diese ben.
Webserver Apache & Xampp Referenten: Elena, Luziano und Sükran
XML Schema Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung WS2011/2012 Hist.-kult.wiss. Informationsverarbeitung (Teil.
Gegenstand der Lexikologie. Geschichte der Lexikologie.
Infor:lösungen Dokumentation zum Testdrive Lösungsnr.:RS0003_BarcodeEAN128 Titel:Barcode EAN 128 BarcodeEAN128 Testdrive.
Lexikalische Semantik
Übungsblätter selbst gemacht Lingofox ist ein Übungsgenerator mit integrierter Textverarbeitung, geeignet für viele Sprachen und alle Schultypen, Sprachunterricht.
Jugend-in-dresden.de medienetage- dresden.de Alles Google oder was? Recherche im Internet… suchet, so werdet Ihr finden, googelt, so werdet Ihr irren oder.
Anwendung von Apps zur Integralrechnung Untersucht wurden die Programme: -Integral Calculator -Integral, Derivative Calculator.
Rechtschreibstrategien
Perl: pattern matching and regular expressions
Wortschatzarbeit mit digitalen Korpora
 Präsentation transkript:

Spree SoSe 2010 Optimierung von Volltextinvertierung durch den Einsatz von Indexierungswörterbüchern Artikelstrecke ab BUTTERBLUME im Deutschen Wörterbuch von Jacob und Wilhelm Grimm ( berlin.de/e_histfor/10_I/PHP/Woerterbuecher_ I.php)

Fehler werden in Kauf genommen Tolerierbar, da Sucheingabe nach demselben Prinzip gestemmt wird wie der Text Nur sinnvoll, wenn Sprache über in hohem Maße regelhafte Wortbildung verfügt Anzahl der Regeln überschaubar ist Ausnahmen begrenzt sind Prefixe werden in der Regel nicht berücksichtigt Eigennamen werden nicht berücksichtigt Keine Kompositazerlegung möglich Phrasen werden nicht erkannt Synonyme werden nicht erkannt Wir erinnern uns: Einschränkungen regebasierter Verfahren content/blogs.dir/20/files/2006/07/pr oblem-moslem.jpg

1)Aufbau eines Wortformen-Wörterbuchs als Positivliste, in der entweder alle Wörter in Grundform oder in Vollform aufgenommen sind 2)Vergleich der Wortform aus dem zu indexierenden Text Buchstabe für Buchstabe (Beginn mit dem letzten Buchstaben) mit den Lexikoneintragungen (=Lemma/ta) bis eine Übereinstimmung erkannt wird. Diesen Prozess nennt man Lemmatisierung 3)Aufbau eines Relationen-Wörterbuchs 4)Festlegen einer Erkennungsstrategie, um Wörter erkennen und in Grundform bringen zu können 5)Festlegung eines Verfahrens zur Identifizierung von Komposita Lösung: Einsatz von Indexierungswörterbüchern? blogspot.com/.../sofort+l%C3%B 6sung.jpg

Beispiel Wörterbucheintrag a-step Grundform: Benutzertest Wortart: Substantiv Vorzugsbenennung : Usability-Test Wortformen: Benutzertestes, Benutzertests alternative Schreibweisen: Benutzer-Test, Benutzer-Testes, Benutzer-Tests Abkürzung: -- Teilwörter: Benutzer, Benuter, Test äquivalente Begriffe: Usertest, Nutzertest Typischer Schreibfehler von Frau Spree

Lemmatisierung Geschichten von Kindern, Tieren und Steinen TierenTexteingang Analyse Lemma Tieren (Dativ Plural) Tier Tier (lexikalische Beschreibung) Worterkennung: Zeichenkette zw., und Leerzeichen

Beispiel Grundformenwörterbuch Quelle: Klaus Lepsky: Sprachengineering : Grundlagen und Methoden sprachverarbeitender Verfahren (2003)

Wörterbuchabgleich Quelle: Gödert, Lepsky, Nagelschmidt: Textsammlung automtische Indexierung. linux2.fbi.fh-koeln.de/kram/textsammlung-automatische- indexierung.pdf

Relationenwörterbuch Im Relationenwörterbuch werden die vorkommenden Wörter auf Grundformen zurückgeführt im Text (bzw. Titel) vorkommende Mehrwortbegriffe/Phrasen werden identifiziert; soweit es sich um Komposita handelt, werden auch Beziehungen zwischen den Teilwörtern und dem im Text / Titel stehenden Wort hergestellt. Beziehungen zwischen Derivationen werden hergestellt (Beispiele: besuchen / Besuch, anfahren / Anfahrt, Begehung / begehen / begehbar...). Synonymbeziehungen können abgebildet werden "Sonnabend" zu "Samstag" Mit Hilfe der "Übersetzungsrelation" lassen sich schließlich auch Wörtern einer Sprache Übersetzungsäquivalente zuordnen. (verkürzt aus: Harald H. Zimmermann: Automatische Indexierung und elektronische Thesauri [

Beispiel schematisch Relationenwörterbuch Haustür Haus Tür Fristlose Kündigung fristlos Frist Kündigung Kindergarten Kinderstuhl Kind Stuhl Eintrag im Relationen- Wörterbuch hat Priorität vor Zerlegung

Was leisten lexikonbasierte Programme? Selektion sinntragender Stichwörter Nur die Wörter, die im Wörterbuch stehen, werden in den Index übernommen Reduktion von Wortformen im Text auf ihre Grundform Zerlegung von Komposita (Dekomposition) Phrasenerkennung / Bindestrichergänzungen Wortsubstitution / Thesaurusfunktion Einschränkung: hoher Entwicklungs- und Pflegeaufwand