Spree SoSe 2011 Einführung: Statistische Verfahren der automatischen Indexierung.

Slides:



Advertisements
Ähnliche Präsentationen
Ebru Iscan, Andrea Kováčová Experimente Seminar "Experimentielle Evaluierung im IR"
Advertisements

Ein einführendes Tutorial
Vermehrter- und verminderter Grundwert G+ und G-
Projektcontrolling Folien Sommersemester 2011 Teil 3
1 Hermann Maurer, TU Graz Vortrag für die e-Learning Conference Konferenz Eisenstadt, 1. Oktober 2013 Wir brauchen mehr zitierbares Material im Web … die.
Recherche im Informationssystem Medienpädagogik Ein einführendes Tutorial.
Suche in Texten (Stringsuche )
Seminar Textmining WS 06/07 Aufgaben II 1.Dokumente im VSM 2.Ranking 3.Term-Term-Korrelation 4.Relevance Feedback 5.Termgewichtung.
Seminar Textmining WS 06/07 Aufgaben III Termgewichtung Postings Datei Clustering.
Seminar Textmining WS 06/07 Themen Übung 9 Multilingualität Weitere Termine: 13.7.Symbolfolgen und PageRank Findlinks mitstreiter gesucht!
Das Blütenmodell Bislang entwickelte Fachmodule: Wirtschafts- und Ingenieurswissenschaften.
„Philosopher‘s Index“ by OvidSP
Literaturverwaltung und Wissensorganisation
Fallstudie. 2 Statistik April Dokumente Jan Mio. Dokumente Performance 3 Mio. Queries pro Tag 9. Juni 2000 Most popular search engines.
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/7 Information Retrieval auf Texten An ihre Grenzen stoßen relationale Datenbanken bei der.
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/5 Grundtechniken des Information Retrieval Deskribierung Hierunter versteht man eine manuelle.
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/4 Manuelle Verfahren Klassifizierung Hier werden Dokumente in ein fest vorgegebenes System.
XINDICE The Apache XML Project Name: Jacqueline Langhorst
Information Retrieval Modelle: Vektor-Modell
Support.ebsco.com Lernprogramm zur einfachen Suche in wissenschaftlichen Bibliotheken.
Zählen, ohne zu zählen.
Spree/Worg2/LE 10 Automatische Klassifikation = Zuordnung von Dokumenten zu bereits vorher festgelegten Klassen Zielsetzung: Dem Nutzer Informationen.
Automatisches Clustering und automatische Klassifikation
Qualitätskriterien zur Beurteilung von Dokumentationen
Indexierung - Verschlagwortung
IndexierungsqualitätEinstieg
Reminder: Abstract Definition:
Relevanz Ranking Bisher: Sind wir davon ausgegangen, dass das Ergebnis des Rankings des statistischen Verfahrens in den Index geschrieben wird und dem.
Spree SoSe 2011 Volltextsuche Sequentielle Suche und interviertes Dateisystem.
Relevanz Ranking Bisher:
Qualität einer Dokumentation Relevanz- und Vollständigkeitsrate
Recherche im Ein einführendes Tutorial Informationssystem Medienpädagogik
Recherche im Ein einführendes Tutorial Informationssystem Medienpädagogik
Intelligentes Crawling im WWW mit Hilfe intuitiver Suchbedingungen
Was ich gern lese Lesetagebuch von
Spree SoSe 2010 Optimierung von Volltextinvertierung durch den Einsatz von Indexierungswörterbüchern Artikelstrecke ab BUTTERBLUME im Deutschen Wörterbuch.
10 Merkmale eines guten Projektes
Seniorkom.at vernetzt Jung & Alt Das Internet ist reif
Einstellungen im Web für Outlook
Komponenten eines Information Retrieval Systems
Kurs: Digital Objects Processing - CMS vs. Digital Library
© 2012 mathepower.de Farvers Diek 1 – Meyn – FAX mailto: Starten Sie die Präsentation.
„Was steht eigentlich hinter dem Roten Kreuz?“
:30: [CSVImport/Import1]
Wertigkeit (Kurzform zur Illustration der abgestuften Lernhilfe)
Übungsaufgaben für Microsoft Excel
Computational Thinking Online Algorithmen [Was ist es wert, die Zukunft zu kennen?] Kurt Mehlhorn Konstantinos Panagiotou.
1 Nutzen Sie diese Powerpoint-Präsentation beim Selbstlernen oder in Veranstaltungen zur Einführung in das jeweilige Thema. Einführung Lernmodul Nutzungsbedingungen:
THEMAX Tipps und Tricks für die Recherche
Wahrscheinlichkeitsrechnung
Google ist nicht allein …
Geist Zeit Ich möchte anfänglich nur bemerken das ihr nicht mit der Maus arbeiten müsst, die Präsentation wechselt die Folien automatisch LJB.
ASIPA – gemeinsam ein Feuer entfachen!
MODAL-PARTIKELN.
Using latent semantic analysis to find different names for the same entity in free text Präsentation und Diskussion des Papers Im Rahmen des PS Web-Information.
Stadtratswahl am 7. Juni 2009 Wie werden Stimmen zu Sitzen? Hinweise zum Berechnungsverfahren.
Information Retrieval, Vektorraummodell
Management, Führung & Kommunikation
Evaluationsergebnisse Aufbaulehrgang TTVN –
Flächeninhalt vom Trapez
Schnittpunkt von zwei Geraden
ExKurs EinfG 1/13 Dr. Barbara Hoffmann LiteraturKompetenz Objekte einfügen: Tabellen Mit dem elektronischen Schreiben ist es Ihnen leicht gemacht,
WellStarWellStar Starter Training…. WellStarWellStar Starter Training… unsere Produkte! Sie müssen nicht alle Inhaltsstoffe auswendig lernen um unsere.
ExKurs ErschliessZ 1/12 Dr. Barbara Hoffmann LiteraturKompetenz Erschließen: Textzitate Bei der Lektüre wissenschaftlicher Texte sollten Sie.
Chemie Olympiade Forschungsthema: Der Atombau.
Theory of Programming Prof. Dr. W. Reisig Was heißt „Korrektheit“? W. Reisig Workshop Modellierung Hamburg, März 2015.
Gesamtschule, Ganztagesschule – welche Modelle brauchen und wollen wir?
ANMELDE-LEITFADEN LTF IM GYMNET EINLOGGEN Die Internetseite öffnen -Adresse und Passwort des Vereinslogins eingeben und.
Excel-Tool: Beschwerdeanalyse  Folie 1 von Bitte Makros aktivieren Das Excel-Tool funktioniert nur mit eingeschalteten Makros. Eventuell erhalten.
Einführung: Statistische Verfahren der automatischen Indexierung
 Präsentation transkript:

Spree SoSe 2011 Einführung: Statistische Verfahren der automatischen Indexierung

Können Indexeinträge z. B. verschiedener Wortformen zusammenführen verkleinern Index und erhöhen Recall –Stoppwortliste –Grundform- Stammformreduktion –verbessern Volltextretrieval, indem sie dabei helfen, nur sinntragende Worte zu indexieren (Thesaurusabgleich) –erlauben Phrasenerkennung und Erkennung von Bindestrichergänzungen können Deskriptoren vergeben, die nicht im Text vorkommen (Wörterbuchabgleich) Wir erinnern uns: Leistung regelbasierter und wörterbuchbasierter Verfahren

liefern keinen Anhaltspunkt, wie Deskriptoren bestimmt werden, die besonders repräsentativ für einen Text sind behandeln die Bedeutung aller Wörter gleich, haben keine Regel / Modell, um Wertigkeit von Dokumenten für das Retrieval zu gewichten (kein Ranking möglich) jedes Dokument wird für sich allein betrachtet und keine Beziehung zur Gesamtheit aller Dokumente im Speicher hergestellt Implizieren hohen Entwicklungs- und Pflegeaufwand (Wörterbuchpflege) Grenzen linguistischer Verfahren rhoenh-eisenacherhaus/grenze.jpg

Herausforderung für die automatische Indexierung Nicht alle Worte eines Dokuments sind als Indexterme geeignet Es muss eine Auswahl der relevantesten getroffen werden Nicht alle ausgewählten Indexterme sind gleich relevant Es muss eine Gewichtung der Indexterme vorgenommen werden

Die Idee: Häufigkeiten auswerten Die Häufigkeit eines Wortes in einem Text ist ein gutes Maß dafür, wie repräsentativ dieses Wort für den Inhalt des Textes ist. Hans-Peter Luhn akce/Luhn.jpg

Welche Schlagwörter würden Sie für diesen Artikel vergeben? ELViS lebt! Und strebt- zumindest auseinander. So mancher hatte das immer schon geahnt. Obwohl es hier nicht um den 1977 verstorbenen legendären King of Rock `n Roll geht, sondern um die 2008 geborene integrierte Campus Management Software des gleichen Namens: ELViS (Elektronische Verwaltung im Studium). ELViS soll dereinst nicht nur Helios ablösen, sondern laut News Online darüber hinaus »alle Bereiche der Studierenden-, Raum-, Lehrveranstaltungs- und Prüfungsverwaltung miteinander verbinden und die zugehörigen Prozesse nahezu selbständig regeln«.News Online ELViS ist also ein regelrechter Software-Gigant. Nun haben Riesen erhöhten Platzbedarf, besonders, wenn sie noch im Wachstum sind- ist ja klar. Deshalb wunderte sich offenbar auch niemand, als der kleine große ELViS zum 01. April 2011 gleich drei Fachschaftsräte aus ihren Räumen verdrängte. Anfang März kam Prof. Dr. Ing. Michael Jeske auf Mitglieder der Fachschaftsräte zu und teilte ihnen mit, dass zum 01. April die Räume für ELViS geräumt werden müssen. Quelle: zimmer-fuer-elvis/

Indexierungsvorschläge unserer Simulation zur automatischen Indexierung Und was macht die Maschine? hamburg.de/projekte/astep/autostatisi/merkmale2 dok.php?id=142&start=1

Bedeutung von Worthäufigkeiten Statistische Eigenschaften von Texten: Wenige Worte treten sehr häufig auf die 2 häufigsten Wörter können 10% eines Textes ausmachen, die 6 häufigsten Wörter machen 20% des Textes aus, die häufigsten 50 Wörter machen 50% aus Beispiel: in Textsammlung von über Dokumenten macht "the" = 5.9% des Textes aus und "of" =3.1% Viele Worte sind selten Texte lassen sich nach der Verteilung der Worthäufigkeit unterscheiden Croft: Search Engines (©Addison Wesley, 2008)

News Collection (AP89) Statistics Total documents 84,678 Total word occurrences 39,749,179 Vocabulary size 198,763 Words occurring > 1000 times 4,169 Words occurring once 70,064 Word Freq. r Pr(%) r.Pr assistant 5,095 1, sewers , × toothbrush 10 51, × hazmat 1 166, × Wörtlich übernommen von Croft: Search Engines / (©Addison Wesley, 2008)

Statistische Verfahren – Was steckt dahinter? Die Häufigkeit eines Wortes in einem Text ist ein gutes Maß dafür, wie repräsentativ dieses Wort für den Inhalt des Textes ist. Hans-Peter Luhn akce/Luhn.jpg Probleme: 1.Was macht man mit ganz häufigen Wörtern? 2.Was macht man mit Wörtern, die nur 1x im Text vorkommen? 3. Wie geht man mit unterschiedlich langen Texten um? Frage: In einer 10-zeiligen dpa Meldung kommt das Wort Doping 5x vor. In einem 3- seitigen Zeitungsartikel ebenfalls. Wie beurteilen Sie die Eignung von Doping als Deskriptor für die beiden Dokumente?

1. Häufige Wörter Sehr häufige Wörter werden analysiert und Aus dem Index entfernt Stoppwortliste Ihr Gewicht für das Ranking reduziert Untersucht, ob die die Wörter nur häufig im speziellen Dokument oder in der Dokumentsammlung sind

2. Wörter, die nur einmal im Text vorkommen Wenn Sie sich einen Index anschauen, kann es sein, dass mehr als 70% der Wörter nur einmal vorkommt besonders kurze Texte sind hier ein Problem Statistische Verfahren sind besonders gut für umfangreiche Textsammlungen / Massendaten geeignet. Der Umgang mit Wörtern, die nur einmal mit Text vorkommen, ist ein bisher bei statistischen Verfahren noch nicht gelöstes Problem -> statistische Verfahren sind besonders gut geeignet für umfangreiche Textsammlungen

3. Wie geht man mit unterschiedlich langen Texten um? Lösung: Berechnung der Termfrequenz: absolute Worthäufigkeit wird in Beziehung zur Textlänge gesetzt. TF(td)= Häufigkeit eines Wortes im Dokument Anzahl aller Wörter des Dokuments Beispiel: in einem Text (a) aus 200 Wörtern kommt Gesundheit 5 x vor. TF = 5/200 (0,025) In einem Text (b) aus 2000 Wörtern kommt Gesundheit 6 x vor. TF = 6/2000 (0,003) Von der Auszählung absoluter Häufigkeiten zur Berechnung relativer Häufigkeiten

3. Aufgabe Formel Termfrequenz: absolute Worthäufigkeit wird in Beziehung zur Textlänge gesetzt. TF(td)= Häufigkeit eines Wortes im Dokument Anzahl aller Wörter des Dokuments Im Info-Parcour Beitrag kommt das Wort ELVIS 6x vor. Der Text hat 242 Wörter. Berechnen Sie die Termfrequenz. Lösung: 0,0247

Weitere Probleme Was meinen Sie? in einer Datensammlung gibt es 1000 Dokumente. Das Wort Segelboot kommt in 5 Dokumenten vor. In der Datensammlung gibt es 500 Dokumente, in denen Sport vorkommt. Welcher Suchbegriff ist aussagekräftiger Segelboot oder Sport? Die Termfrequenz (tf) berücksichtigt nur jeweils ein Dokument. Ob ein Suchbegriff in der Datenbank insgesamt häufig vorkommt, wird nicht berücksichtigt.

4. Berücksichtigung der gesamten Datensammlung Lösungsansatz Inverse Dokument Frequenz = IDF IDF= Anzahl aller Dokumente in Datensammlung Anzahl Dokumente, in denen Suchbegriff vorkommt Beispiel-Lösung In einer Datensammlung gibt es 1000 Dokumente. Das Wort Segelboot kommt in 5 Dokumenten vor. IDF= 1000/5 = 200 In der Datensammlung gibt es 500 Dokumente, in denen Sport vorkommt IDF = 1000/500 = 2 Fazit: Dokumente mit Segelboot sind sehr selten in der Datenbank und werden deswegen indexiert, weil man davon ausgeht, dass ein Nutzer diese Dokumente finden sollte. Beim Suchbegriff Sport hätte der Nutzer einen sehr hohen Recall, aber geringe Precision.

Kombination der Verfahren tf * idf Fazit Statistische Verfahren der automatischen Indexierung basieren auf zwei Grundannahmen: - Geeignete Deskriptoren kommen im Dokument häufig vor - Geeignete Deskriptoren kommen in der Dokumentsammlung selten vor. Berechnung: zur Berechnung eines Termgewichtes eines Deskriptors kombiniert man die beiden Formeln tf und idf, indem man rechnet: tf * idf

Verfeinerung der Formel Die errechneten Zahlenwerte werden häufig sehr klein – viele Stellen hinter dem Komma. Lösung: Logarithmierung Logarithmus auf der Basis 2 (Logarithmus dualis): Man nennt die Zahl, mit der man 2 potenzieren muss, damit man 16 erhält, log2 von 16 = 4. Beispiel: 17/1298 = 0,01 Log2 17/log = 0,4