Einführung: Statistische Verfahren der automatischen Indexierung

Slides:



Advertisements
Ähnliche Präsentationen
Liebe Patientinnen und Patienten!
Advertisements

Algorithmen und Datenstrukturen
Stichprobe im qualitativen Forschungsprozess
Ein einführendes Tutorial
Recherche im Informationssystem Medienpädagogik Ein einführendes Tutorial.
Suche in Texten (Stringsuche )
Seminar Textmining WS 06/07 Aufgaben II 1.Dokumente im VSM 2.Ranking 3.Term-Term-Korrelation 4.Relevance Feedback 5.Termgewichtung.
Seminar Textmining WS 06/07 Aufgaben III Termgewichtung Postings Datei Clustering.
Seminar Textmining WS 06/07 Themen Übung 9 Multilingualität Weitere Termine: 13.7.Symbolfolgen und PageRank Findlinks mitstreiter gesucht!
Auswertung der Interviews
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/7 Information Retrieval auf Texten An ihre Grenzen stoßen relationale Datenbanken bei der.
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/5 Grundtechniken des Information Retrieval Deskribierung Hierunter versteht man eine manuelle.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (27 – Kürzeste Wege) Prof. Th. Ottmann.
Schwierigkeitsgrad III 6 X - 7 = X
Information Retrieval Modelle: Vektor-Modell
Text-Retrieval mit Oracle Vortrag von Andreas Mück & David Diestel.
Support.ebsco.com Lernprogramm zur einfachen Suche in wissenschaftlichen Bibliotheken.
Spree SoSe 2011 Einführung: Statistische Verfahren der automatischen Indexierung.
Spree/Worg2/LE 10 Automatische Klassifikation = Zuordnung von Dokumenten zu bereits vorher festgelegten Klassen Zielsetzung: Dem Nutzer Informationen.
Wie funktionieren Suchmaschinen?
Qualitätskriterien zur Beurteilung von Dokumentationen
1 Indexierung - Begriffszerlegung Alphabete Seminar I-Prax: Inhaltserschließung visueller Medien, Spree WS 2005/2006 Begriffszerlegung – wo gibt.
Indexierung - Verschlagwortung
Relevanz Ranking Bisher: Sind wir davon ausgegangen, dass das Ergebnis des Rankings des statistischen Verfahrens in den Index geschrieben wird und dem.
Relevanz Ranking Bisher:
Recherche im Ein einführendes Tutorial Informationssystem Medienpädagogik
Recherche im Ein einführendes Tutorial Informationssystem Medienpädagogik
Intelligentes Crawling im WWW mit Hilfe intuitiver Suchbedingungen
Themenfeld „Daten und Zufall“ – arithmetisches Mittel – Klassenstufe 5/6 Ariane Dubiel, Azida Shahabuddin, Sandra Mense.
Seniorkom.at vernetzt Jung & Alt Das Internet ist reif
Die standardisierte schriftliche Reifeprüfung Mathematik AHS Informationen unter
Komponenten eines Information Retrieval Systems
Hovida design | Web- & Medienagentur Aachen. Über hovida design | Web- & Medienagentur Aachen: Die hovida design | Web- und Medienagentur, ist eine junge.
Computational Thinking Online Algorithmen [Was ist es wert, die Zukunft zu kennen?] Kurt Mehlhorn Konstantinos Panagiotou.
Basisinformationstechnologie I
Postgres Tsearch2 und Indexe. Basics Dokumente = alle Textattribute, Kombinationen von Textattributen über mehrere Tabellen Native Textsearch Operatoren:
Google ist nicht allein …
Eine Modellierungsaufgabe
Atommodelle.
Using latent semantic analysis to find different names for the same entity in free text Präsentation und Diskussion des Papers Im Rahmen des PS Web-Information.
Das Traveling Salesman Problem (TSP)
Information Retrieval, Vektorraummodell
Das „Best Advice“ - Modul Viele Anfragen der letzen Zeit machten uns deutlich, dass es notwendig wird, die objektiven Kriterien eines Chegg.net-Vergleiches.
Aufgaben zur Kombinatorik
2 Grundlagen des Information Retrieval
Der Wiener Prozess und seltene Ereignisse
Chemie Olympiade Forschungsthema: Der Atombau.
Integrated Product Development
Beispiel GPS-Parametrierung
MS Word 2010 Word Texte eingeben und bearbeiten automatische und manuelle Korrekturen Word Texte eingeben und bearbeiten automatische und manuelle Korrekturen.
Arbeiten mit WordSmith 4. Inhalt 1. Arbeiten mit der Funktion Wortliste (im getaggten Korpus) 1. Arbeiten mit der Funktion Wortliste (im getaggten Korpus)
1. 2 Das Grundproblem der Beurteilenden Statistik ● Wir haben uns bisher mit Problemen der Wahrscheinlichkeitsrechnung beschäftigt: – Die Wahrscheinlichkeit.
Übersetzung: / Tradotto da:
Identifying the effects of gendered language on economic behavior
DER MODUS Das ABC der Statistik
Die ersten Schritte bei der Entdeckung der Statistik
GrafStat Ausgabe 2009 Ein kurzer Überblick.
Huffman – Kodierbaum zur Textkompression
Abschließender Bericht der Verteilungs-Kommission
Suchen mit AltaVista im WebSpace
Icons Wozu und woher.
Alles wird gut! Suche im MyCoRe Jens Kupferschmidt
Experiment Nr. 9 Herstellung eines Farbstoffs
Recherche in der Datenbank Statista
Inhalte Die BTL Online enthält die Inhalte aller im Druck erschienenen Ausgaben der Bibliotheca Teubneriana Latina in elektronischer Form: Die Bibliotheca.
Von Wietlisbach, Lenzin und Winter
TEAMWORK 2000 Suchmaschine
Geschichten erfinden Folge 1.
Sudoku Einführung Folie: Begriffe und Regeln
Fortgeschrittene Methoden der Wissensorganisation
 Präsentation transkript:

Einführung: Statistische Verfahren der automatischen Indexierung 21.10.2019 © Spree/Automatische Inhaltserschließung

Leistung linguistischer und wörterbuchbasierter Verfahren Können Indexeinträge zusammenführen verkleinern Index und erhöhen Recall Stoppwortliste Grundform/Stammform verbessern Volltextretrieval, indem sie dabei helfen, nur sinntragende Worte zu indexieren (Thesaurusabgleich) können Deskriptoren vergeben, die nicht im Text vorkommen, indem sie Worte nach bestimmten Vorschriften auf einen Thesaurus/Wörterliste abbilden: nach dem Modell: "wenn im Text maschinell steht, ersetze im Index durch den Eintrag automatisch“ 21.10.2019 © Spree/Automatische Inhaltserschließung

Grenzen linguistischer Verfahren liefern keinen Anhaltspunkt, wie Deskriptoren bestimmt werden, die besonders repräsentativ für einen Text sind behandeln die Bedeutung aller Wörter gleich, haben keine Regel / Modell, um Wertigkeit von Dokumenten für das Retrieval zu gewichten (kein Ranking möglich) jedes Dokument wird für sich allein betrachtet und keine Beziehung zur Gesamtheit aller Dokumente im Speicher hergestellt 21.10.2019 © Spree/Automatische Inhaltserschließung

Grundannahmen der statistischen Verfahren der Indexierung Nicht alle Worte eines Dokuments sind als Indexterme geeignet Es muss eine Auswahl getroffen werden Nicht alle ausgewählten Indexterme sind gleich relevant Es muss eine Gewichtung der Indexterme vorgenommen werden 21.10.2019 © Spree/Automatische Inhaltserschließung

Lösung: Worthäufigkeiten auswerten Statistische Eigenschaften von Texten: Wenige Worte treten sehr häufig auf die 2 häufigsten Wörter können 10% eines Textes ausmachen, die 6 häufigsten Wörter machen 20% des Textes aus, die häufigsten 50 Wörter machen 50% aus Beispiel: in Textsammlung von über 300.000 Dokumenten macht "the" = 5.9% des Textes aus und "of" =3.1% Viele Worte sind selten Texte lassen sich nach der Verteilung der Worthäufigkeit unterscheiden 21.10.2019 © Spree/Automatische Inhaltserschließung

Kann die Statistik helfen? Die Häufigkeit eines Wortes in einem Text ist ein gutes Maß dafür, wie repräsentativ dieses Wort für den Inhalt des Textes ist. Probleme: Was macht man mit ganz häufigen Worten? Was macht man mit Worten, die nur 1x im Text vorkommen? Wie geht man mit unterschiedlich langen Texten um? In einer 10 zeiligen dpa Meldung kommt das Wort Doping 5x vor. In einem 3 seitigen Zeitungsartikel ebenfalls. Wie beurteilen Sie die Eignung von Doping als Deskriptor für die beiden Dokumente? Hans-Peter Luhn 21.10.2019 © Spree/Automatische Inhaltserschließung

© Spree/Automatische Inhaltserschließung 1. Sehr häufige Wörter Sehr häufige Wörter werden analysiert: Stoppwortliste? Reduzierung des Gewichtes? Sind die Wörter nur häufig im speziellen Dokument oder in der Dokumentsammlung? 21.10.2019 © Spree/Automatische Inhaltserschließung

2. Wörter, die nur einmal im Text vorkommen Ein bisher noch nicht gelöstes Problem: Wenn Sie sich einen Index anschauen, kann es sein, dass mehr als 70% der Wörter nur einmal vorkommt. Besonders kurze Texte sind hier ein Problem. Statistische Verfahren sind besonders gut für umfangreiche Textsammlungen / Massendaten geeignet. 21.10.2019 © Spree/Automatische Inhaltserschließung

3. Wie geht man mit unterschiedlich langen Texten um? Lösung: Berechnung der Termfrequenz: absolute Worthäufigkeit wird in Beziehung zur Textlänge gesetzt. TF(td)= Häufigkeit eines Wortes im Dokument               Anzahl aller Wörter des Dokuments Beispiel: in einem Text (a) aus 200 Wörtern kommt Gesundheit 5 x vor. TF = 5/200 (0,025) In einem Text (b) aus 2000 Wörtern kommt Gesundheit 6 x vor. TF = 6/2000 (0,003) 21.10.2019 © Spree/Automatische Inhaltserschließung

© Spree/Automatische Inhaltserschließung Weitere Probleme Die Termfrequenz berücksichtigt nur jeweils ein Dokument. Ob ein Suchbegriff in der Datenbank insgesamt häufig vorkommt wird nicht berücksichtigt. Beispiel: in einer Datensammlung gibt es 1000 Dokumente. Das Wort Segelboot kommt in 5 Dokumenten vor. In der Datensammlung gibt es 500 Dokumente, in denen Sport vorkommt. Welcher Suchbegriff ist aussagekräftiger Segelboot oder Sport? 21.10.2019 © Spree/Automatische Inhaltserschließung

Lösung: Berechnung der Inversen Dokumenthäufigkeit IDF= Anzahl aller Dokumente in Datensammlung Anzahl Dokumente, in denen Suchbegriff vorkommt Beispiel: In einer Datensammlung gibt es 1000 Dokumente. Das Wort Segelboot kommt in 5 Dokumenten vor. IDF= 1000/5 = 200 In der Datensammlung gibt es 500 Dokumente, in denen Sport vorkommt IDF = 1000/500 = 2 Fazit: Dokumente mit Segelboot sind sehr selten in der Datenbank und werden deswegen indexiert. 21.10.2019 © Spree/Automatische Inhaltserschließung

Kombination der Verfahren tf * idf Fazit Statistische Verfahren der automatischen Indexierung basieren auf zwei Grundannahmen: Geeignete Deskriptoren kommen im Dokument häufig vor Geeignete Deskriptoren kommen in der Dokumentsammlung selten vor. Berechnung: zur Berechnung kombiniert man die beiden Formeln tf und idf Zu: tf * idf 21.10.2019 © Spree/Automatische Inhaltserschließung