Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Spree SoSe 2011 Einführung: Statistische Verfahren der automatischen Indexierung.

Ähnliche Präsentationen


Präsentation zum Thema: "Spree SoSe 2011 Einführung: Statistische Verfahren der automatischen Indexierung."—  Präsentation transkript:

1 Spree SoSe 2011 Einführung: Statistische Verfahren der automatischen Indexierung

2 Können Indexeinträge z. B. verschiedener Wortformen zusammenführen verkleinern Index und erhöhen Recall –Stoppwortliste –Grundform- Stammformreduktion –verbessern Volltextretrieval, indem sie dabei helfen, nur sinntragende Worte zu indexieren (Thesaurusabgleich) –erlauben Phrasenerkennung und Erkennung von Bindestrichergänzungen können Deskriptoren vergeben, die nicht im Text vorkommen (Wörterbuchabgleich) Wir erinnern uns: Leistung regelbasierter und wörterbuchbasierter Verfahren

3 liefern keinen Anhaltspunkt, wie Deskriptoren bestimmt werden, die besonders repräsentativ für einen Text sind behandeln die Bedeutung aller Wörter gleich, haben keine Regel / Modell, um Wertigkeit von Dokumenten für das Retrieval zu gewichten (kein Ranking möglich) jedes Dokument wird für sich allein betrachtet und keine Beziehung zur Gesamtheit aller Dokumente im Speicher hergestellt Implizieren hohen Entwicklungs- und Pflegeaufwand (Wörterbuchpflege) Grenzen linguistischer Verfahren rhoenh-eisenacherhaus/grenze.jpg

4 Herausforderung für die automatische Indexierung Nicht alle Worte eines Dokuments sind als Indexterme geeignet Es muss eine Auswahl der relevantesten getroffen werden Nicht alle ausgewählten Indexterme sind gleich relevant Es muss eine Gewichtung der Indexterme vorgenommen werden

5 Die Idee: Häufigkeiten auswerten Die Häufigkeit eines Wortes in einem Text ist ein gutes Maß dafür, wie repräsentativ dieses Wort für den Inhalt des Textes ist. Hans-Peter Luhn akce/Luhn.jpg

6 Welche Schlagwörter würden Sie für diesen Artikel vergeben? ELViS lebt! Und strebt- zumindest auseinander. So mancher hatte das immer schon geahnt. Obwohl es hier nicht um den 1977 verstorbenen legendären King of Rock `n Roll geht, sondern um die 2008 geborene integrierte Campus Management Software des gleichen Namens: ELViS (Elektronische Verwaltung im Studium). ELViS soll dereinst nicht nur Helios ablösen, sondern laut News Online darüber hinaus »alle Bereiche der Studierenden-, Raum-, Lehrveranstaltungs- und Prüfungsverwaltung miteinander verbinden und die zugehörigen Prozesse nahezu selbständig regeln«.News Online ELViS ist also ein regelrechter Software-Gigant. Nun haben Riesen erhöhten Platzbedarf, besonders, wenn sie noch im Wachstum sind- ist ja klar. Deshalb wunderte sich offenbar auch niemand, als der kleine große ELViS zum 01. April 2011 gleich drei Fachschaftsräte aus ihren Räumen verdrängte. Anfang März kam Prof. Dr. Ing. Michael Jeske auf Mitglieder der Fachschaftsräte zu und teilte ihnen mit, dass zum 01. April die Räume für ELViS geräumt werden müssen. Quelle: zimmer-fuer-elvis/

7 Indexierungsvorschläge unserer Simulation zur automatischen Indexierung Und was macht die Maschine? hamburg.de/projekte/astep/autostatisi/merkmale2 dok.php?id=142&start=1

8 Bedeutung von Worthäufigkeiten Statistische Eigenschaften von Texten: Wenige Worte treten sehr häufig auf die 2 häufigsten Wörter können 10% eines Textes ausmachen, die 6 häufigsten Wörter machen 20% des Textes aus, die häufigsten 50 Wörter machen 50% aus Beispiel: in Textsammlung von über Dokumenten macht "the" = 5.9% des Textes aus und "of" =3.1% Viele Worte sind selten Texte lassen sich nach der Verteilung der Worthäufigkeit unterscheiden Croft: Search Engines (©Addison Wesley, 2008)

9 News Collection (AP89) Statistics Total documents 84,678 Total word occurrences 39,749,179 Vocabulary size 198,763 Words occurring > 1000 times 4,169 Words occurring once 70,064 Word Freq. r Pr(%) r.Pr assistant 5,095 1, sewers , × toothbrush 10 51, × hazmat 1 166, × Wörtlich übernommen von Croft: Search Engines / (©Addison Wesley, 2008)http://www.search-engines-book.com/slides/

10 Statistische Verfahren – Was steckt dahinter? Die Häufigkeit eines Wortes in einem Text ist ein gutes Maß dafür, wie repräsentativ dieses Wort für den Inhalt des Textes ist. Hans-Peter Luhn akce/Luhn.jpg Probleme: 1.Was macht man mit ganz häufigen Wörtern? 2.Was macht man mit Wörtern, die nur 1x im Text vorkommen? 3. Wie geht man mit unterschiedlich langen Texten um? Frage: In einer 10-zeiligen dpa Meldung kommt das Wort Doping 5x vor. In einem 3- seitigen Zeitungsartikel ebenfalls. Wie beurteilen Sie die Eignung von Doping als Deskriptor für die beiden Dokumente?

11 1. Häufige Wörter Sehr häufige Wörter werden analysiert und Aus dem Index entfernt Stoppwortliste Ihr Gewicht für das Ranking reduziert Untersucht, ob die die Wörter nur häufig im speziellen Dokument oder in der Dokumentsammlung sind

12 2. Wörter, die nur einmal im Text vorkommen Wenn Sie sich einen Index anschauen, kann es sein, dass mehr als 70% der Wörter nur einmal vorkommt besonders kurze Texte sind hier ein Problem Statistische Verfahren sind besonders gut für umfangreiche Textsammlungen / Massendaten geeignet. Der Umgang mit Wörtern, die nur einmal mit Text vorkommen, ist ein bisher bei statistischen Verfahren noch nicht gelöstes Problem -> statistische Verfahren sind besonders gut geeignet für umfangreiche Textsammlungen

13 3. Wie geht man mit unterschiedlich langen Texten um? Lösung: Berechnung der Termfrequenz: absolute Worthäufigkeit wird in Beziehung zur Textlänge gesetzt. TF(td)= Häufigkeit eines Wortes im Dokument Anzahl aller Wörter des Dokuments Beispiel: in einem Text (a) aus 200 Wörtern kommt Gesundheit 5 x vor. TF = 5/200 (0,025) In einem Text (b) aus 2000 Wörtern kommt Gesundheit 6 x vor. TF = 6/2000 (0,003) Von der Auszählung absoluter Häufigkeiten zur Berechnung relativer Häufigkeiten

14 3. Aufgabe Formel Termfrequenz: absolute Worthäufigkeit wird in Beziehung zur Textlänge gesetzt. TF(td)= Häufigkeit eines Wortes im Dokument Anzahl aller Wörter des Dokuments Im Info-Parcour Beitrag kommt das Wort ELVIS 6x vor. Der Text hat 242 Wörter. Berechnen Sie die Termfrequenz. Lösung: 0,0247

15 Weitere Probleme Was meinen Sie? in einer Datensammlung gibt es 1000 Dokumente. Das Wort Segelboot kommt in 5 Dokumenten vor. In der Datensammlung gibt es 500 Dokumente, in denen Sport vorkommt. Welcher Suchbegriff ist aussagekräftiger Segelboot oder Sport? Die Termfrequenz (tf) berücksichtigt nur jeweils ein Dokument. Ob ein Suchbegriff in der Datenbank insgesamt häufig vorkommt, wird nicht berücksichtigt.

16 4. Berücksichtigung der gesamten Datensammlung Lösungsansatz Inverse Dokument Frequenz = IDF IDF= Anzahl aller Dokumente in Datensammlung Anzahl Dokumente, in denen Suchbegriff vorkommt Beispiel-Lösung In einer Datensammlung gibt es 1000 Dokumente. Das Wort Segelboot kommt in 5 Dokumenten vor. IDF= 1000/5 = 200 In der Datensammlung gibt es 500 Dokumente, in denen Sport vorkommt IDF = 1000/500 = 2 Fazit: Dokumente mit Segelboot sind sehr selten in der Datenbank und werden deswegen indexiert, weil man davon ausgeht, dass ein Nutzer diese Dokumente finden sollte. Beim Suchbegriff Sport hätte der Nutzer einen sehr hohen Recall, aber geringe Precision.

17 Kombination der Verfahren tf * idf Fazit Statistische Verfahren der automatischen Indexierung basieren auf zwei Grundannahmen: - Geeignete Deskriptoren kommen im Dokument häufig vor - Geeignete Deskriptoren kommen in der Dokumentsammlung selten vor. Berechnung: zur Berechnung eines Termgewichtes eines Deskriptors kombiniert man die beiden Formeln tf und idf, indem man rechnet: tf * idf

18 Verfeinerung der Formel Die errechneten Zahlenwerte werden häufig sehr klein – viele Stellen hinter dem Komma. Lösung: Logarithmierung Logarithmus auf der Basis 2 (Logarithmus dualis): Man nennt die Zahl, mit der man 2 potenzieren muss, damit man 16 erhält, log2 von 16 = 4. Beispiel: 17/1298 = 0,01 Log2 17/log = 0,4


Herunterladen ppt "Spree SoSe 2011 Einführung: Statistische Verfahren der automatischen Indexierung."

Ähnliche Präsentationen


Google-Anzeigen