Information Retrieval „An Information Retrieval System is a system that is capable of storage, retrieval and maintenance of information.“ Kowalski 1997 Institut für Informationswissenschaft Fachhochschule Köln Konzepte, Methoden und Verfahren des Information Retrieval „Information-Retrieval-Systeme (IRS) sind interaktive Informationssysteme für vage Anfragen und unsicheres Wissen.“ Norbert Fuhr WS 2014/15 W. Gödert
Inhaltsübersicht Fachhochschule Köln Einführung Inhalts-verzeichnis Inhaltsübersicht Einführung Werkzeuge und Hilfsmittel des Information Retrieval Suchoberflächen und Interaktionsschnittstellen Modelle des Information Retrieval Invertierte Listen Statistische Verfahren des Automatischen Indexierens Quantitative Aussagen zu Worthäufigkeiten Web-Retrieval: Suchwerkzeuge des Internet Suchmaschinen: PageRank, HITS-Algorithmus Bewertung von Retrievalsystemen, Retrievalexperimente, Retrievaltests Institut für Informationswissenschaft Fachhochschule Köln W. Gödert W. Gödert
Einführung in die Aufgabenstellung Fachhochschule Köln Institut für Informationswissenschaft Fachhochschule Köln W. Gödert
Information Retrieval „An Information Retrieval System is a system that is capable of storage, retrieval and maintenance of information.“ Kowalski 1997 Was ist hier mit Information gemeint ? Daten ! Institut für Informationswissenschaft Fachhochschule Köln „Information-Retrieval-Systeme (IRS) sind interaktive Informationssysteme für vage Anfragen und unsicheres Wissen.“ Norbert Fuhr Verzahnung der Datenebene mit der Ebene der inhaltlichen Bedeutung Wie lässt sich die inhaltliche Übereinstimmung einer Suchanfrage mit einem Suchergebnis quantitativ, also durch numerische Kennziffern ausdrücken? W. Gödert
Aufgaben Information ist gebunden an einen Informationsträger, ein Medium – Text, Bild, Film, Musik, Tabellen, Formeln etc. –, das die Basis für ein Information Retrieval ist. 80% (geschätzt) der weltweit verfügbaren Information liegt in Textform vor, d.h. Information Retrieval ist fast immer Text Retrieval. Dabei steigt die Bedeutung des Information Retrieval mit der enorm wachsenden Menge an Informationsträgern stetig. Institut für Informationswissenschaft Fachhochschule Köln Aufgaben Informationserschließung - Formale Erschließung - Inhaltliche Erschließung Informationsspeicherung Informationsverwaltung Informationssuche / -wiedergewinnung - Suche nach Bekanntem – Wiederfinden - Suche nach Unbekanntem - Suche nach formalen Merkmalen - Suche nach inhaltlichen Merkmalen W. Gödert
Informationssystem Fachhochschule Köln Dokumente Retrieval Input - Output Dokumente Medien, Objekte Retrieval Informationssystem Formal- erschließung Institut für Informationswissenschaft Fachhochschule Köln Suchen und Finden oder nicht Finden Inhalts- analyse erschließung Geordnetes Speichern der Dokument- Repräsentationen Klassifikationssysteme Schlagwortsprachen Thesauri Abstracts Automatisches Indexieren Automatisches Klassifizieren W. Gödert
Wie erfolgt die Suche in einer Datenbank ? Suchproblem Wie erfolgt die Suche in einer Datenbank ? Institut für Informationswissenschaft Fachhochschule Köln Bingo Modell der sequenziellen Suche mit Pattern Matching Wie schafft man es, die · unter allen · zu finden ? W. Gödert
Sequenzielle Suche, Pattern Matching mit einer Schablone Gesucht wird: 01010110 01010110 01010110 01010110 01010110 01010110 1101001110110001010101100111011010101000010101111.. Nein Nein Nein Nein Nein Bingo Institut für Informationswissenschaft Fachhochschule Köln Anwendung Suche im Volltext (vgl. z.B. die Funktion in Word) Vorteil Jedes Muster kann gezielt gesucht und gefunden werden Damit auch Suche nach Wortfragmenten und Sonderzeichen möglich Nachteile Zeitaufwand Exaktheit der Übereinstimmung, z.B. Umlaute Der gesamte Datenbestand muss zum Zeitpunkt der Suche verfügbar sein W. Gödert
So nicht !!! Suche in einem Index, z.B. alphabetisch sortiert Index-Suche Suche in einem Index, z.B. alphabetisch sortiert Eintrag01 Eintrag02 Eintrag03 Eintrag04 Eintrag05 Eintrag06 Eintrag07 Eintrag08 Eintrag09 Eintrag10 Eintrag11 Eintrag12 Eintrag13 Eintrag14 Eintrag15 Eintrag16 Eintrag17 Eintrag18 Eintrag19 Eintrag20 Eintrag21 Eintrag22 Eintrag23 Eintrag24 Gesuchter Eintrag Nein Nein Suche sequenziell ? Nein Nein Nein Nein Nein Nein Institut für Informationswissenschaft Fachhochschule Köln Nein Nein Nein Nein Nein Nein Nein Nein So nicht !!! Nein Nein Nein Nein Nein Nein Nein Nein Nein W. Gödert
Suche in einem Index, z.B. alphabetisch sortiert Index-Suche Suche in einem Index, z.B. alphabetisch sortiert Eintrag01 Eintrag02 Eintrag03 Eintrag04 Eintrag05 Eintrag06 Eintrag07 Eintrag08 Eintrag09 Eintrag10 Eintrag11 Eintrag12 Eintrag13 Eintrag14 Eintrag15 Eintrag16 Eintrag17 Eintrag18 Eintrag19 Eintrag20 Eintrag21 Eintrag22 Eintrag23 Eintrag24 Bildung von Hälften Test, ob gesuchter Eintrag in der ersten Häfte Nein Institut für Informationswissenschaft Fachhochschule Köln oder in der zweiten Häfte Ja W. Gödert
Das Verfahren wird mit der zutreffenden Hälfte fortgesetzt Index-Suche Das Verfahren wird mit der zutreffenden Hälfte fortgesetzt Eintrag13 Eintrag14 Eintrag15 Eintrag16 Eintrag17 Eintrag18 Eintrag19 Eintrag20 Eintrag21 Eintrag22 Eintrag23 Eintrag24 Eintrag19 Eintrag20 Eintrag21 Eintrag22 Eintrag23 Eintrag24 Ja Nein Institut für Informationswissenschaft Fachhochschule Köln Ja Eintrag19 Eintrag20 Eintrag21 Ja Nein Eintrag19 Eintrag20 Ja Das Verfahren folgt einem binären Entscheidungsbaum und kommt auch bei großen Indizes sehr schnell zu einem Ergebnis W. Gödert
Suche nach einem Primärschlüssel Datensatz-Nummer Suchproblem Suche nach einem Primärschlüssel Datensatz-Nummer Fragmentierung der Datensätze Suchalgorithmen zur Optimierung der Suchgeschwindigkeit + Aufgabe der Datenbank-Software Suche nach einem Sekundärmerkmal der Dokumentbeschreibung Invertierte Listen Autor 0034, 0234 StW 0017, 0045, 0067, 0224, 0456, 0734, 1504, 3390 SW 0234, 1504, 1809, 4336 Jahr 0055, 0152, 0234, 0334, 0335, 0457, 0547, 0623, 0734 Institut für Informationswissenschaft Fachhochschule Köln Suche nach verknüpften Merkmalen Einsatz von Hilfsmitteln und Anwendung von Suchlogik, z.B. UND = Gemeinsames Vorkommen der Dok-Nr. W. Gödert
Suche nach einem Primärschlüssel Datensatz-Nummer Suchproblem Suche nach einem Primärschlüssel Datensatz-Nummer Fragmentierung der Datensätze Suchalgorithmen zur Optimierung der Suchgeschwindigkeit + Aufgabe der Datenbank-Software Suche nach einem Sekundärmerkmal der Dokumentbeschreibung Invertierte Listen Autor 0034, 0234 StW 0017, 0045, 0067, 0224, 0456, 0734, 1504, 3390 SW 0234, 1504, 1809, 4336 Jahr 0055, 0152, 0234, 0334, 0335, 0457, 0547, 0623, 0734 Institut für Informationswissenschaft Fachhochschule Köln Suche nach verknüpften Merkmalen Einsatz von Hilfsmitteln und Anwendung von Suchlogik, z.B. UND = Gemeinsames Vorkommen der Dok-Nr. W. Gödert
Literatur Fachhochschule Köln Stock, W.G.: Information Retrieval: Informationen suchen und finden. München: Oldenbourg 2007. XI, 599 S. ISBN 3-486-58172-4. Ferber, R.: Information Retrieval: Data Mining-Verfahren für Textsammlungen und das Web. Heidelberg: dpunkt 2003. 352. ISBN 3-89864-213-5. Vgl. auch unter: http://information-retrieval.de/ Salton, G., M. J. McGill: Information Retrieval: Grundlegendes für Informationswissenschaftler. Übers. von W. von Keitz. Hamburg: McGraw-Hill 1987. X,465 S. ISBN 3-89028-051-X. (McGraw-Hill Texte) Kowalski, G.: Information retrieval systems: theory and implementation. Boston, MA: Kluwer Academic Publ., 1997. XIII, 282 S. Typisch amerikanisches Lehrbuch zum IR: gut und verständlich geschrieben, aktuell und recht erschöpfend. Henrich, A.: Information Retrieval: Grundlagen, Modelle, Implementierung und Anwendungen. Unter: http://wwwdvs.informatik.uni-kl.de/courses/proseminar/WS0405/Vorlesungsunterlagen/Information_Retrieval.half.pdf. Institut für Informationswissenschaft Fachhochschule Köln Viel mehr, auch Spezielles in: Datenbank Literatur zur Informationserschließung W. Gödert
Information Retrieval Oberflächen Institut für Informationswissenschaft Fachhochschule Köln Werkzeuge und Hilfsmittel des Information Retrieval W. Gödert
Zugang Beispielwelten Zugang zu Beispielwelten Die folgenden Folien enthalten Beispiele für die Werkzeuge des Information Retrieval und sollen deren prinzipielle Wirkungsweise veranschaulichen. Die abgebildeten Suchumgebungen haben dabei keinen Selbstzweck, sondern sollen nur der Veranschaulichung dienen. Zur besseren Veranschaulichung sind dabei Beispiele integriert, die aktuell nicht mehr als Produkte oder über Webseiten angeboten werden Institut für Informationswissenschaft Fachhochschule Köln W. Gödert
Gestaltung der Eingabebildschirme • Eingabemasken Institut für Informationswissenschaft Fachhochschule Köln Beispiel: DNB-CD-ROM W. Gödert
Gestaltung der Eingabebildschirme • Kommandoorientierte Eingabe Institut für Informationswissenschaft Fachhochschule Köln Beispiel: DNB-CD-ROM W. Gödert
• Freitext- oder Volltextsuche Suchformen Suchformen • Freitext- oder Volltextsuche Möglichkeit der Suche nach jedem Wort (oder -bestandteil) in einem Text; vgl. entsprechende Suche in BISMAS • Kategorienspezifische Suche durch gezielte Eingabe Angabe oder Auswahl einer spezifischen Suchkategorie Institut für Informationswissenschaft Fachhochschule Köln Kommandomodus Maskenmodus W. Gödert
Disambiguierungsfunktionen Register-Auswahl • Kategorienspezifische Suche durch Auswahl aus Listen Institut für Informationswissenschaft Fachhochschule Köln “Browsing” Disambiguierungsfunktionen Von Registern Autorenliste der DNB-CD-ROM W. Gödert
• Eingabe Case sensitive bei Groß- und Kleinschreibung Boolesche Operatoren • Eingabe Case sensitive bei Groß- und Kleinschreibung Boolesche Operatoren Name abgeleitet von George Boole * 1815 V1869 • und, oder, nicht (und nicht) • and, or, not (and not) Institut für Informationswissenschaft Fachhochschule Köln Die Booleschen Operatoren wirken auf Mengen, die aus den Dokumentnummern gebildet werden: • und - als Durchschnittsmenge (A Ç B) • oder - als Vereinigungsmenge (A È B) • nicht - als Differenzmenge (A \ B) Sie können dementsprechend zur Erweiterung oder Reduktion von Ergebnismengen eingesetzt werden und erhöhen die Präzision (Precision) oder den Recall für eine Suchfrage W. Gödert
Der Recall beschreibt das Verhältnis von gefundenen zu den in einer Recall / Precision Recall Der Recall beschreibt das Verhältnis von gefundenen zu den in einer Datenbank vorhandenen relevanten Dokumenten quantitativ. Er ist eine Aussage über die Vollständigkeit des Suchergebnisses Precision Institut für Informationswissenschaft Fachhochschule Köln Die Precision beschreibt das Verhältnis von gefundenen relevanten zu den gefundenen nicht-relevanten Dokumenten quantitativ. Er ist eine Aussage über die Güte des Suchergebnisses oder auch über die Ballastrate Reales Suchergebnis Beide Werte betragen im Idealfall 1 A relevant gefunden B nicht-relevant gefunden R = Recall = C relevant nicht-gefunden D nicht-relevant nicht-gefunden P = Precision = W. Gödert
A Ç B B A Der Boolesche Operator UND A Ç B = {x: x Î A Ù x Î B} Boolesche Operatoren A Ç B Institut für Informationswissenschaft Fachhochschule Köln A B A Ç B = {x: x Î A Ù x Î B} x Î A Ç B Û x Î A und x Î B Der Boolesche Operator UND W. Gödert
A È B A B Der Boolesche Operator ODER A È B = {x: x Î A Ú x Î B} Boolesche Operatoren A È B Institut für Informationswissenschaft Fachhochschule Köln A B A È B = {x: x Î A Ú x Î B} x Î A È B Û x Î A oder x Î B Der Boolesche Operator ODER W. Gödert
A \ B A B Der Boolesche Operator NICHT A \ B = {x: x Î A Ù x Ï B} Boolesche Operatoren A \ B Institut für Informationswissenschaft Fachhochschule Köln A B A \ B = {x: x Î A Ù x Ï B} x Î A \ B Û x Î A und x Ï B Der Boolesche Operator NICHT W. Gödert
Die Verwendung der Booleschen Operatoren kann auf Boolesche Operatoren Die Verwendung der Booleschen Operatoren kann auf verschiedene Arten angeboten werden, z.B.: • implizit durch voreingestellte Verknüpfungen zwischen Suchfeldern Institut für Informationswissenschaft Fachhochschule Köln W. Gödert
- durch Pull down Fenster Boolesche Operatoren • direkt - durch Pull down Fenster - durch Wahl von Buttons Institut für Informationswissenschaft Fachhochschule Köln W. Gödert
- durch Eingabe der entsprechenden Formulierungen Boolesche Operatoren - durch Eingabe der entsprechenden Formulierungen Institut für Informationswissenschaft Fachhochschule Köln W. Gödert
Reihenfolge der Booleschen Operatoren Boolesche Operatoren Reihenfolge der Booleschen Operatoren Beliebig oder nicht beliebig ?? A und B oder C = A oder B und C ?? A und B oder C = A und (B oder C) ?? Institut für Informationswissenschaft Fachhochschule Köln W. Gödert
Fachhochschule Köln Institut für Informationswissenschaft Boolesche Operatoren Institut für Informationswissenschaft Fachhochschule Köln W. Gödert
Truncierung Truncierung Abschneiden eines Wortes rechts, z.B. hinter seinem Wortstamm; häufig verwendete Zeichen: *, $, #, ? (jeweils prüfen!) Die Zeichen werden auch Joker oder Wildcards genannt Ziel: gleichzeitiges Suchen verschiedener Wortformen Resultat: Vergrößerung der Treffermenge Institut für Informationswissenschaft Fachhochschule Köln W. Gödert
Auto$ Autoklav Autokorrelation Automat Automatisch Automation Truncierung Das richtige Truncieren, d.h. das Abschneiden von Wörtern an sinnvollen Stellen erfordert einige Übung. Es besteht immer die Gefahr, den eigentlich interessierenden begrifflichen Kontext zu verlassen. Beispiel: Auto$ steht auch für Autoklav Autokorrelation Automat Automatisch Automation Automobil Autonom Autopsie Autor Autoreifen Institut für Informationswissenschaft Fachhochschule Köln Empfehlenswert ist die Truncierung für die gleichzeitige Suche nach Singular- und Pluralformen bzw. flektierten Wortformen. W. Gödert
Maskierung J$ngling Sch$ne Literatur Bibliogra$ie Abblenden einzelner Zeichen, auch in der Wortmitte, auch hierfür sind die Namen Joker und Wildcard gebräuchlich. Mit dieser Vorgehensweise können gut unterschiedliche Schreibweisen ausgeglichen werden. Beispiel: J$ngling Sch$ne Literatur Bibliogra$ie Institut für Informationswissenschaft Fachhochschule Köln Es gibt Retrievalsysteme, in denen unterschieden wird, ob ein oder mehrere Zeichen durch einen Platzhalter ersetzt werden. Beispiel: W. Gödert
Adjacency, Proximity Nachbarschaft, Nähe, Wortabstand Beispiel für Adjacency: Adjektiv-Substantiv-Verbindungen Allgemeiner: Phrasensuche z.B.: Öffentliche Bibliothek Online Public Access Catalog Realisierung häufig durch: “Wort1 Wort2” Beispiel für Proximity: Definierter Wortabstand z.B.: Die Eingabe Online (w3) catalog findet nicht nur “Online catalog” sondern auch “Online Public Access Catalog” Institut für Informationswissenschaft Fachhochschule Köln W. Gödert
Wort-, Phrasen-invertierung Wortinvertierung, Phraseninvertierung Art und Weise, wie der Feldinhalt für die Registersuche aufbereitet wird Titel: 1. Einführung in die Physik der Schallausbreitung 2. Physik 3. Einführung in die Physik Institut für Informationswissenschaft Fachhochschule Köln Wortinvertierung: Jedes Einzelwort einer oder mehrerer Kategorien wird in ein alphabetisches Register gestellt der 1 die 1,3 Einführung 1,3 in 1,3 Physik 1,2,3 Schallausbreitung 1 Phraseninvertierung: Der Inhalt der gesamten Kategorie wird (als Phrase) in ein alphabetisches Register gestellt Einführung in die Physik 3 Einführung in die Physik der Schallausbreitung 1 Physik 2 W. Gödert
Vergleichs-operatoren Einsatz von Vergleichsoperatoren (größer, kleiner) Frage: Welche Bücher sind bei Rowohlt nach 1998 erschienen ? Wie drückt man nach 1998 aus ? EJ >= 1998 Institut für Informationswissenschaft Fachhochschule Köln W. Gödert
Problematische Eigenschaft des Booleschen Operators NICHT Probleme NICHT Problematische Eigenschaft des Booleschen Operators NICHT Eine problematische Eigenschaft des Booleschen Operators NICHT kann sich zeigen, wenn man seine Anwendungswirkung nicht formal, sondern inhaltlich interpretiert. Möglicherweise hat man bei inhaltlichen den Wunsch, durch Anwendung des NICHT-Operators einzelne Aspekte zu ignorieren und aus den zu findenden Dokumenten auszuschließen: Äpfel NICHT Birnen soll meinen Ich suche Äpfel, aber keine Birnen Wie alle Booleschen Operatoren wirkt der NICHT-Operator aber immer auf das ganze Dokument, d. h. es wird vollständig aus der Treffermenge ausgeschlossen, auch wenn den ausgeschlossenen Inhalt nur als einen Teilaspekt enthält. Das folgende Beispiel illustriert diesen Zusammenhang: Institut für Informationswissenschaft Fachhochschule Köln W. Gödert
1. Öffentliche Bibliothek Probleme NICHT Gegeben seien die folgenden 'Dokumente' mit den Schlagwörtern: 1. Öffentliche Bibliothek 2. Wissenschaftliche Bibliothek Erwerbung Öffentliche Bibliothek Inhaltserschließung 3. Wissenschaftliche Bibliothek 4. Spezialbibliothek Bestandsaufbau Erwerbung 5. Öffentliche Bibliothek 6. Spezialbibliothek Wissenschaftliche Bibliothek Inhaltserschließung Institut für Informationswissenschaft Fachhochschule Köln Aus welchen Dokumenten besteht die Treffermenge für die Frage: 1. Öffentliche Bibliothek 2. Spezialbibliothek 3. 1 oder 2 4. Wissenschaftliche Bibliothek 5. 3 nicht 4 6. Inhaltserschließung 7. 5 und 6 1,2,5 4,6 1,2,4,5,6 2,3,5 1,4,6 2,5,6 6 W. Gödert
Wie ist dieses Suchergebnis zu bewerten, wenn man Probleme NICHT Frage Dokumente Quelle für Ermittlung 1 2 3 4 5 6 7 1,2,5 4,6 1,2,4,5,6 2,3,5 1,4,6 2,5,6 6 Dokumente Ergebnismenge Institut für Informationswissenschaft Fachhochschule Köln Wie ist dieses Suchergebnis zu bewerten, wenn man die inhaltliche Fragestellung an den Dokumenten überprüft (Wie lautet die Fragestellung inhaltlich) ? Wie kann man diesen Effekt für die Bildung eines Suchergebnisses vermeiden ? W. Gödert
Natürlich-sprachige Eingaben Institut für Informationswissenschaft Fachhochschule Köln W. Gödert
Natürlich-sprachige Eingaben Rechtschreibkontrolle und natürlichsprachige Eingaben Aufforderung zu natürlichsprachiger Sucheingabe Zweite Wortkorrektur Institut für Informationswissenschaft Fachhochschule Köln Erste Wortkorrektur Beispiel Knowledge Finder W. Gödert
Natürlich-sprachige Eingaben Rechtschreibkontrolle und natürlichsprachige Eingaben Korrigierte Suchformulierung Institut für Informationswissenschaft Fachhochschule Köln Ergebnisliste Highlighting Relevanzkurve Vollstandige Titelanzeige in kategorisierter Form Beispiel Knowledge Finder W. Gödert
Hyperlinks im angezeigten Text Durch Anklicken eines Wortes wird eine neue Suche initiiert Nutzen Man erspart sich das erneute Eingeben des Wortes / der Wörter in einer Eigabemaske Institut für Informationswissenschaft Fachhochschule Köln Realisierungsvarianten • Nur voreingestellte Links sind anklickbar und verzweigen an eine andere Stelle (häufig in Lexika realisiert) • Jedes Wort ist anklickbar und löst eine neue Suche aus Zu prüfen Kann ein Wort nach dem Anklicken noch editiert werden oder kann es nur unverändert für eine Suche verwendet werden Hyperlinks sind nicht typisierbar (z.B. Richtungen); Vgl. auch den “Back”-Button des Browsers W. Gödert
Hyperlinks I Beispiel: Brockhaus multimedial Vordefinierte Links Institut für Informationswissenschaft Fachhochschule Köln W. Gödert
Hyperlinks II Beispiel: Brockhaus multimedial Freie Links Institut für Informationswissenschaft Fachhochschule Köln W. Gödert
Assoziatives Suchen Beispiel: Brockhaus multimedial Institut für Informationswissenschaft Fachhochschule Köln Als Wissensnetz für assoziativen Kontext W. Gödert
Interaktionsschnittstellen Suchoberflächen und Interaktionsschnittstellen Institut für Informationswissenschaft Fachhochschule Köln W. Gödert
Ausgewählte Literatur Thissen, F.: Screen-Design-Handbuch: Effektiv informieren und kommunizieren mit Multimedia. 2., überarb. u. erw. Aufl. Berlin: Springer 2001. 240 S. ISBN 3-540-67970-7. Marchionini, G.: Interfaces for end-user information seeking. In: Journal of the American Society for Information Science. 43(1992), S.156-163. Shneiderman, B.: Designing the user interface: strategies for effective human-computer interaction. 2nd ed. Reading, MA: Addison-Wesley 1992. Bates, M.J.: The design of browsing and berrypicking: techniques for the online search interface. In: Online review. 13(1989) no.5, S.407-424. Institut für Informationswissenschaft Fachhochschule Köln W. Gödert
Interaktionsmöglichkeiten zur Navigation und Orientierung • Wechsel zwischen Suchen und Blättern mit Übernahme der Daten • Suchpfade, Suchtabellen, Suchgeschichte Institut für Informationswissenschaft Fachhochschule Köln • Backtracking; Rücksprung auf (beliebigen) vorherigen Punkt des Suchablaufes • Pull-Down-Menues (zur Auswahl von Optionen) • Funktiontasten F1, F2, ... • Tastenkombinationen: ALT-xy, Strg-xy • Icons, Buttons • Hyperlinks W. Gödert
• Montierte Anzeige, ISBD-Format Ausgabeformen • Kurztitellisten • Kategorienformat • Montierte Anzeige, ISBD-Format • Alphabetisch sortierte Listen Institut für Informationswissenschaft Fachhochschule Köln • Chronologisch sortierte Listen • Gewichtete Sortierung; Relevance Ranking (vgl. Web-Suchmaschinen) Gewichtungskriterien: - tf*idf-Formeln (tf = term frequency; idf = inverse document frequency) - Worthäufigkeit normalisiert auf Dokumentlänge - Vorkommen des Suchwortes in den Metadaten - Links von anderen Dokumenten (z.B. Google) • Highlighting der eingegebenen Suchwörter W. Gödert
Modelle Information Retrieval des Information Retrieval Institut für Informationswissenschaft Fachhochschule Köln Boolesches Retrieval Vektorraummodell Probabilistisches Retrieval (Unscharfes, Fuzzy-Retrieval) Invertierte Listen W. Gödert
Vektorraummodell des Information Retrieval Das Vektorraummodell des Information Retrieval ordnet den Dokumenten und den Fragen jeweils Vektoren zu, die kenntlich machen, welche Merkmale Dokumente bzw. Anfragen aufweisen und berechnet auf der Basis der vorangehend vorgestellten Prinzipien die Ähnlichkeit zwischen diesen Vektoren. Ein großer Vorteil der Methode kann darin gesehen werden, dass ein rechnerisch einfacher Weg vorhanden ist, Gewichtungen und Häufigkeiten – sowohl bei der Dokumentbeschreibung als auch für die Anfragen - in die Ähnlichkeits-bewertung einzubauen. Institut für Informationswissenschaft Fachhochschule Köln W. Gödert
Das Vektorraummodell Fachhochschule Köln Institut für Informationswissenschaft Fachhochschule Köln Quelle: Henrich, A.: Information Retrieval: Grundlagen, Modelle, Implementierung und Anwendungen. In: http://wwwdvs.informatik.uni-kl.de/courses/proseminar/WS0405/Vorlesungsunterlagen /Information_Retrieval.half.pdf. W. Gödert
Fachhochschule Köln Das Vektorraummodell Die Idee des sog. Vektorraummodells besteht daraus, aus den Eigenschaften (Merkmalen) der Dokumente und der Suchfragen Vektoren in Vektorräumen zu bilden und Übereinstimmungsmaße zu finden, die sich rechnerisch bestimmen lassen. Beispiele in 2 Dimensionen Institut für Informationswissenschaft Fachhochschule Köln Bestimmungsgrößen - Länge - Abstand, Winkel Wie ähnlich sind sich die Vektoren und wie kann man diese Ähnlichkeit rechnerisch bestimmen ? W. Gödert
Ein wenig Vektorrechnung Vektorraum-modell Ein wenig Vektorrechnung Vektoren sind Elemente in Räumen, die mehr als eine Dimension haben dürfen und haben eine Größe, aber zusätzlich auch eine Richtung, die relativ zu einem Koordinatensystem ausgedrückt wird. Beispiel in 3 Dimensionen z az Institut für Informationswissenschaft Fachhochschule Köln ay y ax Andere Schreibweise: x W. Gödert
2 * Fachhochschule Köln Rechnen mit Vektoren Addition von Vektoren Vektorraum-modell Rechnen mit Vektoren Addition von Vektoren Institut für Informationswissenschaft Fachhochschule Köln Multiplikation mit einer skalaren Größe (Verlängerung, Verkürzung) 2 * Skalares Produkt von Vektoren W. Gödert
y ay x ax Fachhochschule Köln Länge von ? Betrag von Vektoren Vektorraum-modell Betrag von Vektoren Beispiel in der Ebene mit rechtwinkligem Koordinatensystem y ay Institut für Informationswissenschaft Fachhochschule Köln Länge von ? x ax Die Lösung ergibt sich aus dem Satz von Pythagoras W. Gödert
Fachhochschule Köln Länge von ? Betrag von Vektoren Vektorraum-modell Betrag von Vektoren Beispiel im drei-dimensionalen Raum mit rechtwinkligem Koordinatensystem Institut für Informationswissenschaft Fachhochschule Köln Länge von ? Die Lösung ergibt sich aus einer allgemeineren Form des Satzes von Pythagoras oder allgemein für einen n-dimensionalen Vektorraum W. Gödert
Das Skalarprodukt von Vektoren Vektorraum-modell Das Skalarprodukt von Vektoren Geometrische Deutung Das skalare Produkt zweier Vektoren und ist gleich dem Produkt aus: dem Betrag des Vektors und dem Betrag der Projektion von auf Institut für Informationswissenschaft Fachhochschule Köln a Das Skalarprodukt bietet sich als Messgröße an, die sowohl eine Aussage über die Länge (den Betrag) der Vektoren macht als auch über deren Lage zueinander. W. Gödert
Das Skalarprodukt von Vektoren Vektorraum-modell Das Skalarprodukt von Vektoren Beispiele zur Verbindung der Intuition von Übereinstimmung mit dem rechnerischen Wert aus dem Skalarprodukt: 1. = , Winkel a klein Intuition: Hohe Übereinstimmung Im Grenzfall a = 0o, cos 0o = 1 Institut für Informationswissenschaft Fachhochschule Köln 2. = , Winkel a = 45o Intuition: Weniger Übereinstimmung 3. = , Winkel a = 90o Intuition: Keine Übereinstimmung cos 90o = 0 ! W. Gödert
Höherdimensionale Vektorräume Vektorraum-modell Höherdimensionale Vektorräume Wie überträgt man dieses Berechnungsverfahren auf Vektorräume höherer Dimensionen? Die komponentenweise Multiplikation von Vektoren macht dabei keine prinzipiellen Probleme. Entwickelt werden muss ein Verständnis des cos zweier Vektoren in einem höherdimensionalen Raum z Institut für Informationswissenschaft Fachhochschule Köln az bz a ay by y bx ax x W. Gödert
Vektorraum-modell In der Ebene gilt der Cosinussatz (verallgemeinerter Pythagoras): oder b a a q c-q c Kontrolle für rechtwinklige Dreiecke: Institut für Informationswissenschaft Fachhochschule Köln Übertragen in die Vektorschreibweise ergibt sich: In höheren Dimensionen müssen die Komponenten aller Dimensionen berücksichtigt werden, daher allgemein: W. Gödert
Vektorraummodell des Information Retrieval Das Vektorraummodell des Information Retrieval ordnet den Dokumenten und den Fragen jeweils Vektoren zu, die kenntlich machen, welche Merkmale Dokumente bzw. Anfragen aufweisen. Ziel ist es, auf dieser Basis Aussagen über die Ähnlichkeit der Vektoren und damit der Ähnlichkeit zwischen den Dokumenten bzw. den Dokumenten und den Suchanfragen zu machen. Die Feststellung der Ähnlichkeit wird auf der Basis einer Bewertungsfunktion vorgenommen, die numerische Ergebnisse hervorbringt. Ein großer Vorteil der Methode kann darin gesehen werden, dass ein rechnerisch einfacher Weg eröffnet wird, Gewichtungen und Häufigkeiten – sowohl bei der Dokumentbeschreibung als auch für die Anfragen - in die Funktion zur Ähnlichkeitsbewertung einzubauen. Institut für Informationswissenschaft Fachhochschule Köln W. Gödert
Bestimmung der Ähnlichkeit zwischen Dokumenten: Ein Beispiel TI: Aquajogging als Allheilmittel DE: Aquajogging ; Ausdauersport ; Ausdauersportart ; Ausdauertraining ; Bewegungsvariation ; Laufstil ; Rehabilitatives Training; Trainingsgestaltung ; Trainingswissenschaft Dok 2 TI: Eigene sportliche Ziele suchen und verwirklichen DE: Ausdauertraining ; Körperliches Training ; Krafttraining ; Motivation ; Selbstverantwortung ; Sportpädagogik ; Sportunterricht ; Trainingsgestaltung ; Trainingsplan Dok 3 TI: Atemlos? Aktiv werden! : "Lungensport" für COPD-Patienten DE: Atemwegswiderstand ; Ausdauertraining ; Körperliche Belastbarkeit ; Körperliches Training ; Krafttraining ; Lungenerkrankung ; Lungenfunktion ; Rehabilitationssport ; Sportmedizin; Trainingsgestaltung Dok 4 TI: "Wie lange haben wir heute gebraucht?" : Oberstufenschüler planen und absolvieren in Gruppen ihr eigenes Ausdauertraining und dokumentieren den Verlauf in einem Lauftagebuch DE: Ausdauertraining ; Körperliches Training ; Laufen ; Schulsport ; Sekundarstufe II ; Sportunterricht ; Unterrichtsgestaltung Welches Dokument ist welchem (mehr) ähnlich ?
Bestimmung der Ähnlichkeit zwischen Dokumenten: Ein Beispiel TI: Aquajogging als Allheilmittel DE: Aquajogging ; Ausdauersport ; Ausdauersportart ; Ausdauertraining ; Bewegungsvariation ; Laufstil ; Rehabilitatives Training; Trainingsgestaltung ; Trainingswissenschaft Dok 2 TI: Eigene sportliche Ziele suchen und verwirklichen DE: Ausdauertraining ; Körperliches Training ; Krafttraining ; Motivation ; Selbstverantwortung ; Sportpädagogik ; Sportunterricht ; Trainingsgestaltung ; Trainingsplan Dok 3 TI: Atemlos? Aktiv werden! : "Lungensport" für COPD-Patienten DE: Atemwegswiderstand ; Ausdauertraining ; Körperliche Belastbarkeit ; Körperliches Training ; Krafttraining ; Lungenerkrankung ; Lungenfunktion ; Rehabilitationssport ; Sportmedizin; Trainingsgestaltung Dok 4 TI: "Wie lange haben wir heute gebraucht?" : Oberstufenschüler planen und absolvieren in Gruppen ihr eigenes Ausdauertraining und dokumentieren den Verlauf in einem Lauftagebuch DE: Ausdauertraining ; Körperliches Training ; Laufen ; Schulsport ; Sekundarstufe II ; Sportunterricht ; Unterrichtsgestaltung Ähnlichkeit auf der Grundlage gemeinsam vorhandener Deskriptoren ?
Vektorraummodel: Berechnung der Ähnlichkeit Dokument- /Deskriptor-Matrix - Vektorraum Dokument Aquajogging Atemwegswiderstand Ausdauersport Ausdauersportart Ausdauertraining Bewegungsvariation Körperliche Belastbarkeit Körperliches Training Krafttraining Laufen Laufstil Lungenerkrankung Lungenfunktion Motivation Rehabilitationssport Rehabilitatives Training Schulsport Sekundarstufe II Selbstverantwortung Sportmedizin Sportpädagogik Sportunterricht Trainingsgestaltung Trainingsplan Trainingswissenschaft Unterrichtsgestaltung 1 2 3 4 Zur Berechnung der Ähnlichkeit verwenden wir ein Vereinfachtes Skalarprodukt: n = Zahl der Deskriptoren Der Faktor 1/n wird verwendet, um das Ergebnis auf das Intervall [0,1] zu begrenzen.
Vektorraummodel: Berechnung der Ähnlichkeit Dokument- /Deskriptor-Matrix - Vektorraum Dokument Aquajogging Atemwegswiderstand Ausdauersport Ausdauersportart Ausdauertraining Bewegungsvariation Körperliche Belastbarkeit Körperliches Training Krafttraining Laufen Laufstil Lungenerkrankung Lungenfunktion Motivation Rehabilitationssport Rehabilitatives Training Schulsport Sekundarstufe II Selbstverantwortung Sportmedizin Sportpädagogik Sportunterricht Trainingsgestaltung Trainingsplan Trainingswissenschaft Unterrichtsgestaltung 1 2 3 4 Vergleich Dokument 1 mit Dokument 2: Vereinfachtes Skalarprodukt:
Vektorraummodel: Berechnung der Ähnlichkeit Dokument- /Deskriptor-Matrix - Vektorraum Dokument Aquajogging Atemwegswiderstand Ausdauersport Ausdauersportart Ausdauertraining Bewegungsvariation Körperliche Belastbarkeit Körperliches Training Krafttraining Laufen Laufstil Lungenerkrankung Lungenfunktion Motivation Rehabilitationssport Rehabilitatives Training Schulsport Sekundarstufe II Selbstverantwortung Sportmedizin Sportpädagogik Sportunterricht Trainingsgestaltung Trainingsplan Trainingswissenschaft Unterrichtsgestaltung 1 2 3 4 Vergleich Dokument 1 mit Dokument 3: Vereinfachtes Skalarprodukt:
Vektorraummodel: Berechnung der Ähnlichkeit Dokument- /Deskriptor-Matrix - Vektorraum Dokument Aquajogging Atemwegswiderstand Ausdauersport Ausdauersportart Ausdauertraining Bewegungsvariation Körperliche Belastbarkeit Körperliches Training Krafttraining Laufen Laufstil Lungenerkrankung Lungenfunktion Motivation Rehabilitationssport Rehabilitatives Training Schulsport Sekundarstufe II Selbstverantwortung Sportmedizin Sportpädagogik Sportunterricht Trainingsgestaltung Trainingsplan Trainingswissenschaft Unterrichtsgestaltung 1 2 3 4 Vergleich Dokument 2 mit Dokument 3: Vereinfachtes Skalarprodukt:
Größte Ähnlichkeit Gesamtergebnis: Dok 2 TI: Eigene sportliche Ziele suchen und verwirklichen DE: Ausdauertraining ; Körperliches Training ; Krafttraining ; Motivation ; Selbstverantwortung ; Sportpädagogik ; Sportunterricht ; Trainingsgestaltung ; Trainingsplan Dok 3 TI: Atemlos? Aktiv werden! : "Lungensport" für COPD-Patienten DE: Atemwegswiderstand ; Ausdauertraining ; Körperliche Belastbarkeit ; Körperliches Training ; Krafttraining ; Lungenerkrankung ; Lungenfunktion ; Rehabilitationssport ; Sportmedizin; Trainingsgestaltung Die absoluten Werte dürfen nicht überbewertet werden. Werte nahe bei 1 sind für reale Dokument- und Deskriptor-Kollektionen unrealistisch, da keinem Dokument alle insgesamt vorhandenen Deskriptoren zugeteilt werden. Wichtiger ist die Herstellung einer Reihenfolge.
Berechnung der Ähnlichkeit zwischen Dokumenten und Anfragen Dokument- /Deskriptor-Matrix - Vektorraum Dokument Aquajogging Atemwegswiderstand Ausdauersport Ausdauersportart Ausdauertraining Bewegungsvariation Körperliche Belastbarkeit Körperliches Training Krafttraining Laufen Laufstil Lungenerkrankung Lungenfunktion Motivation Rehabilitationssport Rehabilitatives Training Schulsport Sekundarstufe II Selbstverantwortung Sportmedizin Sportpädagogik Sportunterricht Trainingsgestaltung Trainingsplan Trainingswissenschaft Unterrichtsgestaltung 1 2 3 4 Suchanfrage: Laufen ; Körperliches Training ; Ausdauertraining ; Schulsport ; Sportunterricht ; Unterrichtsgestaltung ; Sekundarstufe II Anfragevektor: A 1
Berechnung der Ähnlichkeit zwischen Dokumenten und Anfragen Dokument- /Deskriptor-Matrix - Vektorraum Dokument Aquajogging Atemwegswiderstand Ausdauersport Ausdauersportart Ausdauertraining Bewegungsvariation Körperliche Belastbarkeit Körperliches Training Krafttraining Laufen Laufstil Lungenerkrankung Lungenfunktion Motivation Rehabilitationssport Rehabilitatives Training Schulsport Sekundarstufe II Selbstverantwortung Sportmedizin Sportpädagogik Sportunterricht Trainingsgestaltung Trainingsplan Trainingswissenschaft Unterrichtsgestaltung 1 2 3 4 Anfragevektor: A 1
Zahl der Übereinstimmungen Ergebnis für alle Dokumente: Zahl der Übereinstimmungen Größte Ähnlichkeit Suchanfrage: Laufen ; Körperliches Training ; Ausdauertraining ; Schulsport ; Sportunterricht ; Unterrichtsgestaltung ; Sekundarstufe II Dok 4 TI: "Wie lange haben wir heute gebraucht?" : Oberstufenschüler planen und absolvieren in Gruppen ihr eigenes Ausdauertraining und dokumentieren den Verlauf in einem Lauftagebuch DE: Ausdauertraining ; Körperliches Training ; Laufen ; Schulsport ; Sekundarstufe II ; Sportunterricht ; Unterrichtsgestaltung
Bewertung Kein Dokument erfüllt alle Kriterien der Suchanfrage -> Ein Boolesches Retrieval nach allen Kriterien hätte kein Dokument als Ergebnis erbracht Durch die rechnerische Bestimmung der Ähnlichkeit wird in jedem Fall ein Suchergebnis erzeugt (unscharfe Suchen, Ranking) Alle Dokumente sind durch zusätzliche Kriterien charakterisiert, die für die Suchanfrage vielleicht nicht relevant sind Eine Verfeinerung der Berechnung ist möglich durch Gewichtungen bei den Deskriptoren Gewichtungen bei den Merkmalen der Suchanfrage Verbindung zu wortstatistischen Analysen, in die dann auch Wortmaterial aus anderen Quellkategorien einbezogen werden kann (Häufigkeit -> Gewichtung); Zusammenhang zu Verfahren des Automatischen Indexierens
Gewichtungen bei den Deskriptoren Bestimmung der Ähnlichkeit zwischen Dokumenten Beispiel mit Gewichtungen Gewichtungen bei den Deskriptoren Gewichtungen bei den Merkmalen der Suchanfrage
Bestimmung der Ähnlichkeit zwischen Dokumenten: Beispiel mit Gewichtungen TI: Aquajogging als Allheilmittel DE: Aquajogging (5) ; Ausdauersport ; Ausdauersportart ; Ausdauertraining (2); Bewegungsvariation ; Laufstil ; Rehabilitatives Training (3); Trainingsgestaltung (3) ; Trainingswissenschaft Dok 2 TI: Eigene sportliche Ziele suchen und verwirklichen DE: Ausdauertraining (3); Körperliches Training (2); Krafttraining ; Motivation (2) ; Selbstverantwortung (2); Sportpädagogik ; Sportunterricht ; Trainingsgestaltung (3); Trainingsplan (2) Dok 3 TI: Atemlos? Aktiv werden! : "Lungensport" für COPD-Patienten DE: Atemwegswiderstand (2) ; Ausdauertraining (3); Körperliche Belastbarkeit ; Körperliches Training (2); Krafttraining ; Lungenerkrankung (3); Lungenfunktion (2); Rehabilitationssport (3); Sportmedizin; Trainingsgestaltung Dok 4 TI: "Wie lange haben wir heute gebraucht?" : Oberstufenschüler planen und absolvieren in Gruppen ihr eigenes Ausdauertraining und dokumentieren den Verlauf in einem Lauftagebuch DE: Ausdauertraining (3); Körperliches Training ; Laufen (3); Schulsport (3); Sekundarstufe II (5); Sportunterricht ; Unterrichtsgestaltung (2) Welches Dokument ist welchem (mehr) ähnlich, wenn man die Gewichtungen berücksichtigt ?
Vektorraummodel: Berechnung der Ähnlichkeit für gewichtete Deskriptoren Dokument- /Deskriptor-Matrix - Vektorraum mit gewichteten Deskriptoren Dokument Aquajogging Atemwegswiderstand Ausdauersport Ausdauersportart Ausdauertraining Bewegungsvariation Körperliche Belastbarkeit Körperliches Training Krafttraining Laufen Laufstil Lungenerkrankung Lungenfunktion Motivation Rehabilitationssport Rehabilitatives Training Schulsport Sekundarstufe II Selbstverantwortung Sportmedizin Sportpädagogik Sportunterricht Trainingsgestaltung Trainingsplan Trainingswissenschaft Unterrichtsgestaltung 1 5 2 3 4 Zur Berechnung der Ähnlichkeit verwenden wir das vereinfachte Skalarprodukt mit Berücksichtung der den Deskriptoren zugeteilten Gewichte und dem Maximum der Zeilensummen:
Vektorraummodel: Berechnung der Ähnlichkeit für gewichtete Deskriptoren Dokument- /Deskriptor-Matrix - Vektorraum Dokument Aquajogging Atemwegswiderstand Ausdauersport Ausdauersportart Ausdauertraining Bewegungsvariation Körperliche Belastbarkeit Körperliches Training Krafttraining Laufen Laufstil Lungenerkrankung Lungenfunktion Motivation Rehabilitationssport Rehabilitatives Training Schulsport Sekundarstufe II Selbstverantwortung Sportmedizin Sportpädagogik Sportunterricht Trainingsgestaltung Trainingsplan Trainingswissenschaft Unterrichtsgestaltung Zeilensumme 1 5 2 3 18 17 19 4 16 n = Zahl der Deskriptoren m = Zahl der Dokumente Im Beispiel: n = 26, m = 4, M = 19
Berechnung der Dokumenten-Ähnlichkeit mit gewichteten Deskriptoren n = 26, m = 4, M = 19 Berechnung der Ähnlichkeit zwischen Dokument 1 und Dokument 2 1 5 2 3 Berechnung der Ähnlichkeit zwischen Dokument 2 und Dokument 3 2 3 1
Entsprechend berechnet man die Ähnlichkeit zwischen den weiteren Dokumenten und erhält als Rangfolge: 2 5 6 1 3 4 Zum Vergleich die ungewichteten Ähnlichkeiten: 3 6 1 2 Wie schon bei der Berechnung der einzelnen Ähnlichkeiten, bleibt es eine Frage der Interpretation, ob man die veränderte Reihenfolge aus inhaltlichen Gründen gerechtfertigt findet oder nicht.
Berechnung der Ähnlichkeit zwischen Dokumenten und Suchanfrage für gewichtete Deskriptoren und gewichtete Suchanfragen Dokument Aquajogging Atemwegswiderstand Ausdauersport Ausdauersportart Ausdauertraining Bewegungsvariation Körperliche Belastbarkeit Körperliches Training Krafttraining Laufen Laufstil Lungenerkrankung Lungenfunktion Motivation Rehabilitationssport Rehabilitatives Training Schulsport Sekundarstufe II Selbstverantwortung Sportmedizin Sportpädagogik Sportunterricht Trainingsgestaltung Trainingsplan Trainingswissenschaft Unterrichtsgestaltung Zeilensumme 1 5 2 3 18 17 19 4 16 Neuer Anfragevektor A 2 5 1 3 20 Verbalisiert: Ausdauertraining (2) ; Körperliches Traing (5) ; Krafttraining ; Laufen ; Rehabilitatives Training (3) ; Sportmedizin (2) ; Trainingsplan (3)
Berechnung der Dokumenten-Suchanfrage-Ähnlichkeit mit gewichteten Deskriptoren n = Zahl der Deskriptoren m = Zahl der Dokumente Im Beispiel: n = 26, m = 4, M = 20 4 1 2 3
Errechnetes Ranking der Dokumente für die Anfrage: Ausdauertraining (2) ; Körperliches Traing (5) ; Krafttraining ; Laufen ; Rehabilitatives Training (3) ; Sportmedizin (2) ; Trainingsplan (3) Dok 2 TI: Eigene sportliche Ziele suchen und verwirklichen DE: Ausdauertraining (3); Körperliches Training (2); Krafttraining ; Motivation (2) ; Selbstverantwortung (2); Sportpädagogik ; Sportunterricht ; Trainingsgestaltung (3); Trainingsplan (2) 1 Dok 3 TI: Atemlos? Aktiv werden! : "Lungensport" für COPD-Patienten DE: Atemwegswiderstand (2) ; Ausdauertraining (3); Körperliche Belastbarkeit ; Körperliches Training (2); Krafttraining ; Lungenerkrankung (3); Lungenfunktion (2); Rehabilitationssport (3); Sportmedizin; Trainingsgestaltung 2 Dok 4 TI: "Wie lange haben wir heute gebraucht?" : Oberstufenschüler planen und absolvieren in Gruppen ihr eigenes Ausdauertraining und dokumentieren den Verlauf in einem Lauftagebuch DE: Ausdauertraining (3); Körperliches Training ; Laufen (3); Schulsport (3); Sekundarstufe II (5); Sportunterricht ; Unterrichtsgestaltung (2) 3 Dok 1 TI: Aquajogging als Allheilmittel DE: Aquajogging (5) ; Ausdauersport ; Ausdauersportart ; Ausdauertraining (2); Bewegungsvariation ; Laufstil ; Rehabilitatives Training (3); Trainingsgestaltung (3) ; Trainingswissenschaft 4
Vektorraummodell des Information Retrieval Das formale Modell Sei T={t1,...,tn} eine endliche Menge von Termen und D={d1,...,dm} eine Menge von Dokumenten. Für jedes Dokument diÎD sei zu jedem Term tkÎT ein Gewicht wi,kÎR gegeben. Die Gewichte des Dokuments di lassen sich zu einem Vektor wi=(wi,1,...,wi,n )Î Rn zusammenfassen. Dieser Vektor beschreibt das Dokument im Vektorraummodell: Er ist seine Repräsentation und wird Dokumentvektor genannt. Auch Anfragen (Queries ) werden durch Vektoren qÎRn repräsentiert. Wie bei der Repräsentation der Dokumente wird die Anfrage durch eine Menge gewichteter Terme dargestellt. Der Vektor der Gewichte wird Anfragevektor oder Query-Vektor genannt. Schließlich sei eine Ähnlichkeitsfunktion s:Rn×Rn ->R definiert, mit der jedem Paar aus zwei Vektoren x,yÎRn ein reeller Ähnlichkeitswert s(x,y) zugewiesen wird. Institut für Informationswissenschaft Fachhochschule Köln Vgl. Ferber, Kap. 3.6.1, S.62 W. Gödert
Beispiel für eine Dokument / Index-Term-Matrix Vektorraum-modell Beispiel für eine Dokument / Index-Term-Matrix Institut für Informationswissenschaft Fachhochschule Köln W. Gödert
Fachhochschule Köln Vorgehensweise Vektorraum-modell Vorgehensweise • Die (Index-)Terme eines Dokuments werden jeweils als Koordinaten einer Matrix aufgefasst • Die Dokumente werden ebenfalls als Koordinaten der Matrix aufgefasst • Die Index-Terme werden (intellektuell oder auf der Basis von Häufigkeiten) gewichtet und ergeben für das einzelne Dokument einen Punkt im Vektorraum (den Dokumentvektor) • Die Terme der Suchfragen im Retrieval ergeben (ggf. auch gewichtet) ebenfalls (den Abfragevektor) • Mit einer Ähnlichkeitsfunktion wird der Abstand zwischen den Dokumentvektoren und dem Abfragevektor berechnet. Die Relevanz eines Dokuments für eine Anfrage ergibt sich aus dem Abstand zwischen dem Abfragevektor und dem Dokumentvektor – großer Abstand, wenig Relevanz, geringer Abstand, höhere Relevanz Institut für Informationswissenschaft Fachhochschule Köln W. Gödert
Fachhochschule Köln Beispiel Vektorraum-modell Beispiel Gegeben sei die folgende Dokument-Term-Matrix: Institut für Informationswissenschaft Fachhochschule Köln W. Gödert
Fachhochschule Köln Beispiel Vektorraum-modell Beispiel Mit Gewichtsfaktoren bekommt die Matrix die Gestalt: Institut für Informationswissenschaft Fachhochschule Köln Der Anfragevektor habe die Gestalt (mit Gewichtung der Terme): W. Gödert
wi Fachhochschule Köln Beispiel Vektorraum-modell Beispiel Dann berechnet sich die Relevanz der Dokumente unter Benutzung des vereinfachten Skalaprodukts Institut für Informationswissenschaft Fachhochschule Köln wi Aus den wi kann eine Rangfolge der Dokumente erstellt werden W. Gödert
Vektorraum-modell: SMART Die Entwicklung des Vektorraummodells ist eng verknüpft mit dem experimentellen Information Retrieval System SMART (System for the Mechanical Analysis and Retrieval of Text), das von Gerard Salton 1965 an der Cornell University begonnen wurde (daher aus der Name: Salton's Magic Automatic Retrieval Technique). Institut für Informationswissenschaft Fachhochschule Köln Bei SMART handelt es sich nicht nur um ein einzelnes System, sondern um eine Experimentierumgebung, in der eine Vielzahl von Verfahren und Algorithmen getestet wurden. Gerard Salton 1927-1995 Komponenten automatische Indexierung Berechnung von Dokument-Clustern und ihrer Zentroide automatische Query-Analyse und Relevance-Feedback-Komponente Dynamisierung des Dokumentenraums Zur Geschichte des Information Retrieval, vgl.: www.gslis.utexas.edu/~wyllys/ITIPMaterials/powerpoint/38613OverviewOfISR_Part3.ppt W. Gödert
Eine weitere Verfeinerung der bisherigen Vorgehensweise kann durch Verwendung anderer Ähnlichkeitsmaße erreicht werden. Dieser Möglichkeit wird im Rahmen der theoretischen und konzeptionellen Beschäftigung mit Information Retrieval Systemen große Aufmerksamkeit geschenkt. Ein häufig eingeschlagener Weg ist die Verknüpfung des Skalarprodukts für gewichtete Deskriptor- und Anfragevektoren mit empirisch Zusammenhängen über Worthäufigkeiten. Besondere Bedeutung hat hierbei das sog. Zipfsche Gesetz, das als Ausgangspunkt vieler wortstatistischer Verfahren im Rahmen der Computerlinguistik benutzt wird.
Statistische Verfahren des Automatischen Indexierens Quantitative Gesetze Statistische Verfahren des Automatischen Indexierens Quantitative Aussagen zu Worthäufigkeiten Institut für Informationswissenschaft Fachhochschule Köln Zipfsches Gesetz Güte von Suchwörtern Ranking-Methoden und -Algorithmen W. Gödert
Schwächen Boolesches Retrieval Schwächen des Booleschen Retrieval Exakte Vorhersage einer Wortform erforderlich Keine Rückführung der Wörter auf eine Grundform Relativ aufwändige Formulierung der Anfrage Keine Gewichtung der Wörter - nach dem Ort des Vorkommens - nach der Häufigkeit des Vorkommens Keine Zerlegung von Komposita, die Bedeutungskomponenten enthalten, die auch über selbstständige Wörter repräsentiert werden können Kaum vorhersehbare Ergebnisgröße Kein Ranking der Dokumente: Die Ergebnismenge ist unstrukturiert Institut für Informationswissenschaft Fachhochschule Köln Kompensationsmaßnahme -> Relevance Ranking Im Vordergrund der Betrachtung soll zunächst Ranking stehen, die Betrachtung von Relevanz folgt später W. Gödert
Fachhochschule Köln “Güte” von Wörtern für das Retrieval Wortgüte “Güte” von Wörtern für das Retrieval Faktoren für die Bestimmung der Güte l Qualitative Faktoren - Wörter sind Ergebnis eines intellektuellen Entscheidungs- und Zuteilungsprozesses - Die Wörter sind eindeutig und besitzen eine hohe Aussagekraft, die gemeinte Bedeutung zu repräsentieren - Wiedergabetreue - Vorhersagbarkeit - Individualnamen vs. Allgemeinbegriffe Diese Kriterien lassen sich für die Bewertung der Ergebnisse eines Findeprozesses nutzen, nicht aber für die Bewertung des technischen Such- und Findevorgangs. Eine Berücksichtigung in einem Algorithmus ist nur möglich, wenn eine entsprechende Kennzeichnung der Wörter (Kategorien, Flagging, o.ä.) vorgenommen wurde. Institut für Informationswissenschaft Fachhochschule Köln W. Gödert
Fachhochschule Köln - Sehr selten vorkommende Wörter Wortgüte l Quantitative Faktoren; Häufigkeiten - Sehr selten vorkommende Wörter Unterliegen der Idiosynkrasie-Vermutung - Sehr häufig vorkommende Wörter Extremfall: Ein Wort kommt in allen Dokumenten vor und liefert dementsprechend bei einer Recherche die gesamte Datenbank als Treffermenge - Stoppwörter Werden gern als Problem gesehen, obwohl sie es technisch nicht mehr sind Intuition: Ein Wort ist gut für einen Such- und Findeprozess, wenn es im Dokument häufiger, in der Dokumentkollektion aber nicht so häufig vorkommt Institut für Informationswissenschaft Fachhochschule Köln Hypothese Zwischen der Häufigkeit von Wörtern und ihrer Güte für das Retrieval gibt es einen Zusammenhang, der algorithmisierbar ist. Dementsprechend interessiert man sich für Befunde, die etwas über die Verteilung von Wörtern in Texten aussagen. W. Gödert
Zipfsches Gesetz Fachhochschule Köln Ausgangssituation Analysiert man Text auf die Frage hin, wie die Häufigkeitsverteilung der Wörter aussieht, so stellt man fest: Einige Wörter kommen sehr häufig vor: – Die beiden häufigsten Wörter können mehr als 10% aller Vorkommen stellen, – die sechs häufigsten mehr als 20% und die 50 häufigsten 50 %. Institut für Informationswissenschaft Fachhochschule Köln Das Zipfsche Gesetz beschreibt diese Beobachtung und besagt, dass häufige Wörter viel häufiger auftreten als seltene und die Verteilung einer Hyperbel 1/n ähnelt. Der Ordnungsparameter Rang n lässt sich als kumulative Größe beschreiben: der Rang n ist gleichbedeutend mit der Anzahl aller Elemente, die genauso groß oder größer sind als n. Für Rang 1 gibt es genau ein Element, nämlich das größte. Für Rang 2 sind es zwei, nämlich das erste und das zweite Element, für 3 drei und so fort. W. Gödert
Beispiel Fachhochschule Köln Rang Wort rel. Häuf. Zipfsche Häufigkeit Zipfsches Gesetz Beispiel Rang Wort rel. Häuf. Zipfsche Häufigkeit 1 UND 0.08427 0.14027 2 DIE 0.05390 0.07014 3 DER 0.05383 0.04676 4 IN 0.02164 0.03507 5 WIR 0.01676 0.02805 6 ZU 0.01564 0.02338 7 FÜR 0.01536 0.02004 8 SIE 0.01306 0.01753 9 VON 0.01285 0.01559 10 DEN 0.01208 0.01403 11 DES 0.01131 0.01275 12 IST 0.01068 0.01169 13 EINE 0.01047 0.01079 14 NICHT 0.00991 0.01002 Institut für Informationswissenschaft Fachhochschule Köln Verteilung der 14 häufigsten Worte in einem deutschen Text mit Vergleich der empirisch ermittelten und der durch das Zipfsche Gesetz vorhergesagten Häufigkeitsverteilung W. Gödert
Weitere Beispiele Fachhochschule Köln Zipfsches Gesetz Weitere Beispiele Institut für Informationswissenschaft Fachhochschule Köln Vergleich: Empirischer Befund – Vorhersage Zipfsches Gesetz W. Gödert
Weitere Beispiele Fachhochschule Köln Zipfsches Gesetz Weitere Beispiele Beispiel für die Verteilung der Worthäufigkeiten aus einem englischen Textkorpus In der dritten Spalte steht das Produkt aus Rang und Häufigkeit (Anzahl) dividiert durch 100000. Min: 1.24982 Max: 2.55618 Mittel: 1.69661695446236 Institut für Informationswissenschaft Fachhochschule Köln W. Gödert
Zipfsches Gesetz Fachhochschule Köln George Kingsley Zipf (1902 -1950) Das eigentliche “Gesetz” für Wörter eines Textkorpus Für einen repräsentativen Textkorpus C bezeichne - W(C) die Menge der Wörter, die in C vorkommen, - h(w) die Häufigkeit, mit der das Wort w Î W(C) in dem Korpus vorkommt. r(w) bezeichne den Rangplatz von w Î W(C), wenn die Wörter nach abfallender Häufigkeit sortiert werden. Dann gilt: r(w) h(w) » c = konstant für alle w Î W(C) Institut für Informationswissenschaft Fachhochschule Köln Bei diesem “Gesetz” handelt es sich um eine empirische Beobachtung, nicht um eine Aussage, die logisch abgeleitet werden kann. Die Aussage des Gesetzes ist eine der wichtigen Prämissen, um für die Gestaltung von Ranking-Verfahren eine Verbindung zwischen der Häufigkeit von Wörtern und ihrer Wichtigkeit herstellen zu können. W. Gödert
Informetrie Exkurs: Vergleichbare Studien hat man auch für andere Zusammenhänge durchgeführt, z.B. für: l Produktivität von Autoren l Zitationsverteilungen l Verteilung wichtiger Artikel auf Zeitschriften Intensiver beschäftigt sich mit solchen Fragestellungen die sog. Informetrie (auch Bibliometrie, Scientometrie oder neuerdings Webometrie): Einsatz quantitativer (meist statistischer) Verfahren, um Gesetzmäßig-keiten aufzudecken, die Erkenntnisse über noch unbekannt Zusammen-hänge vermitteln oder in Bibliotheken bzw. Informationseinrichtungen zur Unterstützung von Entscheidungen herangezogen werden können. Vgl.: Skript „Empirische Informationswissenschaft” (W.G. Stock) unter: http://www.phil-fak.uni-duesseldorf.de/infowiss/admin/public_dateien/files/1/1129620783empirische.pdf Anzahl Autoren Institut für Informationswissenschaft Fachhochschule Köln Anzahl Publikationen W. Gödert
Fachhochschule Köln Weitere Verteilungsgesetze Bradfords Gesetz Bradford-Gesetz Weitere Verteilungsgesetze Bradfords Gesetz Nach Bradfords Gesetz finden sich die gleiche Anzahl von Aufsätzen über ein festgelegtes Thema verteilt in jeweils in Gruppen von n0, n1, n2 etc. verschiedene Zeitschriften, wobei der Parameter n je nach Fachgebiet und Thema verschieden sein kann. Der Parameter n entspricht dem Verhältnis der Anzahl von Zeitschriften zwischen zwei aufeinander folgenden Gruppen. Aus Bradfords Gesetz ergibt sich die Einteilung in Kernzeit-schriften, verwandten Zeitschriften und restlichen Zeitschriften für jedes Forschungsgebiet. Bradfords Gesetz wurde 1948 von Brian C. Vickery unter der Bezeichnung Bradford's Law of Scattering mathematisch formuliert und stellt ein Potenzgesetz (1 : n : n2 : n3 : ...) dar, das auch auf andere Bereiche beispielsweise Webseiten und Sozialsysteme übertragen werden kann. Samuel Clement Bradford (1878 -1948) Institut für Informationswissenschaft Fachhochschule Köln Wenn es beispielsweise in einem Fachgebiet 4 Kernzeitschriften gibt, die in einem bestimmten Zeitraum 10 relevante Artikel veröffentlichen und im selben Zeitraum 10 weitere Artikel in 12 anderen Zeitschriften stehen, dann beträgt der Faktor für das Fachgebiet n = 12 / 4 = 3. Für 10 weitere relevante Artikel müssen jeweils n mal mehr Zeitschriften durchsucht werden, also 4, 12, 36, 108... Außerdem kann es vorkommen, dass weitere relevante Artikel vorhanden sind, allerdings mit stark abfallender Wahrscheinlichkeit. W. Gödert
Fachhochschule Köln Lotkas Gesetz Alfred R. Lotka (1880 – 1949) Lotka-Gesetz Lotkas Gesetz Alfred R. Lotka (1880 – 1949) Vorgegeben sei ein Fachgebiet mit umfassender Liste der Publikationen zum Fachgebiet (Bibliographie, Spezialdatenbank). Es werden die Publikationsraten für alle Autoren ausgezählt, die Autoren nach der Anzahl der Publikationen sortiert und die Zahl der Autoren mit gleichviel Publikationen ermittelt. Dann gilt: xn * y = c oder y = c / xn Dabei ist: x = Anzahl der Publikationen y = relative Häufigkeit der Autoren mit x Publikationen n, c = Konstanten (je nach Fachgebiet) [Im Allgemeinen: n ~ 2] Institut für Informationswissenschaft Fachhochschule Köln Beispiel Die Anzahl der Personen, die n Aufsätze schreiben, ist proportional zu 1/n2. Auf je 100 Autoren, die in einem bestimmten Zeitraum nur einen Aufsatz verfassen, kommen 25 mit zwei, 11 mit drei, und so weiter. Stellt man es ein wenig anders dar, indem man die Ergebnisse kumuliert, so erreicht man eine Integration, die näherungsweise ein Gesetz mit n1 im Nenner für die Zahl der Personen gibt, die mehr als n Aufsätze produzieren; demnach schreibt etwa einer von fünf Autoren fünf oder mehr Aufsätze, und einer von zehn bringt es auf wenigstens zehn Titel. W. Gödert
Þ Fachhochschule Köln Lotkas Gesetz Beispiel Lotka-Gesetz Lotkas Gesetz Beispiel “Journal of Finance”, 1946-1980; insgesamt 1.844 Artikel) 1.237 Autoren (67,1%) produzierten je 1 Artikel 295 Autoren (16,0%) produzierten je 2 Artikel 140 Autoren (7,6%) produzierten je 3 Artikel 63 Autoren (3,4%) produzierten je 4 Artikel 41 Autoren (2,2%) produzierten je 5 Artikel Institut für Informationswissenschaft Fachhochschule Köln Nach Lotkas Gesetz errechnet sich: (1 * 1) * 0,671 = 0,671 (2 * 2) * 0,160 = 0,640 (3 * 3) * 0,076 = 0,684 (4 * 4) * 0,034 = 0,544 (5 * 5) * 0,022 = 0,550 Þ c ~ 0,6 Nach: Keenan, M.: Report on the 1987 membership survey. In: Journal of finance 43 (1988), 767-777. W. Gödert
Fachhochschule Köln Lotkas Gesetz Kreise: Empirische Daten Linie: Lotka-Gesetz Lotkas Gesetz Kreise: Empirische Daten Linie: Nach Lotkas Gesetz erwartet Reduktion der Daten auf genau 100 Autoren, die 1 Aufsatz publiziert haben (n = 2) Institut für Informationswissenschaft Fachhochschule Köln Nach: Solla Price, D. de: Little science, big science: Von der Studierstube zur Großforschung. Frankfurt: Suhrkamp 1974. 127 S. ISBN 3-518-07648-5 (Suhrkamp Taschenbuch Wissenschaft; 48) W. Gödert
Das Verfahren AIR/PHYS Zur Erinnerung Ein Wort ist ein guter Indexterm, wenn es nach einem vorgegebenen statistischen Berechnungsverfahren für eine Dokumentkollektion über einem festgesetzten Schwellwert liegt. Das Verfahren Als Umgebung dient die Fachdatenbank PHYS (inzw. Bestandteil von INSPEC) mit englischsprachiger (!) Erschließung durch normiertes Vokabular (Deskriptoren) und Abstracts. Ziel von AIR/PHYS Automatische Indexierung der Dokumente mit Deskriptoren des PHYS-Thesaurus Institut für Informationswissenschaft Fachhochschule Köln Lit.: Lustig, G. (Hrsg.): Automatische Indexierung zwischen Forschung und Anwendung. Hildesheim: Olms 1986. XIII,182 S. ISBN 3-487-07825-2 (Linguistische Datenverarbeitung; Bd.5) W. Gödert
Fachhochschule Köln Realisierung AIR/PHYS Realisierung 1. Statistische Auswertung der intellektuell erschlossenen Dokumente bei besonderer Berücksichtigung der Beziehung z: mit: h(t,s) = Anzahl der Dokumente, in denen Term t vorkommt und Deskriptor s vergeben wurde, f(t) = Anzahl der Dokumente, in denen Tem t vorkommt. z ist damit ein Maß für die Wahrscheinlichkeit, mit der ein Deskriptor einem Dokument (intellektuell) zugeteilt ist, wenn Term t im Dokument vorhanden ist. 2. (Automatischer) Aufbau eines Indexierungswörterbuchs unter Ausnutzung der Gewichte aus 1., echter Thesaurusrelationen (Synonym) und Deskriptor-Deskriptor-Relationen als gewichtetes Maß für das gemeinsame Auftreten von Deskriptoren 3. Automatische Indexierung in zwei Phasen - Rohindexierung mit regel-und lexikonbasierter Textanalyse und statistischer Relationierung - Abgestimmte Indexierung unter Einbeziehung von Deskriptor- Deskriptor-Relationen Institut für Informationswissenschaft Fachhochschule Köln W. Gödert
Fachhochschule Köln Pilotanwendung AIR/PHYS im FIZ Karlsruhe ● Wörterbuchaufbau auf der Basis von 400.000 intellektuell erschlossenen Dokumenten - 20.000 Deskriptoren - 190.000 Wörter - 350.000 statistische Regeln mit z > 0,3 - 70.000 Synonym-Relationen - 200.000 Deskriptor-Deskriptor-Relationen • Erschließung von 10.000 Dokumenten / Monat • Zuteilung von im Schnitt 12 Deskriptoren je Dokument • intellektuelle Nachbearbeitung mit durchschnittlich einem Drittel Korrekturbedarf, d.h. semi-automatisches Verfahren Institut für Informationswissenschaft Fachhochschule Köln W. Gödert
Fachhochschule Köln Ergebnisse der AIR/PHYS-Indexierung ● Retrievaltest mit 15.000 Dokumenten und 300 (Original-)Fragen Automatische Indexierung Intellektuelle Indexierung Precision: 0.46 < 0.53 Recall: 0.57 > 0.51 ● Intellektuelle Bewertung der Erschließungsqualität durch Experten - 1/3 intellektuelle Erschließung besser - 1/3 automatische Indexierung besser - 1/3 qualitativ gleichwertig Institut für Informationswissenschaft Fachhochschule Köln Weitere Lit.: Knorz, G.: Automatische Indexierung. In: Hennings, R.-D., G. Knorz u. H.-J. Manecke: Wissensrepräsentation und Information Retrieval. Potsdam: Universität 1994. 420 S. (Berufsbegleitendes Ergänzungsstudium im Tätigkeitsfeld wissenschaftliche Information und Dokumentation (BETID): Lehrmaterialien; Nr.3), 138-198. Nohr, H.: Automatische Indexierung: Einführung in betriebliche Verfahren, Systeme und Anwendungen. Berlin: Verlag für Berlin-Brandenburg 2001. 108 S.ISBN 3-935035-19-5. (Materialien zur Information und Dokumentation; Bd.13), S.71-77. W. Gödert
Fachhochschule Köln Institut für Informationswissenschaft KASCADE W. Gödert
Fachhochschule Köln Institut für Informationswissenschaft KASCADE W. Gödert
Fachhochschule Köln Institut für Informationswissenschaft KASCADE W. Gödert
Fachhochschule Köln Institut für Informationswissenschaft KASCADE W. Gödert
Fachhochschule Köln Ranking-Algorithmen Parameter Ranking Ranking-Algorithmen Als Erläuterung findet man häufig Formulierungen wie, die meist im Zusammenhang mit Web-Suchmaschinen gesehen werden: Ranking-Algorithmus Mathematische Formel durch die die Rankingposition berechnet wird. Jede Suchmaschine hat eigene Algorithmen, d.h. dass jede Suchmaschine unterschiedliche Rankings hat. Das Ranking wird anhand Rankingkriterien bestimmt. (http://www.sup4u.de/suchmaschinen-glossar/ASP/R/Ranking-Algorithmus/) Institut für Informationswissenschaft Fachhochschule Köln oder Ranking-Algorithmus Mathematische Formel zur Berechnung der Ranking-Position bzw. Rangfolge einer Webseite in Bezug auf einen bestimmten Query/Suchanfrage. Eine Formel zur Relevanzbestimmung eines Webdokuments in Relation zu der an eine Suchmaschine gestellten Frage. Jede Suchmaschine verwendet eigene Algorithmen, mit dem Ergebnis, dass die gleiche Webseite bei verschiedenen Suchmaschinen sehr unterschiedlich gelistet sein kann. Von Google ist bekannt, dass über 100 Faktoren in die Berechnung des Rankings einfließen. (http://www.sumo.de/glossar-id-240,Ranking-Algorithmus.html) W. Gödert
Fachhochschule Köln Häufiges Verfahren in Suchmaschinen Parameter Ranking Häufiges Verfahren in Suchmaschinen Bei der Bildung einer Reihenfolge von Webseiten als Ergebnis einer Suche mit n Wörtern hat sich als gängige Praxis entwickelt, erst die Seiten zu präsentieren, die alle n Suchwörter, dann die Seiten, die n-1 Suchwörter, dann alle n-2, usw. bis n – (n-1) Suchwörter enthält: Ergebnisliste: Seiten mit n Suchwörtern Seiten mit n-1 Suchwörtern Seiten mit n-2 Suchwörtern . . . Seiten mit n – (n-1) Suchwörtern Durch diese Vorgehensweise wird das Ergebnis einer oder-Suche so angeordnet, dass der Beginn der Trefferliste wie das Ergebnis einer und-Suche aussieht, dass aber in der Regel eine 0-Treffer-Menge vermieden wird. Unter Beachtung dieser Verfahrensweise muss man große Ergebnismengen bei Suchmaschinen nicht von vornherein als grundsätzlich problematisch ansehen. Institut für Informationswissenschaft Fachhochschule Köln W. Gödert
Parameter Ranking Allgemeine Parameter eines Ranking-Algorithmus bzw. zur Bestimmung der “Güte” von Wörtern für Retrievalvorgänge l Anzahl der zwischen Anfrage und Dokument übereinstimmenden Wörter, ausgedrückt als tf l Häufigkeit des Vorkommens von Suchbegriffen im Dokument, meist normalisiert gegen die Länge des Dokumentes (Zahl der darin enthaltenen Wörter), ausgedrückt als df l Position des Vorkommens im Text l Vorkommensorte nach Kategorien der Dokumentbeschreibung : – Titel / Überschrift – Abstract – Kategorien mit Daten der inhaltlichen Erschließung – Dokumentenanfang Institut für Informationswissenschaft Fachhochschule Köln Die Kombination der ersten beiden Kriterien führt zu der häufig verwendeten Grundformel: tf * i df mit der die Häufigkeit eines Wortes im Dokument in inverse Relation zur Häufigkeit des Wortes in der gesamten Dokumentkollektion gesetzt wird. tf = term frequency i df = inverse document frequency W. Gödert
tf * idf Eine einfache Häufigkeitszählung der Terme in den Dokumenten würde die längeren gegen die kürzeren Dokumente bevorzugen. Daher wird üblicherweise die Häufigkeit gegen die Dokumentlänge normalisiert. In formalisierter Schreibweise lassen sich mit den Abkürzungen: fd,t Anzahl des Vorkommens von Term t im Dokument d, fd Anzahl der Dokumente, ft Anzahl der Dokumente, die Term t enthalten, T Menge aller Terme t Institut für Informationswissenschaft Fachhochschule Köln folgende häufig eingesetzte Maße angeben: tf : C = 1: kein Einfluss auf die Termhäufigkeit, C = 0: Maximaler Einfluss auf die Termhäufigkeit Der Logarithmus dient der Dämpfung eines starken Anwachsens der Anzahl der Dokumente in der Kollektion gegenüber den Einzelwörtern idf : W. Gödert
Fachhochschule Köln Ein konkretes Beispiel zur Berechnung Beispiel tf*idf Ein konkretes Beispiel zur Berechnung Gegeben sei ein Dokument, das Terme mit den folgenden Häufigkeit enthält: t1: 3; t2: 2 t3: 1 t4: 5 Die Dokumentkollektion enthält N=10.000 Dokumente und die Häufigkeiten der Terme in der Kollektion seien: Institut für Informationswissenschaft Fachhochschule Köln t1: 50; t2: 1.200 t3: 600 t4: 150 Dann berechnet sich die Gewichte für die Terme mit: tfij = fij / max {fij} und idf = log2 (N/dfi) t1: tf = 3/5, idf = log2(10000/50) = 7,64 tf*idf = 4,59 t2: tf = 2/5, idf = log2(10000/1200) = 3,06 tf*idf = 1,22 t3: tf = 1/5, idf = log2(10000/600) = 4,06 tf*idf = 0,81 t4: tf = 5/5, idf = log2(10000/150) = 6,06 tf*idf = 6,06 Die gewichtete Reihenfolge der Terme ist also: t4, t1, t2, t3 W. Gödert
Fachhochschule Köln Ein Beispiel (Ranking im Vektorraummodell) Parameter Ranking Ein Beispiel (Ranking im Vektorraummodell) Ausgangspunkt: Vokabular mit t Begriffen (die, die in den Dokumenten vorkommen) Definitionen: N = Anzahl der Dokumente in der Dokumentenkollektion nk = Anzahl der Dokumente, die den Begriff/Term k enthalten tfdk = Vorkommenshäufigkeit von Begriff k in Dokument D Dokument D wird repräsentiert durch Vektor: D = (wd1, wd2, … , wdt), dabei ist wdk, k=1,…,t die Relevanz von Dok D für den Begriff k gemäß: Institut für Informationswissenschaft Fachhochschule Köln W. Gödert
Parameter Ranking Die Anfrage Q wird ebenfalls durch einen Vektor repräsentiert: Q = (wq1, wq2, ... ,wqt) Ein wqk ist dabei definiert durch: Institut für Informationswissenschaft Fachhochschule Köln Die Ähnlichkeit zwischen einer Anfrage und einem Dokument kann im Vektorraummodell dann durch das Skalarprodukt beschrieben werden: also: W. Gödert
Fachhochschule Köln Damit errechnet sich der Dokumentvektor für D2 zu: Parameter Ranking Damit errechnet sich der Dokumentvektor für D2 zu: Institut für Informationswissenschaft Fachhochschule Köln Analog erhält man: Und für den Abfragevektor: W. Gödert
Fachhochschule Köln Ein konkretes Beispiel D1: Häuser in Italien Parameter Ranking Ein konkretes Beispiel D1: Häuser in Italien D2: Häuser in Italien und um Italien D3: Gärten und Häuser in Italien D4: Gärten in Italien D5: Gärten und Häuser in Frankreich Q: Häuser in Italien Institut für Informationswissenschaft Fachhochschule Köln Damit besteht das Vokabular aus den Begriffen (die Zahlen sind die Komponenten für die Beschreibungsvektoren): 1. Häuser 2. Italien 3. Gärten 4. Frankreich Für D2 erhalten wir z.B. die Vorkommenhäufigkeiten tfdk (Begriff k in Dokument D): tf2,1 = 1 Häuser in D2 tf2,2 = 2 Italien in D2 tf2,3 = 0 Gärten in D2 tf2,4 = 0 Frankreich in D2 Wir haben dabei als Parameter: t = 4 (Anzahl Begriffe) N = 5 (Anzahl Dokumente) Ferner gilt für nk = Anzahl der Dokumente, die den Begriff/Term k enthalten : n1 = 4, n2 = 4, n3 = 3, n4 = 1 W. Gödert
Parameter Ranking Damit errechnen sich die Skalaprodukte für die Relevanz der einzelnen Dokumente für die Frage Häuser in Italien in gerankter Reihenfolge zu: 1. D1: Ähnlichkeit (Q,D1) = 0,137 2. D2: Ähnlichkeit (Q,D2) = 0,130 3. D3: Ähnlichkeit (Q,D3) = 0,072 4. D4: Ähnlichkeit (Q,D4) = 0,039 5. D5: Ähnlichkeit (Q,D5) = 0,013 (Häuser in Italien) (Häuser in Italien und um Italien) (Gärten und Häuser in Italien) (Gärten in Italien) (Gärten und Häuser in Frankreich) Institut für Informationswissenschaft Fachhochschule Köln W. Gödert
Parameter Ranking Vereinfachtes Berechnungsverfahren (ohne logarithmische Dämpfung): Damit errechnen sich die Komponenten der Dokumentvektoren wdk, d=1,...,5, k=1,...,4 zu: tf11 = 1 tf12 = 1 tf13 = 0 tf14 = 0 tf21 = 1 tf22 = 2 tf23 = 0 tf24 = 0 tf31 = 1 tf32 = 1 tf33 = 1 tf34 = 0 tf41 = 0 tf42 = 1 tf43 = 1 tf44 = 0 tf51 = 1 tf52 = 0 tf53 = 1 tf54 = 1 Institut für Informationswissenschaft Fachhochschule Köln w31 = 0,577 w32 = 0,577 w33 = 0,577 w34 = 0 w41 = 0 w42 = 0,707 w43 = 0,707 w44 = 0 w51 = 0,577 w52 = 0 w53 = 0,577 w54 = 0,577 Und die Komponenten des Abfragevektors wqk, k=1,...,4 zu: tfq1 = 1 tfq2 = 1 tfq3 = 0 tfq4 = 0 wq1 =1 wq2 =1 wq3 =0 wq4 =0 W. Gödert
Parameter Ranking Damit errechnen sich die Dokumentvektoren zu: D1 = (0,707; 0,707; 0; 0) D2 = (0,447; 0,894; 0; 0) D3 = (0,577 ; 0,577 ; 0,577 ; 0) D4 = (0; 0,707; 0,707; 0) D5 = (0,577 ; 0; 0,577 ; 0,577 ) Und die Komponenten des Abfragevektors wqk, k=1,...,4 zu: Institut für Informationswissenschaft Fachhochschule Köln Q = (1;1;0;0) Damit ergeben sich die Skalarprodukte und das Ranking der Dokumente zu: 1. Q D1 = 1,414 2. Q D2 = 1,341 3. Q D3 = 1,154 4. Q D4 = 0,707 5. Q D5 = 0,577 D1: Häuser in Italien D2: Häuser in Italien und um Italien D3: Gärten und Häuser in Italien D4: Gärten in Italien D5: Gärten und Häuser in Frankreich Q: Häuser in Italien W. Gödert
Surfen, Suchen und Finden Web-Retrieval: Suchwerkzeuge des Internet Institut für Informationswissenschaft Fachhochschule Köln Surfen, Suchen und Finden W. Gödert
Architektur Web-Suche Spider, Gatherer Harvester, Crawlers Roboters (Bots) Web Dokumentkollektion Institut für Informationswissenschaft Fachhochschule Köln IR-System Anfrage 6 5 4 3 Gerankte Ergebnisliste 2 1 W. Gödert
Funktionsweise Roboter Institut für Informationswissenschaft Fachhochschule Köln Funktionsweise der Suchroboter von Suchmaschinen I W. Gödert
Funktionsweise Roboter Funktionsweise der Suchroboter von Suchmaschinen II • Beginne mit einer umfassenden Menge von Start-URLs, von denen aus die Suche zu beginnen ist. • Folge rekursiv allen Links auf diesen Seiten, um weitere Seiten zu finden. • Füge die Wörter aller neu gefundenen Seiten sowie die jeweiligen Adressen zum invertierten Index hinzu. • Benutzer können ggf. selbst Seiten zur Indizierung und/oder als Start-URLs anmelden. Institut für Informationswissenschaft Fachhochschule Köln Aufgaben • Zwischenspeicherung der besuchten bzw. der noch zu besuchenden Seiten • Verzweigung der Suche in die Breite und in die Tiefe W. Gödert
Funktionsweise Roboter Breitensuche / Tiefensuche Initialisiere eine Warteschlange (Q) mit der Menge der bekannten URL’s. Bis Q leer oder das Seiten- bzw. Zeitlimit erschöpft ist: Hole URL L vom Anfang von Q. Wenn L keine HTML-Seite ist (.gif, .jpeg, .ps, .pdf, .ppt, etc.) gehe zum Schleifenanfang. Wenn L bereits besucht wurde, Lade Seite P mit URL L runter. Wenn P nicht runtergeladen werden kann (z.B. 404 Fehler, Roboter ausgeschlossen), Indiziere P (z.B. zum invertierten Index hinzufügen oder speichere Zwischenkopie). Analysiere P, um eine Liste neuer Links N zu erhalten. Füge N an das Ende von Q an. Institut für Informationswissenschaft Fachhochschule Köln • Die Breitensuche sammelt jeweils alle Knoten, die gleich weit von der Ursprungsseite entfernt sind. – Erfordert Speicherung aller Knoten der vorhergehenden Ebene, d.h. der Speicherbedarf wächst exponentiell mit der Tiefe. – Dies ist der Standard-Crawling-Ansatz. • Die Tiefensuche erfordert nur die Speicherung der Knoten ab der letzten Verzweigung, d.h. ist linear in der Tiefe. – Verfahren geht aber bei der Verfolgung eines einzigen Threads “verloren”. • Beide Strategien können mit einer Warteschlange für URLs implementiert werden. W. Gödert
Funktionsweise Roboter Spider-Algorithmus Initialisiere eine Warteschlange (Q) mit der Menge der bekannten URL’s. Bis Q leer oder das Seiten- bzw. Zeitlimit erschöpft ist: Hole URL L vom Anfang von Q. Wenn L keine HTML-Seite ist (.gif, .jpeg, .ps, .pdf, .ppt, etc.) gehe zum Schleifenanfang. Wenn L bereits besucht wurde, Lade Seite P mit URL L runter. Wenn P nicht runtergeladen werden kann (z.B. 404 Fehler, Roboter ausgeschlossen), Indiziere P (z.B. zum invertierten Index hinzufügen oder speichere Zwischenkopie). Analysiere P, um eine Liste neuer Links N zu erhalten. Füge N an das Ende von Q an. Institut für Informationswissenschaft Fachhochschule Köln Vgl. für weitere Details: http://www.kde.cs.uni-kassel.de/lehre/ws2005-06/IR/folien/10_Spidering.pdf W. Gödert
Funktionsweise Suchwerkzeuge Institut für Informationswissenschaft Fachhochschule Köln Prinzipien zum Aufbau von Webseiten / der Indexerstellung bei Suchmaschinen W. Gödert
Besonderheiten Web-Suche Besonderheiten einer Web-Suche auf Datenebene ● Verteilte Daten Dokumente sind über Millionen verschiedener Webserver verteilt. ● Flüchtige Daten Viele Dokumente ändern sich oder verschwinden schnell (z.B. tote Links). ● Großes Volumen Billionen von separaten Dokumenten. ● Unstrukturierte und redundante Daten Keine einheitliche Struktur, HTML Fehler, bis zu 30% (nahezu) doppelte Dokumente. ● Qualität der Daten Keine redaktionelle Kontrolle, falsche Informationen, schlechte Schreibweise, Tippfehler, etc. ● Heterogene Daten Multiple Medien-Typen (Bilder, Video, VRML), Sprachen, Zeichensätze, etc. Institut für Informationswissenschaft Fachhochschule Köln W. Gödert
Literatur Fachhochschule Köln Suchebenen Yahoo! Literatur Lewandowski, D.: Web Information Retrieval: Technologien zur Informationssuche im Internet. Franfurt a.M.: DGI 2005. 248 S. ISBN 3-925474-55-2 (Informationswissenschaft; 7) Auch unter: http://www.durchdenken.de/lewandowski/web-ir/ Lewandowski, D.: Web Information Retrieval. In: Information - Wissenschaft und Praxis. 56(2005) H.1, S.5-12. Mostafa, J.: Bessere Suchmaschinen für das Web. In: Spektrum der Wissenschaft. 2006, H.2, S.82-88. http://www.suchfibel.de/ http://www.kso.co.uk/de/tutorial/ http://searchenginewatch.com/ http://www.searchengineshowdown.com/ Institut für Informationswissenschaft Fachhochschule Köln W. Gödert
Syntaxeingaben bei den Suchmaschinen als Präzisierungsinstrumente Syntax Suchmaschinen Syntaxeingaben bei den Suchmaschinen als Präzisierungsinstrumente Diese Hilfsmittel variieren von Suchmaschine zu Suchmaschine Trunkierung (häufig mit * als Zeichen) Bibliotheksw*, Bibliothekar* Boolesche Operatoren (Realisierung sehr unterschiedlich !) - and, or, not, und, oder, nicht (meist nur in der Erweiterten Suche) - +, - in dem Standardsuchformular +Köln –Düsseldorf +Köln +Fachhochschule +Informationswissenschaft –Informatik “... “ für Suche nach Phrasen “Fachhochschule Köln“ statt +Köln +Fachhochschule “Fachhochschule Köln“ +“Fakultät für Informations*“ Groß- und Kleinschreibung: Groß nur groß, klein alle (! Englische Seiten) und immer wieder: Umlaute Institut für Informationswissenschaft Fachhochschule Köln W. Gödert
Parameter Ranking Web-SuMa Parameter eines Ranking-Algorithmus für Web-Suchmaschinen On-Page-Faktoren • Anzahl der zwischen Anfrage und Dokument übereinstimmenden Wörter • Häufigkeit des Vorkommens von Suchbegriffen im Dokument • Position des Vorkommens • Vorkommensorte in der Reihenfolge fallender Gewichtung: – Domain und URL – Titel – Überschrift – Meta-Tag (z.B. “Content” oder “Keywords”) Problem: Praxis des Spamming von Meta-Tags → Dokumente, die ein Wort zu häufig im Meta-Tag gelistet haben, werden ”bestraft“ – Dokumentenanfang Off-Page-Faktoren • Ranking nach dem, was der Seitenbetreiber pro Click zahlt • Gekaufte Positionen • Analyse der Link-Struktur (Page-Ranking) - Zahl der Links von anderen Seiten überhaupt - Zahl der Links von anderen ebenfalls sehr hoch gewichteten Seiten Institut für Informationswissenschaft Fachhochschule Köln W. Gödert
Parameter Ranking Web-SuMa Parameter eines Ranking-Algorithmus für Web-Suchmaschinen Unterschied in der Anzahl der Treffer und der Sortierung der Ergebnismengen für verschiedene Sucheingaben: - Köln Fachhochschule Sucheingabe wird automatisch als ge-odert verstanden; die Trefferliste wird aber wie folgt aufgebaut: - Treffer, die alle Suchwörter enthalten - Treffer, die alle-1 Suchwörter enthalten - Treffer, die alle-2 Suchwörter enthalten - . . . - Treffer, die nur je eines der Suchwörter enthalten - +Köln +Fachhochschule In der einfachen Suchmaske wird mit dieser Eingabe im Allgemeinen die Boolesche und-Verknüpfung erzwungen - “Fachhochschule Köln“ Mit dieser Eingabe werden die Suchwörter als nebeneinander stehend gefunden Institut für Informationswissenschaft Fachhochschule Köln W. Gödert
Relevanzangaben in der Ergebnispräsentation Fachhochschule Köln Ranking Relevanzangaben in der Ergebnispräsentation Institut für Informationswissenschaft Fachhochschule Köln W. Gödert
Weitere Einflüsse Suchergebnissen und beim Ranking Die Welt ist keineswegs alles, was Google auflistet Die weltweit mächtigste Suchmaschine "nationalisiert" ihre Ergebnisse Es geht bei Google nicht nur ums Geschäft, auch wenn es darum auch indirekt geht. Nach einem Bericht des Berkman Center an der Harvard-Universität wurden bei google.de und google.fr mehr als 100 Websites bei den Suchresultaten nicht aufgeführt, die bei google.com aber nicht zensiert werden. Dabei handelt es sich offenbar vorwiegend um antisemitische und rechte Websites, deren Inhalte in Deutschland bzw. Frankreich verboten sind oder rechtlich bedenklich sein können. Gibt man beispielsweise "Stormfront White Pride World Wide" als Suchbegriffe ein, so führt google.com 17 Seiten an, google.fr und google.de jedoch keine einzige. (Florian Rötzer 25.10.2002) Institut für Informationswissenschaft Fachhochschule Köln Quelle: http://www.heise.de/tp/deutsch/inhalt/te/13486/1.html W. Gödert
Metadaten WDR-Startseite Beispiel einer Web-Seite mit Metadaten Institut für Informationswissenschaft Fachhochschule Köln W. Gödert
Metadaten Dublin Core Element Set Fachhochschule Köln Institut für Informationswissenschaft Fachhochschule Köln W. Gödert
Einschränkungen für Suchmaschinen Suchmaschinen können nicht alle Webseiten finden - d.h. das Web nicht zu 100% erschließen - da es prinzipielle Einschränkungen gibt, z.B.: Neue Seiten nach dem letzten Roboterbesuch eines Servers Seiten, deren Adresse sich seit dem letzten Roboterbesuch geändert haben Seiten, die durch ein Passwort geschützt sind Dynamisch generierte Inhalte auf einer Seite z.B. durch Abruf aus einer Datenbank oder einem Content Management System; Vgl. z.B.: www.wdr.de; news.google.de Seiten, auf die kein Link verweist Aus Frames aufgebaute Seiten Hyperlinks, die durch JavaScript generiert werden Institut für Informationswissenschaft Fachhochschule Köln An einer 100%igen Erschließung hat eigentlich auch niemand Interesse, da es Seiten gibt (z.B. Serverstatistiken), an denen eigentlich kein Außenstehender Interesse hat W. Gödert
Frame Seiten Muster für eine Seite, die aus Frames auf-gebaut wird Institut für Informationswissenschaft Fachhochschule Köln Der Quellcode Der rechte Frame Der linke Frame W. Gödert
Fachhochschule Köln Das Invisible Web Institut für Informationswissenschaft Fachhochschule Köln Vgl. die Studien: http://www.almaden.ibm.com/cs/k53/www9.final; http://dbpubs.stanford.edu:8090/pub/1998-8 W. Gödert
Alternative à la Drabenstott Auch so kann man das Thema Suchstrategien behandeln ... Shot in the dark strategy Bingo! strategy Everything but the kitchen sink strategy Institut für Informationswissenschaft Fachhochschule Köln Big bite strategy Citation pearl growing strategy Getting a little help from your friends strategy Quelle: Drabenstott, K.M.: Web search strategies. In: Saving the time of the library user through subject access innovation: Papers in honor of Pauline Atherton Cochrane. Ed.: W.J. Wheeler. Urbana-Champaign, IL: Illinois University at Urbana-Champaign, Graduate School of Library and Information Science 2000. S.114-161. W. Gödert
Alternative à la Drabenstott Die einzelnen Strategien Shot in the dark strategy = Suche nach Individualnamen “Few queries will fit this strategy. It requires an information need with a single facet. This facet names a single concept, condition, place, person, program, device, or idea in one word. To be successful as a viable Web search strategy, this word must be so specific, so identifiable, and so unique that it retrieves few hits an the Web and, if it retrieves many hits, it should be easy to separate the relevant ones from the nonrelevant ones. Since the World Wide Web has grown so huge, search requests for the Shot in the Dark Strategy are really hard to come by. Here are a few: Guadalcanal, Pompeii, Madonna, Goroka, scabies, Kikuyu, cartomancy, Clydesdales, and Subud. The reason why we've named this strategy "A Shot in the Dark" is because the Web searcher's action of entering a single word to represent her interests is like taking a shot in the dark.” Institut für Informationswissenschaft Fachhochschule Köln Bingo! Strategy = Suche nach Phrasen “We use the name Bingo! for a Web search strategy that requires a phrase-a series of words in a particular order. This phrase describes a single facet but, unlike the Shot in the Dark Strategy, the facet can't be named in a single word, and instead it requires a phrase bearing two, three, four, or as many as five words. The phrase could describe a concept, condition, place, organization, institution, person, program, device, or idea. There are only two search-engine-specific details that Web searchers need to keep in mind. First, they should capitalize proper nouns and any other characters that are typically capitalized in the phrase-for example, "University of Michigan," "Monica Lewinsky," and "QuickTime VR Authoring Studio." Second, if Web searchers are positive that no intervening word will ever occur in the phrase, they can enclose it in quotes.” W. Gödert
Alternative à la Drabenstott Everything but the kitchen sink strategy = Kombination der Suchaspekte “Perhaps you're interested in Congress' efforts to limit the amount of violence that children see an television. This topic has four facets: Congress, Limit, Children, and Television Violence. In fact, those words and phrases are really good ones for searching this topic. The next step is to determine the most important idea. "Television violence" is important and so is "Congress." Let's put "Congress" first in the query. So far the query reads "Congress television violence limit." Can you think of one or two synonyms for the query's words or phrases? "Television" and "tv" are synonymous. Perhaps the word "control" might be another way of expressing "limiting" the amount of violence an television. Let's put those words at the end of the query since the query already contains words to represent those ideas. Our final query is "Congress television violence limit tv control." Search for this query in AitaVista, Excite, Lycos, Northern Light, or other search engines and examine the results.” Institut für Informationswissenschaft Fachhochschule Köln Big bite strategy = Nachträgliche Verfeinerung der Suchfrage In the Big Bite Strategy, the Web searcher takes an initial bite of the file. If you've already conducted a search using the Shot in the Dark or Bingo! Strategy, you've taken your first bite. The next step is to take a second bite of the file by searching for a second facet and then review retrieved material to determine if it isn't more to your liking. Let's use an example. Say that you took your first bite in a Shot in the Dark Strategy for "Madonna." You reviewed retrieved hits and found that they were about Madonna, her life, music, movies, and so on. You realize you are interested in her new role as a mother. Now you've introduced a second facet into the mix. W. Gödert
Alternative à la Drabenstott Citation pearl growing strategy = Fortsetzung im semantischen Umfeld “All Web searchers have to do is find an especially relevant document and click an Excite's "Search for more documents like this one" heading or Infoseek's "Find similar pages" heading that accompanies all retrieved Web pages for Excite or Infoseek to use the terminology in the document to retrieve more documents like the one in hand. In other search engines, Web searchers need to be deliberate about executing this strategy. For example, let's say you watch the movie "Twister" and want to learn more about the people who study tornadoes. In Alta Vista, a search for "tornado" using the Shot in the Dark Strategy produces results that aren't too promiing except for a Web site called "The Tornado Project Online!" which features links to much information an chasing tornadoes. Besides featuring links to Web-based newsletters, FAQs, and tours for storm chasers, this site is superb for providing useful words and phrases like "chasing," "stormchasing," "stormchasers," "storm chasers," "intercept team," "whirlwind gang, " "Whirlwind Tours," "Cloud 9 Tours," and "Silver Lining Tours." Collect these words and phrases and use them in subsequent searches.” Institut für Informationswissenschaft Fachhochschule Köln Getting a little help from your friends strategy “Did you ever have a situation when you didn't know how to phrase your query? Maybe you had a general notion what you wanted but putting it into words just wasn't possible. Well, it's time to "get a little help from your friends." Maybe you find yourself in the position of wanting to find something specific about a subject area but you have no experience or knowledge about the subject generally. Perhaps you want to learn about investing in the stock market but you don't know anything about the stock market and you don't even know where to start. Again, "your friends" could help you out.” W. Gödert
Fachhochschule Köln Institut für Informationswissenschaft Schluss-Cartoon Institut für Informationswissenschaft Fachhochschule Köln W. Gödert
Linkstruktur und Ranking Linkstruktur des Web und Ranking HITS-Algorithmus (J. Kleinberg) PageRank von Google (L. Page u. S. Brin) Langville, A.N., C.D. Meyer: Google's PageRank and beyond: the science of search engine rankings. Princeton: Princeton Univ. Press 2006. X, 224 S. ISBN 0-691-12202-4 Berry, M.W., M. Browne: Understanding search engines: mathematical modeling and text retrieval. 2nd ed. Philadelphia, PA: SIAM 2005. XVII, 117 S. ISBN 0-89871-581-4 (Software, environments, tools; 17) Institut für Informationswissenschaft Fachhochschule Köln Vgl. für Vergleiche mit Zitations- bzw. Link-Analysen: http://www.kde.cs.uni-kassel.de/lehre/ws2005-06/IR/folien/12_LinkAnalyse.pdf W. Gödert
Das PageRank Verfahren von Google Einführung in die Prinzipien Institut für Informationswissenschaft Fachhochschule Köln Larry Page Sergey Brin Der PageRank-Algorithmus In: http://pr.efactory.de/d-pagerank-algorithmus.shtml Austin, D.: How Google finds your needle in the Web's haystack : as we'll see, the trick is to ask the web itself to rank the importance of pages... In:http://www.ams.org/featurecolumn/archive/pagerank.html. Langville, A.N., C.D. Meyer: Google's PageRank and beyond: the science of search engine rankings. Princeton: Princeton Univ. Press 2006. X, 224 S. ISBN 0-691-12202-4 Brin, S., L. Page: The anatomy of a large-scale hypertextual Web search engine. In: http://dbpubs.stanford.edu:8090/pub/1998-8. Page, L., S. Brin u. R. Motwani u.a.: The PageRank citation ranking: Bringing order to the Web. In: http://dbpubs.stanford.edu:8090/pub/1999-66. W. Gödert
Der ursprüngliche PageRank-Algorithmus hat die folgende Form: (*) r(Pi) = (1-d) + d (r(P1)/|P1| + ... + r(Pn)/|Pn|) Hierbei ist: • r(Pi) der PageRank einer Seite Pi, • r(Pj) der PageRank der Seiten Pj, von denen ein Link auf die Seite Pi zeigt (Problem, da zu Beginn nicht bekannt!) • |Pj| die Gesamtanzahl der Links auf Seite Pj (von der Seite Pj auf andere Seiten) und • d ein Dämpfungsfaktor, wobei 0 £ d £ 1 ist. Institut für Informationswissenschaft Fachhochschule Köln Das PageRank-Verfahren bewertet damit grundsätzlich nicht Websites in ihrer Gesamtheit, sondern basiert ausschließlich auf der Beziehung einzelner Webseiten zueinander. Der PageRank einer Seite Pi bestimmt sich dabei rekursiv aus dem PageRank derjenigen Seiten, von denen ein Link auf die Seite Pi zeigt. Hierfür muss eine algorithmische Lösung gefunden werden. W. Gödert
r0(Pi) = 1/n, i = 1, ... ,n (Startwert für Rekursion) PageRank Der PageRank der Seiten Pj, die auf eine Seite Pi verlinken, fließt nicht gleichmäßig in den PageRank von Seite Pi ein. Der PageRank einer Seite Pi wird stets anhand der Anzahl |Pj| der von Seite Pj ausgehenden Links gewichtet. Das bedeutet, dass je mehr ausgehende Links eine Seite Pj hat, umso weniger PageRank gibt sie an Seite Pi weiter. Der anhand der Anzahl an ausgehenden Links gewichtete PageRank der Seiten Pj wird nun addiert. Dies hat zur Folge, dass jeder zusätzliche eingehende Link für eine Seite Pi stets den PageRank dieser Seite Pi erhöht. Schließlich wird die Summe der gewichteten PageRanks der Seiten Pj mit dem Dämpfungsfaktor d, der stets zwischen 0 und 1 liegt multipliziert. Hierdurch wird das Ausmaß der Weitergabe des PageRanks von einer Seite auf einer andere verringert. Die Formel (*) bekommt die Form: (**) rk+1(Pi) = (1-d) + d (rk(P1)/|P1| + ... + rk(Pn)/|Pn|) r0(Pi) = 1/n, i = 1, ... ,n (Startwert für Rekursion) Institut für Informationswissenschaft Fachhochschule Köln W. Gödert
Ein Beispiel Fachhochschule Köln PageRank Die im Netz vorhandenen Links von einer Seite auf andere werden in einer Tabelle festgehalten Ein Beispiel 1 2 Institut für Informationswissenschaft Fachhochschule Köln 3 6 5 4 W. Gödert
Ein Beispiel Fachhochschule Köln PageRank Die im Netz vorhandenen Links von einer Seite auf andere werden in einer Tabelle festgehalten Ein Beispiel 1 2 Institut für Informationswissenschaft Fachhochschule Köln 3 6 5 4 W. Gödert
Ein Beispiel Fachhochschule Köln PageRank Die im Netz vorhandenen Links von einer Seite auf andere werden in einer Tabelle festgehalten Ein Beispiel 1 2 Institut für Informationswissenschaft Fachhochschule Köln 3 6 5 4 W. Gödert
Ein Beispiel Fachhochschule Köln PageRank Für das gesamte Netz ergibt sich die Tabelle: Ein Beispiel 1 2 Institut für Informationswissenschaft Fachhochschule Köln 3 6 5 4 W. Gödert
Ein Beispiel Fachhochschule Köln PageRank Ein Beispiel Die ein- und ausgehenden Links werden nun als Wahrscheinlichkeiten interpretiert, von einem Knoten zu einem anderen zu gelangen, z.B.: 1 2 3 Institut für Informationswissenschaft Fachhochschule Köln P12 = W(P1®P2) 6 5 4 W. Gödert
Ein Beispiel Fachhochschule Köln PageRank Ein Beispiel Die ein- und ausgehenden Links werden nun als Wahrscheinlichkeiten interpretiert, von einem Knoten zu einem anderen zu gelangen, z.B.: 1 2 3 Institut für Informationswissenschaft Fachhochschule Köln P12 = W(P1®P2) = 1/2 6 5 4 W. Gödert
Ein Beispiel Fachhochschule Köln PageRank Ein Beispiel Es werden die ein- und ausgehenden Links analysiert und als Wahrscheinlichkeiten interpretiert, von einem Knoten zu einem anderen zu gelangen, z.B.: 1 2 3 Institut für Informationswissenschaft Fachhochschule Köln P31 = W(P3®P1) = 1/3 6 5 4 W. Gödert
Ein Beispiel Fachhochschule Köln 1 2 PageRank Ein Beispiel 1 2 Aus diesen Wahrscheinlichkeiten kann man eine Matrix aufbauen: 3 Institut für Informationswissenschaft Fachhochschule Köln 6 5 4 Zeilei = Ausgehende Links des Knoten i; Zeilensumme = 1 Spaltei = Eingehende Links des Knoten i als Wahrscheinlichkeit, vom Knoten j zu kommen W. Gödert
Matrizenmultiplikation (Komponenten der Zeile mit jeder Spalte) PageRank Mit der Multiplikation des Startvektors r0 = r0(Pi) = (1/6, ... ,1/6) mit der Matrix H kann nun die Iteration gestartet werden: Institut für Informationswissenschaft Fachhochschule Köln Matrizenmultiplikation (Komponenten der Zeile mit jeder Spalte) W. Gödert
Diese Multiplikation wird nun mit r1 wiederholt: PageRank Diese Multiplikation wird nun mit r1 wiederholt: Institut für Informationswissenschaft Fachhochschule Köln W. Gödert
Damit ergibt sich für unser Netzwerk die Rangfolge: PageRank 1 2 Damit ergibt sich für unser Netzwerk die Rangfolge: 3 P1 - 1/36 P2 - 1/18 P3 - 1/36 P4 - 17/72 P5 - 11/72 P6 - 14/72 6 5 Institut für Informationswissenschaft Fachhochschule Köln 4 W. Gödert
Damit ergibt sich für unser Netzwerk die Rangfolge: PageRank 1 2 Damit ergibt sich für unser Netzwerk die Rangfolge: 3 r2(Pi) Rang Nach 25 Iterationen P1 - 1/36 - 5 0.218853623874 P2 - 1/18 - 4 0.31186641402 P3 - 1/36 - 5 0.243012790146 P4 - 17/72 - 1 1.44846146424 P5 - 11/72 - 3 0.832386009072 P6 - 14/72 - 2 1.11626457039 6 5 Institut für Informationswissenschaft Fachhochschule Köln 4 Um dieses Verfahren für ein Netzwerk wie das WWW anwenden zu können, musste sowohl die Konvergenz des Verfahrens als auch die Möglichkeit des Abbruchs der Iteration nach einer möglichst kleinen Zahl von Schritten gesichert werden. W. Gödert
Weitere Probleme 1: Senken Iteration 1: Fachhochschule Köln PageRank 1 2 Weitere Probleme 1: Senken 3 Iteration 1: Institut für Informationswissenschaft Fachhochschule Köln Iteration 2: Iteration 3: Iteration n: W. Gödert
Abhängigkeit von Startvektoren PageRank Problem 2: Abhängigkeit von Startvektoren 1 2 Startvektor r0 = (1/2 1/2): Institut für Informationswissenschaft Fachhochschule Köln => Es stellt sich ein stationärer Zustand ein Startvektor r0 = (0 1): => Es stellt sich ein alternierender Zustand ein W. Gödert
PageRank Auf einer Reihe von Webseiten stehen Rechner zur Verfügung, um für Modellsituationen den PageRank der Knoten von kleineren Netzwerken berechnen zu können, vgl. z.B.: http://www.webworkshop.net/pagerank_calculator.php Andere Adressen bieten an, den PageRank einer realen Webseite berechnen zu lassen, vgl. z.B.: http://pr.blogflux.com/ http://www.markhorrell.com/seo/pagerank.asp Der eingangs angegebenen Literatur können weitere Hinweise entnommen werden, als Kurzfassungen z.B.: Institut für Informationswissenschaft Fachhochschule Köln http://www.suchmaschinen-doktor.de/algorithmen/pagerank/mathematik.html http://pr.efactory.de/d-index.shtml W. Gödert
Der HITS-Algorithmus von Jon Kleinberg HITS – Hypertext Induced Topic Search Institut für Informationswissenschaft Fachhochschule Köln Entwickelt 1998 bei IBM Realisierung in Teoma, heute AskJeeves Jon Kleinberg l Kleinberg, J.M.: Authoritative sources in a hyperlinked environment. In: Journal of the Association for Computing Machinery. 46(1998) no.5, S.604-632. l Chakrabarti, S., B. Dom u. S.R. Kumar u.a.: Neue Pfade durch den Internet-Dschungel: die zweite Generation von Web-Suchmaschinen. In: Spektrum der Wissenschaft. 1999, H.8, S.44-49. W. Gödert
Grundlagen des HITS-Algorithmus Das Setzen eines Links im Web kommt einer Empfehlung gleich ● Die Links lassen sich 2 Gruppen zuordnen: - Autoritäten (authorities) als empfangende Seiten - Netzknoten (hubs) als gebende Seiten ● Gute Autoritäten sind Seiten, auf die viele gute Netzknoten verlinken ● Gute Netzknoten sind Seiten, die auf viele gute Autoritäten verlinken Netzknoten Autoritäten Netzknoten Autoritäten Fakultät für Informations-und Kommunikationswissenschaften Fachhochschule Köln Problem, dass beide Eigenschaften zu Beginn des Verfahrens nicht bekannt sein können. W. Gödert
HITS-Algorithmus Der Algorithmus soll aus Aufwandsgründen nicht alle Knoten des Netzes berücksichtigen, sondern nur auf einer Untermenge S mit folgenden Eigenschaften: ● Die Menge S ist relativ klein, damit ein aufwändiger Algorithmus auch ausgeführt werden kann; ● Die Menge S enthält viele relevante Seiten, um die guten Autoritäten finden zu können; ● Die Menge S enthält viele gute Autoritäten Als Ausgangsmenge zur Bildung der Menge S wird das Ergebnis einer Suchanfrage mit einer textbasierten Suchmaschine (erzeugt über eine invertierte Liste) genommen. Zur Bildung der Menge S wird diese Menge um Seiten außerhalb der Menge ergänzt, ● auf die von Seiten innerhalb der Ausgangsmenge verwiesen wird; ● die auf Seiten innerhalb der Ausgangsmenge verweisen. Fakultät für Informations-und Kommunikationswissenschaften Fachhochschule Köln W. Gödert
HITS-Algorithmus Ergänzung der Ausgangsmenge um Links von und auf Knoten außerhalb der Initialmenge Untermenge S Netzknoten Autoritäten Fakultät für Informations-und Kommunikationswissenschaften Fachhochschule Köln Um Links auszuschließen, die ausschließlich zu Navigationszwecken – z.B. auf eine Web Site von untergeordneten Seiten auf die Homepage – gesetzt werden, können nur solche Seiten berücksichtigt werden, die unterschiedliche Domainnamen beinhalten. W. Gödert
HITS-Algorithmus Jeder Seite p aus der Menge S kann ein Wert xp als Autoritätswert und ein Wert yp als Netzknotenwert zugewiesen werden. Dabei wird normalisiert: Ausgehend von beliebigen Startwerten (z.B.: yj(0) = (1,…,1)T) werden die Autoritäts- und Netzknotenwerte nun iterativ berechnet: Fakultät für Informations-und Kommunikationswissenschaften Fachhochschule Köln Hierfür bietet sich eine Matrix-Schreibweise an. L sei eine Matrix mit folgenden Einträgen: Lij = 1, wenn es einen Link vom Knoten i zum Knoten j gibt, Lij = 0, andernfalls Dann bekommen die Summenformeln die Gestalt: x(k) = LT y(k-1) und y(k) = L x(k), k=1,2,3,… Einsetzen der ersten in die zweite Gleichung ergibt: y(k) = L x(k) = L LT y(k-1); ebenso x(k) = LT L x(k-1), k=1,2,3,… W. Gödert
Fachhochschule Köln Beispiel 1 1 2 3 4 5 6 Gegeben sei das Netz: 1 2 3 HITS-Algorithmus Beispiel 1 1 2 3 4 5 6 Gegeben sei das Netz: 1 2 3 4 5 6 5 1 2 6 3 4 mit der zugehörigen Knotenmatrix L: Fakultät für Informations-und Kommunikationswissenschaften Fachhochschule Köln Zunächst werden für die Formeln y(k) = L LT y(k-1); x(k) = LT L x(k-1), k=1,2,3,… die Autoritätsmatrix LT L und die Netzknotenmatrix L LT berechnet: LT L = = W. Gödert
Fachhochschule Köln L LT = = Iterative Berechnungen mit den Formeln HITS-Algorithmus L LT = = Fakultät für Informations-und Kommunikationswissenschaften Fachhochschule Köln Iterative Berechnungen mit den Formeln y(k) = L LT y(k-1); x(k) = LT L x(k-1), k=1,2,3,… und x(0) = y(0) = (1,…,1)T ergeben: yT = (0,0,0.56,1,1,0) d.h. als beste Autoritäten können die Knoten 4 und 5 angesehen werden; xT = (0,1.28, 0,0,0,1) d.h. die besten Netzknoten sind Knoten 2, gefolgt vom Knoten 6. Mathematisch kann diese Berechnung auch als Eigenvektorberechnung für den betragshöchsten Eigenwert der Autoritätsmatrix LT L oder Netzknotenmatrix L LT durchgeführt werden. W. Gödert
Fachhochschule Köln Beispiel 2 1 2 3 5 6 10 Gegeben sei das Netz: 1 2 HITS-Algorithmus Beispiel 2 1 2 3 5 6 10 Gegeben sei das Netz: 1 2 3 5 6 10 3 10 2 1 6 Fakultät für Informations-und Kommunikationswissenschaften Fachhochschule Köln 5 mit der zugehörigen Knotenmatrix L: und als Autoritätsmatrix sowie als Netzknotenmatrix W. Gödert
Fachhochschule Köln Berechnungen mit den Formeln HITS-Algorithmus Berechnungen mit den Formeln y(k) = L LT y(k-1); x(k) = LT L x(k-1), k=1,2,3,… und x(0) = y(0) = (1,…,1)T oder Berechnung der entsprechenden Eigenvektorprobleme ergeben (jweils auf 1 normalisiert): yT = (0.3660, 0, 0.2113, 0, 0.2113, 0.2113) d.h. als beste Netzknoten können der Knoten 1, gefolgt von Knoten 3, 6 und 10 angesehen werden; xT = (0, 0, 0.3660, 0.1340, 0.5, 0) d.h. die besten Autoritäten sind Knoten 6, gefolgt von Knoten 3 und 5. Fakultät für Informations-und Kommunikationswissenschaften Fachhochschule Köln W. Gödert
Wiederholung: Textliche Beschreibung des Verfahrens HITS-Algorithmus Wiederholung: Textliche Beschreibung des Verfahrens (Nach Lewandowski, S.126-130) Das HITS-Verfahren versucht, die Einschränkungen einfacher Linkzählungen bzw. die themenunabhängige Bewertungen von Webseiten zu überwinden. Es sollen die wichtigsten Seiten (sog. Autoritäten) passend zum Thema der jeweiligen Suchanfrage ermittelt werden, zusätzlich werden Seiten ermittelt, die auf viele Autoritäten verweisen (die sog. Hubs, also „Mittelpunkte"). Das Verfahren ist nicht unabhängig von einer Suchfrage (wie das PageRank bei Google), sondern setzt auf einer Ergebnismenge auf. Ausgangspunkt für die Berechnung der wichtigsten Seiten zu einem Thema soll eine Ausgangsmenge S sein, die die folgenden drei Bedingungen erfüllen soll: 1. S soll relativ klein sein. Dies ist notwendig, um auf diese Menge komplexe Algorithmen in vertretbarer Rechenzeit anwenden zu können. 2. S soll viele relevante Seiten enthalten. Dies macht es leichter, die gesuchten Autoritäten zu finden. Es wird angenommen, dass die besten Autoritäten innerhalb der Menge S stark referenziert werden. S soll die meisten (oder zumindest viele) der stärksten Autoritäten enthalten. Institut für Informationswissenschaft Fachhochschule Köln W. Gödert
HITS-Algorithmus In einem ersten Schritt werden relevante Seiten durch ein textbasiertes Verfahren identifiziert (Kleinberg benutzte AltaVista). Mit dieser Methode wird ein Root Set R ermittelt. Im Root Set sind die Dokumente untereinander oft nur schwach verlinkt und möglicherweise nicht alle guten Autoritäten enthalten, auf diese jedoch ziemlich wahrscheinlich von Dokumenten des Root Sets aus verwiesen wird. Um sicherzustellen, dass die Autoritäten in der tatsächlichen Treffermenge überhaupt enthalten sind, wird das Root Set zum Base Set S erweitert. Dieses enthält neben den Dokumenten des Root Set auch alle Seiten, die auf eine Seite im Root Set verweisen. Das Base Set erfüllt alle drei oben angeführten Bedingungen für die Ausgangsmenge. Seine Größe liegt in etwa zwischen 1.000 und 5.000 Dokumenten. In einem Zwischenschritt werden weitere Links für die Berechnung ausgeschlossen. Kleinberg unterscheidet zwischen externen Links (transverse links), welche auf ein Dokument einer anderen Domain verweisen und internen Links (intrinsic links), die auf ein Dokument der gleichen Domain verweisen. Institut für Informationswissenschaft Fachhochschule Köln W. Gödert
HITS-Algorithmus Alle internen Links werden ausgeschlossen, da sie oft nur Navigationszwecken dienen und nicht der gewünschten Referenz auf eine Autorität. Das Ergebnis ist ein neuer Graph G der sowohl viele relevante Seiten als auch starke Autoritäten enthält. Die Autoritäten werden im Weiteren aus der Linkstruktur von G berechnet. Kleinberg verwirft die reine Zählung von In-Links, da bei diesem Verfahren auch Dokumente zu Autoritäten gemacht werden würden, die themenunabhängig populär sind. Der Sinn des Verfahrens liegt allerdings gerade darin, die in Bezug auf die eingegebene Suchanfrage wichtigsten Seiten zu finden. Trotzdem ist es möglich, ohne die Analyse des Inhalts der Dokumente allein auf Basis der Linkstruktur die gesuchten Autoritäten zu finden. Charakteristisch für die Autoritäten ist, dass sie viele In-Links auf sich ziehen und außerdem eine deutliche Überschneidung zwischen den Seiten, die auf die Autoritäten verweisen, besteht. Die echten Authorities werden daran erkannt, dass besondere Seiten existieren, die auf verschiedene Authorities verweisen. Zwischen den von diesen Seiten gesetzten Links müssen Überschneidungen bestehen, um Authorities klar identifizieren zu können. Institut für Informationswissenschaft Fachhochschule Köln W. Gödert
HITS-Algorithmus Für die verweisenden Seiten führt Kleinberg das Konzept der Hubs ein. Dies sind Seiten, die auf mehrere relevante Autoritäten verweisen. Hubs und Authorities bedingen sich gegenseitig: „A good hub is a page that points to many good authorities; a good authority is a page that is pointed to by many good hubs." (Kleinberg 1999, S.611) Die Berechnung von Hubs und Authorities muss also in einem rekursiven Verfahren erfolgen, um die bestehende Zirkularität aufzulösen. Der beschriebene Algorithmus berechnet für jede Seite sowohl deren Hub-Gewicht y(p) als auch deren Authority-Gewicht x(p). Beide Gewichte verstärken sich dabei gegenseitig: Eine Seite erhält ein hohes Hub-Gewicht, wenn Sie auf viele Seiten mit hohem Authority-Gewicht verweist. Umgekehrt erhält eine Seite ein hohes Authority-Gewicht, wenn sie viele In-Links mit hohem Hub-Gewicht auf sich zieht. Das Authority-Gewicht einer Seite ist damit die Summe der Hub-Gewichte der Seiten, die auf sie verweisen. Das Hub-Gewicht einer Seite ist dagegen die Summe der Authority-Gewichte der Seiten, auf welche diese verweist. Um nun die Hub- und Authority-Gewichte zu berechnen, müssen zuerst Ausgangswerte festgelegt werden, auf deren Basis dann in einem iterativen Verfahren die Werte in jedem Schritt weiter angenähert werden. Wie bei solchen Verfahren üblich, ändern sich die Werte nach einer gewissen Anzahl von Durchläufen nur noch geringfügig; im beschriebenen Verfahren sollen 20 Durchläufe ausreichen. Institut für Informationswissenschaft Fachhochschule Köln W. Gödert
HITS-Algorithmus Das Ergebnis sind für jede Seite ein Hub- und ein Authority-Gewicht. Seiten mit starken Authority-Gewichten sind in der Regel nur schwache Hubs, während starke Hub in der Regel nur ein geringes Authority-Gewicht auf sich ziehen können. Kleinbergs Verfahren ist deshalb nicht nur für die Feststellung der „wichtigsten" Seiten zu einer Suchanfrage von Bedeutung, sondern - vor allem auf lange Frist gesehen - auch für die Unterteilung von Web-Dokumenten in zwei Klassen. Keines der herkömmlichen Verfahren ist in der Lage, die Dokumente prinzipiell nach ihrer Funktion zu unterscheiden. Die Methode von Kleinberg liefert dem Nutzer zwei Zugänge zu den im Web vorhandenen Informationen: Einerseits kann er in einem Schritt die automatisch ermittelten wichtigen Seiten angezeigt bekommen, andererseits kann er über die Auswahl der Hubs Übersichtsseiten zum Thema finden, die einen Sucheinstieg zu den bedeutenden Quellen bieten. Im Unterschied zum PageRank bei Google ist zu beachten, dass das HITS-Verfahren nicht unabhängig von einer Suchfrage ist, sondern auf einer Ergebnismenge aufsetzt und damit frageabhängig ist. Institut für Informationswissenschaft Fachhochschule Köln W. Gödert
Relevanz Fachhochschule Köln Relevanz gehört zu den am schwierigsten zu fassenden Begriffen des Themenbereiches Information Retrieval. Man versteht unter Relevanz die Beziehung, die zwischen einer Anfrage und einem Dokument besteht: „Relevance is the correspondence in context between an information requirement statement (a query) and an article (a document), that is, the extend to which the article covers the material that is appropriate to the requirement statement.“ (Cuadra / Katter) Institut für Informationswissenschaft Fachhochschule Köln Das Hauptproblem im Umgang mit Relevanz liegt im Vorhandensein sowohl objektiver als auch subjektiver Faktoren. Die subjektiven Faktoren werden auch Pertinenz genannt. ● Relevanz: kontextuelle Übereinstimmung zwischen einem Suchargument und einem Dokument - unabhängig von konkreten subjektiven Informationsbedürfnissen ● Pertinenz: Übereinstimmung zwischen einem subjektivem Informationsbedürfnis und einem Dokument ● Ein Relevanzurteil nimmt in der klassischen Variante genau einen von zwei Werten an: relevant –nicht relevant. ● Relevanzurteile sind mitunter unscharf, insofern unterschiedliche Beurteiler zu abweichenden Urteilen kommen können. W. Gödert
Fachhochschule Köln Objektive Faktoren Störfaktoren Relevanz Objektive Faktoren ● Vorhandensein des gesuchten Ausdrucks (Suchwort, Deskriptor, Notation, etc.) im Dokument unabhängig davon, wie gut oder schlecht der gesuchte Ausdruck mit dem Inhalt des Dokuments korrespondiert. Störfaktoren - Korrespondenz mit dem ganzen Dokument (Koextensivität) - Korrespondenz „nur“ mit Teilen oder Aspekten des Dokuments - Fehlerhafte oder fragliche Zuteilung von Deskriptoren oder Notationen Subjektive Faktoren ● Das Dokument ist schon bekannt ● Der Inhalt des Dokuments ist schon bekannt ● Das vorhandene Wissen reicht zur Relevanzbeurteilung nicht aus ● Die Relevanz kann nur unter Zuhilfenahme weiterer Dokumente beurteilt werden Institut für Informationswissenschaft Fachhochschule Köln Das Thema wird noch einmal im Zusammenhang mit Retrievaltests aufgegriffen W. Gödert
Relevanz Formal zieht man sich gerne auf eine Definition wie die Folgende zurück: Die Relevanz eines Dokuments für eine Anfrage ist eine Relation r:D×Q->R , wobei D={d1,...,dm} die Menge der Dokumente, Q die Menge der Anfragen und R eine Menge von Wahrheitswerten, im Allgemeinen die Menge {0,1} , ist. (Im Folgenden wird R={0,1} angenommen, wenn nichts anderes gesagt wird.) Die Relation r wird im Allgemeinen durch Befragen von Experten zu konkreten Anfragen und Dokumentenmengen ermittelt und als Tabelle oder in Form von Listen gespeichert. (Ferber) Institut für Informationswissenschaft Fachhochschule Köln „Diese Definition scheint auf den ersten Blick wenig auszusagen. Sie schränkt aber ganz erheblich ein, was als Relevanz bezeichnet werden kann. So hängt nach dieser Definition die Relevanz eines Dokuments für eine Anfrage lediglich von der Anfrage und dem Dokument ab. Sie kann nicht durch andere Dokumente, die bereits als relevant beurteilt wurden, beeinflusst werden. Auch der Wissensstand der Anfragenden spielt in dieser Definition von Relevanz keine Rolle, wenn er nicht explizit in der Anfrage angegeben wird. Die meisten IR-Systeme lassen eine solche Angabe ohnehin nicht zu.“(Ferber) W. Gödert
Relevanz Vgl. auch die Einschätzung: „Ein Großteil der Bewertungsmaße bei der --> Effektivitätsmessung von Retrievalsystemen basiert auf der Differenzierung der Ergebnisdokumente in relevant und nicht-relevant. Häufig ist es jedoch gerade die Relevanzbestimmung, welche Kritik an der Retrievalmessung hervorruft. Es wird ein Widerspruch zwischen der statistisch-quantitativen Anwendung von Maßen und ihrer relativ unscharfen, nur schwer in quantitativen Kategorien fassbaren Basis der Relevanzbewertung gesehen. Das traditionelle Verständnis des Relevanzbegriffs geht von einer Relation zwischen einer bestimmten Anfrage und den Ergebnisdokumenten aus. Die Forderung nach objektiver Relevanzbestimmung durch einen unabhängigen Juror wurde durch eine intensive Analyse der Relevanzurteile und der Umstände ihrer Abgabe sowie durch die subjektive Relevanz durch verschiedene Benutzerbedürfnisse und Relevanzvorstellungen relativiert. Man begegnet dieser Problematik durch den Einsatz komparativer Evaluierungsverfahren, welche die beteiligten Retrievalsysteme gleich behandeln, so dass die Ergebnisse im Vergleich ihre Gültigkeit bewahren, jedoch nicht als Einzelbewertung pro System valide sind.“ Institut für Informationswissenschaft Fachhochschule Köln Grundlagen der praktischen Information und Dokumentation. 5. Aufl. Bd. 2: Glossar W. Gödert
Invertierte Listen Fachhochschule Köln A 4,8 B 8 C 3,6,8 D 2,6 E 3,7 M 1,4 N 6 P 1,4 R 2,7 T 7 U 2 Z 7 Institut für Informationswissenschaft Fachhochschule Köln 1. P M D H U R K E C M A P N C D E R T Z 8. A B C W. Gödert
Invertierte Listen Fachhochschule Köln Suche in einem Index mit speziellem Aufbau Durchsuchen eines i.d.R. alphabetisch sortierten Suchregisters, das alle oder eine Teilmenge aller Zeichenketten aller Datensätze der Datenbank enthält • sehr gute Performance (Schnelligkeit) durch Zugriff auf sortierte Menge • gute Voraussetzungen für kategorienspezifische Suchen • gute Voraussetzungen für Boolesche Verknüpfungen • damit gute Voraussetzungen für kategorienübergreifende Boolesche Suchen aber auch • ggf. eingeschränkte Suchmöglichkeiten (z.B. wenn Dokumente nicht vollständig indexiert sind) • bedarf Techniken für Indexaufbau und –aktualisierung • der Index / die Indizes bedarf / bedürfen eines nicht unerheblichen Speicheraufwandes und wachsen nicht linear mit der anwachsenden Dokumentenkollektion Institut für Informationswissenschaft Fachhochschule Köln W. Gödert
Liste der Einzelwörter Invertierte Listen Beispiel 20 Aller Als Arbeit Autor Bedeutung Beobachtenden Bereiche Das Dem der(2) des(2) Deutlich die(2) Einer Element erschließerischer Erschließungskultur Fassette Hintergrund Im in(2) Jh Lebens Lösungsmöglichkeiten ... Niedergangs Norm Pleonasmus Regelwerk Regelwerken Reglementierung Sieht Sinnstiftendes Soziokulturelle späten Studie täglichen Und Untersucht Verrohung Von Vor Weitergehenden Weltweit Zeiten Zu Zwischen Autor: van de Rak, Jan Willem Titel: Zwischen Pleonasmus und Fassette: Das Regelwerk als sinnstiftendes Element in Zeiten erschließerischer Verrohung. Ort: Normstett Jahr: 1998 Schlagworte: Regelwerk ; Norm ; soziokulturelle Studie Abstract: Die Arbeit untersucht die Bedeutung von Regelwerken vor dem Hintergrund des weltweit zu beobachtenden Niedergangs der Erschließungskultur im späten 20. Jh. Lösungsmöglichkeiten sieht der Autor in einer deutlich weitergehenden Reglementierung aller Bereiche des täglichen Lebens. Institut für Informationswissenschaft Fachhochschule Köln Liste der Einzelwörter W. Gödert
Prinzip der invertierten Liste (Inverted File) Invertierte Listen Prinzip der invertierten Liste (Inverted File) Institut für Informationswissenschaft Fachhochschule Köln Prinzip: Man speichert zu jedem Wort die Nummer der Dokumente ab, die dieses Wort enthalten – ggf. ergänzt um Zusatzangaben. Diese Liste ist Ausgangspunkte für Suchprozesse, auf der Menge der Dokumentnummern werden die Booleschen Operationen durchgeführt, die der Suchfrage entsprechen. W. Gödert
Invertierte Listen Vorgehensweise zur Erzeugung einer invertierten Liste ● Anhand der Regeln zur Bestimmung zulässiger Terme werden die Dokumente in Terme zerlegt; ● Zu den Termen werden jeweils das Dokument und die Position des Auftretens im Dokument geschrieben; ● Diese Paare aus Termen und ihren Positionen werden (primär nach Termen alphabetisch, sekundär nach Positionen) sortiert; ● Paare mit gleichen Termen werden zusammengefasst, wobei die Positionen in einer sortierten Liste an den Term angefügt werden; ● Die Terme werden von den Listen mit ihren Positionen getrennt. Die Terme werden in eine Indexdatei geschrieben, die zu jedem Term einen Zeiger (Pointer) auf die zugehörige Liste enthält. Die Positionen können auch in ein einziges Postings File geschrieben werden. Dann muss in der Indexdatei zu jedem Term die Anzahl der Positionen und die Stelle im Postings File angegeben werden, an der ihre Aufzählung beginnt. Institut für Informationswissenschaft Fachhochschule Köln Die Trennung der Terme und Listen in verschiedene Dateien dient dazu, den Zugriff auf die Terme zu beschleunigen. Es muss in diesem Fall bei der sequenziellen Suche pro Term, der vor dem gesuchten Term liegt, nur ein Pointer überlesen werden und nicht die ganze Liste der Positionen. Statt der Liste können auch andere, effizientere Zugriffsstrukturen verwendet werden. W. Gödert
Fachhochschule Köln Eine Anfrage wird nun folgendermaßen bearbeitet: Invertierte Listen Eine Anfrage wird nun folgendermaßen bearbeitet: ● Zunächst werden die Terme in der Anfrage isoliert; ● Aus der invertierten Liste wird für jeden Term die Liste mit seinen Positionen in den Dokumenten oder deren Feldern ermittelt. Dazu lässt sich der Zeiger aus der Indexdatei verwenden oder es wird anhand der Stelle und Länge der entsprechende Abschnitt aus dem Postings File kopiert; ● Die Listen zu den verschiedenen Termen werden zusammengeführt: Sind die Terme mit OR verknüpft, werden die Listen vereinigt, sind sie mit AND verknüpft, wird der Durchschnitt gebildet, bei AND NOT wird die Differenz berechnet; ● Die Dokumente, die in der resultierenden Liste übrigbleiben, werden aus der Dokumentdatei geholt und als Resultat der Anfrage präsentiert. Institut für Informationswissenschaft Fachhochschule Köln Der aufwändigste Schritt bei der Berechnung der invertierten Liste ist das Sortieren, insbesondere, wenn die ganze Liste auf einmal sortiert wird. Deshalb setzen an diesem Punkt diverse Verbesserungsmethoden an. Zum einen können die Daten aufgeteilt werden, sodass die Datenmengen, die zwischengespeichert werden müssen, handhabbar bleiben. Zum anderen können die Terme in den Knoten eines binären Baums (B-Bäume) gespeichert werden, an denen dann Listen mit den Positionsangaben angehängt werden. W. Gödert
Platzbedarf von invertierten Listen Invertierte Listen Platzbedarf von invertierten Listen Beispiel 1: TREC Disk 4 Financial Times (564 MB Daten) • 210.158 Artikel mit im Mittel 412,7 Wörtern • Pro Eintrag in einer invertierten Liste 4 Byte • Ergibt: 330,86 MB für die invertierte Liste Beispiel 2: Datenbank Literatur zur Inhaltserschließung Daten Lit.dat 26.901.890 Bytes ca. 30.376 Dokumente Invertierte Listen Lit.i1 3.430.400 Bytes Invertierte Liste Personen Lit.i2 6.484.992 Bytes Invertierte Liste Sachtitel Lit.i3 2.227.200 Bytes Invertierte Liste Erscheinungsjahr Lit.i15 10.698.752 Bytes Invertierte Liste Personen / Sachtitel Beispiel 3: Suchmaschine AltaVista (1999) • Indizierungssoftware bewältigt pro Stunde ein Gigabyte Text. • Gesamtindex beträgt 40 Gigabyte. • 16 Maschinen, auf denen die Indizierung und Suchabfrage stattfindet, arbeiten mit je 8 Gigabyte Arbeitsspeicher, 10 parallelen Alpha- Prozessoren, und 260 GB Festplattenkapazität Institut für Informationswissenschaft Fachhochschule Köln W. Gödert
Statistisch basierte Verfahren AIR/PHYS Statistisch basierte Verfahren der automatischen Indexierung Prinzip Statt wie beim Ranking statistische Eigenschaften von Wörtern - wie die tf*idf Beziehung - für die Reihenfolge der Dokumente in Ergebnismengen zu benutzen, können derartige Beziehungen auch herangezogen werden, um Indexterme zu ermitteln: Ein Wort ist ein guter Indexterm, wenn es nach einem vorgegebenen statistischen Berechnungsverfahren für eine Dokumentkollektion über einem festgesetzten Schwellwert liegt. Beispiel: Das Verfahren AIR/PHYS Als Umgebung dient die Fachdatenbank PHYS (inzw. Bestandteil von INSPEC) mit englischsprachiger (!) Erschließung durch normiertes Vokabular (Deskriptoren) und Abstracts. Ziel von AIR/PHYS Automatische Indexierung der Dokumente mit Deskriptoren des PHYS-Thesaurus Institut für Informationswissenschaft Fachhochschule Köln Lit.: Lustig, G. (Hrsg.): Automatische Indexierung zwischen Forschung und Anwendung. Hildesheim: Olms 1986. XIII,182 S. ISBN 3-487-07825-2 (Linguistische Datenverarbeitung; Bd.5) W. Gödert
Fachhochschule Köln Realisierung AIR/PHYS Realisierung 1. Statistische Auswertung der intellektuell erschlossenen Dokumente bei besonderer Berücksichtigung der Beziehung z: mit: h(t,s) = Anzahl der Dokumente, in denen Term t vorkommt und Deskriptor s vergeben wurde, f(t) = Anzahl der Dokumente, in denen Tem t vorkommt. z ist damit ein Maß für die Wahrscheinlichkeit, mit der ein Deskriptor einem Dokument (intellektuell) zugeteilt ist, wenn Term t im Dokument vorhanden ist. 2. (Automatischer) Aufbau eines Indexierungswörterbuchs unter Ausnutzung der Gewichte aus 1., echter Thesaurusrelationen (Synonym) und Deskriptor-Deskriptor-Relationen als gewichtetes Maß für das gemeinsame Auftreten von Deskriptoren 3. Automatische Indexierung in zwei Phasen - Rohindexierung mit regel-und lexikonbasierter Textanalyse und statistischer Relationierung - Abgestimmte Indexierung unter Einbeziehung von Deskriptor- Deskriptor-Relationen Institut für Informationswissenschaft Fachhochschule Köln W. Gödert
Fachhochschule Köln Pilotanwendung AIR/PHYS im FIZ Karlsruhe ● Wörterbuchaufbau auf der Basis von 400.000 intellektuell erschlossenen Dokumenten - 20.000 Deskriptoren - 190.000 Wörter - 350.000 statistische Regeln mit z > 0,3 - 70.000 Synonym-Relationen - 200.000 Deskriptor-Deskriptor-Relationen • Erschließung von 10.000 Dokumenten / Monat • Zuteilung von im Schnitt 12 Deskriptoren je Dokument • intellektuelle Nachbearbeitung mit durchschnittlich einem Drittel Korrekturbedarf, d.h. semi-automatisches Verfahren Institut für Informationswissenschaft Fachhochschule Köln W. Gödert
Fachhochschule Köln Ergebnisse der AIR/PHYS-Indexierung ● Retrievaltest mit 15.000 Dokumenten und 300 (Original-)Fragen Automatische Indexierung Intellektuelle Indexierung Precision: 0.46 < 0.53 Recall: 0.57 > 0.51 ● Intellektuelle Bewertung der Erschließungsqualität durch Experten - 1/3 intellektuelle Erschließung besser - 1/3 automatische Indexierung besser - 1/3 qualitativ gleichwertig Institut für Informationswissenschaft Fachhochschule Köln Weitere Lit.: Knorz, G.: Automatische Indexierung. In: Hennings, R.-D., G. Knorz u. H.-J. Manecke: Wissensrepräsentation und Information Retrieval. Potsdam: Universität 1994. 420 S. (Berufsbegleitendes Ergänzungsstudium im Tätigkeitsfeld wissenschaftliche Information und Dokumentation (BETID): Lehrmaterialien; Nr.3), 138-198. Nohr, H.: Automatische Indexierung: Einführung in betriebliche Verfahren, Systeme und Anwendungen. Berlin: Verlag für Berlin-Brandenburg 2001. 108 S.ISBN 3-935035-19-5. (Materialien zur Information und Dokumentation; Bd.13), S.71-77. W. Gödert
Retrieval-Experimente Bewertung von Retrievalsystemen Indexierungs- und Retrievalexperimente Retrievaltests Von Cranfield bis TREC Institut für Informationswissenschaft Fachhochschule Köln • Cranfield I, II • Medlars • Inspec u.a. • Lancaster • MILOS I,II • Text Retrieval Conference (TREC) W. Gödert
Retrieval-Studien: Ziele Indexierungs- und Retrievalstudien wollen eine Bewertung eines Information Retrieval Systems vornehmen, indem Suchinteressen als Anfragen formuliert und nach vorgegebenen Kriterien bewertet werden. Die Ergebnisse werden zur besseren Vergleichbarkeit quantifiziert. Zentrale Kriterien ● Relevanz ● Recall ● Präzision Unterscheidung ● Indexierungsstudien: Test der Eigenschaften verschiedener Indexierungssprachen bzw. –verfahren in einer einheitlichen Retrievalumgebung ● Retrievalstudien: Test der Eigenschaften von Retrievalumgebungen (Möglichkeiten zur Gestaltung einer Suchfrage) zur Ermittlungen von Suchergebnissen bei gleichen Indexierungsergebnissen Voraussetzungen zur Durchführung ● Definierte Dokumentkollektion ● Unterschiedliche Erschließungsverfahren ● Fixierte Suchfragen und Suchformulierungen ● Parameter der Suchumgebung, Retrievalwerkzeuge ● Bewertungskriterien für die Suchergebnisse Institut für Informationswissenschaft Fachhochschule Köln W. Gödert
Ein Beispiel zur Relevanzbeurteilung Sind nachstehende Titel relevant für die Frage: “Ich interessiere mich für Literatur über Organisation von Bibliotheken” Zugeteilte RSWK-Ketten: Aufbau, Organisation und Funktion eines neuen Informationszentrums am Beispiel der Vorarlberger Landesbibliothek / hrsg. von Eberhard Tiefenthaler. - München ; London ; New York ; Paris: Saur, 1990. - 193 S. (Bibliotheksstudien ; 5) Stockhausen, Tilmann von: Die kulturwissenschaftliche Bibliothek Warburg : Architektur, Einrichtung und Organisation. - Hamburg: Dölling und Galitz, 1992. - 245 S. Ceynowa, Klaus: Von der "dreigeteilten" zur "fraktalen" Bibliothek : benutzerzentrierte Bibliotheksarbeit im Wandel ; das Beispiel der Stadtbibliothek Paderborn. - Würzburg: Königshausen und Neumann, 1994. - 113 S. Neue Betriebsformen, Jugendliche, Multimedialität / hrsg. von der EKZ, Einkaufszentrale für Öffentliche Bibliotheken GmbH. Red.: Henner Grube und Angelika Holderried. - [Reutlingen] : EKZ, 1994. - 270 S. : graph. Darst. ; 24 cm. - (EKZ-Konzepte ; Bd. 2) Bregenz / Vorarlberger Landesbibliothek / Aufsatzsammlung Institut für Informationswissenschaft Fachhochschule Köln Hamburg / Kulturwissenschaftliche Bibliothek Warburg Paderborn / Stadtbibliothek / Reorganisation / Benutzerfreundlichkeit + Auf Basis der RSWK-Schlagwörter gibt es keine Frageformulierung, mit der man die 4 Titel gleichzeitig gefunden hätte Öffentliche Bibliothek / Benutzer / Jugend / Aufsatzsammlung (2314) (3214) @ Öffentliche Bibliothek / Audiovisuelle Medien / Aufsatzsammlung (213) @ Öffentliche Bibliothek / Organisation / Aufsatzsammlung Gibt es eine Suchfrage, mit der diese Titel gemeinsam gefunden würden? W. Gödert
Beide Werte betragen im Idealfall 1 Bewertungsgrößen Recall / Precision Mit Einführung verschiedener Bewertungsgrößen wird die Zielsetzung verfolgt, die Güte eines Retrievalsystems möglichst auf objektiven Faktoren zu basieren und nicht allein subjektiv zu bewerten Der Recall beschreibt das Verhältnis von gefundenen zu den in einer Datenbank vorhandenen relevanten Dokumenten quantitativ. Er ist eine Aussage über die Vollständigkeit des Suchergebnisses Institut für Informationswissenschaft Fachhochschule Köln Die Precision beschreibt das Verhältnis von gefundenen relevanten zu den gefundenen nicht-relevanten Dokumenten quantitativ. Er ist eine Aussage über die Güte des Suchergebnisses oder auch über die Ballastrate Reales Suchergebnis A relevant gefunden B nicht-relevant gefunden R = Recall = P = Precision = C relevant nicht-gefunden D nicht-relevant nicht-gefunden Beide Werte betragen im Idealfall 1 W. Gödert
Bewertung Retrieval-systeme Grundsatzfrage für Retrievaltests Wie bestimmt man die für die Berechnung des Recall die Zahl der in der Datenbank vorhandenen relevanten Dokumente ? Institut für Informationswissenschaft Fachhochschule Köln Empirische Beobachtung Recall und Precision müssen nicht gleichwertig in eine Gesamtbewertung eingebunden werden, man kann anteilige Gewichtungen vornehmen: 1. Harmonisches Mittel P = Precision R = Recall W. Gödert
Bewertung Retrieval-systeme 2. Effizienz nach Van Rijsbergen 0 < a < 1 a = 0: Effektivität wird auf Recall(1-R) reduziert a = 1: Effektivität wird auf Precision(1-P) reduziert a = ½: Effektivität beruht ausgewogen auf R und P Institut für Informationswissenschaft Fachhochschule Köln 3. Noch stärker Parameter gesteuerte Gewichtung von Precision und Recall Einfluss über Parameter b: b = 1: gleichmäßige Gewichtsverteilung zwischen Precision und Recall b > 1: mehr Gewicht auf Precision b < 1: mehr Gewicht auf Recall W. Gödert
Retrieval Experimente Sachse, E., M. Liebig u. W. Gödert: Automatische Indexierung unter Einbeziehung semantischer Relationen: Ergebnisse des Retrievaltests zum MILOS II-Projekt. Köln: FH Köln, Fachbereich Bibliotheks- und Informationswesen 1998. 66 S. (Kölner Arbeitspapiere zur Bibliotheks- und Informationswissenschaft; Bd.14) http://www.fbi.fh-koeln.de/institut/papers/kabi/volltexte/band014.pdf. Die frühen Untersuchungen waren durch das Interesse geprägt, Aussagen zu gewinnen, welcher Typ Dokumentationssprache und welche Methode der Indexierung die besten Erschließungsergebnisse erbringt. Institut für Informationswissenschaft Fachhochschule Köln ● ASTIA-Uniterm-Test (1953) Das neu entwickelte Uniterm-Verfahren (Extraktion von Stichwörtern aus Titel oder Abstracts) sollte mit konventionellen Methoden Ansätzen verglichen werden. Umfang: 15.000 Dokumente; 93 Suchfragen Probleme bei der Relevanzbeurteilung unter den beiden Testgruppen ● Cranfield-Uniterm-Test (1953) Vergleich der Indexierung mit UDC-Notationen mit der Indexierung durch Uniterms. Umfang: 200 Dokumente zum Thema Aeronautik; 40 Fragen, die vorher bestimmten Dokumenten („Source documents“) entnommen wurden Ergebnis: - Uniterm-Verfahren findet 85% der Source documents - UDC-Indexierung findet 50% der Source documents W. Gödert
Retrieval Experimente Cranfield Cranfield-Tests I (1957) Durchgeführt an Cranfield-College, gesponsort von Aslib, Verantwortlich: J. Mills, C.W. Cleverdon, M. Keen Ziel: Test von 4 Indexierungssystemen: - UDC, - alphabetischer Subject index (= Schlagwörter), - Facettenklassifikation, - Uniterm-System ● Testkollektion: 18.000 Dokumente zur Aeronautik; 1.200 Fragen ● Ergebnis: - Uniterm-Verfahren findet 82% der Source documents - Schlagwort-Indexierung findet 81.5% der Source documents - UDC-Indexierung findet 75,6% der Source documents - Facettenklassifikation findet 73,8% der Source documents ● Frage: Welche Indexierungsmethode bringt den besten Recall? Institut für Informationswissenschaft Fachhochschule Köln Schlussfolgerung Cleverdon: Inverse Relation zwischen der Fähigkeit, relevante Dokumente zu finden und nicht relevante zurückzuhalten. Vgl. u.a.: Cleverdon, C.W., J. Mills: The testing of index language devices. In: Theory of subject analysis: a sourcebook. Ed.: L.M. Chan, et al. Littleton, CO: Libraries Unlimited 1985. S.221-246. [Orig. in: Aslib proceedings 15(1963) no.4, S.106-130]. W. Gödert
Retrieval Experimente: Cranfield Cranfield-Tests II (1966) Ausgangspunkt Indexierungssprachen sind Kombinationen mehrerer Indexierungsarten Ziele • Auswirkungen der Indexierungsarten auf Performance, • Einfluss der Indexierungsarten auf Recall und Precision. Testkollektion: 1.400 Dokumente zur Aeronautik; 211 Fragen Methode • 33 verschiedene Indexierungssprachen mit variierenden Terminologien und Strukturen sowie unterschiedlichen Eigenschaften hinsichtlich Einzelwörter, Komposita, Hierarchien und kontrolliertem Vokabular, • Effektivität der verschiedenen Testsysteme wurde danach beurteilt, inwieweit vorher als relevant bewertete Dokumente gefunden wurden, • Zweistufiges Verfahren zur Bewertung der Relevanz Ergebnisse • „Sieger“: natürlichsprachige Terme (Einzelwort-Indexierungssprachen) • Verbesserung der Retrievalleistung nur durch Einbeziehung von - Synonymen - Grundformbildung aber: Verschlechterung der Performance Institut für Informationswissenschaft Fachhochschule Köln W. Gödert
Retrieval Experimente: Cranfield Cranfield-Tests II (1966) • zufrieden stellende Ergebnisse wurden erzielt mit natürlicher Sprache kombiniert mit einfacher Koordinierung, alle anderen Varianten und Indexierungsformen bringen schlechtere Ergebnisse (insbes. Hinsichtlich der Performance) als die Suche nach natürlichsprachigen Termen (in der Wortform des Textes), • sämtliche Ergebnisse bestärkten die Hypothese, dass eine inverse Relation zwischen Recall und Precision besteht. Institut für Informationswissenschaft Fachhochschule Köln Zusammenfassung Keen • “increase in depth or exhaustivity of indexing increases recall and decreases precision“; • „term specificity governs precision and recall“; • „vocabulary cross references can help increase recall and decrease precision“; • „levels of exhaustivity, specificity and linkage at the input stage can be balanced or their effect altered by what happens at the search stage“; • „input levels which give the best desired trade-off between recall and precision require optima to be found, although determining the optimum level is not easy“. Keen, E.M.: Aspects of computer-based indexing languages. In: Computers in libraries international 91. Proceedings of the 5th Annual Conference on Computers in Libraries, London, February 1991. London: 1991. S.148-151. W. Gödert
Retrieval Experimente Cranfield Cranfield-Tests II (1966) Die Ergebnisse der Cranfield-Tests haben in der Folgezeit zahlreiche und teilweise auch heftige Diskussionen ausgelöst: • Brauchen wir demnach überhaupt keine Dokumentationssprachen? • Kritik an Cranfield: - als Labortest kaum auf die Praxis (insbes. sehr großer) Datenbanken übertragbar - Relevanzbeurteilung sehr problematisch • Einschätzung der Bedeutung, die der Performance beigemessen wurde Institut für Informationswissenschaft Fachhochschule Köln Vgl. z.B.: Fugmann, R.: Das Faule Ei des Kolumbus im Aslib-Cranfield Vergleich von Informationssystemen: Die erneute Betrachtung eines einflussreichen Experiments. In: Information - Wissenschaft und Praxis. 55(2004) H.4, S.211-220. W. Gödert
Retrieval Experimente Medlars Medlars-Test (1966) Beispiel für den Test einer großen Fach-Datenbank (Medlars) in Praxis-Umgebung. Ausgangssituation Umfang der Datenbank: mehr als 700.000 Dokumente, Bearbeitung von 302 ‚echten‘ Nutzeranfragen Keine Möglichkeit, die Relevanz jedes der Dokumente festzustellen, Schätzung anhand der ausgegebenen Dokumente und ausgewählten Dokumenten aus anderen Quellen. Ergebnisse Im Durchschnitt wurde eine Precision von 50% bei relativ niedrigem Recall von 58% erzielt. Analyse von 4.000 ‚Misserfolgen‘, um die Gründe für diese Verteilung herauszufinden, nicht-relevante Dokumente, die gefunden wurden sowie relevante Dokumente, die nicht gefunden wurden. Dabei wurde deutlich, dass die größte Fehlerquelle in der Umsetzung der Nutzerinformationsbedürfnisse in eine adäquate Suchstrategie lag. Institut für Informationswissenschaft Fachhochschule Köln W. Gödert
Retrieval Experimente Inspec Inspec-Test (1969) Ausgangssituation Suchen mit Elementen aus fünf verschiedenen Vokabular-Kategorien: - Titel, - Titel und Abstracts, - Begriffe aus dem gedruckten Schlagwortindex der Science Abstracts, - natürlichsprachige, intellektuelle Indexierung, - kontrolliertes Vokabular aus einem im Entwurf befindlichen Thesaurus. Methode Testmenge: 542 Dokumenten aus den Sachgebieten Physik und Elektrotechnik, die entweder nur Titel oder Titel und Abstracts umfassten, Bearbeitung von 97 Suchfragen, Dabei bis zu drei unterschiedliche Suchformulierungen pro Frage und Vokabular-Kategorie. Ergebnisse • nur leichte Unterschiede zwischen den einzelnen Suchverfahren, • Suche mit kontrolliertem Vokabular erzielte das beste Ergebnis, • Bestätigung der Ergebnisse des Cranfield II-Tests hinsichtlich einer möglichst erschöpfenden Indexierung sowie des überraschend guten Abschneidens der natürlichsprachigen Indexierung Institut für Informationswissenschaft Fachhochschule Köln W. Gödert
Retrieval Experimente Aberystwyth Aberystwyth Index-Languages Test (1972) Ziel Vergleich (unter Laborbedingungen) verschiedener im Fach Bibliotheks- und Informationswissenschaft zur Sacherschließung eingesetzter Indexierungssprachen. Methode • 3 postkoordinierende (Compressed term index language, uncontrolled index language und hierarchically structured index language) • 2 präkoordinierende Indexierungssprachen (hierarchically structured index language, relational indexing index language). 8 Kriterien : Post-coordinate index languages of measured specifity and linkage, indexing specifity, indexing exhaustivity, method of coordination, postcoordinate index languages including variations in indexing specifity and exhaustivity, precision device of partitioning, precision device of relational operators, provision of context in the search file. • Möglichst praxisnahe Gestaltung des Tests, • Die verschiedenen Durchführungsschritte des Tests (Indexierung, Frageformulierung, Durchführung der Suche, Relevanzbeurteilung) wurden jeweils von unterschiedlichen Personen vorgenommen. Institut für Informationswissenschaft Fachhochschule Köln W. Gödert
Retrieval Experimente Aberystwyth Die Datensammlung bestand aus 800 Dokumenten (Zeitschriftenartikel und Reports), zu denen 63 Suchfragen gestellt wurden. Die Relevanz wurde in die drei Stufen unterteilt: ‚hoch relevant‘, ‚teilweise relevant‘ und ‚nicht relevant‘, Als Werte zur Relevanzmessung wurden Recall und ‚nicht-relevante gefundene Dokumente‘ gewählt. Keine Bestimmung der Precision, weil sie eine bestimmte Auffassung eines Nutzers von Relevanz oder Nicht-Relevanz voraussetzt und die absoluten Werte von relevanten und nicht-relevanten Dokumenten außer Acht lässt und nur Aussagen über das Verhältnis von relevanten und nicht-relevanten Dokumenten zulässt. Ergebnisse • Keine großen Unterschiede in der Effizienz und Effektivität der verschiedenen Indexierungssprachen (kontrolliertes Vokabular war allerdings nicht ausreichend für möglichst spezifische Indexierung, • Unkontrolliertes Vokabular schnitt dagegen vergleichsweise gut ab, insbesondere unter Berücksichtigung des hierfür nötigen geringen intellektuellen Aufwandes • Verbesserung der Indexierungsbreite (exhaustivity) ergab eine leichte Verbesserung des Recalls ohne einen Verlust an Precision. Im Vergleich zum postkoordinierten Verfahren erzielte das präkoordinierte Verfahren schlechtere Ergebnisse bei geringerem Recall Institut für Informationswissenschaft Fachhochschule Köln W. Gödert
Retrieval Experimente: Lancaster Lancaster-Retrievaltest (1991) Rahmenbedingungen • Online-Katalog mit 4,5 Mio Nachweisen • 51 Themen (v.a. komplexe (d.h. verknüpfte) Sachverhalte) • zu findende (relevante) Dokumente wurden über umfassende Bibliografienarbeit bzw. Expertenbefragung vorher festgelegt • Suchen wurden von LCSH-Experten durchgeführt! • 607 relevante Nachweise insgesamt in der Datenbank • 327 gefundene relevante Nachweise über aller Suchen • Recall 53,9% über alle Suchfragen bei Suche mit LCSH (Achtung: systembedingt zu hoher Wert) • Precision wurde nicht gemessen Institut für Informationswissenschaft Fachhochschule Köln W. Gödert
Retrieval Experimente: Lancaster Lancaster-Retrievaltest (1991) Ergebnisse • Suche über Erschließung (LCSH) 53,9% • Einbeziehung eng verwandter Suchbegriffe 60,1% • Einbeziehung verwandter Suchbegriffe 62,3% • Einbeziehung von Titelstichwörtern 55,5% • Erweiterung der Titelaufnahme um Begriffe aus Sachregistern 74,5% • Inhaltsverzeichnissen 68,0% • Volltexten 63,4% Institut für Informationswissenschaft Fachhochschule Köln Schlussfolgerung Lancaster “The conclusion that emerges most clearly is that, if one wants to know the best things to read on some topic, there is no substitute for consulting an expert, either directly or indirectly (e.g. through an expert-compiled bibliography).” Quelle: Lancaster, F.W., T.H. Connell u. N. Bishop u.a.: Identifying barriers to effective subject access in library catalogs. In: Library resources and technical services. 35(1991), S.377-391. W. Gödert
Retrieval Experimente: MILOS Retrievaltests zu MILOS I (1993-95) bzw. MILOS II (1995-96) Zwischen 1993 und 1996 führte die Universitäts- und Landesbibliothek Düsseldorf gemeinsam mit der Fachrichtung Informationswissenschaft der Universität des Saarlandes (Prof. Dr. Harald H. Zimmermann) die zwei von der Deutschen Forschungsgemeinschaft geförderten Erschließungsprojekte MILOS I und MILOS II durch. Ziele von MILOS I waren die Weiterentwicklung von IDX, einem Verfahren zur automatischen Indexierung und die Anpassung des Systems an die spezielle Arbeitsumgebung einer wissenschaftlichen Universalbibliothek. Im Rahmen des Projekts wurde abschließend ein Retrievaltest durchgeführt. Auf der Basis von 40.000 Titeln wurden 50 Suchfragen in drei verschiedenen Registern (Konsequenz der verwendeten Suchumgebung) gesucht: - Titelstichwortregister, - Titelstichwortregister ergänzt um die Ergebnisse der automatischen Indexierung, - Titelstichwortregister ergänzt um die verstichworteten Begriffe aus lokalen Schlagwörtern. • Alleinige Suche über unbehandelte Titelstichwörter ist für die thematische Suche im OPAC ungeeignet, • Deskriptoren, die auf der Basis von Titelstichwörtern und verstichworteten Schlagwörtern durch automatische Verfahren gewonnen wurden, verbessern das Suchergebnis signifikant. Institut für Informationswissenschaft Fachhochschule Köln W. Gödert
Retrieval Experimente: MILOS MILOS II (1995-96) Testumgebung • ca. 190.000 Dokumente (Buchtitel der Erscheinungsjahre 1990-1995 aus dem Datenpool der Deutschen Bibliothek) • Software für Retrievalumgebung: Allegro • 100 Suchanfragen unterschiedlicher Typen: 1. Fragen nach einfachen Sachverhalten mit einem Suchbegriff (einschließlich Komposita), 2. Fragen nach Sachverhalten mit 2 Suchbegriffen, 3. Fragen, in denen Beziehungen zwischen mehreren Begriffen vorhanden sind, 4. Fragen, die Adjektiv-Substantiv-Verbindungen für einen festen Begriff enthalten, 5. Fragen, die Eigennamen mit einer Mehrwort-Verbindung oder Zählung enthalten. Zielsetzung Möglichst der realen Suchsituation an OPACs angenäherte Aussagen über die erzielten Suchergebnisse hinsichtlich ihres Umfanges (Größe der Treffermenge) und ihrer inhaltlichen Präzision (Anteil der auf die Frage inhaltlich passenden Titel). Institut für Informationswissenschaft Fachhochschule Köln W. Gödert
Retrieval Experimente: MILOS Alle Fragen wurden in der Allegro-Datenbank mit Hilfe folgender 5 Register bearbeitet: • Register der Titel-Stichwörter • Register der Indexierungsergebnisse • Register der verstichworteten RSWK-Ketten • Register der RSWK-Ketten • Basic Index (Titel-Stichwörter, Indexierungsergebnisse und verstichwortete RSWK-Ketten) Für jede Suchfrage wurden die Treffermengen und die Zahl der relevanten Treffer ermittelt. Auf die Ermittlung eines Recall wurde angesichts der Größe der Dokumentkollektion verzichtet. Institut für Informationswissenschaft Fachhochschule Köln W. Gödert
Retrieval Experimente: MILOS Ergebnisse: - Daten der maschinellen Indexierung liefern gegenüber den Titel- Stichwortdaten eine um rund 3fach höhere Zahl relevanter Treffer - Verstichwortete RSWK-Ketten liefern eine um rund 2fach höhere Zahl relevanter Treffer - Über das Mittel der 100 Fragen keine übermäßig durch Ballast ange- reicherte Treffermenge Zahlen für die Präzision lauten: - Titel-Stichwortdaten: 0,82 - Daten der maschinellen Indexierung: 0,75 - Verstichwortete RSWK-Ketten: 0,95 Null-Treffermengen - Titel-Stichwortdaten: 15 Fälle - Daten der maschinellen Indexierung: 3 Fälle - Verstichwortete RSWK-Ketten: 30 Fälle Institut für Informationswissenschaft Fachhochschule Köln W. Gödert
Retrieval Experimente: TREC Text Retrieval Conference (TREC), 1992 ff. http://trec.nist.gov/) Institut für Informationswissenschaft Fachhochschule Köln Voorhees, E.M. u. D.K. Harman (Hrsg.): TREC: experiment and evaluation in information retrieval. Cambridge, MA: MIT Press 2005. 368 S. ISBN 0-262-22073-3 (Digital libraries and electronic publishing) • Hervorgegangen aus dem TIPSTER-Programm, das die Defense Advanced Research Projects Agency (DARPA) sponsert. • Wurde 1992 zu einer jährlichen Konferenz, mitgesponsert vom National Institute of Standards and Technology (NIST) und DARPA. W. Gödert
Retrieval Experimente: TREC Text Retrieval Conference (TREC), 1992 ff. http://trec.nist.gov/) • Den Teilnehmern wurde zum Trainieren und Testen der Systeme Teile einer Standardliste von Dokumenten und THEMEN (wovon Anfragen abzuleiten sind) in verschiedenen Stadien gegeben. • Die Teilnehmer legen die P/R-Werte für den endgültigen Dokument- und Anfrage-Korpus vor und präsentieren ihre Ergebnisse bei der Konferenz. • Schaffen einer gemeinsamen Grundlage für den Vergleich verschiedener IR-Techniken (z.B. Pooling-Methode) – Gleiche Dokumenten- und Anfrageliste und gleiche Evaluierungsmethoden. • Teilen von Resourcen und Erfahrungen bei der Entwicklung des Benchmarks. – Mit Hauptsponsoring durch die amerikanische Regierung, um große Benchmark-Sammlungen zu entwickeln. • Förderung der Beteiligung von Industrie und Wissenschaft. • Entwicklung neuer Evaluierungstechniken, besonders für neue Anwendungen. – Retrieval, Routing/Filtering, nicht-englische Sammlung, webbasierte Sammlung, Fragenbeantwortung (question answering). Institut für Informationswissenschaft Fachhochschule Köln W. Gödert
Retrieval Experimente Prinzip Pooling Methode zur Bestimmung von Recall und Precision Zutreffende Ergebnisse Teilnehmer 1 Zutreffende Ergebnisse Teilnehmer n Zutreffende Ergebnisse Teilnehmer 2 Zutreffende Ergebnisse Teilnehmer 3 Institut für Informationswissenschaft Fachhochschule Köln Gesamtmenge der zutreffenden Ergebnisse Die Ausbeute der einzelnen Teilnehmer wird nun bewertet, indem die zutreffenden Ergebnisse jedes Teilnehmers in Relation zum Gesamt-ergebnis gesetzt werden. W. Gödert
Retrieval Experimente Parameter TREC • Riesige Datensätze (verglichen mit ein paar MB in der SMART Collection) • Relevanzbeurteilung wird zur Verfügung gestellt • In ständiger Entwicklung mit Unterstützung der U.S.-Regierung • Beteiligung kommerzieller Ersteller von Retrieval-Software • Große Beteiligung: – TREC 1: 28 Papers (= Beteiligte) 360 Seiten. – TREC 4: 37 Papers 560 Seiten. – TREC 7: 61 Papers 600 Seiten. – TREC 8: 74 Papers. • Testdatensätze bestehen aus (z.B. TREC-1): WSJ Wall Street Journal articles (1986-1992) 550 MB AP Associate Press Newswire (1989) 514 MB ZIFF Computer Select Disks (Ziff-Davis Publishing) 493 MB FR Federal Register 469 MB DOE Abstracts from Department of Energy reports 190 MB • Sowohl lange als auch kurze Dokumente (von ein paar hundert zu mehr als tausend unterschiedlichen Termen in einem Dokument) Institut für Informationswissenschaft Fachhochschule Köln W. Gödert
Retrieval Experimente: GIRT German Indexing and Retrieval Testdatabase (GIRT) 1995 ff. Initiative des IZ Sozialwissenschaften, Bonn Knorz, G.: Testverfahren für intelligente Indexierungs- und Retrievalsysteme anhand deutsch-sprachiger sozialwissenschaftlicher Fachinformation (GIRT): Bericht über einen Workshop am 12. September 1997 im IZ Sozialwissenschaften, Bonn. In: nfd Information - Wissenschaft und Praxis. 49(1998) H.2, S.111-116. Vgl. auch unter: http://www.inf-wiss.uni-konstanz.de/RIS/confre01/tagber01/03.html. Kluck, M.: Eine deutschsprachige Testdatenbank für moderne Erschließungs- und Retrievalsysteme: German Indexing and Retrieval Testdatabase - GIRT. In: Die digitale Revolution: Deutscher Dokumentartag 1996, Neue Universität Heidelberg, 24.-26.9.1996. Hrsg.: W. Neubauer. Frankfurt a.M.: DGD 1996. S.427-431. (DGD-Schrift: DOK-9) Frisch, E., M. Kluck: Pretest zum Projekt German Indexing and Retrieval Testdatabase (GIRT) unter Anwendung der Retrievalsysteme Messenger und freeWAISsf. Bonn: IZ Sozialwissenschaften 1997. 66 S. (IZ-Arbeitsbericht; Nr.10) Institut für Informationswissenschaft Fachhochschule Köln W. Gödert
Fachhochschule Köln Ergebnisse der AIR/PHYS-Indexierung ● Retrievaltest mit 15.000 Dokumenten und 300 (Original-)Fragen Automatische Indexierung Intellektuelle Indexierung Precision: 0.46 < 0.53 Recall: 0.57 > 0.51 ● Intellektuelle Bewertung der Erschließungsqualität durch Experten - 1/3 intellektuelle Erschließung besser - 1/3 automatische Indexierung besser - 1/3 qualitativ gleichwertig Institut für Informationswissenschaft Fachhochschule Köln Weitere Lit.: Knorz, G.: Automatische Indexierung. In: Hennings, R.-D., G. Knorz u. H.-J. Manecke: Wissensrepräsentation und Information Retrieval. Potsdam: Universität 1994. 420 S. (Berufsbegleitendes Ergänzungsstudium im Tätigkeitsfeld wissenschaftliche Information und Dokumentation (BETID): Lehrmaterialien; Nr.3), 138-198. Nohr, H.: Automatische Indexierung: Einführung in betriebliche Verfahren, Systeme und Anwendungen. Berlin: Verlag für Berlin-Brandenburg 2001. 108 S.ISBN 3-935035-19-5. (Materialien zur Information und Dokumentation; Bd.13), S.71-77. W. Gödert
Fachhochschule Köln Relevance Feedback Institut für Informationswissenschaft Fachhochschule Köln Relevance Feedback verwendet Relevanzurteile des Nutzers für dieSuche nach relevanten Dokumenten W. Gödert
Fachhochschule Köln Die wichtigen Fragen des Lebens ... Schluss Die wichtigen Fragen des Lebens ... Institut für Informationswissenschaft Fachhochschule Köln W. Gödert