Information Retrieval

Information Retrieval
„An Information Retrieval System is a system that is capable of storage, retrieval and maintenance of information.“ Kowalski 1997 Institut für Informationswissenschaft Fachhochschule Köln Konzepte, Methoden und Verfahren des Information Retrieval „Information-Retrieval-Systeme (IRS) sind interaktive Informationssysteme für vage Anfragen und unsicheres Wissen.“ Norbert Fuhr WS 2014/15 W. Gödert

Inhaltsübersicht Fachhochschule Köln Einführung
Inhalts-verzeichnis Inhaltsübersicht Einführung Werkzeuge und Hilfsmittel des Information Retrieval Suchoberflächen und Interaktionsschnittstellen Modelle des Information Retrieval Invertierte Listen Statistische Verfahren des Automatischen Indexierens Quantitative Aussagen zu Worthäufigkeiten Web-Retrieval: Suchwerkzeuge des Internet Suchmaschinen: PageRank, HITS-Algorithmus Bewertung von Retrievalsystemen, Retrievalexperimente, Retrievaltests Institut für Informationswissenschaft Fachhochschule Köln W. Gödert W. Gödert

Einführung in die Aufgabenstellung Fachhochschule Köln
Institut für Informationswissenschaft Fachhochschule Köln W. Gödert

„An Information Retrieval System is a system that is capable of storage, retrieval and maintenance of information.“ Kowalski 1997 Was ist hier mit Information gemeint ? Daten ! Institut für Informationswissenschaft Fachhochschule Köln „Information-Retrieval-Systeme (IRS) sind interaktive Informationssysteme für vage Anfragen und unsicheres Wissen.“ Norbert Fuhr Verzahnung der Datenebene mit der Ebene der inhaltlichen Bedeutung Wie lässt sich die inhaltliche Übereinstimmung einer Suchanfrage mit einem Suchergebnis quantitativ, also durch numerische Kennziffern ausdrücken? W. Gödert

Aufgaben Information ist gebunden an einen Informationsträger, ein Medium – Text, Bild, Film, Musik, Tabellen, Formeln etc. –, das die Basis für ein Information Retrieval ist. 80% (geschätzt) der weltweit verfügbaren Information liegt in Textform vor, d.h. Information Retrieval ist fast immer Text Retrieval. Dabei steigt die Bedeutung des Information Retrieval mit der enorm wachsenden Menge an Informationsträgern stetig. Institut für Informationswissenschaft Fachhochschule Köln Aufgaben Informationserschließung - Formale Erschließung - Inhaltliche Erschließung Informationsspeicherung Informationsverwaltung Informationssuche / -wiedergewinnung - Suche nach Bekanntem – Wiederfinden - Suche nach Unbekanntem - Suche nach formalen Merkmalen - Suche nach inhaltlichen Merkmalen W. Gödert

Informationssystem Fachhochschule Köln Dokumente Retrieval
Input - Output Dokumente Medien, Objekte Retrieval Informationssystem Formal- erschließung Institut für Informationswissenschaft Fachhochschule Köln Suchen und Finden oder nicht Finden Inhalts- analyse erschließung Geordnetes Speichern der Dokument- Repräsentationen Klassifikationssysteme Schlagwortsprachen Thesauri Abstracts Automatisches Indexieren Automatisches Klassifizieren W. Gödert

Wie erfolgt die Suche in einer Datenbank ?
Suchproblem Wie erfolgt die Suche in einer Datenbank ? Institut für Informationswissenschaft Fachhochschule Köln Bingo Modell der sequenziellen Suche mit Pattern Matching Wie schafft man es, die · unter allen · zu finden ? W. Gödert

Sequenzielle Suche, Pattern Matching mit einer Schablone
Gesucht wird: Nein Nein Nein Nein Nein Bingo Institut für Informationswissenschaft Fachhochschule Köln Anwendung Suche im Volltext (vgl. z.B. die Funktion in Word) Vorteil Jedes Muster kann gezielt gesucht und gefunden werden Damit auch Suche nach Wortfragmenten und Sonderzeichen möglich Nachteile Zeitaufwand Exaktheit der Übereinstimmung, z.B. Umlaute Der gesamte Datenbestand muss zum Zeitpunkt der Suche verfügbar sein W. Gödert

So nicht !!! Suche in einem Index, z.B. alphabetisch sortiert
Index-Suche Suche in einem Index, z.B. alphabetisch sortiert Eintrag01 Eintrag02 Eintrag03 Eintrag04 Eintrag05 Eintrag06 Eintrag07 Eintrag08 Eintrag09 Eintrag10 Eintrag11 Eintrag12 Eintrag13 Eintrag14 Eintrag15 Eintrag16 Eintrag17 Eintrag18 Eintrag19 Eintrag20 Eintrag21 Eintrag22 Eintrag23 Eintrag24 Gesuchter Eintrag Nein Nein Suche sequenziell ? Nein Nein Nein Nein Nein Nein Institut für Informationswissenschaft Fachhochschule Köln Nein Nein Nein Nein Nein Nein Nein Nein So nicht !!! Nein Nein Nein Nein Nein Nein Nein Nein Nein W. Gödert

Suche in einem Index, z.B. alphabetisch sortiert
Index-Suche Suche in einem Index, z.B. alphabetisch sortiert Eintrag01 Eintrag02 Eintrag03 Eintrag04 Eintrag05 Eintrag06 Eintrag07 Eintrag08 Eintrag09 Eintrag10 Eintrag11 Eintrag12 Eintrag13 Eintrag14 Eintrag15 Eintrag16 Eintrag17 Eintrag18 Eintrag19 Eintrag20 Eintrag21 Eintrag22 Eintrag23 Eintrag24 Bildung von Hälften Test, ob gesuchter Eintrag in der ersten Häfte Nein Institut für Informationswissenschaft Fachhochschule Köln oder in der zweiten Häfte Ja W. Gödert

Das Verfahren wird mit der zutreffenden Hälfte fortgesetzt
Index-Suche Das Verfahren wird mit der zutreffenden Hälfte fortgesetzt Eintrag13 Eintrag14 Eintrag15 Eintrag16 Eintrag17 Eintrag18 Eintrag19 Eintrag20 Eintrag21 Eintrag22 Eintrag23 Eintrag24 Eintrag19 Eintrag20 Eintrag21 Eintrag22 Eintrag23 Eintrag24 Ja Nein Institut für Informationswissenschaft Fachhochschule Köln Ja Eintrag19 Eintrag20 Eintrag21 Ja Nein Eintrag19 Eintrag20 Ja Das Verfahren folgt einem binären Entscheidungsbaum und kommt auch bei großen Indizes sehr schnell zu einem Ergebnis W. Gödert

Suche nach einem Primärschlüssel Datensatz-Nummer
Suchproblem Suche nach einem Primärschlüssel Datensatz-Nummer Fragmentierung der Datensätze Suchalgorithmen zur Optimierung der Suchgeschwindigkeit + Aufgabe der Datenbank-Software Suche nach einem Sekundärmerkmal der Dokumentbeschreibung Invertierte Listen Autor 0034, 0234 StW 0017, 0045, 0067, 0224, 0456, 0734, 1504, 3390 SW 0234, 1504, 1809, 4336 Jahr 0055, 0152, 0234, 0334, 0335, 0457, 0547, 0623, 0734 Institut für Informationswissenschaft Fachhochschule Köln Suche nach verknüpften Merkmalen Einsatz von Hilfsmitteln und Anwendung von Suchlogik, z.B. UND = Gemeinsames Vorkommen der Dok-Nr. W. Gödert

Literatur Fachhochschule Köln
Stock, W.G.: Information Retrieval: Informationen suchen und finden. München: Oldenbourg XI, 599 S. ISBN Ferber, R.: Information Retrieval: Data Mining-Verfahren für Textsammlungen und das Web. Heidelberg: dpunkt ISBN Vgl. auch unter: Salton, G., M. J. McGill: Information Retrieval: Grundlegendes für Informationswissenschaftler. Übers. von W. von Keitz. Hamburg: McGraw-Hill X,465 S. ISBN X. (McGraw-Hill Texte) Kowalski, G.: Information retrieval systems: theory and implementation. Boston, MA: Kluwer Academic Publ., XIII, 282 S. Typisch amerikanisches Lehrbuch zum IR: gut und verständlich geschrieben, aktuell und recht erschöpfend. Henrich, A.: Information Retrieval: Grundlagen, Modelle, Implementierung und Anwendungen. Unter: Institut für Informationswissenschaft Fachhochschule Köln Viel mehr, auch Spezielles in: Datenbank Literatur zur Informationserschließung W. Gödert

Oberflächen Institut für Informationswissenschaft Fachhochschule Köln Werkzeuge und Hilfsmittel des Information Retrieval W. Gödert

Zugang Beispielwelten
Zugang zu Beispielwelten Die folgenden Folien enthalten Beispiele für die Werkzeuge des Information Retrieval und sollen deren prinzipielle Wirkungsweise veranschaulichen. Die abgebildeten Suchumgebungen haben dabei keinen Selbstzweck, sondern sollen nur der Veranschaulichung dienen. Zur besseren Veranschaulichung sind dabei Beispiele integriert, die aktuell nicht mehr als Produkte oder über Webseiten angeboten werden Institut für Informationswissenschaft Fachhochschule Köln W. Gödert

Gestaltung der Eingabebildschirme
• Eingabemasken Institut für Informationswissenschaft Fachhochschule Köln Beispiel: DNB-CD-ROM W. Gödert

Gestaltung der Eingabebildschirme
• Kommandoorientierte Eingabe Institut für Informationswissenschaft Fachhochschule Köln Beispiel: DNB-CD-ROM W. Gödert

• Freitext- oder Volltextsuche
Suchformen Suchformen • Freitext- oder Volltextsuche Möglichkeit der Suche nach jedem Wort (oder -bestandteil) in einem Text; vgl. entsprechende Suche in BISMAS • Kategorienspezifische Suche durch gezielte Eingabe Angabe oder Auswahl einer spezifischen Suchkategorie Institut für Informationswissenschaft Fachhochschule Köln Kommandomodus Maskenmodus W. Gödert

Disambiguierungsfunktionen
Register-Auswahl • Kategorienspezifische Suche durch Auswahl aus Listen Institut für Informationswissenschaft Fachhochschule Köln “Browsing” Disambiguierungsfunktionen Von Registern Autorenliste der DNB-CD-ROM W. Gödert

• Eingabe Case sensitive bei Groß- und Kleinschreibung
Boolesche Operatoren • Eingabe Case sensitive bei Groß- und Kleinschreibung Boolesche Operatoren Name abgeleitet von George Boole * V1869 • und, oder, nicht (und nicht) • and, or, not (and not) Institut für Informationswissenschaft Fachhochschule Köln Die Booleschen Operatoren wirken auf Mengen, die aus den Dokumentnummern gebildet werden: • und - als Durchschnittsmenge (A Ç B) • oder - als Vereinigungsmenge (A È B) • nicht - als Differenzmenge (A \ B) Sie können dementsprechend zur Erweiterung oder Reduktion von Ergebnismengen eingesetzt werden und erhöhen die Präzision (Precision) oder den Recall für eine Suchfrage W. Gödert

Der Recall beschreibt das Verhältnis von gefundenen zu den in einer
Recall / Precision Recall Der Recall beschreibt das Verhältnis von gefundenen zu den in einer Datenbank vorhandenen relevanten Dokumenten quantitativ. Er ist eine Aussage über die Vollständigkeit des Suchergebnisses Precision Institut für Informationswissenschaft Fachhochschule Köln Die Precision beschreibt das Verhältnis von gefundenen relevanten zu den gefundenen nicht-relevanten Dokumenten quantitativ. Er ist eine Aussage über die Güte des Suchergebnisses oder auch über die Ballastrate Reales Suchergebnis Beide Werte betragen im Idealfall 1 A relevant gefunden B nicht-relevant gefunden R = Recall = C relevant nicht-gefunden D nicht-relevant nicht-gefunden P = Precision = W. Gödert

A Ç B B A Der Boolesche Operator UND A Ç B = {x: x Î A Ù x Î B}
Boolesche Operatoren A Ç B Institut für Informationswissenschaft Fachhochschule Köln A B A Ç B = {x: x Î A Ù x Î B} x Î A Ç B Û x Î A und x Î B Der Boolesche Operator UND W. Gödert

A È B A B Der Boolesche Operator ODER A È B = {x: x Î A Ú x Î B}
Boolesche Operatoren A È B Institut für Informationswissenschaft Fachhochschule Köln A B A È B = {x: x Î A Ú x Î B} x Î A È B Û x Î A oder x Î B Der Boolesche Operator ODER W. Gödert

A \ B A B Der Boolesche Operator NICHT A \ B = {x: x Î A Ù x Ï B}
Boolesche Operatoren A \ B Institut für Informationswissenschaft Fachhochschule Köln A B A \ B = {x: x Î A Ù x Ï B} x Î A \ B Û x Î A und x Ï B Der Boolesche Operator NICHT W. Gödert

Die Verwendung der Booleschen Operatoren kann auf
Boolesche Operatoren Die Verwendung der Booleschen Operatoren kann auf verschiedene Arten angeboten werden, z.B.: • implizit durch voreingestellte Verknüpfungen zwischen Suchfeldern Institut für Informationswissenschaft Fachhochschule Köln W. Gödert

- durch Pull down Fenster
Boolesche Operatoren • direkt - durch Pull down Fenster - durch Wahl von Buttons Institut für Informationswissenschaft Fachhochschule Köln W. Gödert

- durch Eingabe der entsprechenden Formulierungen
Boolesche Operatoren - durch Eingabe der entsprechenden Formulierungen Institut für Informationswissenschaft Fachhochschule Köln W. Gödert

Reihenfolge der Booleschen Operatoren
Boolesche Operatoren Reihenfolge der Booleschen Operatoren Beliebig oder nicht beliebig ?? A und B oder C = A oder B und C ?? A und B oder C = A und (B oder C) ?? Institut für Informationswissenschaft Fachhochschule Köln W. Gödert

Fachhochschule Köln Institut für Informationswissenschaft
Boolesche Operatoren Institut für Informationswissenschaft Fachhochschule Köln W. Gödert

Truncierung Truncierung Abschneiden eines Wortes rechts, z.B. hinter seinem Wortstamm; häufig verwendete Zeichen: *, $, #, ? (jeweils prüfen!) Die Zeichen werden auch Joker oder Wildcards genannt Ziel: gleichzeitiges Suchen verschiedener Wortformen Resultat: Vergrößerung der Treffermenge Institut für Informationswissenschaft Fachhochschule Köln W. Gödert

Auto$ Autoklav Autokorrelation Automat Automatisch Automation
Truncierung Das richtige Truncieren, d.h. das Abschneiden von Wörtern an sinnvollen Stellen erfordert einige Übung. Es besteht immer die Gefahr, den eigentlich interessierenden begrifflichen Kontext zu verlassen. Beispiel: Auto$ steht auch für Autoklav Autokorrelation Automat Automatisch Automation Automobil Autonom Autopsie Autor Autoreifen Institut für Informationswissenschaft Fachhochschule Köln Empfehlenswert ist die Truncierung für die gleichzeitige Suche nach Singular- und Pluralformen bzw. flektierten Wortformen. W. Gödert

Maskierung J$ngling Sch$ne Literatur Bibliogra$ie
Abblenden einzelner Zeichen, auch in der Wortmitte, auch hierfür sind die Namen Joker und Wildcard gebräuchlich. Mit dieser Vorgehensweise können gut unterschiedliche Schreibweisen ausgeglichen werden. Beispiel: J$ngling Sch$ne Literatur Bibliogra$ie Institut für Informationswissenschaft Fachhochschule Köln Es gibt Retrievalsysteme, in denen unterschieden wird, ob ein oder mehrere Zeichen durch einen Platzhalter ersetzt werden. Beispiel: W. Gödert

Adjacency, Proximity Nachbarschaft, Nähe, Wortabstand
Beispiel für Adjacency: Adjektiv-Substantiv-Verbindungen Allgemeiner: Phrasensuche z.B.: Öffentliche Bibliothek Online Public Access Catalog Realisierung häufig durch: “Wort1 Wort2” Beispiel für Proximity: Definierter Wortabstand z.B.: Die Eingabe Online (w3) catalog findet nicht nur “Online catalog” sondern auch “Online Public Access Catalog” Institut für Informationswissenschaft Fachhochschule Köln W. Gödert

Wort-, Phrasen-invertierung
Wortinvertierung, Phraseninvertierung Art und Weise, wie der Feldinhalt für die Registersuche aufbereitet wird Titel: 1. Einführung in die Physik der Schallausbreitung 2. Physik 3. Einführung in die Physik Institut für Informationswissenschaft Fachhochschule Köln Wortinvertierung: Jedes Einzelwort einer oder mehrerer Kategorien wird in ein alphabetisches Register gestellt der 1 die 1,3 Einführung 1,3 in 1,3 Physik 1,2,3 Schallausbreitung 1 Phraseninvertierung: Der Inhalt der gesamten Kategorie wird (als Phrase) in ein alphabetisches Register gestellt Einführung in die Physik 3 Einführung in die Physik der Schallausbreitung 1 Physik 2 W. Gödert

Vergleichs-operatoren
Einsatz von Vergleichsoperatoren (größer, kleiner) Frage: Welche Bücher sind bei Rowohlt nach 1998 erschienen ? Wie drückt man nach 1998 aus ? EJ >= 1998 Institut für Informationswissenschaft Fachhochschule Köln W. Gödert

Problematische Eigenschaft des Booleschen Operators NICHT
Probleme NICHT Problematische Eigenschaft des Booleschen Operators NICHT Eine problematische Eigenschaft des Booleschen Operators NICHT kann sich zeigen, wenn man seine Anwendungswirkung nicht formal, sondern inhaltlich interpretiert. Möglicherweise hat man bei inhaltlichen den Wunsch, durch Anwendung des NICHT-Operators einzelne Aspekte zu ignorieren und aus den zu findenden Dokumenten auszuschließen: Äpfel NICHT Birnen soll meinen Ich suche Äpfel, aber keine Birnen Wie alle Booleschen Operatoren wirkt der NICHT-Operator aber immer auf das ganze Dokument, d. h. es wird vollständig aus der Treffermenge ausgeschlossen, auch wenn den ausgeschlossenen Inhalt nur als einen Teilaspekt enthält. Das folgende Beispiel illustriert diesen Zusammenhang: Institut für Informationswissenschaft Fachhochschule Köln W. Gödert

1. Öffentliche Bibliothek
Probleme NICHT Gegeben seien die folgenden 'Dokumente' mit den Schlagwörtern: 1. Öffentliche Bibliothek 2. Wissenschaftliche Bibliothek Erwerbung Öffentliche Bibliothek Inhaltserschließung 3. Wissenschaftliche Bibliothek Spezialbibliothek Bestandsaufbau Erwerbung 5. Öffentliche Bibliothek 6. Spezialbibliothek Wissenschaftliche Bibliothek Inhaltserschließung Institut für Informationswissenschaft Fachhochschule Köln Aus welchen Dokumenten besteht die Treffermenge für die Frage: 1. Öffentliche Bibliothek 2. Spezialbibliothek 3. 1 oder 2 4. Wissenschaftliche Bibliothek 5. 3 nicht 4 6. Inhaltserschließung 7. 5 und 6 1,2,5 4,6 1,2,4,5,6 2,3,5 1,4,6 2,5,6 6 W. Gödert

Wie ist dieses Suchergebnis zu bewerten, wenn man
Probleme NICHT Frage Dokumente Quelle für Ermittlung 1 2 3 4 5 6 7 1,2,5 4,6 1,2,4,5,6 2,3,5 1,4,6 2,5,6 6 Dokumente Ergebnismenge Institut für Informationswissenschaft Fachhochschule Köln Wie ist dieses Suchergebnis zu bewerten, wenn man die inhaltliche Fragestellung an den Dokumenten überprüft (Wie lautet die Fragestellung inhaltlich) ? Wie kann man diesen Effekt für die Bildung eines Suchergebnisses vermeiden ? W. Gödert

Natürlich-sprachige Eingaben

Rechtschreibkontrolle und natürlichsprachige Eingaben Aufforderung zu natürlichsprachiger Sucheingabe Zweite Wortkorrektur Institut für Informationswissenschaft Fachhochschule Köln Erste Wortkorrektur Beispiel Knowledge Finder W. Gödert

Rechtschreibkontrolle und natürlichsprachige Eingaben Korrigierte Suchformulierung Institut für Informationswissenschaft Fachhochschule Köln Ergebnisliste Highlighting Relevanzkurve Vollstandige Titelanzeige in kategorisierter Form Beispiel Knowledge Finder W. Gödert

Hyperlinks im angezeigten Text
Durch Anklicken eines Wortes wird eine neue Suche initiiert Nutzen Man erspart sich das erneute Eingeben des Wortes / der Wörter in einer Eigabemaske Institut für Informationswissenschaft Fachhochschule Köln Realisierungsvarianten • Nur voreingestellte Links sind anklickbar und verzweigen an eine andere Stelle (häufig in Lexika realisiert) • Jedes Wort ist anklickbar und löst eine neue Suche aus Zu prüfen Kann ein Wort nach dem Anklicken noch editiert werden oder kann es nur unverändert für eine Suche verwendet werden Hyperlinks sind nicht typisierbar (z.B. Richtungen); Vgl. auch den “Back”-Button des Browsers W. Gödert

Hyperlinks I Beispiel: Brockhaus multimedial Vordefinierte Links

Hyperlinks II Beispiel: Brockhaus multimedial Freie Links

Assoziatives Suchen Beispiel: Brockhaus multimedial
Institut für Informationswissenschaft Fachhochschule Köln Als Wissensnetz für assoziativen Kontext W. Gödert

Interaktionsschnittstellen
Suchoberflächen und Interaktionsschnittstellen Institut für Informationswissenschaft Fachhochschule Köln W. Gödert

Ausgewählte Literatur
Thissen, F.: Screen-Design-Handbuch: Effektiv informieren und kommunizieren mit Multimedia. 2., überarb. u. erw. Aufl. Berlin: Springer S. ISBN Marchionini, G.: Interfaces for end-user information seeking. In: Journal of the American Society for Information Science. 43(1992), S Shneiderman, B.: Designing the user interface: strategies for effective human-computer interaction. 2nd ed. Reading, MA: Addison-Wesley 1992. Bates, M.J.: The design of browsing and berrypicking: techniques for the online search interface. In: Online review. 13(1989) no.5, S Institut für Informationswissenschaft Fachhochschule Köln W. Gödert

Interaktionsmöglichkeiten zur Navigation und Orientierung
• Wechsel zwischen Suchen und Blättern mit Übernahme der Daten • Suchpfade, Suchtabellen, Suchgeschichte Institut für Informationswissenschaft Fachhochschule Köln • Backtracking; Rücksprung auf (beliebigen) vorherigen Punkt des Suchablaufes • Pull-Down-Menues (zur Auswahl von Optionen) • Funktiontasten F1, F2, ... • Tastenkombinationen: ALT-xy, Strg-xy • Icons, Buttons • Hyperlinks W. Gödert

• Montierte Anzeige, ISBD-Format
Ausgabeformen • Kurztitellisten • Kategorienformat • Montierte Anzeige, ISBD-Format • Alphabetisch sortierte Listen Institut für Informationswissenschaft Fachhochschule Köln • Chronologisch sortierte Listen • Gewichtete Sortierung; Relevance Ranking (vgl. Web-Suchmaschinen) Gewichtungskriterien: - tf*idf-Formeln (tf = term frequency; idf = inverse document frequency) - Worthäufigkeit normalisiert auf Dokumentlänge - Vorkommen des Suchwortes in den Metadaten - Links von anderen Dokumenten (z.B. Google) • Highlighting der eingegebenen Suchwörter W. Gödert

Modelle Information Retrieval
des Information Retrieval Institut für Informationswissenschaft Fachhochschule Köln  Boolesches Retrieval  Vektorraummodell  Probabilistisches Retrieval (Unscharfes, Fuzzy-Retrieval)  Invertierte Listen W. Gödert

Vektorraummodell des Information Retrieval
Das Vektorraummodell des Information Retrieval ordnet den Dokumenten und den Fragen jeweils Vektoren zu, die kenntlich machen, welche Merkmale Dokumente bzw. Anfragen aufweisen und berechnet auf der Basis der vorangehend vorgestellten Prinzipien die Ähnlichkeit zwischen diesen Vektoren. Ein großer Vorteil der Methode kann darin gesehen werden, dass ein rechnerisch einfacher Weg vorhanden ist, Gewichtungen und Häufigkeiten – sowohl bei der Dokumentbeschreibung als auch für die Anfragen - in die Ähnlichkeits-bewertung einzubauen. Institut für Informationswissenschaft Fachhochschule Köln W. Gödert

Das Vektorraummodell Fachhochschule Köln
Institut für Informationswissenschaft Fachhochschule Köln Quelle: Henrich, A.: Information Retrieval: Grundlagen, Modelle, Implementierung und Anwendungen. In: /Information_Retrieval.half.pdf. W. Gödert

Fachhochschule Köln Das Vektorraummodell
Die Idee des sog. Vektorraummodells besteht daraus, aus den Eigenschaften (Merkmalen) der Dokumente und der Suchfragen Vektoren in Vektorräumen zu bilden und Übereinstimmungsmaße zu finden, die sich rechnerisch bestimmen lassen. Beispiele in 2 Dimensionen Institut für Informationswissenschaft Fachhochschule Köln Bestimmungsgrößen - Länge - Abstand, Winkel Wie ähnlich sind sich die Vektoren und wie kann man diese Ähnlichkeit rechnerisch bestimmen ? W. Gödert

Ein wenig Vektorrechnung
Vektorraum-modell Ein wenig Vektorrechnung Vektoren sind Elemente in Räumen, die mehr als eine Dimension haben dürfen und haben eine Größe, aber zusätzlich auch eine Richtung, die relativ zu einem Koordinatensystem ausgedrückt wird. Beispiel in 3 Dimensionen z az Institut für Informationswissenschaft Fachhochschule Köln ay y ax Andere Schreibweise: x W. Gödert

2 * Fachhochschule Köln Rechnen mit Vektoren Addition von Vektoren
Vektorraum-modell Rechnen mit Vektoren Addition von Vektoren Institut für Informationswissenschaft Fachhochschule Köln Multiplikation mit einer skalaren Größe (Verlängerung, Verkürzung) 2 * Skalares Produkt von Vektoren W. Gödert

y ay x ax Fachhochschule Köln Länge von ? Betrag von Vektoren
Vektorraum-modell Betrag von Vektoren Beispiel in der Ebene mit rechtwinkligem Koordinatensystem y ay Institut für Informationswissenschaft Fachhochschule Köln Länge von ? x ax Die Lösung ergibt sich aus dem Satz von Pythagoras W. Gödert

Fachhochschule Köln Länge von ? Betrag von Vektoren
Vektorraum-modell Betrag von Vektoren Beispiel im drei-dimensionalen Raum mit rechtwinkligem Koordinatensystem Institut für Informationswissenschaft Fachhochschule Köln Länge von ? Die Lösung ergibt sich aus einer allgemeineren Form des Satzes von Pythagoras oder allgemein für einen n-dimensionalen Vektorraum W. Gödert

Das Skalarprodukt von Vektoren
Vektorraum-modell Das Skalarprodukt von Vektoren Geometrische Deutung Das skalare Produkt zweier Vektoren und ist gleich dem Produkt aus: dem Betrag des Vektors und dem Betrag der Projektion von auf Institut für Informationswissenschaft Fachhochschule Köln a Das Skalarprodukt bietet sich als Messgröße an, die sowohl eine Aussage über die Länge (den Betrag) der Vektoren macht als auch über deren Lage zueinander. W. Gödert

Das Skalarprodukt von Vektoren
Vektorraum-modell Das Skalarprodukt von Vektoren Beispiele zur Verbindung der Intuition von Übereinstimmung mit dem rechnerischen Wert aus dem Skalarprodukt: 1. = , Winkel a klein Intuition: Hohe Übereinstimmung Im Grenzfall a = 0o, cos 0o = 1 Institut für Informationswissenschaft Fachhochschule Köln 2. = , Winkel a = 45o Intuition: Weniger Übereinstimmung 3. = , Winkel a = 90o Intuition: Keine Übereinstimmung cos 90o = 0 ! W. Gödert

Höherdimensionale Vektorräume
Vektorraum-modell Höherdimensionale Vektorräume Wie überträgt man dieses Berechnungsverfahren auf Vektorräume höherer Dimensionen? Die komponentenweise Multiplikation von Vektoren macht dabei keine prinzipiellen Probleme. Entwickelt werden muss ein Verständnis des cos zweier Vektoren in einem höherdimensionalen Raum z Institut für Informationswissenschaft Fachhochschule Köln az bz a ay by y bx ax x W. Gödert

Vektorraum-modell In der Ebene gilt der Cosinussatz (verallgemeinerter Pythagoras): oder b a a q c-q c Kontrolle für rechtwinklige Dreiecke: Institut für Informationswissenschaft Fachhochschule Köln Übertragen in die Vektorschreibweise ergibt sich: In höheren Dimensionen müssen die Komponenten aller Dimensionen berücksichtigt werden, daher allgemein: W. Gödert

Das Vektorraummodell des Information Retrieval ordnet den Dokumenten und den Fragen jeweils Vektoren zu, die kenntlich machen, welche Merkmale Dokumente bzw. Anfragen aufweisen. Ziel ist es, auf dieser Basis Aussagen über die Ähnlichkeit der Vektoren und damit der Ähnlichkeit zwischen den Dokumenten bzw. den Dokumenten und den Suchanfragen zu machen. Die Feststellung der Ähnlichkeit wird auf der Basis einer Bewertungsfunktion vorgenommen, die numerische Ergebnisse hervorbringt. Ein großer Vorteil der Methode kann darin gesehen werden, dass ein rechnerisch einfacher Weg eröffnet wird, Gewichtungen und Häufigkeiten – sowohl bei der Dokumentbeschreibung als auch für die Anfragen - in die Funktion zur Ähnlichkeitsbewertung einzubauen. Institut für Informationswissenschaft Fachhochschule Köln W. Gödert

Bestimmung der Ähnlichkeit zwischen Dokumenten: Ein Beispiel
TI: Aquajogging als Allheilmittel DE: Aquajogging ; Ausdauersport ; Ausdauersportart ; Ausdauertraining ; Bewegungsvariation ; Laufstil ; Rehabilitatives Training; Trainingsgestaltung ; Trainingswissenschaft Dok 2 TI: Eigene sportliche Ziele suchen und verwirklichen DE: Ausdauertraining ; Körperliches Training ; Krafttraining ; Motivation ; Selbstverantwortung ; Sportpädagogik ; Sportunterricht ; Trainingsgestaltung ; Trainingsplan Dok 3 TI: Atemlos? Aktiv werden! : "Lungensport" für COPD-Patienten DE: Atemwegswiderstand ; Ausdauertraining ; Körperliche Belastbarkeit ; Körperliches Training ; Krafttraining ; Lungenerkrankung ; Lungenfunktion ; Rehabilitationssport ; Sportmedizin; Trainingsgestaltung Dok 4 TI: "Wie lange haben wir heute gebraucht?" : Oberstufenschüler planen und absolvieren in Gruppen ihr eigenes Ausdauertraining und dokumentieren den Verlauf in einem Lauftagebuch DE: Ausdauertraining ; Körperliches Training ; Laufen ; Schulsport ; Sekundarstufe II ; Sportunterricht ; Unterrichtsgestaltung Welches Dokument ist welchem (mehr) ähnlich ?

Bestimmung der Ähnlichkeit zwischen Dokumenten: Ein Beispiel
TI: Aquajogging als Allheilmittel DE: Aquajogging ; Ausdauersport ; Ausdauersportart ; Ausdauertraining ; Bewegungsvariation ; Laufstil ; Rehabilitatives Training; Trainingsgestaltung ; Trainingswissenschaft Dok 2 TI: Eigene sportliche Ziele suchen und verwirklichen DE: Ausdauertraining ; Körperliches Training ; Krafttraining ; Motivation ; Selbstverantwortung ; Sportpädagogik ; Sportunterricht ; Trainingsgestaltung ; Trainingsplan Dok 3 TI: Atemlos? Aktiv werden! : "Lungensport" für COPD-Patienten DE: Atemwegswiderstand ; Ausdauertraining ; Körperliche Belastbarkeit ; Körperliches Training ; Krafttraining ; Lungenerkrankung ; Lungenfunktion ; Rehabilitationssport ; Sportmedizin; Trainingsgestaltung Dok 4 TI: "Wie lange haben wir heute gebraucht?" : Oberstufenschüler planen und absolvieren in Gruppen ihr eigenes Ausdauertraining und dokumentieren den Verlauf in einem Lauftagebuch DE: Ausdauertraining ; Körperliches Training ; Laufen ; Schulsport ; Sekundarstufe II ; Sportunterricht ; Unterrichtsgestaltung Ähnlichkeit auf der Grundlage gemeinsam vorhandener Deskriptoren ?

Vektorraummodel: Berechnung der Ähnlichkeit
Dokument- /Deskriptor-Matrix - Vektorraum Dokument Aquajogging Atemwegswiderstand Ausdauersport Ausdauersportart Ausdauertraining Bewegungsvariation Körperliche Belastbarkeit Körperliches Training Krafttraining Laufen Laufstil Lungenerkrankung Lungenfunktion Motivation Rehabilitationssport Rehabilitatives Training Schulsport Sekundarstufe II Selbstverantwortung Sportmedizin Sportpädagogik Sportunterricht Trainingsgestaltung Trainingsplan Trainingswissenschaft Unterrichtsgestaltung 1 2 3 4 Zur Berechnung der Ähnlichkeit verwenden wir ein Vereinfachtes Skalarprodukt: n = Zahl der Deskriptoren Der Faktor 1/n wird verwendet, um das Ergebnis auf das Intervall [0,1] zu begrenzen.

Dokument- /Deskriptor-Matrix - Vektorraum Dokument Aquajogging Atemwegswiderstand Ausdauersport Ausdauersportart Ausdauertraining Bewegungsvariation Körperliche Belastbarkeit Körperliches Training Krafttraining Laufen Laufstil Lungenerkrankung Lungenfunktion Motivation Rehabilitationssport Rehabilitatives Training Schulsport Sekundarstufe II Selbstverantwortung Sportmedizin Sportpädagogik Sportunterricht Trainingsgestaltung Trainingsplan Trainingswissenschaft Unterrichtsgestaltung 1 2 3 4 Vergleich Dokument 1 mit Dokument 2: Vereinfachtes Skalarprodukt:

Größte Ähnlichkeit Gesamtergebnis:
Dok 2 TI: Eigene sportliche Ziele suchen und verwirklichen DE: Ausdauertraining ; Körperliches Training ; Krafttraining ; Motivation ; Selbstverantwortung ; Sportpädagogik ; Sportunterricht ; Trainingsgestaltung ; Trainingsplan Dok 3 TI: Atemlos? Aktiv werden! : "Lungensport" für COPD-Patienten DE: Atemwegswiderstand ; Ausdauertraining ; Körperliche Belastbarkeit ; Körperliches Training ; Krafttraining ; Lungenerkrankung ; Lungenfunktion ; Rehabilitationssport ; Sportmedizin; Trainingsgestaltung Die absoluten Werte dürfen nicht überbewertet werden. Werte nahe bei 1 sind für reale Dokument- und Deskriptor-Kollektionen unrealistisch, da keinem Dokument alle insgesamt vorhandenen Deskriptoren zugeteilt werden. Wichtiger ist die Herstellung einer Reihenfolge.

Berechnung der Ähnlichkeit zwischen Dokumenten und Anfragen
Dokument- /Deskriptor-Matrix - Vektorraum Dokument Aquajogging Atemwegswiderstand Ausdauersport Ausdauersportart Ausdauertraining Bewegungsvariation Körperliche Belastbarkeit Körperliches Training Krafttraining Laufen Laufstil Lungenerkrankung Lungenfunktion Motivation Rehabilitationssport Rehabilitatives Training Schulsport Sekundarstufe II Selbstverantwortung Sportmedizin Sportpädagogik Sportunterricht Trainingsgestaltung Trainingsplan Trainingswissenschaft Unterrichtsgestaltung 1 2 3 4 Suchanfrage: Laufen ; Körperliches Training ; Ausdauertraining ; Schulsport ; Sportunterricht ; Unterrichtsgestaltung ; Sekundarstufe II Anfragevektor: A 1

Berechnung der Ähnlichkeit zwischen Dokumenten und Anfragen
Dokument- /Deskriptor-Matrix - Vektorraum Dokument Aquajogging Atemwegswiderstand Ausdauersport Ausdauersportart Ausdauertraining Bewegungsvariation Körperliche Belastbarkeit Körperliches Training Krafttraining Laufen Laufstil Lungenerkrankung Lungenfunktion Motivation Rehabilitationssport Rehabilitatives Training Schulsport Sekundarstufe II Selbstverantwortung Sportmedizin Sportpädagogik Sportunterricht Trainingsgestaltung Trainingsplan Trainingswissenschaft Unterrichtsgestaltung 1 2 3 4 Anfragevektor: A 1

Zahl der Übereinstimmungen
Ergebnis für alle Dokumente: Zahl der Übereinstimmungen Größte Ähnlichkeit Suchanfrage: Laufen ; Körperliches Training ; Ausdauertraining ; Schulsport ; Sportunterricht ; Unterrichtsgestaltung ; Sekundarstufe II Dok 4 TI: "Wie lange haben wir heute gebraucht?" : Oberstufenschüler planen und absolvieren in Gruppen ihr eigenes Ausdauertraining und dokumentieren den Verlauf in einem Lauftagebuch DE: Ausdauertraining ; Körperliches Training ; Laufen ; Schulsport ; Sekundarstufe II ; Sportunterricht ; Unterrichtsgestaltung

Bewertung Kein Dokument erfüllt alle Kriterien der Suchanfrage
-> Ein Boolesches Retrieval nach allen Kriterien hätte kein Dokument als Ergebnis erbracht Durch die rechnerische Bestimmung der Ähnlichkeit wird in jedem Fall ein Suchergebnis erzeugt (unscharfe Suchen, Ranking) Alle Dokumente sind durch zusätzliche Kriterien charakterisiert, die für die Suchanfrage vielleicht nicht relevant sind Eine Verfeinerung der Berechnung ist möglich durch Gewichtungen bei den Deskriptoren Gewichtungen bei den Merkmalen der Suchanfrage Verbindung zu wortstatistischen Analysen, in die dann auch Wortmaterial aus anderen Quellkategorien einbezogen werden kann (Häufigkeit -> Gewichtung); Zusammenhang zu Verfahren des Automatischen Indexierens

Gewichtungen bei den Deskriptoren
Bestimmung der Ähnlichkeit zwischen Dokumenten Beispiel mit Gewichtungen Gewichtungen bei den Deskriptoren Gewichtungen bei den Merkmalen der Suchanfrage

Bestimmung der Ähnlichkeit zwischen Dokumenten: Beispiel mit Gewichtungen
TI: Aquajogging als Allheilmittel DE: Aquajogging (5) ; Ausdauersport ; Ausdauersportart ; Ausdauertraining (2); Bewegungsvariation ; Laufstil ; Rehabilitatives Training (3); Trainingsgestaltung (3) ; Trainingswissenschaft Dok 2 TI: Eigene sportliche Ziele suchen und verwirklichen DE: Ausdauertraining (3); Körperliches Training (2); Krafttraining ; Motivation (2) ; Selbstverantwortung (2); Sportpädagogik ; Sportunterricht ; Trainingsgestaltung (3); Trainingsplan (2) Dok 3 TI: Atemlos? Aktiv werden! : "Lungensport" für COPD-Patienten DE: Atemwegswiderstand (2) ; Ausdauertraining (3); Körperliche Belastbarkeit ; Körperliches Training (2); Krafttraining ; Lungenerkrankung (3); Lungenfunktion (2); Rehabilitationssport (3); Sportmedizin; Trainingsgestaltung Dok 4 TI: "Wie lange haben wir heute gebraucht?" : Oberstufenschüler planen und absolvieren in Gruppen ihr eigenes Ausdauertraining und dokumentieren den Verlauf in einem Lauftagebuch DE: Ausdauertraining (3); Körperliches Training ; Laufen (3); Schulsport (3); Sekundarstufe II (5); Sportunterricht ; Unterrichtsgestaltung (2) Welches Dokument ist welchem (mehr) ähnlich, wenn man die Gewichtungen berücksichtigt ?

Vektorraummodel: Berechnung der Ähnlichkeit für gewichtete Deskriptoren
Dokument- /Deskriptor-Matrix - Vektorraum mit gewichteten Deskriptoren Dokument Aquajogging Atemwegswiderstand Ausdauersport Ausdauersportart Ausdauertraining Bewegungsvariation Körperliche Belastbarkeit Körperliches Training Krafttraining Laufen Laufstil Lungenerkrankung Lungenfunktion Motivation Rehabilitationssport Rehabilitatives Training Schulsport Sekundarstufe II Selbstverantwortung Sportmedizin Sportpädagogik Sportunterricht Trainingsgestaltung Trainingsplan Trainingswissenschaft Unterrichtsgestaltung 1 5 2 3 4 Zur Berechnung der Ähnlichkeit verwenden wir das vereinfachte Skalarprodukt mit Berücksichtung der den Deskriptoren zugeteilten Gewichte und dem Maximum der Zeilensummen:

Vektorraummodel: Berechnung der Ähnlichkeit für gewichtete Deskriptoren
Dokument- /Deskriptor-Matrix - Vektorraum Dokument Aquajogging Atemwegswiderstand Ausdauersport Ausdauersportart Ausdauertraining Bewegungsvariation Körperliche Belastbarkeit Körperliches Training Krafttraining Laufen Laufstil Lungenerkrankung Lungenfunktion Motivation Rehabilitationssport Rehabilitatives Training Schulsport Sekundarstufe II Selbstverantwortung Sportmedizin Sportpädagogik Sportunterricht Trainingsgestaltung Trainingsplan Trainingswissenschaft Unterrichtsgestaltung Zeilensumme 1 5 2 3 18 17 19 4 16 n = Zahl der Deskriptoren m = Zahl der Dokumente Im Beispiel: n = 26, m = 4, M = 19

Berechnung der Dokumenten-Ähnlichkeit mit gewichteten Deskriptoren
n = 26, m = 4, M = 19 Berechnung der Ähnlichkeit zwischen Dokument 1 und Dokument 2 1 5 2 3 Berechnung der Ähnlichkeit zwischen Dokument 2 und Dokument 3 2 3 1

Entsprechend berechnet man die Ähnlichkeit zwischen den weiteren Dokumenten und erhält als Rangfolge: 2 5 6 1 3 4 Zum Vergleich die ungewichteten Ähnlichkeiten: 3 6 1 2 Wie schon bei der Berechnung der einzelnen Ähnlichkeiten, bleibt es eine Frage der Interpretation, ob man die veränderte Reihenfolge aus inhaltlichen Gründen gerechtfertigt findet oder nicht.

Berechnung der Ähnlichkeit zwischen Dokumenten und Suchanfrage für gewichtete Deskriptoren und gewichtete Suchanfragen Dokument Aquajogging Atemwegswiderstand Ausdauersport Ausdauersportart Ausdauertraining Bewegungsvariation Körperliche Belastbarkeit Körperliches Training Krafttraining Laufen Laufstil Lungenerkrankung Lungenfunktion Motivation Rehabilitationssport Rehabilitatives Training Schulsport Sekundarstufe II Selbstverantwortung Sportmedizin Sportpädagogik Sportunterricht Trainingsgestaltung Trainingsplan Trainingswissenschaft Unterrichtsgestaltung Zeilensumme 1 5 2 3 18 17 19 4 16 Neuer Anfragevektor A 2 5 1 3 20 Verbalisiert: Ausdauertraining (2) ; Körperliches Traing (5) ; Krafttraining ; Laufen ; Rehabilitatives Training (3) ; Sportmedizin (2) ; Trainingsplan (3)

Berechnung der Dokumenten-Suchanfrage-Ähnlichkeit mit gewichteten Deskriptoren
n = Zahl der Deskriptoren m = Zahl der Dokumente Im Beispiel: n = 26, m = 4, M = 20 4 1 2 3

Errechnetes Ranking der Dokumente für die Anfrage:
Ausdauertraining (2) ; Körperliches Traing (5) ; Krafttraining ; Laufen ; Rehabilitatives Training (3) ; Sportmedizin (2) ; Trainingsplan (3) Dok 2 TI: Eigene sportliche Ziele suchen und verwirklichen DE: Ausdauertraining (3); Körperliches Training (2); Krafttraining ; Motivation (2) ; Selbstverantwortung (2); Sportpädagogik ; Sportunterricht ; Trainingsgestaltung (3); Trainingsplan (2) 1 Dok 3 TI: Atemlos? Aktiv werden! : "Lungensport" für COPD-Patienten DE: Atemwegswiderstand (2) ; Ausdauertraining (3); Körperliche Belastbarkeit ; Körperliches Training (2); Krafttraining ; Lungenerkrankung (3); Lungenfunktion (2); Rehabilitationssport (3); Sportmedizin; Trainingsgestaltung 2 Dok 4 TI: "Wie lange haben wir heute gebraucht?" : Oberstufenschüler planen und absolvieren in Gruppen ihr eigenes Ausdauertraining und dokumentieren den Verlauf in einem Lauftagebuch DE: Ausdauertraining (3); Körperliches Training ; Laufen (3); Schulsport (3); Sekundarstufe II (5); Sportunterricht ; Unterrichtsgestaltung (2) 3 Dok 1 TI: Aquajogging als Allheilmittel DE: Aquajogging (5) ; Ausdauersport ; Ausdauersportart ; Ausdauertraining (2); Bewegungsvariation ; Laufstil ; Rehabilitatives Training (3); Trainingsgestaltung (3) ; Trainingswissenschaft 4

Das formale Modell Sei T={t1,...,tn} eine endliche Menge von Termen und D={d1,...,dm} eine Menge von Dokumenten. Für jedes Dokument diÎD sei zu jedem Term tkÎT ein Gewicht wi,kÎR gegeben. Die Gewichte des Dokuments di lassen sich zu einem Vektor wi=(wi,1,...,wi,n )Î Rn zusammenfassen. Dieser Vektor beschreibt das Dokument im Vektorraummodell: Er ist seine Repräsentation und wird Dokumentvektor genannt. Auch Anfragen (Queries ) werden durch Vektoren qÎRn repräsentiert. Wie bei der Repräsentation der Dokumente wird die Anfrage durch eine Menge gewichteter Terme dargestellt. Der Vektor der Gewichte wird Anfragevektor oder Query-Vektor genannt. Schließlich sei eine Ähnlichkeitsfunktion s:Rn×Rn ->R definiert, mit der jedem Paar aus zwei Vektoren x,yÎRn ein reeller Ähnlichkeitswert s(x,y) zugewiesen wird. Institut für Informationswissenschaft Fachhochschule Köln Vgl. Ferber, Kap , S.62 W. Gödert

Beispiel für eine Dokument / Index-Term-Matrix
Vektorraum-modell Beispiel für eine Dokument / Index-Term-Matrix Institut für Informationswissenschaft Fachhochschule Köln W. Gödert

Fachhochschule Köln Vorgehensweise
Vektorraum-modell Vorgehensweise • Die (Index-)Terme eines Dokuments werden jeweils als Koordinaten einer Matrix aufgefasst • Die Dokumente werden ebenfalls als Koordinaten der Matrix aufgefasst • Die Index-Terme werden (intellektuell oder auf der Basis von Häufigkeiten) gewichtet und ergeben für das einzelne Dokument einen Punkt im Vektorraum (den Dokumentvektor) • Die Terme der Suchfragen im Retrieval ergeben (ggf. auch gewichtet) ebenfalls (den Abfragevektor) • Mit einer Ähnlichkeitsfunktion wird der Abstand zwischen den Dokumentvektoren und dem Abfragevektor berechnet. Die Relevanz eines Dokuments für eine Anfrage ergibt sich aus dem Abstand zwischen dem Abfragevektor und dem Dokumentvektor – großer Abstand, wenig Relevanz, geringer Abstand, höhere Relevanz Institut für Informationswissenschaft Fachhochschule Köln W. Gödert

Fachhochschule Köln Beispiel
Vektorraum-modell Beispiel Gegeben sei die folgende Dokument-Term-Matrix: Institut für Informationswissenschaft Fachhochschule Köln W. Gödert

Fachhochschule Köln Beispiel
Vektorraum-modell Beispiel Mit Gewichtsfaktoren bekommt die Matrix die Gestalt: Institut für Informationswissenschaft Fachhochschule Köln Der Anfragevektor habe die Gestalt (mit Gewichtung der Terme): W. Gödert

wi Fachhochschule Köln Beispiel
Vektorraum-modell Beispiel Dann berechnet sich die Relevanz der Dokumente unter Benutzung des vereinfachten Skalaprodukts Institut für Informationswissenschaft Fachhochschule Köln wi Aus den wi kann eine Rangfolge der Dokumente erstellt werden W. Gödert

Vektorraum-modell: SMART
Die Entwicklung des Vektorraummodells ist eng verknüpft mit dem experimentellen Information Retrieval System SMART (System for the Mechanical Analysis and Retrieval of Text), das von Gerard Salton 1965 an der Cornell University begonnen wurde (daher aus der Name: Salton's Magic Automatic Retrieval Technique). Institut für Informationswissenschaft Fachhochschule Köln Bei SMART handelt es sich nicht nur um ein einzelnes System, sondern um eine Experimentierumgebung, in der eine Vielzahl von Verfahren und Algorithmen getestet wurden. Gerard Salton Komponenten automatische Indexierung Berechnung von Dokument-Clustern und ihrer Zentroide automatische Query-Analyse und Relevance-Feedback-Komponente Dynamisierung des Dokumentenraums Zur Geschichte des Information Retrieval, vgl.: W. Gödert

Eine weitere Verfeinerung der bisherigen Vorgehensweise kann durch Verwendung anderer Ähnlichkeitsmaße erreicht werden. Dieser Möglichkeit wird im Rahmen der theoretischen und konzeptionellen Beschäftigung mit Information Retrieval Systemen große Aufmerksamkeit geschenkt. Ein häufig eingeschlagener Weg ist die Verknüpfung des Skalarprodukts für gewichtete Deskriptor- und Anfragevektoren mit empirisch Zusammenhängen über Worthäufigkeiten. Besondere Bedeutung hat hierbei das sog. Zipfsche Gesetz, das als Ausgangspunkt vieler wortstatistischer Verfahren im Rahmen der Computerlinguistik benutzt wird.

Statistische Verfahren des Automatischen Indexierens
Quantitative Gesetze Statistische Verfahren des Automatischen Indexierens Quantitative Aussagen zu Worthäufigkeiten Institut für Informationswissenschaft Fachhochschule Köln  Zipfsches Gesetz  Güte von Suchwörtern  Ranking-Methoden und -Algorithmen W. Gödert

Schwächen Boolesches Retrieval
Schwächen des Booleschen Retrieval  Exakte Vorhersage einer Wortform erforderlich  Keine Rückführung der Wörter auf eine Grundform  Relativ aufwändige Formulierung der Anfrage  Keine Gewichtung der Wörter - nach dem Ort des Vorkommens - nach der Häufigkeit des Vorkommens  Keine Zerlegung von Komposita, die Bedeutungskomponenten enthalten, die auch über selbstständige Wörter repräsentiert werden können  Kaum vorhersehbare Ergebnisgröße  Kein Ranking der Dokumente: Die Ergebnismenge ist unstrukturiert Institut für Informationswissenschaft Fachhochschule Köln Kompensationsmaßnahme -> Relevance Ranking Im Vordergrund der Betrachtung soll zunächst Ranking stehen, die Betrachtung von Relevanz folgt später W. Gödert

Fachhochschule Köln “Güte” von Wörtern für das Retrieval
Wortgüte “Güte” von Wörtern für das Retrieval Faktoren für die Bestimmung der Güte l Qualitative Faktoren - Wörter sind Ergebnis eines intellektuellen Entscheidungs- und Zuteilungsprozesses - Die Wörter sind eindeutig und besitzen eine hohe Aussagekraft, die gemeinte Bedeutung zu repräsentieren - Wiedergabetreue - Vorhersagbarkeit - Individualnamen vs. Allgemeinbegriffe Diese Kriterien lassen sich für die Bewertung der Ergebnisse eines Findeprozesses nutzen, nicht aber für die Bewertung des technischen Such- und Findevorgangs. Eine Berücksichtigung in einem Algorithmus ist nur möglich, wenn eine entsprechende Kennzeichnung der Wörter (Kategorien, Flagging, o.ä.) vorgenommen wurde. Institut für Informationswissenschaft Fachhochschule Köln W. Gödert

Fachhochschule Köln - Sehr selten vorkommende Wörter
Wortgüte l Quantitative Faktoren; Häufigkeiten - Sehr selten vorkommende Wörter Unterliegen der Idiosynkrasie-Vermutung - Sehr häufig vorkommende Wörter Extremfall: Ein Wort kommt in allen Dokumenten vor und liefert dementsprechend bei einer Recherche die gesamte Datenbank als Treffermenge - Stoppwörter Werden gern als Problem gesehen, obwohl sie es technisch nicht mehr sind Intuition: Ein Wort ist gut für einen Such- und Findeprozess, wenn es im Dokument häufiger, in der Dokumentkollektion aber nicht so häufig vorkommt Institut für Informationswissenschaft Fachhochschule Köln Hypothese Zwischen der Häufigkeit von Wörtern und ihrer Güte für das Retrieval gibt es einen Zusammenhang, der algorithmisierbar ist. Dementsprechend interessiert man sich für Befunde, die etwas über die Verteilung von Wörtern in Texten aussagen. W. Gödert

Zipfsches Gesetz Fachhochschule Köln Ausgangssituation
Analysiert man Text auf die Frage hin, wie die Häufigkeitsverteilung der Wörter aussieht, so stellt man fest: Einige Wörter kommen sehr häufig vor: – Die beiden häufigsten Wörter können mehr als 10% aller Vorkommen stellen, – die sechs häufigsten mehr als 20% und die 50 häufigsten 50 %. Institut für Informationswissenschaft Fachhochschule Köln Das Zipfsche Gesetz beschreibt diese Beobachtung und besagt, dass häufige Wörter viel häufiger auftreten als seltene und die Verteilung einer Hyperbel 1/n ähnelt. Der Ordnungsparameter Rang n lässt sich als kumulative Größe beschreiben: der Rang n ist gleichbedeutend mit der Anzahl aller Elemente, die genauso groß oder größer sind als n. Für Rang 1 gibt es genau ein Element, nämlich das größte. Für Rang 2 sind es zwei, nämlich das erste und das zweite Element, für 3 drei und so fort. W. Gödert

Beispiel Fachhochschule Köln Rang Wort rel. Häuf. Zipfsche Häufigkeit
Zipfsches Gesetz Beispiel Rang Wort rel. Häuf. Zipfsche Häufigkeit 1 UND DIE DER IN WIR ZU FÜR SIE VON DEN DES IST EINE NICHT Institut für Informationswissenschaft Fachhochschule Köln Verteilung der 14 häufigsten Worte in einem deutschen Text mit Vergleich der empirisch ermittelten und der durch das Zipfsche Gesetz vorhergesagten Häufigkeitsverteilung W. Gödert

Weitere Beispiele Fachhochschule Köln
Zipfsches Gesetz Weitere Beispiele Institut für Informationswissenschaft Fachhochschule Köln Vergleich: Empirischer Befund – Vorhersage Zipfsches Gesetz W. Gödert

Weitere Beispiele Fachhochschule Köln
Zipfsches Gesetz Weitere Beispiele Beispiel für die Verteilung der Worthäufigkeiten aus einem englischen Textkorpus In der dritten Spalte steht das Produkt aus Rang und Häufigkeit (Anzahl) dividiert durch Min: Max: Mittel: Institut für Informationswissenschaft Fachhochschule Köln W. Gödert

Zipfsches Gesetz Fachhochschule Köln George Kingsley Zipf (1902 -1950)
Das eigentliche “Gesetz” für Wörter eines Textkorpus Für einen repräsentativen Textkorpus C bezeichne - W(C) die Menge der Wörter, die in C vorkommen, - h(w) die Häufigkeit, mit der das Wort w Î W(C) in dem Korpus vorkommt. r(w) bezeichne den Rangplatz von w Î W(C), wenn die Wörter nach abfallender Häufigkeit sortiert werden. Dann gilt: r(w) h(w) » c = konstant für alle w Î W(C) Institut für Informationswissenschaft Fachhochschule Köln Bei diesem “Gesetz” handelt es sich um eine empirische Beobachtung, nicht um eine Aussage, die logisch abgeleitet werden kann. Die Aussage des Gesetzes ist eine der wichtigen Prämissen, um für die Gestaltung von Ranking-Verfahren eine Verbindung zwischen der Häufigkeit von Wörtern und ihrer Wichtigkeit herstellen zu können. W. Gödert

Informetrie Exkurs: Vergleichbare Studien hat man auch für andere Zusammenhänge durchgeführt, z.B. für: l Produktivität von Autoren l Zitationsverteilungen l Verteilung wichtiger Artikel auf Zeitschriften Intensiver beschäftigt sich mit solchen Fragestellungen die sog. Informetrie (auch Bibliometrie, Scientometrie oder neuerdings Webometrie): Einsatz quantitativer (meist statistischer) Verfahren, um Gesetzmäßig-keiten aufzudecken, die Erkenntnisse über noch unbekannt Zusammen-hänge vermitteln oder in Bibliotheken bzw. Informationseinrichtungen zur Unterstützung von Entscheidungen herangezogen werden können. Vgl.: Skript „Empirische Informationswissenschaft” (W.G. Stock) unter: Anzahl Autoren Institut für Informationswissenschaft Fachhochschule Köln Anzahl Publikationen W. Gödert

Fachhochschule Köln Weitere Verteilungsgesetze Bradfords Gesetz
Bradford-Gesetz Weitere Verteilungsgesetze Bradfords Gesetz Nach Bradfords Gesetz finden sich die gleiche Anzahl von Aufsätzen über ein festgelegtes Thema verteilt in jeweils in Gruppen von n0, n1, n2 etc. verschiedene Zeitschriften, wobei der Parameter n je nach Fachgebiet und Thema verschieden sein kann. Der Parameter n entspricht dem Verhältnis der Anzahl von Zeitschriften zwischen zwei aufeinander folgenden Gruppen. Aus Bradfords Gesetz ergibt sich die Einteilung in Kernzeit-schriften, verwandten Zeitschriften und restlichen Zeitschriften für jedes Forschungsgebiet. Bradfords Gesetz wurde 1948 von Brian C. Vickery unter der Bezeichnung Bradford's Law of Scattering mathematisch formuliert und stellt ein Potenzgesetz (1 : n : n2 : n3 : ...) dar, das auch auf andere Bereiche beispielsweise Webseiten und Sozialsysteme übertragen werden kann. Samuel Clement Bradford ( ) Institut für Informationswissenschaft Fachhochschule Köln Wenn es beispielsweise in einem Fachgebiet 4 Kernzeitschriften gibt, die in einem bestimmten Zeitraum 10 relevante Artikel veröffentlichen und im selben Zeitraum 10 weitere Artikel in 12 anderen Zeitschriften stehen, dann beträgt der Faktor für das Fachgebiet n = 12 / 4 = 3. Für 10 weitere relevante Artikel müssen jeweils n mal mehr Zeitschriften durchsucht werden, also 4, 12, 36, Außerdem kann es vorkommen, dass weitere relevante Artikel vorhanden sind, allerdings mit stark abfallender Wahrscheinlichkeit. W. Gödert

Fachhochschule Köln Lotkas Gesetz Alfred R. Lotka (1880 – 1949)
Lotka-Gesetz Lotkas Gesetz Alfred R. Lotka (1880 – 1949) Vorgegeben sei ein Fachgebiet mit umfassender Liste der Publikationen zum Fachgebiet (Bibliographie, Spezialdatenbank). Es werden die Publikationsraten für alle Autoren ausgezählt, die Autoren nach der Anzahl der Publikationen sortiert und die Zahl der Autoren mit gleichviel Publikationen ermittelt. Dann gilt: xn * y = c oder y = c / xn Dabei ist: x = Anzahl der Publikationen y = relative Häufigkeit der Autoren mit x Publikationen n, c = Konstanten (je nach Fachgebiet) [Im Allgemeinen: n ~ 2] Institut für Informationswissenschaft Fachhochschule Köln Beispiel Die Anzahl der Personen, die n Aufsätze schreiben, ist proportional zu 1/n2. Auf je 100 Autoren, die in einem bestimmten Zeitraum nur einen Aufsatz verfassen, kommen 25 mit zwei, 11 mit drei, und so weiter. Stellt man es ein wenig anders dar, indem man die Ergebnisse kumuliert, so erreicht man eine Integration, die näherungsweise ein Gesetz mit n1 im Nenner für die Zahl der Personen gibt, die mehr als n Aufsätze produzieren; demnach schreibt etwa einer von fünf Autoren fünf oder mehr Aufsätze, und einer von zehn bringt es auf wenigstens zehn Titel. W. Gödert

Þ Fachhochschule Köln Lotkas Gesetz Beispiel
Lotka-Gesetz Lotkas Gesetz Beispiel “Journal of Finance”, ; insgesamt Artikel) 1.237 Autoren (67,1%) produzierten je 1 Artikel 295 Autoren (16,0%) produzierten je 2 Artikel 140 Autoren (7,6%) produzierten je 3 Artikel 63 Autoren (3,4%) produzierten je 4 Artikel 41 Autoren (2,2%) produzierten je 5 Artikel Institut für Informationswissenschaft Fachhochschule Köln Nach Lotkas Gesetz errechnet sich: (1 * 1) * 0,671 = 0,671 (2 * 2) * 0,160 = 0,640 (3 * 3) * 0,076 = 0,684 (4 * 4) * 0,034 = 0,544 (5 * 5) * 0,022 = 0,550 Þ c ~ 0,6 Nach: Keenan, M.: Report on the 1987 membership survey. In: Journal of finance 43 (1988), W. Gödert

Fachhochschule Köln Lotkas Gesetz Kreise: Empirische Daten Linie:
Lotka-Gesetz Lotkas Gesetz Kreise: Empirische Daten Linie: Nach Lotkas Gesetz erwartet Reduktion der Daten auf genau 100 Autoren, die 1 Aufsatz publiziert haben (n = 2) Institut für Informationswissenschaft Fachhochschule Köln Nach: Solla Price, D. de: Little science, big science: Von der Studierstube zur Großforschung. Frankfurt: Suhrkamp S. ISBN (Suhrkamp Taschenbuch Wissenschaft; 48) W. Gödert

Das Verfahren AIR/PHYS
Zur Erinnerung Ein Wort ist ein guter Indexterm, wenn es nach einem vorgegebenen statistischen Berechnungsverfahren für eine Dokumentkollektion über einem festgesetzten Schwellwert liegt. Das Verfahren Als Umgebung dient die Fachdatenbank PHYS (inzw. Bestandteil von INSPEC) mit englischsprachiger (!) Erschließung durch normiertes Vokabular (Deskriptoren) und Abstracts. Ziel von AIR/PHYS Automatische Indexierung der Dokumente mit Deskriptoren des PHYS-Thesaurus Institut für Informationswissenschaft Fachhochschule Köln Lit.: Lustig, G. (Hrsg.): Automatische Indexierung zwischen Forschung und Anwendung. Hildesheim: Olms XIII,182 S. ISBN (Linguistische Datenverarbeitung; Bd.5) W. Gödert

Fachhochschule Köln Realisierung
AIR/PHYS Realisierung 1. Statistische Auswertung der intellektuell erschlossenen Dokumente bei besonderer Berücksichtigung der Beziehung z: mit: h(t,s) = Anzahl der Dokumente, in denen Term t vorkommt und Deskriptor s vergeben wurde, f(t) = Anzahl der Dokumente, in denen Tem t vorkommt. z ist damit ein Maß für die Wahrscheinlichkeit, mit der ein Deskriptor einem Dokument (intellektuell) zugeteilt ist, wenn Term t im Dokument vorhanden ist. 2. (Automatischer) Aufbau eines Indexierungswörterbuchs unter Ausnutzung der Gewichte aus 1., echter Thesaurusrelationen (Synonym) und Deskriptor-Deskriptor-Relationen als gewichtetes Maß für das gemeinsame Auftreten von Deskriptoren 3. Automatische Indexierung in zwei Phasen - Rohindexierung mit regel-und lexikonbasierter Textanalyse und statistischer Relationierung - Abgestimmte Indexierung unter Einbeziehung von Deskriptor- Deskriptor-Relationen Institut für Informationswissenschaft Fachhochschule Köln W. Gödert

Fachhochschule Köln Pilotanwendung AIR/PHYS im FIZ Karlsruhe
● Wörterbuchaufbau auf der Basis von intellektuell erschlossenen Dokumenten Deskriptoren Wörter statistische Regeln mit z > 0,3 Synonym-Relationen Deskriptor-Deskriptor-Relationen • Erschließung von Dokumenten / Monat • Zuteilung von im Schnitt 12 Deskriptoren je Dokument • intellektuelle Nachbearbeitung mit durchschnittlich einem Drittel Korrekturbedarf, d.h. semi-automatisches Verfahren Institut für Informationswissenschaft Fachhochschule Köln W. Gödert

Fachhochschule Köln Ergebnisse der AIR/PHYS-Indexierung
● Retrievaltest mit Dokumenten und 300 (Original-)Fragen Automatische Indexierung Intellektuelle Indexierung Precision: < Recall: > ● Intellektuelle Bewertung der Erschließungsqualität durch Experten - 1/3 intellektuelle Erschließung besser - 1/3 automatische Indexierung besser - 1/3 qualitativ gleichwertig Institut für Informationswissenschaft Fachhochschule Köln Weitere Lit.: Knorz, G.: Automatische Indexierung. In: Hennings, R.-D., G. Knorz u. H.-J. Manecke: Wissensrepräsentation und Information Retrieval. Potsdam: Universität S. (Berufsbegleitendes Ergänzungsstudium im Tätigkeitsfeld wissenschaftliche Information und Dokumentation (BETID): Lehrmaterialien; Nr.3), Nohr, H.: Automatische Indexierung: Einführung in betriebliche Verfahren, Systeme und Anwendungen. Berlin: Verlag für Berlin-Brandenburg S.ISBN (Materialien zur Information und Dokumentation; Bd.13), S W. Gödert

Fachhochschule Köln Institut für Informationswissenschaft KASCADE
W. Gödert

Fachhochschule Köln Ranking-Algorithmen
Parameter Ranking Ranking-Algorithmen Als Erläuterung findet man häufig Formulierungen wie, die meist im Zusammenhang mit Web-Suchmaschinen gesehen werden: Ranking-Algorithmus Mathematische Formel durch die die Rankingposition berechnet wird. Jede Suchmaschine hat eigene Algorithmen, d.h. dass jede Suchmaschine unterschiedliche Rankings hat. Das Ranking wird anhand Rankingkriterien bestimmt. ( Institut für Informationswissenschaft Fachhochschule Köln oder Ranking-Algorithmus Mathematische Formel zur Berechnung der Ranking-Position bzw. Rangfolge einer Webseite in Bezug auf einen bestimmten Query/Suchanfrage. Eine Formel zur Relevanzbestimmung eines Webdokuments in Relation zu der an eine Suchmaschine gestellten Frage. Jede Suchmaschine verwendet eigene Algorithmen, mit dem Ergebnis, dass die gleiche Webseite bei verschiedenen Suchmaschinen sehr unterschiedlich gelistet sein kann. Von Google ist bekannt, dass über 100 Faktoren in die Berechnung des Rankings einfließen. ( W. Gödert

Fachhochschule Köln Häufiges Verfahren in Suchmaschinen
Parameter Ranking Häufiges Verfahren in Suchmaschinen Bei der Bildung einer Reihenfolge von Webseiten als Ergebnis einer Suche mit n Wörtern hat sich als gängige Praxis entwickelt, erst die Seiten zu präsentieren, die alle n Suchwörter, dann die Seiten, die n-1 Suchwörter, dann alle n-2, usw. bis n – (n-1) Suchwörter enthält: Ergebnisliste: Seiten mit n Suchwörtern Seiten mit n-1 Suchwörtern Seiten mit n-2 Suchwörtern . . . Seiten mit n – (n-1) Suchwörtern Durch diese Vorgehensweise wird das Ergebnis einer oder-Suche so angeordnet, dass der Beginn der Trefferliste wie das Ergebnis einer und-Suche aussieht, dass aber in der Regel eine 0-Treffer-Menge vermieden wird. Unter Beachtung dieser Verfahrensweise muss man große Ergebnismengen bei Suchmaschinen nicht von vornherein als grundsätzlich problematisch ansehen. Institut für Informationswissenschaft Fachhochschule Köln W. Gödert

Parameter Ranking Allgemeine Parameter eines Ranking-Algorithmus bzw. zur Bestimmung der “Güte” von Wörtern für Retrievalvorgänge l Anzahl der zwischen Anfrage und Dokument übereinstimmenden Wörter, ausgedrückt als tf l Häufigkeit des Vorkommens von Suchbegriffen im Dokument, meist normalisiert gegen die Länge des Dokumentes (Zahl der darin enthaltenen Wörter), ausgedrückt als df l Position des Vorkommens im Text l Vorkommensorte nach Kategorien der Dokumentbeschreibung : – Titel / Überschrift – Abstract – Kategorien mit Daten der inhaltlichen Erschließung – Dokumentenanfang Institut für Informationswissenschaft Fachhochschule Köln Die Kombination der ersten beiden Kriterien führt zu der häufig verwendeten Grundformel: tf * i df mit der die Häufigkeit eines Wortes im Dokument in inverse Relation zur Häufigkeit des Wortes in der gesamten Dokumentkollektion gesetzt wird. tf = term frequency i df = inverse document frequency W. Gödert

tf * idf Eine einfache Häufigkeitszählung der Terme in den Dokumenten würde die längeren gegen die kürzeren Dokumente bevorzugen. Daher wird üblicherweise die Häufigkeit gegen die Dokumentlänge normalisiert. In formalisierter Schreibweise lassen sich mit den Abkürzungen: fd,t Anzahl des Vorkommens von Term t im Dokument d, fd Anzahl der Dokumente, ft Anzahl der Dokumente, die Term t enthalten, T Menge aller Terme t Institut für Informationswissenschaft Fachhochschule Köln folgende häufig eingesetzte Maße angeben: tf : C = 1: kein Einfluss auf die Termhäufigkeit, C = 0: Maximaler Einfluss auf die Termhäufigkeit Der Logarithmus dient der Dämpfung eines starken Anwachsens der Anzahl der Dokumente in der Kollektion gegenüber den Einzelwörtern idf : W. Gödert

Fachhochschule Köln Ein konkretes Beispiel zur Berechnung
Beispiel tf*idf Ein konkretes Beispiel zur Berechnung Gegeben sei ein Dokument, das Terme mit den folgenden Häufigkeit enthält: t1: 3; t2: 2 t3: 1 t4: 5 Die Dokumentkollektion enthält N= Dokumente und die Häufigkeiten der Terme in der Kollektion seien: Institut für Informationswissenschaft Fachhochschule Köln t1: 50; t2: t3: 600 t4: 150 Dann berechnet sich die Gewichte für die Terme mit: tfij = fij / max {fij} und idf = log2 (N/dfi) t1: tf = 3/5, idf = log2(10000/50) = 7,64 tf*idf = 4,59 t2: tf = 2/5, idf = log2(10000/1200) = 3,06 tf*idf = 1,22 t3: tf = 1/5, idf = log2(10000/600) = 4,06 tf*idf = 0,81 t4: tf = 5/5, idf = log2(10000/150) = 6,06 tf*idf = 6,06 Die gewichtete Reihenfolge der Terme ist also: t4, t1, t2, t3 W. Gödert

Fachhochschule Köln Ein Beispiel (Ranking im Vektorraummodell)
Parameter Ranking Ein Beispiel (Ranking im Vektorraummodell) Ausgangspunkt: Vokabular mit t Begriffen (die, die in den Dokumenten vorkommen) Definitionen: N = Anzahl der Dokumente in der Dokumentenkollektion nk = Anzahl der Dokumente, die den Begriff/Term k enthalten tfdk = Vorkommenshäufigkeit von Begriff k in Dokument D Dokument D wird repräsentiert durch Vektor: D = (wd1, wd2, … , wdt), dabei ist wdk, k=1,…,t die Relevanz von Dok D für den Begriff k gemäß: Institut für Informationswissenschaft Fachhochschule Köln W. Gödert

Parameter Ranking Die Anfrage Q wird ebenfalls durch einen Vektor repräsentiert: Q = (wq1, wq2, ... ,wqt) Ein wqk ist dabei definiert durch: Institut für Informationswissenschaft Fachhochschule Köln Die Ähnlichkeit zwischen einer Anfrage und einem Dokument kann im Vektorraummodell dann durch das Skalarprodukt beschrieben werden: also: W. Gödert

Fachhochschule Köln Damit errechnet sich der Dokumentvektor für D2 zu:
Parameter Ranking Damit errechnet sich der Dokumentvektor für D2 zu: Institut für Informationswissenschaft Fachhochschule Köln Analog erhält man: Und für den Abfragevektor: W. Gödert

Fachhochschule Köln Ein konkretes Beispiel D1: Häuser in Italien
Parameter Ranking Ein konkretes Beispiel D1: Häuser in Italien D2: Häuser in Italien und um Italien D3: Gärten und Häuser in Italien D4: Gärten in Italien D5: Gärten und Häuser in Frankreich Q: Häuser in Italien Institut für Informationswissenschaft Fachhochschule Köln Damit besteht das Vokabular aus den Begriffen (die Zahlen sind die Komponenten für die Beschreibungsvektoren): 1. Häuser 2. Italien 3. Gärten 4. Frankreich Für D2 erhalten wir z.B. die Vorkommenhäufigkeiten tfdk (Begriff k in Dokument D): tf2,1 = 1 Häuser in D2 tf2,2 = 2 Italien in D2 tf2,3 = 0 Gärten in D2 tf2,4 = 0 Frankreich in D2 Wir haben dabei als Parameter: t = 4 (Anzahl Begriffe) N = 5 (Anzahl Dokumente) Ferner gilt für nk = Anzahl der Dokumente, die den Begriff/Term k enthalten : n1 = 4, n2 = 4, n3 = 3, n4 = 1 W. Gödert

Parameter Ranking Damit errechnen sich die Skalaprodukte für die Relevanz der einzelnen Dokumente für die Frage Häuser in Italien in gerankter Reihenfolge zu: 1. D1: Ähnlichkeit (Q,D1) = 0,137 2. D2: Ähnlichkeit (Q,D2) = 0,130 3. D3: Ähnlichkeit (Q,D3) = 0,072 4. D4: Ähnlichkeit (Q,D4) = 0,039 5. D5: Ähnlichkeit (Q,D5) = 0,013 (Häuser in Italien) (Häuser in Italien und um Italien) (Gärten und Häuser in Italien) (Gärten in Italien) (Gärten und Häuser in Frankreich) Institut für Informationswissenschaft Fachhochschule Köln W. Gödert

Parameter Ranking Vereinfachtes Berechnungsverfahren (ohne logarithmische Dämpfung): Damit errechnen sich die Komponenten der Dokumentvektoren wdk, d=1,...,5, k=1,...,4 zu: tf11 = 1 tf12 = 1 tf13 = 0 tf14 = 0 tf21 = 1 tf22 = 2 tf23 = 0 tf24 = 0 tf31 = 1 tf32 = 1 tf33 = 1 tf34 = 0 tf41 = 0 tf42 = 1 tf43 = 1 tf44 = 0 tf51 = 1 tf52 = 0 tf53 = 1 tf54 = 1 Institut für Informationswissenschaft Fachhochschule Köln w31 = 0,577 w32 = 0,577 w33 = 0,577 w34 = 0 w41 = 0 w42 = 0,707 w43 = 0,707 w44 = 0 w51 = 0,577 w52 = 0 w53 = 0,577 w54 = 0,577 Und die Komponenten des Abfragevektors wqk, k=1,...,4 zu: tfq1 = 1 tfq2 = 1 tfq3 = 0 tfq4 = 0 wq1 =1 wq2 =1 wq3 =0 wq4 =0 W. Gödert

Parameter Ranking Damit errechnen sich die Dokumentvektoren zu: D1 = (0,707; 0,707; 0; 0) D2 = (0,447; 0,894; 0; 0) D3 = (0,577 ; 0,577 ; 0,577 ; 0) D4 = (0; 0,707; 0,707; 0) D5 = (0,577 ; 0; 0,577 ; 0,577 ) Und die Komponenten des Abfragevektors wqk, k=1,...,4 zu: Institut für Informationswissenschaft Fachhochschule Köln Q = (1;1;0;0) Damit ergeben sich die Skalarprodukte und das Ranking der Dokumente zu: 1. Q D1 = 1,414 2. Q D2 = 1,341 3. Q D3 = 1,154 4. Q D4 = 0,707 5. Q D5 = 0,577 D1: Häuser in Italien D2: Häuser in Italien und um Italien D3: Gärten und Häuser in Italien D4: Gärten in Italien D5: Gärten und Häuser in Frankreich Q: Häuser in Italien W. Gödert

Surfen, Suchen und Finden
Web-Retrieval: Suchwerkzeuge des Internet Institut für Informationswissenschaft Fachhochschule Köln Surfen, Suchen und Finden W. Gödert

Architektur Web-Suche
Spider, Gatherer Harvester, Crawlers Roboters (Bots) Web Dokumentkollektion Institut für Informationswissenschaft Fachhochschule Köln IR-System Anfrage 6 5 4 3 Gerankte Ergebnisliste 2 1 W. Gödert

Funktionsweise Roboter
Institut für Informationswissenschaft Fachhochschule Köln Funktionsweise der Suchroboter von Suchmaschinen I W. Gödert

Funktionsweise der Suchroboter von Suchmaschinen II • Beginne mit einer umfassenden Menge von Start-URLs, von denen aus die Suche zu beginnen ist. • Folge rekursiv allen Links auf diesen Seiten, um weitere Seiten zu finden. • Füge die Wörter aller neu gefundenen Seiten sowie die jeweiligen Adressen zum invertierten Index hinzu. • Benutzer können ggf. selbst Seiten zur Indizierung und/oder als Start-URLs anmelden. Institut für Informationswissenschaft Fachhochschule Köln Aufgaben • Zwischenspeicherung der besuchten bzw. der noch zu besuchenden Seiten • Verzweigung der Suche in die Breite und in die Tiefe W. Gödert

Breitensuche / Tiefensuche Initialisiere eine Warteschlange (Q) mit der Menge der bekannten URL’s. Bis Q leer oder das Seiten- bzw. Zeitlimit erschöpft ist: Hole URL L vom Anfang von Q. Wenn L keine HTML-Seite ist (.gif, .jpeg, .ps, .pdf, .ppt, etc.) gehe zum Schleifenanfang. Wenn L bereits besucht wurde, Lade Seite P mit URL L runter. Wenn P nicht runtergeladen werden kann (z.B. 404 Fehler, Roboter ausgeschlossen), Indiziere P (z.B. zum invertierten Index hinzufügen oder speichere Zwischenkopie). Analysiere P, um eine Liste neuer Links N zu erhalten. Füge N an das Ende von Q an. Institut für Informationswissenschaft Fachhochschule Köln • Die Breitensuche sammelt jeweils alle Knoten, die gleich weit von der Ursprungsseite entfernt sind. – Erfordert Speicherung aller Knoten der vorhergehenden Ebene, d.h. der Speicherbedarf wächst exponentiell mit der Tiefe. – Dies ist der Standard-Crawling-Ansatz. • Die Tiefensuche erfordert nur die Speicherung der Knoten ab der letzten Verzweigung, d.h. ist linear in der Tiefe. – Verfahren geht aber bei der Verfolgung eines einzigen Threads “verloren”. • Beide Strategien können mit einer Warteschlange für URLs implementiert werden. W. Gödert

Spider-Algorithmus Initialisiere eine Warteschlange (Q) mit der Menge der bekannten URL’s. Bis Q leer oder das Seiten- bzw. Zeitlimit erschöpft ist: Hole URL L vom Anfang von Q. Wenn L keine HTML-Seite ist (.gif, .jpeg, .ps, .pdf, .ppt, etc.) gehe zum Schleifenanfang. Wenn L bereits besucht wurde, Lade Seite P mit URL L runter. Wenn P nicht runtergeladen werden kann (z.B. 404 Fehler, Roboter ausgeschlossen), Indiziere P (z.B. zum invertierten Index hinzufügen oder speichere Zwischenkopie). Analysiere P, um eine Liste neuer Links N zu erhalten. Füge N an das Ende von Q an. Institut für Informationswissenschaft Fachhochschule Köln Vgl. für weitere Details: W. Gödert

Funktionsweise Suchwerkzeuge
Institut für Informationswissenschaft Fachhochschule Köln Prinzipien zum Aufbau von Webseiten / der Indexerstellung bei Suchmaschinen W. Gödert

Besonderheiten Web-Suche
Besonderheiten einer Web-Suche auf Datenebene ● Verteilte Daten Dokumente sind über Millionen verschiedener Webserver verteilt. ● Flüchtige Daten Viele Dokumente ändern sich oder verschwinden schnell (z.B. tote Links). ● Großes Volumen Billionen von separaten Dokumenten. ● Unstrukturierte und redundante Daten Keine einheitliche Struktur, HTML Fehler, bis zu 30% (nahezu) doppelte Dokumente. ● Qualität der Daten Keine redaktionelle Kontrolle, falsche Informationen, schlechte Schreibweise, Tippfehler, etc. ● Heterogene Daten Multiple Medien-Typen (Bilder, Video, VRML), Sprachen, Zeichensätze, etc. Institut für Informationswissenschaft Fachhochschule Köln W. Gödert

Literatur Fachhochschule Köln
Suchebenen Yahoo! Literatur Lewandowski, D.: Web Information Retrieval: Technologien zur Informationssuche im Internet. Franfurt a.M.: DGI S. ISBN (Informationswissenschaft; 7) Auch unter: Lewandowski, D.: Web Information Retrieval. In: Information - Wissenschaft und Praxis. 56(2005) H.1, S.5-12. Mostafa, J.: Bessere Suchmaschinen für das Web. In: Spektrum der Wissenschaft. 2006, H.2, S Institut für Informationswissenschaft Fachhochschule Köln W. Gödert

Syntaxeingaben bei den Suchmaschinen als Präzisierungsinstrumente
Syntax Suchmaschinen Syntaxeingaben bei den Suchmaschinen als Präzisierungsinstrumente Diese Hilfsmittel variieren von Suchmaschine zu Suchmaschine Trunkierung (häufig mit * als Zeichen) Bibliotheksw*, Bibliothekar* Boolesche Operatoren (Realisierung sehr unterschiedlich !) - and, or, not, und, oder, nicht (meist nur in der Erweiterten Suche) - +, - in dem Standardsuchformular +Köln –Düsseldorf +Köln +Fachhochschule +Informationswissenschaft –Informatik “... “ für Suche nach Phrasen “Fachhochschule Köln“ statt +Köln +Fachhochschule “Fachhochschule Köln“ +“Fakultät für Informations*“ Groß- und Kleinschreibung: Groß nur groß, klein alle (! Englische Seiten) und immer wieder: Umlaute Institut für Informationswissenschaft Fachhochschule Köln W. Gödert

Parameter Ranking Web-SuMa
Parameter eines Ranking-Algorithmus für Web-Suchmaschinen On-Page-Faktoren • Anzahl der zwischen Anfrage und Dokument übereinstimmenden Wörter • Häufigkeit des Vorkommens von Suchbegriffen im Dokument • Position des Vorkommens • Vorkommensorte in der Reihenfolge fallender Gewichtung: – Domain und URL – Titel – Überschrift – Meta-Tag (z.B. “Content” oder “Keywords”) Problem: Praxis des Spamming von Meta-Tags → Dokumente, die ein Wort zu häufig im Meta-Tag gelistet haben, werden ”bestraft“ – Dokumentenanfang Off-Page-Faktoren • Ranking nach dem, was der Seitenbetreiber pro Click zahlt • Gekaufte Positionen • Analyse der Link-Struktur (Page-Ranking) - Zahl der Links von anderen Seiten überhaupt - Zahl der Links von anderen ebenfalls sehr hoch gewichteten Seiten Institut für Informationswissenschaft Fachhochschule Köln W. Gödert

Parameter Ranking Web-SuMa
Parameter eines Ranking-Algorithmus für Web-Suchmaschinen Unterschied in der Anzahl der Treffer und der Sortierung der Ergebnismengen für verschiedene Sucheingaben: - Köln Fachhochschule Sucheingabe wird automatisch als ge-odert verstanden; die Trefferliste wird aber wie folgt aufgebaut: - Treffer, die alle Suchwörter enthalten - Treffer, die alle-1 Suchwörter enthalten - Treffer, die alle-2 Suchwörter enthalten - Treffer, die nur je eines der Suchwörter enthalten - +Köln +Fachhochschule In der einfachen Suchmaske wird mit dieser Eingabe im Allgemeinen die Boolesche und-Verknüpfung erzwungen - “Fachhochschule Köln“ Mit dieser Eingabe werden die Suchwörter als nebeneinander stehend gefunden Institut für Informationswissenschaft Fachhochschule Köln W. Gödert

Relevanzangaben in der Ergebnispräsentation Fachhochschule Köln
Ranking Relevanzangaben in der Ergebnispräsentation Institut für Informationswissenschaft Fachhochschule Köln W. Gödert

Weitere Einflüsse Suchergebnissen und beim Ranking
Die Welt ist keineswegs alles, was Google auflistet Die weltweit mächtigste Suchmaschine "nationalisiert" ihre Ergebnisse Es geht bei Google nicht nur ums Geschäft, auch wenn es darum auch indirekt geht. Nach einem Bericht des Berkman Center an der Harvard-Universität wurden bei google.de und google.fr mehr als 100 Websites bei den Suchresultaten nicht aufgeführt, die bei google.com aber nicht zensiert werden. Dabei handelt es sich offenbar vorwiegend um antisemitische und rechte Websites, deren Inhalte in Deutschland bzw. Frankreich verboten sind oder rechtlich bedenklich sein können. Gibt man beispielsweise "Stormfront White Pride World Wide" als Suchbegriffe ein, so führt google.com 17 Seiten an, google.fr und google.de jedoch keine einzige. (Florian Rötzer ) Institut für Informationswissenschaft Fachhochschule Köln Quelle: W. Gödert

Metadaten WDR-Startseite Beispiel einer Web-Seite mit Metadaten

Metadaten Dublin Core Element Set Fachhochschule Köln

Einschränkungen für Suchmaschinen
Suchmaschinen können nicht alle Webseiten finden - d.h. das Web nicht zu 100% erschließen - da es prinzipielle Einschränkungen gibt, z.B.: Neue Seiten nach dem letzten Roboterbesuch eines Servers Seiten, deren Adresse sich seit dem letzten Roboterbesuch geändert haben Seiten, die durch ein Passwort geschützt sind Dynamisch generierte Inhalte auf einer Seite z.B. durch Abruf aus einer Datenbank oder einem Content Management System; Vgl. z.B.: news.google.de Seiten, auf die kein Link verweist Aus Frames aufgebaute Seiten Hyperlinks, die durch JavaScript generiert werden Institut für Informationswissenschaft Fachhochschule Köln An einer 100%igen Erschließung hat eigentlich auch niemand Interesse, da es Seiten gibt (z.B. Serverstatistiken), an denen eigentlich kein Außenstehender Interesse hat W. Gödert

Frame Seiten Muster für eine Seite, die aus Frames auf-gebaut wird Institut für Informationswissenschaft Fachhochschule Köln Der Quellcode Der rechte Frame Der linke Frame W. Gödert

Fachhochschule Köln Das Invisible Web
Institut für Informationswissenschaft Fachhochschule Köln Vgl. die Studien: W. Gödert

Alternative à la Drabenstott
Auch so kann man das Thema Suchstrategien behandeln ... Shot in the dark strategy Bingo! strategy Everything but the kitchen sink strategy Institut für Informationswissenschaft Fachhochschule Köln Big bite strategy Citation pearl growing strategy Getting a little help from your friends strategy Quelle: Drabenstott, K.M.: Web search strategies. In: Saving the time of the library user through subject access innovation: Papers in honor of Pauline Atherton Cochrane. Ed.: W.J. Wheeler. Urbana-Champaign, IL: Illinois University at Urbana-Champaign, Graduate School of Library and Information Science S W. Gödert

Die einzelnen Strategien Shot in the dark strategy = Suche nach Individualnamen “Few queries will fit this strategy. It requires an information need with a single facet. This facet names a single concept, condition, place, person, program, device, or idea in one word. To be successful as a viable Web search strategy, this word must be so specific, so identifiable, and so unique that it retrieves few hits an the Web and, if it retrieves many hits, it should be easy to separate the relevant ones from the nonrelevant ones. Since the World Wide Web has grown so huge, search requests for the Shot in the Dark Strategy are really hard to come by. Here are a few: Guadalcanal, Pompeii, Madonna, Goroka, scabies, Kikuyu, cartomancy, Clydesdales, and Subud. The reason why we've named this strategy "A Shot in the Dark" is because the Web searcher's action of entering a single word to represent her interests is like taking a shot in the dark.” Institut für Informationswissenschaft Fachhochschule Köln Bingo! Strategy = Suche nach Phrasen “We use the name Bingo! for a Web search strategy that requires a phrase-a series of words in a particular order. This phrase describes a single facet but, unlike the Shot in the Dark Strategy, the facet can't be named in a single word, and instead it requires a phrase bearing two, three, four, or as many as five words. The phrase could describe a concept, condition, place, organization, institution, person, program, device, or idea. There are only two search-engine-specific details that Web searchers need to keep in mind. First, they should capitalize proper nouns and any other characters that are typically capitalized in the phrase-for example, "University of Michigan," "Monica Lewinsky," and "QuickTime VR Authoring Studio." Second, if Web searchers are positive that no intervening word will ever occur in the phrase, they can enclose it in quotes.” W. Gödert

Everything but the kitchen sink strategy = Kombination der Suchaspekte “Perhaps you're interested in Congress' efforts to limit the amount of violence that children see an television. This topic has four facets: Congress, Limit, Children, and Television Violence. In fact, those words and phrases are really good ones for searching this topic. The next step is to determine the most important idea. "Television violence" is important and so is "Congress." Let's put "Congress" first in the query. So far the query reads "Congress television violence limit." Can you think of one or two synonyms for the query's words or phrases? "Television" and "tv" are synonymous. Perhaps the word "control" might be another way of expressing "limiting" the amount of violence an television. Let's put those words at the end of the query since the query already contains words to represent those ideas. Our final query is "Congress television violence limit tv control." Search for this query in AitaVista, Excite, Lycos, Northern Light, or other search engines and examine the results.” Institut für Informationswissenschaft Fachhochschule Köln Big bite strategy = Nachträgliche Verfeinerung der Suchfrage In the Big Bite Strategy, the Web searcher takes an initial bite of the file. If you've already conducted a search using the Shot in the Dark or Bingo! Strategy, you've taken your first bite. The next step is to take a second bite of the file by searching for a second facet and then review retrieved material to determine if it isn't more to your liking. Let's use an example. Say that you took your first bite in a Shot in the Dark Strategy for "Madonna." You reviewed retrieved hits and found that they were about Madonna, her life, music, movies, and so on. You realize you are interested in her new role as a mother. Now you've introduced a second facet into the mix. W. Gödert

Citation pearl growing strategy = Fortsetzung im semantischen Umfeld “All Web searchers have to do is find an especially relevant document and click an Excite's "Search for more documents like this one" heading or Infoseek's "Find similar pages" heading that accompanies all retrieved Web pages for Excite or Infoseek to use the terminology in the document to retrieve more documents like the one in hand. In other search engines, Web searchers need to be deliberate about executing this strategy. For example, let's say you watch the movie "Twister" and want to learn more about the people who study tornadoes. In Alta Vista, a search for "tornado" using the Shot in the Dark Strategy produces results that aren't too promiing except for a Web site called "The Tornado Project Online!" which features links to much information an chasing tornadoes. Besides featuring links to Web-based newsletters, FAQs, and tours for storm chasers, this site is superb for providing useful words and phrases like "chasing," "stormchasing," "stormchasers," "storm chasers," "intercept team," "whirlwind gang, " "Whirlwind Tours," "Cloud 9 Tours," and "Silver Lining Tours." Collect these words and phrases and use them in subsequent searches.” Institut für Informationswissenschaft Fachhochschule Köln Getting a little help from your friends strategy “Did you ever have a situation when you didn't know how to phrase your query? Maybe you had a general notion what you wanted but putting it into words just wasn't possible. Well, it's time to "get a little help from your friends." Maybe you find yourself in the position of wanting to find something specific about a subject area but you have no experience or knowledge about the subject generally. Perhaps you want to learn about investing in the stock market but you don't know anything about the stock market and you don't even know where to start. Again, "your friends" could help you out.” W. Gödert

Fachhochschule Köln Institut für Informationswissenschaft
Schluss-Cartoon Institut für Informationswissenschaft Fachhochschule Köln W. Gödert

Linkstruktur und Ranking
Linkstruktur des Web und Ranking HITS-Algorithmus (J. Kleinberg) PageRank von Google (L. Page u. S. Brin) Langville, A.N., C.D. Meyer: Google's PageRank and beyond: the science of search engine rankings. Princeton: Princeton Univ. Press X, 224 S. ISBN Berry, M.W., M. Browne: Understanding search engines: mathematical modeling and text retrieval. 2nd ed. Philadelphia, PA: SIAM XVII, 117 S. ISBN (Software, environments, tools; 17) Institut für Informationswissenschaft Fachhochschule Köln Vgl. für Vergleiche mit Zitations- bzw. Link-Analysen: W. Gödert

Das PageRank Verfahren von Google
Einführung in die Prinzipien Institut für Informationswissenschaft Fachhochschule Köln Larry Page Sergey Brin  Der PageRank-Algorithmus In:  Austin, D.: How Google finds your needle in the Web's haystack : as we'll see, the trick is to ask the web itself to rank the importance of pages... In:  Langville, A.N., C.D. Meyer: Google's PageRank and beyond: the science of search engine rankings. Princeton: Princeton Univ. Press X, 224 S. ISBN  Brin, S., L. Page: The anatomy of a large-scale hypertextual Web search engine. In:  Page, L., S. Brin u. R. Motwani u.a.: The PageRank citation ranking: Bringing order to the Web. In: W. Gödert

Der ursprüngliche PageRank-Algorithmus hat die folgende Form:
(*) r(Pi) = (1-d) + d (r(P1)/|P1| r(Pn)/|Pn|) Hierbei ist: • r(Pi) der PageRank einer Seite Pi, • r(Pj) der PageRank der Seiten Pj, von denen ein Link auf die Seite Pi zeigt (Problem, da zu Beginn nicht bekannt!) • |Pj| die Gesamtanzahl der Links auf Seite Pj (von der Seite Pj auf andere Seiten) und • d ein Dämpfungsfaktor, wobei 0 £ d £ 1 ist. Institut für Informationswissenschaft Fachhochschule Köln Das PageRank-Verfahren bewertet damit grundsätzlich nicht Websites in ihrer Gesamtheit, sondern basiert ausschließlich auf der Beziehung einzelner Webseiten zueinander. Der PageRank einer Seite Pi bestimmt sich dabei rekursiv aus dem PageRank derjenigen Seiten, von denen ein Link auf die Seite Pi zeigt. Hierfür muss eine algorithmische Lösung gefunden werden. W. Gödert

r0(Pi) = 1/n, i = 1, ... ,n (Startwert für Rekursion)
PageRank Der PageRank der Seiten Pj, die auf eine Seite Pi verlinken, fließt nicht gleichmäßig in den PageRank von Seite Pi ein. Der PageRank einer Seite Pi wird stets anhand der Anzahl |Pj| der von Seite Pj ausgehenden Links gewichtet. Das bedeutet, dass je mehr ausgehende Links eine Seite Pj hat, umso weniger PageRank gibt sie an Seite Pi weiter. Der anhand der Anzahl an ausgehenden Links gewichtete PageRank der Seiten Pj wird nun addiert. Dies hat zur Folge, dass jeder zusätzliche eingehende Link für eine Seite Pi stets den PageRank dieser Seite Pi erhöht. Schließlich wird die Summe der gewichteten PageRanks der Seiten Pj mit dem Dämpfungsfaktor d, der stets zwischen 0 und 1 liegt multipliziert. Hierdurch wird das Ausmaß der Weitergabe des PageRanks von einer Seite auf einer andere verringert. Die Formel (*) bekommt die Form: (**) rk+1(Pi) = (1-d) + d (rk(P1)/|P1| rk(Pn)/|Pn|) r0(Pi) = 1/n, i = 1, ... ,n (Startwert für Rekursion) Institut für Informationswissenschaft Fachhochschule Köln W. Gödert

Ein Beispiel Fachhochschule Köln
PageRank Die im Netz vorhandenen Links von einer Seite auf andere werden in einer Tabelle festgehalten Ein Beispiel 1 2 Institut für Informationswissenschaft Fachhochschule Köln 3 6 5 4 W. Gödert

PageRank Für das gesamte Netz ergibt sich die Tabelle: Ein Beispiel 1 2 Institut für Informationswissenschaft Fachhochschule Köln 3 6 5 4 W. Gödert

PageRank Ein Beispiel Die ein- und ausgehenden Links werden nun als Wahrscheinlichkeiten interpretiert, von einem Knoten zu einem anderen zu gelangen, z.B.: 1 2 3 Institut für Informationswissenschaft Fachhochschule Köln P12 = W(P1®P2) 6 5 4 W. Gödert

PageRank Ein Beispiel Die ein- und ausgehenden Links werden nun als Wahrscheinlichkeiten interpretiert, von einem Knoten zu einem anderen zu gelangen, z.B.: 1 2 3 Institut für Informationswissenschaft Fachhochschule Köln P12 = W(P1®P2) = 1/2 6 5 4 W. Gödert

PageRank Ein Beispiel Es werden die ein- und ausgehenden Links analysiert und als Wahrscheinlichkeiten interpretiert, von einem Knoten zu einem anderen zu gelangen, z.B.: 1 2 3 Institut für Informationswissenschaft Fachhochschule Köln P31 = W(P3®P1) = 1/3 6 5 4 W. Gödert

Ein Beispiel Fachhochschule Köln 1 2
PageRank Ein Beispiel 1 2 Aus diesen Wahrscheinlichkeiten kann man eine Matrix aufbauen: 3 Institut für Informationswissenschaft Fachhochschule Köln 6 5 4 Zeilei = Ausgehende Links des Knoten i; Zeilensumme = 1 Spaltei = Eingehende Links des Knoten i als Wahrscheinlichkeit, vom Knoten j zu kommen W. Gödert

Matrizenmultiplikation (Komponenten der Zeile mit jeder Spalte)
PageRank Mit der Multiplikation des Startvektors r0 = r0(Pi) = (1/6, ... ,1/6) mit der Matrix H kann nun die Iteration gestartet werden: Institut für Informationswissenschaft Fachhochschule Köln Matrizenmultiplikation (Komponenten der Zeile mit jeder Spalte) W. Gödert

Diese Multiplikation wird nun mit r1 wiederholt:
PageRank Diese Multiplikation wird nun mit r1 wiederholt: Institut für Informationswissenschaft Fachhochschule Köln W. Gödert

Damit ergibt sich für unser Netzwerk die Rangfolge:
PageRank 1 2 Damit ergibt sich für unser Netzwerk die Rangfolge: 3 P1 - 1/36 P2 - 1/18 P3 - 1/36 P4 - 17/72 P5 - 11/72 P6 - 14/72 6 5 Institut für Informationswissenschaft Fachhochschule Köln 4 W. Gödert

Damit ergibt sich für unser Netzwerk die Rangfolge:
PageRank 1 2 Damit ergibt sich für unser Netzwerk die Rangfolge: 3 r2(Pi) Rang Nach 25 Iterationen P1 - 1/ P2 - 1/ P3 - 1/ P4 - 17/ P5 - 11/ P6 - 14/ 6 5 Institut für Informationswissenschaft Fachhochschule Köln 4 Um dieses Verfahren für ein Netzwerk wie das WWW anwenden zu können, musste sowohl die Konvergenz des Verfahrens als auch die Möglichkeit des Abbruchs der Iteration nach einer möglichst kleinen Zahl von Schritten gesichert werden. W. Gödert

Weitere Probleme 1: Senken Iteration 1: Fachhochschule Köln
PageRank 1 2 Weitere Probleme 1: Senken 3 Iteration 1: Institut für Informationswissenschaft Fachhochschule Köln Iteration 2: Iteration 3: Iteration n: W. Gödert

Abhängigkeit von Startvektoren
PageRank Problem 2: Abhängigkeit von Startvektoren 1 2 Startvektor r0 = (1/2 1/2): Institut für Informationswissenschaft Fachhochschule Köln => Es stellt sich ein stationärer Zustand ein Startvektor r0 = (0 1): => Es stellt sich ein alternierender Zustand ein W. Gödert

PageRank Auf einer Reihe von Webseiten stehen Rechner zur Verfügung, um für Modellsituationen den PageRank der Knoten von kleineren Netzwerken berechnen zu können, vgl. z.B.: Andere Adressen bieten an, den PageRank einer realen Webseite berechnen zu lassen, vgl. z.B.: Der eingangs angegebenen Literatur können weitere Hinweise entnommen werden, als Kurzfassungen z.B.: Institut für Informationswissenschaft Fachhochschule Köln W. Gödert

Der HITS-Algorithmus von Jon Kleinberg
HITS – Hypertext Induced Topic Search Institut für Informationswissenschaft Fachhochschule Köln Entwickelt 1998 bei IBM Realisierung in Teoma, heute AskJeeves Jon Kleinberg l Kleinberg, J.M.: Authoritative sources in a hyperlinked environment. In: Journal of the Association for Computing Machinery. 46(1998) no.5, S l Chakrabarti, S., B. Dom u. S.R. Kumar u.a.: Neue Pfade durch den Internet-Dschungel: die zweite Generation von Web-Suchmaschinen. In: Spektrum der Wissenschaft. 1999, H.8, S W. Gödert

Grundlagen des HITS-Algorithmus
Das Setzen eines Links im Web kommt einer Empfehlung gleich ● Die Links lassen sich 2 Gruppen zuordnen: - Autoritäten (authorities) als empfangende Seiten - Netzknoten (hubs) als gebende Seiten ● Gute Autoritäten sind Seiten, auf die viele gute Netzknoten verlinken ● Gute Netzknoten sind Seiten, die auf viele gute Autoritäten verlinken Netzknoten Autoritäten Netzknoten Autoritäten Fakultät für Informations-und Kommunikationswissenschaften Fachhochschule Köln Problem, dass beide Eigenschaften zu Beginn des Verfahrens nicht bekannt sein können. W. Gödert

HITS-Algorithmus Der Algorithmus soll aus Aufwandsgründen nicht alle Knoten des Netzes berücksichtigen, sondern nur auf einer Untermenge S mit folgenden Eigenschaften: ● Die Menge S ist relativ klein, damit ein aufwändiger Algorithmus auch ausgeführt werden kann; ● Die Menge S enthält viele relevante Seiten, um die guten Autoritäten finden zu können; ● Die Menge S enthält viele gute Autoritäten Als Ausgangsmenge zur Bildung der Menge S wird das Ergebnis einer Suchanfrage mit einer textbasierten Suchmaschine (erzeugt über eine invertierte Liste) genommen. Zur Bildung der Menge S wird diese Menge um Seiten außerhalb der Menge ergänzt, ● auf die von Seiten innerhalb der Ausgangsmenge verwiesen wird; ● die auf Seiten innerhalb der Ausgangsmenge verweisen. Fakultät für Informations-und Kommunikationswissenschaften Fachhochschule Köln W. Gödert

HITS-Algorithmus Ergänzung der Ausgangsmenge um Links von und auf Knoten außerhalb der Initialmenge Untermenge S Netzknoten Autoritäten Fakultät für Informations-und Kommunikationswissenschaften Fachhochschule Köln Um Links auszuschließen, die ausschließlich zu Navigationszwecken – z.B. auf eine Web Site von untergeordneten Seiten auf die Homepage – gesetzt werden, können nur solche Seiten berücksichtigt werden, die unterschiedliche Domainnamen beinhalten. W. Gödert

HITS-Algorithmus Jeder Seite p aus der Menge S kann ein Wert xp als Autoritätswert und ein Wert yp als Netzknotenwert zugewiesen werden. Dabei wird normalisiert: Ausgehend von beliebigen Startwerten (z.B.: yj(0) = (1,…,1)T) werden die Autoritäts- und Netzknotenwerte nun iterativ berechnet: Fakultät für Informations-und Kommunikationswissenschaften Fachhochschule Köln Hierfür bietet sich eine Matrix-Schreibweise an. L sei eine Matrix mit folgenden Einträgen: Lij = 1, wenn es einen Link vom Knoten i zum Knoten j gibt, Lij = 0, andernfalls Dann bekommen die Summenformeln die Gestalt: x(k) = LT y(k-1) und y(k) = L x(k), k=1,2,3,… Einsetzen der ersten in die zweite Gleichung ergibt: y(k) = L x(k) = L LT y(k-1); ebenso x(k) = LT L x(k-1), k=1,2,3,… W. Gödert

Fachhochschule Köln Beispiel 1 1 2 3 4 5 6 Gegeben sei das Netz: 1 2 3
HITS-Algorithmus Beispiel 1 Gegeben sei das Netz: 1 2 3 4 5 6 5 1 2 6 3 4 mit der zugehörigen Knotenmatrix L: Fakultät für Informations-und Kommunikationswissenschaften Fachhochschule Köln Zunächst werden für die Formeln y(k) = L LT y(k-1); x(k) = LT L x(k-1), k=1,2,3,… die Autoritätsmatrix LT L und die Netzknotenmatrix L LT berechnet: LT L = = W. Gödert

Fachhochschule Köln L LT = = Iterative Berechnungen mit den Formeln
HITS-Algorithmus L LT = = Fakultät für Informations-und Kommunikationswissenschaften Fachhochschule Köln Iterative Berechnungen mit den Formeln y(k) = L LT y(k-1); x(k) = LT L x(k-1), k=1,2,3,… und x(0) = y(0) = (1,…,1)T ergeben: yT = (0,0,0.56,1,1,0) d.h. als beste Autoritäten können die Knoten 4 und 5 angesehen werden; xT = (0,1.28, 0,0,0,1) d.h. die besten Netzknoten sind Knoten 2, gefolgt vom Knoten 6. Mathematisch kann diese Berechnung auch als Eigenvektorberechnung für den betragshöchsten Eigenwert der Autoritätsmatrix LT L oder Netzknotenmatrix L LT durchgeführt werden. W. Gödert

Fachhochschule Köln Beispiel 2 1 2 3 5 6 10 Gegeben sei das Netz: 1 2
HITS-Algorithmus Beispiel 2 Gegeben sei das Netz: 1 2 3 5 6 10 3 10 2 1 6 Fakultät für Informations-und Kommunikationswissenschaften Fachhochschule Köln 5 mit der zugehörigen Knotenmatrix L: und als Autoritätsmatrix sowie als Netzknotenmatrix W. Gödert

Fachhochschule Köln Berechnungen mit den Formeln
HITS-Algorithmus Berechnungen mit den Formeln y(k) = L LT y(k-1); x(k) = LT L x(k-1), k=1,2,3,… und x(0) = y(0) = (1,…,1)T oder Berechnung der entsprechenden Eigenvektorprobleme ergeben (jweils auf 1 normalisiert): yT = (0.3660, 0, , 0, , ) d.h. als beste Netzknoten können der Knoten 1, gefolgt von Knoten 3, 6 und 10 angesehen werden; xT = (0, 0, , , 0.5, 0) d.h. die besten Autoritäten sind Knoten 6, gefolgt von Knoten 3 und 5. Fakultät für Informations-und Kommunikationswissenschaften Fachhochschule Köln W. Gödert

Wiederholung: Textliche Beschreibung des Verfahrens
HITS-Algorithmus Wiederholung: Textliche Beschreibung des Verfahrens (Nach Lewandowski, S ) Das HITS-Verfahren versucht, die Einschränkungen einfacher Linkzählungen bzw. die themenunabhängige Bewertungen von Webseiten zu überwinden. Es sollen die wichtigsten Seiten (sog. Autoritäten) passend zum Thema der jeweiligen Suchanfrage ermittelt werden, zusätzlich werden Seiten ermittelt, die auf viele Autoritäten verweisen (die sog. Hubs, also „Mittelpunkte"). Das Verfahren ist nicht unabhängig von einer Suchfrage (wie das PageRank bei Google), sondern setzt auf einer Ergebnismenge auf. Ausgangspunkt für die Berechnung der wichtigsten Seiten zu einem Thema soll eine Ausgangsmenge S sein, die die folgenden drei Bedingungen erfüllen soll: 1. S soll relativ klein sein. Dies ist notwendig, um auf diese Menge komplexe Algorithmen in vertretbarer Rechenzeit anwenden zu können. 2. S soll viele relevante Seiten enthalten. Dies macht es leichter, die gesuchten Autoritäten zu finden. Es wird angenommen, dass die besten Autoritäten innerhalb der Menge S stark referenziert werden. S soll die meisten (oder zumindest viele) der stärksten Autoritäten enthalten. Institut für Informationswissenschaft Fachhochschule Köln W. Gödert

HITS-Algorithmus In einem ersten Schritt werden relevante Seiten durch ein textbasiertes Verfahren identifiziert (Kleinberg benutzte AltaVista). Mit dieser Methode wird ein Root Set R ermittelt. Im Root Set sind die Dokumente untereinander oft nur schwach verlinkt und möglicherweise nicht alle guten Autoritäten enthalten, auf diese jedoch ziemlich wahrscheinlich von Dokumenten des Root Sets aus verwiesen wird. Um sicherzustellen, dass die Autoritäten in der tatsächlichen Treffermenge überhaupt enthalten sind, wird das Root Set zum Base Set S erweitert. Dieses enthält neben den Dokumenten des Root Set auch alle Seiten, die auf eine Seite im Root Set verweisen. Das Base Set erfüllt alle drei oben angeführten Bedingungen für die Ausgangsmenge. Seine Größe liegt in etwa zwischen und Dokumenten. In einem Zwischenschritt werden weitere Links für die Berechnung ausgeschlossen. Kleinberg unterscheidet zwischen externen Links (transverse links), welche auf ein Dokument einer anderen Domain verweisen und internen Links (intrinsic links), die auf ein Dokument der gleichen Domain verweisen. Institut für Informationswissenschaft Fachhochschule Köln W. Gödert

HITS-Algorithmus Alle internen Links werden ausgeschlossen, da sie oft nur Navigationszwecken dienen und nicht der gewünschten Referenz auf eine Autorität. Das Ergebnis ist ein neuer Graph G der sowohl viele relevante Seiten als auch starke Autoritäten enthält. Die Autoritäten werden im Weiteren aus der Linkstruktur von G berechnet. Kleinberg verwirft die reine Zählung von In-Links, da bei diesem Verfahren auch Dokumente zu Autoritäten gemacht werden würden, die themenunabhängig populär sind. Der Sinn des Verfahrens liegt allerdings gerade darin, die in Bezug auf die eingegebene Suchanfrage wichtigsten Seiten zu finden. Trotzdem ist es möglich, ohne die Analyse des Inhalts der Dokumente allein auf Basis der Linkstruktur die gesuchten Autoritäten zu finden. Charakteristisch für die Autoritäten ist, dass sie viele In-Links auf sich ziehen und außerdem eine deutliche Überschneidung zwischen den Seiten, die auf die Autoritäten verweisen, besteht. Die echten Authorities werden daran erkannt, dass besondere Seiten existieren, die auf verschiedene Authorities verweisen. Zwischen den von diesen Seiten gesetzten Links müssen Überschneidungen bestehen, um Authorities klar identifizieren zu können. Institut für Informationswissenschaft Fachhochschule Köln W. Gödert

HITS-Algorithmus Für die verweisenden Seiten führt Kleinberg das Konzept der Hubs ein. Dies sind Seiten, die auf mehrere relevante Autoritäten verweisen. Hubs und Authorities bedingen sich gegenseitig: „A good hub is a page that points to many good authorities; a good authority is a page that is pointed to by many good hubs." (Kleinberg 1999, S.611) Die Berechnung von Hubs und Authorities muss also in einem rekursiven Verfahren erfolgen, um die bestehende Zirkularität aufzulösen. Der beschriebene Algorithmus berechnet für jede Seite sowohl deren Hub-Gewicht y(p) als auch deren Authority-Gewicht x(p). Beide Gewichte verstärken sich dabei gegenseitig: Eine Seite erhält ein hohes Hub-Gewicht, wenn Sie auf viele Seiten mit hohem Authority-Gewicht verweist. Umgekehrt erhält eine Seite ein hohes Authority-Gewicht, wenn sie viele In-Links mit hohem Hub-Gewicht auf sich zieht. Das Authority-Gewicht einer Seite ist damit die Summe der Hub-Gewichte der Seiten, die auf sie verweisen. Das Hub-Gewicht einer Seite ist dagegen die Summe der Authority-Gewichte der Seiten, auf welche diese verweist. Um nun die Hub- und Authority-Gewichte zu berechnen, müssen zuerst Ausgangswerte festgelegt werden, auf deren Basis dann in einem iterativen Verfahren die Werte in jedem Schritt weiter angenähert werden. Wie bei solchen Verfahren üblich, ändern sich die Werte nach einer gewissen Anzahl von Durchläufen nur noch geringfügig; im beschriebenen Verfahren sollen 20 Durchläufe ausreichen. Institut für Informationswissenschaft Fachhochschule Köln W. Gödert

HITS-Algorithmus Das Ergebnis sind für jede Seite ein Hub- und ein Authority-Gewicht. Seiten mit starken Authority-Gewichten sind in der Regel nur schwache Hubs, während starke Hub in der Regel nur ein geringes Authority-Gewicht auf sich ziehen können. Kleinbergs Verfahren ist deshalb nicht nur für die Feststellung der „wichtigsten" Seiten zu einer Suchanfrage von Bedeutung, sondern - vor allem auf lange Frist gesehen - auch für die Unterteilung von Web-Dokumenten in zwei Klassen. Keines der herkömmlichen Verfahren ist in der Lage, die Dokumente prinzipiell nach ihrer Funktion zu unterscheiden. Die Methode von Kleinberg liefert dem Nutzer zwei Zugänge zu den im Web vorhandenen Informationen: Einerseits kann er in einem Schritt die automatisch ermittelten wichtigen Seiten angezeigt bekommen, andererseits kann er über die Auswahl der Hubs Übersichtsseiten zum Thema finden, die einen Sucheinstieg zu den bedeutenden Quellen bieten. Im Unterschied zum PageRank bei Google ist zu beachten, dass das HITS-Verfahren nicht unabhängig von einer Suchfrage ist, sondern auf einer Ergebnismenge aufsetzt und damit frageabhängig ist. Institut für Informationswissenschaft Fachhochschule Köln W. Gödert

Relevanz Fachhochschule Köln
Relevanz gehört zu den am schwierigsten zu fassenden Begriffen des Themenbereiches Information Retrieval. Man versteht unter Relevanz die Beziehung, die zwischen einer Anfrage und einem Dokument besteht: „Relevance is the correspondence in context between an information requirement statement (a query) and an article (a document), that is, the extend to which the article covers the material that is appropriate to the requirement statement.“ (Cuadra / Katter) Institut für Informationswissenschaft Fachhochschule Köln Das Hauptproblem im Umgang mit Relevanz liegt im Vorhandensein sowohl objektiver als auch subjektiver Faktoren. Die subjektiven Faktoren werden auch Pertinenz genannt. ● Relevanz: kontextuelle Übereinstimmung zwischen einem Suchargument und einem Dokument - unabhängig von konkreten subjektiven Informationsbedürfnissen ● Pertinenz: Übereinstimmung zwischen einem subjektivem Informationsbedürfnis und einem Dokument ● Ein Relevanzurteil nimmt in der klassischen Variante genau einen von zwei Werten an: relevant –nicht relevant. ● Relevanzurteile sind mitunter unscharf, insofern unterschiedliche Beurteiler zu abweichenden Urteilen kommen können. W. Gödert

Fachhochschule Köln Objektive Faktoren Störfaktoren
Relevanz Objektive Faktoren ● Vorhandensein des gesuchten Ausdrucks (Suchwort, Deskriptor, Notation, etc.) im Dokument unabhängig davon, wie gut oder schlecht der gesuchte Ausdruck mit dem Inhalt des Dokuments korrespondiert. Störfaktoren - Korrespondenz mit dem ganzen Dokument (Koextensivität) - Korrespondenz „nur“ mit Teilen oder Aspekten des Dokuments - Fehlerhafte oder fragliche Zuteilung von Deskriptoren oder Notationen Subjektive Faktoren ● Das Dokument ist schon bekannt ● Der Inhalt des Dokuments ist schon bekannt ● Das vorhandene Wissen reicht zur Relevanzbeurteilung nicht aus ● Die Relevanz kann nur unter Zuhilfenahme weiterer Dokumente beurteilt werden Institut für Informationswissenschaft Fachhochschule Köln Das Thema wird noch einmal im Zusammenhang mit Retrievaltests aufgegriffen W. Gödert

Relevanz Formal zieht man sich gerne auf eine Definition wie die Folgende zurück: Die Relevanz eines Dokuments für eine Anfrage ist eine Relation r:D×Q->R , wobei D={d1,...,dm} die Menge der Dokumente, Q die Menge der Anfragen und R eine Menge von Wahrheitswerten, im Allgemeinen die Menge {0,1} , ist. (Im Folgenden wird R={0,1} angenommen, wenn nichts anderes gesagt wird.) Die Relation r wird im Allgemeinen durch Befragen von Experten zu konkreten Anfragen und Dokumentenmengen ermittelt und als Tabelle oder in Form von Listen gespeichert. (Ferber) Institut für Informationswissenschaft Fachhochschule Köln „Diese Definition scheint auf den ersten Blick wenig auszusagen. Sie schränkt aber ganz erheblich ein, was als Relevanz bezeichnet werden kann. So hängt nach dieser Definition die Relevanz eines Dokuments für eine Anfrage lediglich von der Anfrage und dem Dokument ab. Sie kann nicht durch andere Dokumente, die bereits als relevant beurteilt wurden, beeinflusst werden. Auch der Wissensstand der Anfragenden spielt in dieser Definition von Relevanz keine Rolle, wenn er nicht explizit in der Anfrage angegeben wird. Die meisten IR-Systeme lassen eine solche Angabe ohnehin nicht zu.“(Ferber) W. Gödert

Relevanz Vgl. auch die Einschätzung: „Ein Großteil der Bewertungsmaße bei der --> Effektivitätsmessung von Retrievalsystemen basiert auf der Differenzierung der Ergebnisdokumente in relevant und nicht-relevant. Häufig ist es jedoch gerade die Relevanzbestimmung, welche Kritik an der Retrievalmessung hervorruft. Es wird ein Widerspruch zwischen der statistisch-quantitativen Anwendung von Maßen und ihrer relativ unscharfen, nur schwer in quantitativen Kategorien fassbaren Basis der Relevanzbewertung gesehen. Das traditionelle Verständnis des Relevanzbegriffs geht von einer Relation zwischen einer bestimmten Anfrage und den Ergebnisdokumenten aus. Die Forderung nach objektiver Relevanzbestimmung durch einen unabhängigen Juror wurde durch eine intensive Analyse der Relevanzurteile und der Umstände ihrer Abgabe sowie durch die subjektive Relevanz durch verschiedene Benutzerbedürfnisse und Relevanzvorstellungen relativiert. Man begegnet dieser Problematik durch den Einsatz komparativer Evaluierungsverfahren, welche die beteiligten Retrievalsysteme gleich behandeln, so dass die Ergebnisse im Vergleich ihre Gültigkeit bewahren, jedoch nicht als Einzelbewertung pro System valide sind.“ Institut für Informationswissenschaft Fachhochschule Köln Grundlagen der praktischen Information und Dokumentation. 5. Aufl. Bd. 2: Glossar W. Gödert

Invertierte Listen Fachhochschule Köln A 4,8 B 8 C 3,6,8 D 2,6 E 3,7
M 1,4 N 6 P 1,4 R 2,7 T 7 U 2 Z 7 Institut für Informationswissenschaft Fachhochschule Köln 1. P M D H U R K E C M A P N C D E R T Z 8. A B C W. Gödert

Invertierte Listen Fachhochschule Köln
Suche in einem Index mit speziellem Aufbau Durchsuchen eines i.d.R. alphabetisch sortierten Suchregisters, das alle oder eine Teilmenge aller Zeichenketten aller Datensätze der Datenbank enthält • sehr gute Performance (Schnelligkeit) durch Zugriff auf sortierte Menge • gute Voraussetzungen für kategorienspezifische Suchen • gute Voraussetzungen für Boolesche Verknüpfungen • damit gute Voraussetzungen für kategorienübergreifende Boolesche Suchen aber auch • ggf. eingeschränkte Suchmöglichkeiten (z.B. wenn Dokumente nicht vollständig indexiert sind) • bedarf Techniken für Indexaufbau und –aktualisierung • der Index / die Indizes bedarf / bedürfen eines nicht unerheblichen Speicheraufwandes und wachsen nicht linear mit der anwachsenden Dokumentenkollektion Institut für Informationswissenschaft Fachhochschule Köln W. Gödert

Liste der Einzelwörter
Invertierte Listen Beispiel 20 Aller Als Arbeit Autor Bedeutung Beobachtenden Bereiche Das Dem der(2) des(2) Deutlich die(2) Einer Element erschließerischer Erschließungskultur Fassette Hintergrund Im in(2) Jh Lebens Lösungsmöglichkeiten ... Niedergangs Norm Pleonasmus Regelwerk Regelwerken Reglementierung Sieht Sinnstiftendes Soziokulturelle späten Studie täglichen Und Untersucht Verrohung Von Vor Weitergehenden Weltweit Zeiten Zu Zwischen Autor: van de Rak, Jan Willem Titel: Zwischen Pleonasmus und Fassette: Das Regelwerk als sinnstiftendes Element in Zeiten erschließerischer Verrohung. Ort: Normstett Jahr: 1998 Schlagworte: Regelwerk ; Norm ; soziokulturelle Studie Abstract: Die Arbeit untersucht die Bedeutung von Regelwerken vor dem Hintergrund des weltweit zu beobachtenden Niedergangs der Erschließungskultur im späten 20. Jh. Lösungsmöglichkeiten sieht der Autor in einer deutlich weitergehenden Reglementierung aller Bereiche des täglichen Lebens. Institut für Informationswissenschaft Fachhochschule Köln Liste der Einzelwörter W. Gödert

Prinzip der invertierten Liste (Inverted File)
Invertierte Listen Prinzip der invertierten Liste (Inverted File) Institut für Informationswissenschaft Fachhochschule Köln Prinzip: Man speichert zu jedem Wort die Nummer der Dokumente ab, die dieses Wort enthalten – ggf. ergänzt um Zusatzangaben. Diese Liste ist Ausgangspunkte für Suchprozesse, auf der Menge der Dokumentnummern werden die Booleschen Operationen durchgeführt, die der Suchfrage entsprechen. W. Gödert

Invertierte Listen Vorgehensweise zur Erzeugung einer invertierten Liste ● Anhand der Regeln zur Bestimmung zulässiger Terme werden die Dokumente in Terme zerlegt; ● Zu den Termen werden jeweils das Dokument und die Position des Auftretens im Dokument geschrieben; ● Diese Paare aus Termen und ihren Positionen werden (primär nach Termen alphabetisch, sekundär nach Positionen) sortiert; ● Paare mit gleichen Termen werden zusammengefasst, wobei die Positionen in einer sortierten Liste an den Term angefügt werden; ● Die Terme werden von den Listen mit ihren Positionen getrennt. Die Terme werden in eine Indexdatei geschrieben, die zu jedem Term einen Zeiger (Pointer) auf die zugehörige Liste enthält. Die Positionen können auch in ein einziges Postings File geschrieben werden. Dann muss in der Indexdatei zu jedem Term die Anzahl der Positionen und die Stelle im Postings File angegeben werden, an der ihre Aufzählung beginnt. Institut für Informationswissenschaft Fachhochschule Köln Die Trennung der Terme und Listen in verschiedene Dateien dient dazu, den Zugriff auf die Terme zu beschleunigen. Es muss in diesem Fall bei der sequenziellen Suche pro Term, der vor dem gesuchten Term liegt, nur ein Pointer überlesen werden und nicht die ganze Liste der Positionen. Statt der Liste können auch andere, effizientere Zugriffsstrukturen verwendet werden. W. Gödert

Fachhochschule Köln Eine Anfrage wird nun folgendermaßen bearbeitet:
Invertierte Listen Eine Anfrage wird nun folgendermaßen bearbeitet: ● Zunächst werden die Terme in der Anfrage isoliert; ● Aus der invertierten Liste wird für jeden Term die Liste mit seinen Positionen in den Dokumenten oder deren Feldern ermittelt. Dazu lässt sich der Zeiger aus der Indexdatei verwenden oder es wird anhand der Stelle und Länge der entsprechende Abschnitt aus dem Postings File kopiert; ● Die Listen zu den verschiedenen Termen werden zusammengeführt: Sind die Terme mit OR verknüpft, werden die Listen vereinigt, sind sie mit AND verknüpft, wird der Durchschnitt gebildet, bei AND NOT wird die Differenz berechnet; ● Die Dokumente, die in der resultierenden Liste übrigbleiben, werden aus der Dokumentdatei geholt und als Resultat der Anfrage präsentiert. Institut für Informationswissenschaft Fachhochschule Köln Der aufwändigste Schritt bei der Berechnung der invertierten Liste ist das Sortieren, insbesondere, wenn die ganze Liste auf einmal sortiert wird. Deshalb setzen an diesem Punkt diverse Verbesserungsmethoden an. Zum einen können die Daten aufgeteilt werden, sodass die Datenmengen, die zwischengespeichert werden müssen, handhabbar bleiben. Zum anderen können die Terme in den Knoten eines binären Baums (B-Bäume) gespeichert werden, an denen dann Listen mit den Positionsangaben angehängt werden. W. Gödert

Platzbedarf von invertierten Listen
Invertierte Listen Platzbedarf von invertierten Listen Beispiel 1: TREC Disk 4 Financial Times (564 MB Daten) • Artikel mit im Mittel 412,7 Wörtern • Pro Eintrag in einer invertierten Liste 4 Byte • Ergibt: 330,86 MB für die invertierte Liste Beispiel 2: Datenbank Literatur zur Inhaltserschließung Daten Lit.dat Bytes ca Dokumente Invertierte Listen Lit.i Bytes Invertierte Liste Personen Lit.i Bytes Invertierte Liste Sachtitel Lit.i Bytes Invertierte Liste Erscheinungsjahr Lit.i Bytes Invertierte Liste Personen / Sachtitel Beispiel 3: Suchmaschine AltaVista (1999) • Indizierungssoftware bewältigt pro Stunde ein Gigabyte Text. • Gesamtindex beträgt 40 Gigabyte. • 16 Maschinen, auf denen die Indizierung und Suchabfrage stattfindet, arbeiten mit je 8 Gigabyte Arbeitsspeicher, 10 parallelen Alpha- Prozessoren, und 260 GB Festplattenkapazität Institut für Informationswissenschaft Fachhochschule Köln W. Gödert

Statistisch basierte Verfahren AIR/PHYS
Statistisch basierte Verfahren der automatischen Indexierung Prinzip Statt wie beim Ranking statistische Eigenschaften von Wörtern - wie die tf*idf Beziehung - für die Reihenfolge der Dokumente in Ergebnismengen zu benutzen, können derartige Beziehungen auch herangezogen werden, um Indexterme zu ermitteln: Ein Wort ist ein guter Indexterm, wenn es nach einem vorgegebenen statistischen Berechnungsverfahren für eine Dokumentkollektion über einem festgesetzten Schwellwert liegt. Beispiel: Das Verfahren AIR/PHYS Als Umgebung dient die Fachdatenbank PHYS (inzw. Bestandteil von INSPEC) mit englischsprachiger (!) Erschließung durch normiertes Vokabular (Deskriptoren) und Abstracts. Ziel von AIR/PHYS Automatische Indexierung der Dokumente mit Deskriptoren des PHYS-Thesaurus Institut für Informationswissenschaft Fachhochschule Köln Lit.: Lustig, G. (Hrsg.): Automatische Indexierung zwischen Forschung und Anwendung. Hildesheim: Olms XIII,182 S. ISBN (Linguistische Datenverarbeitung; Bd.5) W. Gödert

Fachhochschule Köln Realisierung
AIR/PHYS Realisierung 1. Statistische Auswertung der intellektuell erschlossenen Dokumente bei besonderer Berücksichtigung der Beziehung z: mit: h(t,s) = Anzahl der Dokumente, in denen Term t vorkommt und Deskriptor s vergeben wurde, f(t) = Anzahl der Dokumente, in denen Tem t vorkommt. z ist damit ein Maß für die Wahrscheinlichkeit, mit der ein Deskriptor einem Dokument (intellektuell) zugeteilt ist, wenn Term t im Dokument vorhanden ist. 2. (Automatischer) Aufbau eines Indexierungswörterbuchs unter Ausnutzung der Gewichte aus 1., echter Thesaurusrelationen (Synonym) und Deskriptor-Deskriptor-Relationen als gewichtetes Maß für das gemeinsame Auftreten von Deskriptoren 3. Automatische Indexierung in zwei Phasen - Rohindexierung mit regel-und lexikonbasierter Textanalyse und statistischer Relationierung - Abgestimmte Indexierung unter Einbeziehung von Deskriptor- Deskriptor-Relationen Institut für Informationswissenschaft Fachhochschule Köln W. Gödert

Fachhochschule Köln Pilotanwendung AIR/PHYS im FIZ Karlsruhe
● Wörterbuchaufbau auf der Basis von intellektuell erschlossenen Dokumenten Deskriptoren Wörter statistische Regeln mit z > 0,3 Synonym-Relationen Deskriptor-Deskriptor-Relationen • Erschließung von Dokumenten / Monat • Zuteilung von im Schnitt 12 Deskriptoren je Dokument • intellektuelle Nachbearbeitung mit durchschnittlich einem Drittel Korrekturbedarf, d.h. semi-automatisches Verfahren Institut für Informationswissenschaft Fachhochschule Köln W. Gödert

Retrieval-Experimente
Bewertung von Retrievalsystemen Indexierungs- und Retrievalexperimente Retrievaltests Von Cranfield bis TREC Institut für Informationswissenschaft Fachhochschule Köln • Cranfield I, II • Medlars • Inspec u.a. • Lancaster • MILOS I,II • Text Retrieval Conference (TREC) W. Gödert

Retrieval-Studien: Ziele
Indexierungs- und Retrievalstudien wollen eine Bewertung eines Information Retrieval Systems vornehmen, indem Suchinteressen als Anfragen formuliert und nach vorgegebenen Kriterien bewertet werden. Die Ergebnisse werden zur besseren Vergleichbarkeit quantifiziert. Zentrale Kriterien ● Relevanz ● Recall ● Präzision Unterscheidung ● Indexierungsstudien: Test der Eigenschaften verschiedener Indexierungssprachen bzw. –verfahren in einer einheitlichen Retrievalumgebung ● Retrievalstudien: Test der Eigenschaften von Retrievalumgebungen (Möglichkeiten zur Gestaltung einer Suchfrage) zur Ermittlungen von Suchergebnissen bei gleichen Indexierungsergebnissen Voraussetzungen zur Durchführung ● Definierte Dokumentkollektion ● Unterschiedliche Erschließungsverfahren ● Fixierte Suchfragen und Suchformulierungen ● Parameter der Suchumgebung, Retrievalwerkzeuge ● Bewertungskriterien für die Suchergebnisse Institut für Informationswissenschaft Fachhochschule Köln W. Gödert

Ein Beispiel zur Relevanzbeurteilung
Sind nachstehende Titel relevant für die Frage: “Ich interessiere mich für Literatur über Organisation von Bibliotheken” Zugeteilte RSWK-Ketten: Aufbau, Organisation und Funktion eines neuen Informationszentrums am Beispiel der Vorarlberger Landesbibliothek / hrsg. von Eberhard Tiefenthaler. - München ; London ; New York ; Paris: Saur, S. (Bibliotheksstudien ; 5) Stockhausen, Tilmann von: Die kulturwissenschaftliche Bibliothek Warburg : Architektur, Einrichtung und Organisation. - Hamburg: Dölling und Galitz, S. Ceynowa, Klaus: Von der "dreigeteilten" zur "fraktalen" Bibliothek : benutzerzentrierte Bibliotheksarbeit im Wandel ; das Beispiel der Stadtbibliothek Paderborn. - Würzburg: Königshausen und Neumann, S. Neue Betriebsformen, Jugendliche, Multimedialität / hrsg. von der EKZ, Einkaufszentrale für Öffentliche Bibliotheken GmbH. Red.: Henner Grube und Angelika Holderried. - [Reutlingen] : EKZ, S. : graph. Darst. ; 24 cm. - (EKZ-Konzepte ; Bd. 2) Bregenz / Vorarlberger Landesbibliothek / Aufsatzsammlung Institut für Informationswissenschaft Fachhochschule Köln Hamburg / Kulturwissenschaftliche Bibliothek Warburg Paderborn / Stadtbibliothek / Reorganisation / Benutzerfreundlichkeit + Auf Basis der RSWK-Schlagwörter gibt es keine Frageformulierung, mit der man die 4 Titel gleichzeitig gefunden hätte Öffentliche Bibliothek / Benutzer / Jugend / Aufsatzsammlung (2314) Öffentliche Bibliothek / Audiovisuelle Medien / Aufsatzsammlung Öffentliche Bibliothek / Organisation / Aufsatzsammlung Gibt es eine Suchfrage, mit der diese Titel gemeinsam gefunden würden? W. Gödert

Beide Werte betragen im Idealfall 1
Bewertungsgrößen Recall / Precision Mit Einführung verschiedener Bewertungsgrößen wird die Zielsetzung verfolgt, die Güte eines Retrievalsystems möglichst auf objektiven Faktoren zu basieren und nicht allein subjektiv zu bewerten Der Recall beschreibt das Verhältnis von gefundenen zu den in einer Datenbank vorhandenen relevanten Dokumenten quantitativ. Er ist eine Aussage über die Vollständigkeit des Suchergebnisses Institut für Informationswissenschaft Fachhochschule Köln Die Precision beschreibt das Verhältnis von gefundenen relevanten zu den gefundenen nicht-relevanten Dokumenten quantitativ. Er ist eine Aussage über die Güte des Suchergebnisses oder auch über die Ballastrate Reales Suchergebnis A relevant gefunden B nicht-relevant gefunden R = Recall = P = Precision = C relevant nicht-gefunden D nicht-relevant nicht-gefunden Beide Werte betragen im Idealfall 1 W. Gödert

Bewertung Retrieval-systeme
Grundsatzfrage für Retrievaltests Wie bestimmt man die für die Berechnung des Recall die Zahl der in der Datenbank vorhandenen relevanten Dokumente ? Institut für Informationswissenschaft Fachhochschule Köln Empirische Beobachtung Recall und Precision müssen nicht gleichwertig in eine Gesamtbewertung eingebunden werden, man kann anteilige Gewichtungen vornehmen: 1. Harmonisches Mittel P = Precision R = Recall W. Gödert

Bewertung Retrieval-systeme
2. Effizienz nach Van Rijsbergen 0 < a < 1 a = 0: Effektivität wird auf Recall(1-R) reduziert a = 1: Effektivität wird auf Precision(1-P) reduziert a = ½: Effektivität beruht ausgewogen auf R und P Institut für Informationswissenschaft Fachhochschule Köln 3. Noch stärker Parameter gesteuerte Gewichtung von Precision und Recall Einfluss über Parameter b: b = 1: gleichmäßige Gewichtsverteilung zwischen Precision und Recall b > 1: mehr Gewicht auf Precision b < 1: mehr Gewicht auf Recall W. Gödert

Retrieval Experimente
Sachse, E., M. Liebig u. W. Gödert: Automatische Indexierung unter Einbeziehung semantischer Relationen: Ergebnisse des Retrievaltests zum MILOS II-Projekt. Köln: FH Köln, Fachbereich Bibliotheks- und Informationswesen S. (Kölner Arbeitspapiere zur Bibliotheks- und Informationswissenschaft; Bd.14) Die frühen Untersuchungen waren durch das Interesse geprägt, Aussagen zu gewinnen, welcher Typ Dokumentationssprache und welche Methode der Indexierung die besten Erschließungsergebnisse erbringt. Institut für Informationswissenschaft Fachhochschule Köln ● ASTIA-Uniterm-Test (1953) Das neu entwickelte Uniterm-Verfahren (Extraktion von Stichwörtern aus Titel oder Abstracts) sollte mit konventionellen Methoden Ansätzen verglichen werden. Umfang: Dokumente; 93 Suchfragen Probleme bei der Relevanzbeurteilung unter den beiden Testgruppen ● Cranfield-Uniterm-Test (1953) Vergleich der Indexierung mit UDC-Notationen mit der Indexierung durch Uniterms. Umfang: 200 Dokumente zum Thema Aeronautik; 40 Fragen, die vorher bestimmten Dokumenten („Source documents“) entnommen wurden Ergebnis: - Uniterm-Verfahren findet 85% der Source documents - UDC-Indexierung findet 50% der Source documents W. Gödert

Retrieval Experimente Cranfield
Cranfield-Tests I (1957) Durchgeführt an Cranfield-College, gesponsort von Aslib, Verantwortlich: J. Mills, C.W. Cleverdon, M. Keen Ziel: Test von 4 Indexierungssystemen: - UDC, - alphabetischer Subject index (= Schlagwörter), - Facettenklassifikation, - Uniterm-System ● Testkollektion: Dokumente zur Aeronautik; Fragen ● Ergebnis: - Uniterm-Verfahren findet 82% der Source documents - Schlagwort-Indexierung findet 81.5% der Source documents - UDC-Indexierung findet 75,6% der Source documents - Facettenklassifikation findet 73,8% der Source documents ● Frage: Welche Indexierungsmethode bringt den besten Recall? Institut für Informationswissenschaft Fachhochschule Köln Schlussfolgerung Cleverdon: Inverse Relation zwischen der Fähigkeit, relevante Dokumente zu finden und nicht relevante zurückzuhalten. Vgl. u.a.: Cleverdon, C.W., J. Mills: The testing of index language devices. In: Theory of subject analysis: a sourcebook. Ed.: L.M. Chan, et al. Littleton, CO: Libraries Unlimited S [Orig. in: Aslib proceedings 15(1963) no.4, S ]. W. Gödert

Retrieval Experimente: Cranfield
Cranfield-Tests II (1966) Ausgangspunkt Indexierungssprachen sind Kombinationen mehrerer Indexierungsarten Ziele • Auswirkungen der Indexierungsarten auf Performance, • Einfluss der Indexierungsarten auf Recall und Precision. Testkollektion: Dokumente zur Aeronautik; 211 Fragen Methode • 33 verschiedene Indexierungssprachen mit variierenden Terminologien und Strukturen sowie unterschiedlichen Eigenschaften hinsichtlich Einzelwörter, Komposita, Hierarchien und kontrolliertem Vokabular, • Effektivität der verschiedenen Testsysteme wurde danach beurteilt, inwieweit vorher als relevant bewertete Dokumente gefunden wurden, • Zweistufiges Verfahren zur Bewertung der Relevanz Ergebnisse • „Sieger“: natürlichsprachige Terme (Einzelwort-Indexierungssprachen) • Verbesserung der Retrievalleistung nur durch Einbeziehung von - Synonymen - Grundformbildung aber: Verschlechterung der Performance Institut für Informationswissenschaft Fachhochschule Köln W. Gödert

Retrieval Experimente: Cranfield
Cranfield-Tests II (1966) • zufrieden stellende Ergebnisse wurden erzielt mit natürlicher Sprache kombiniert mit einfacher Koordinierung, alle anderen Varianten und Indexierungsformen bringen schlechtere Ergebnisse (insbes. Hinsichtlich der Performance) als die Suche nach natürlichsprachigen Termen (in der Wortform des Textes), • sämtliche Ergebnisse bestärkten die Hypothese, dass eine inverse Relation zwischen Recall und Precision besteht. Institut für Informationswissenschaft Fachhochschule Köln Zusammenfassung Keen • “increase in depth or exhaustivity of indexing increases recall and decreases precision“; • „term specificity governs precision and recall“; • „vocabulary cross references can help increase recall and decrease precision“; • „levels of exhaustivity, specificity and linkage at the input stage can be balanced or their effect altered by what happens at the search stage“; • „input levels which give the best desired trade-off between recall and precision require optima to be found, although determining the optimum level is not easy“. Keen, E.M.: Aspects of computer-based indexing languages. In: Computers in libraries international 91. Proceedings of the 5th Annual Conference on Computers in Libraries, London, February London: S W. Gödert

Retrieval Experimente Cranfield
Cranfield-Tests II (1966) Die Ergebnisse der Cranfield-Tests haben in der Folgezeit zahlreiche und teilweise auch heftige Diskussionen ausgelöst: • Brauchen wir demnach überhaupt keine Dokumentationssprachen? • Kritik an Cranfield: - als Labortest kaum auf die Praxis (insbes. sehr großer) Datenbanken übertragbar - Relevanzbeurteilung sehr problematisch • Einschätzung der Bedeutung, die der Performance beigemessen wurde Institut für Informationswissenschaft Fachhochschule Köln Vgl. z.B.: Fugmann, R.: Das Faule Ei des Kolumbus im Aslib-Cranfield Vergleich von Informationssystemen: Die erneute Betrachtung eines einflussreichen Experiments. In: Information - Wissenschaft und Praxis. 55(2004) H.4, S W. Gödert

Retrieval Experimente Medlars
Medlars-Test (1966) Beispiel für den Test einer großen Fach-Datenbank (Medlars) in Praxis-Umgebung. Ausgangssituation Umfang der Datenbank: mehr als Dokumente, Bearbeitung von 302 ‚echten‘ Nutzeranfragen Keine Möglichkeit, die Relevanz jedes der Dokumente festzustellen, Schätzung anhand der ausgegebenen Dokumente und ausgewählten Dokumenten aus anderen Quellen. Ergebnisse Im Durchschnitt wurde eine Precision von 50% bei relativ niedrigem Recall von 58% erzielt. Analyse von ‚Misserfolgen‘, um die Gründe für diese Verteilung herauszufinden, nicht-relevante Dokumente, die gefunden wurden sowie relevante Dokumente, die nicht gefunden wurden. Dabei wurde deutlich, dass die größte Fehlerquelle in der Umsetzung der Nutzerinformationsbedürfnisse in eine adäquate Suchstrategie lag. Institut für Informationswissenschaft Fachhochschule Köln W. Gödert

Retrieval Experimente Inspec
Inspec-Test (1969) Ausgangssituation Suchen mit Elementen aus fünf verschiedenen Vokabular-Kategorien: - Titel, - Titel und Abstracts, - Begriffe aus dem gedruckten Schlagwortindex der Science Abstracts, - natürlichsprachige, intellektuelle Indexierung, - kontrolliertes Vokabular aus einem im Entwurf befindlichen Thesaurus. Methode Testmenge: 542 Dokumenten aus den Sachgebieten Physik und Elektrotechnik, die entweder nur Titel oder Titel und Abstracts umfassten, Bearbeitung von 97 Suchfragen, Dabei bis zu drei unterschiedliche Suchformulierungen pro Frage und Vokabular-Kategorie. Ergebnisse • nur leichte Unterschiede zwischen den einzelnen Suchverfahren, • Suche mit kontrolliertem Vokabular erzielte das beste Ergebnis, • Bestätigung der Ergebnisse des Cranfield II-Tests hinsichtlich einer möglichst erschöpfenden Indexierung sowie des überraschend guten Abschneidens der natürlichsprachigen Indexierung Institut für Informationswissenschaft Fachhochschule Köln W. Gödert

Retrieval Experimente Aberystwyth
Aberystwyth Index-Languages Test (1972) Ziel Vergleich (unter Laborbedingungen) verschiedener im Fach Bibliotheks- und Informationswissenschaft zur Sacherschließung eingesetzter Indexierungssprachen. Methode • 3 postkoordinierende (Compressed term index language, uncontrolled index language und hierarchically structured index language) • 2 präkoordinierende Indexierungssprachen (hierarchically structured index language, relational indexing index language). 8 Kriterien : Post-coordinate index languages of measured specifity and linkage, indexing specifity, indexing exhaustivity, method of coordination, postcoordinate index languages including variations in indexing specifity and exhaustivity, precision device of partitioning, precision device of relational operators, provision of context in the search file. • Möglichst praxisnahe Gestaltung des Tests, • Die verschiedenen Durchführungsschritte des Tests (Indexierung, Frageformulierung, Durchführung der Suche, Relevanzbeurteilung) wurden jeweils von unterschiedlichen Personen vorgenommen. Institut für Informationswissenschaft Fachhochschule Köln W. Gödert

Retrieval Experimente Aberystwyth
Die Datensammlung bestand aus 800 Dokumenten (Zeitschriftenartikel und Reports), zu denen 63 Suchfragen gestellt wurden. Die Relevanz wurde in die drei Stufen unterteilt: ‚hoch relevant‘, ‚teilweise relevant‘ und ‚nicht relevant‘, Als Werte zur Relevanzmessung wurden Recall und ‚nicht-relevante gefundene Dokumente‘ gewählt. Keine Bestimmung der Precision, weil sie eine bestimmte Auffassung eines Nutzers von Relevanz oder Nicht-Relevanz voraussetzt und die absoluten Werte von relevanten und nicht-relevanten Dokumenten außer Acht lässt und nur Aussagen über das Verhältnis von relevanten und nicht-relevanten Dokumenten zulässt. Ergebnisse • Keine großen Unterschiede in der Effizienz und Effektivität der verschiedenen Indexierungssprachen (kontrolliertes Vokabular war allerdings nicht ausreichend für möglichst spezifische Indexierung, • Unkontrolliertes Vokabular schnitt dagegen vergleichsweise gut ab, insbesondere unter Berücksichtigung des hierfür nötigen geringen intellektuellen Aufwandes • Verbesserung der Indexierungsbreite (exhaustivity) ergab eine leichte Verbesserung des Recalls ohne einen Verlust an Precision. Im Vergleich zum postkoordinierten Verfahren erzielte das präkoordinierte Verfahren schlechtere Ergebnisse bei geringerem Recall Institut für Informationswissenschaft Fachhochschule Köln W. Gödert

Retrieval Experimente: Lancaster
Lancaster-Retrievaltest (1991) Rahmenbedingungen • Online-Katalog mit 4,5 Mio Nachweisen • 51 Themen (v.a. komplexe (d.h. verknüpfte) Sachverhalte) • zu findende (relevante) Dokumente wurden über umfassende Bibliografienarbeit bzw. Expertenbefragung vorher festgelegt • Suchen wurden von LCSH-Experten durchgeführt! • 607 relevante Nachweise insgesamt in der Datenbank • 327 gefundene relevante Nachweise über aller Suchen • Recall 53,9% über alle Suchfragen bei Suche mit LCSH (Achtung: systembedingt zu hoher Wert) • Precision wurde nicht gemessen Institut für Informationswissenschaft Fachhochschule Köln W. Gödert

Retrieval Experimente: Lancaster
Lancaster-Retrievaltest (1991) Ergebnisse • Suche über Erschließung (LCSH) 53,9% • Einbeziehung eng verwandter Suchbegriffe 60,1% • Einbeziehung verwandter Suchbegriffe 62,3% • Einbeziehung von Titelstichwörtern 55,5% • Erweiterung der Titelaufnahme um Begriffe aus Sachregistern 74,5% • Inhaltsverzeichnissen 68,0% • Volltexten 63,4% Institut für Informationswissenschaft Fachhochschule Köln Schlussfolgerung Lancaster “The conclusion that emerges most clearly is that, if one wants to know the best things to read on some topic, there is no substitute for consulting an expert, either directly or indirectly (e.g. through an expert-compiled bibliography).” Quelle: Lancaster, F.W., T.H. Connell u. N. Bishop u.a.: Identifying barriers to effective subject access in library catalogs. In: Library resources and technical services. 35(1991), S W. Gödert

Retrieval Experimente: MILOS
Retrievaltests zu MILOS I ( ) bzw. MILOS II ( ) Zwischen 1993 und 1996 führte die Universitäts- und Landesbibliothek Düsseldorf gemeinsam mit der Fachrichtung Informationswissenschaft der Universität des Saarlandes (Prof. Dr. Harald H. Zimmermann) die zwei von der Deutschen Forschungsgemeinschaft geförderten Erschließungsprojekte MILOS I und MILOS II durch. Ziele von MILOS I waren die Weiterentwicklung von IDX, einem Verfahren zur automatischen Indexierung und die Anpassung des Systems an die spezielle Arbeitsumgebung einer wissenschaftlichen Universalbibliothek. Im Rahmen des Projekts wurde abschließend ein Retrievaltest durchgeführt. Auf der Basis von Titeln wurden 50 Suchfragen in drei verschiedenen Registern (Konsequenz der verwendeten Suchumgebung) gesucht: - Titelstichwortregister, - Titelstichwortregister ergänzt um die Ergebnisse der automatischen Indexierung, - Titelstichwortregister ergänzt um die verstichworteten Begriffe aus lokalen Schlagwörtern. • Alleinige Suche über unbehandelte Titelstichwörter ist für die thematische Suche im OPAC ungeeignet, • Deskriptoren, die auf der Basis von Titelstichwörtern und verstichworteten Schlagwörtern durch automatische Verfahren gewonnen wurden, verbessern das Suchergebnis signifikant. Institut für Informationswissenschaft Fachhochschule Köln W. Gödert

MILOS II ( ) Testumgebung • ca Dokumente (Buchtitel der Erscheinungsjahre aus dem Datenpool der Deutschen Bibliothek) • Software für Retrievalumgebung: Allegro • 100 Suchanfragen unterschiedlicher Typen: 1. Fragen nach einfachen Sachverhalten mit einem Suchbegriff (einschließlich Komposita), 2. Fragen nach Sachverhalten mit 2 Suchbegriffen, 3. Fragen, in denen Beziehungen zwischen mehreren Begriffen vorhanden sind, 4. Fragen, die Adjektiv-Substantiv-Verbindungen für einen festen Begriff enthalten, 5. Fragen, die Eigennamen mit einer Mehrwort-Verbindung oder Zählung enthalten. Zielsetzung Möglichst der realen Suchsituation an OPACs angenäherte Aussagen über die erzielten Suchergebnisse hinsichtlich ihres Umfanges (Größe der Treffermenge) und ihrer inhaltlichen Präzision (Anteil der auf die Frage inhaltlich passenden Titel). Institut für Informationswissenschaft Fachhochschule Köln W. Gödert

Alle Fragen wurden in der Allegro-Datenbank mit Hilfe folgender 5 Register bearbeitet: • Register der Titel-Stichwörter • Register der Indexierungsergebnisse • Register der verstichworteten RSWK-Ketten • Register der RSWK-Ketten • Basic Index (Titel-Stichwörter, Indexierungsergebnisse und verstichwortete RSWK-Ketten) Für jede Suchfrage wurden die Treffermengen und die Zahl der relevanten Treffer ermittelt. Auf die Ermittlung eines Recall wurde angesichts der Größe der Dokumentkollektion verzichtet. Institut für Informationswissenschaft Fachhochschule Köln W. Gödert

Ergebnisse: - Daten der maschinellen Indexierung liefern gegenüber den Titel- Stichwortdaten eine um rund 3fach höhere Zahl relevanter Treffer - Verstichwortete RSWK-Ketten liefern eine um rund 2fach höhere Zahl relevanter Treffer - Über das Mittel der 100 Fragen keine übermäßig durch Ballast ange- reicherte Treffermenge Zahlen für die Präzision lauten: - Titel-Stichwortdaten: 0,82 - Daten der maschinellen Indexierung: 0,75 - Verstichwortete RSWK-Ketten: 0,95 Null-Treffermengen - Titel-Stichwortdaten: 15 Fälle - Daten der maschinellen Indexierung: 3 Fälle - Verstichwortete RSWK-Ketten: 30 Fälle Institut für Informationswissenschaft Fachhochschule Köln W. Gödert

Retrieval Experimente: TREC
Text Retrieval Conference (TREC), 1992 ff. Institut für Informationswissenschaft Fachhochschule Köln Voorhees, E.M. u. D.K. Harman (Hrsg.): TREC: experiment and evaluation in information retrieval. Cambridge, MA: MIT Press S. ISBN (Digital libraries and electronic publishing) • Hervorgegangen aus dem TIPSTER-Programm, das die Defense Advanced Research Projects Agency (DARPA) sponsert. • Wurde 1992 zu einer jährlichen Konferenz, mitgesponsert vom National Institute of Standards and Technology (NIST) und DARPA. W. Gödert

Retrieval Experimente: TREC
Text Retrieval Conference (TREC), 1992 ff. • Den Teilnehmern wurde zum Trainieren und Testen der Systeme Teile einer Standardliste von Dokumenten und THEMEN (wovon Anfragen abzuleiten sind) in verschiedenen Stadien gegeben. • Die Teilnehmer legen die P/R-Werte für den endgültigen Dokument- und Anfrage-Korpus vor und präsentieren ihre Ergebnisse bei der Konferenz. • Schaffen einer gemeinsamen Grundlage für den Vergleich verschiedener IR-Techniken (z.B. Pooling-Methode) – Gleiche Dokumenten- und Anfrageliste und gleiche Evaluierungsmethoden. • Teilen von Resourcen und Erfahrungen bei der Entwicklung des Benchmarks. – Mit Hauptsponsoring durch die amerikanische Regierung, um große Benchmark-Sammlungen zu entwickeln. • Förderung der Beteiligung von Industrie und Wissenschaft. • Entwicklung neuer Evaluierungstechniken, besonders für neue Anwendungen. – Retrieval, Routing/Filtering, nicht-englische Sammlung, webbasierte Sammlung, Fragenbeantwortung (question answering). Institut für Informationswissenschaft Fachhochschule Köln W. Gödert

Prinzip Pooling Methode zur Bestimmung von Recall und Precision Zutreffende Ergebnisse Teilnehmer 1 Zutreffende Ergebnisse Teilnehmer n Zutreffende Ergebnisse Teilnehmer 2 Zutreffende Ergebnisse Teilnehmer 3 Institut für Informationswissenschaft Fachhochschule Köln Gesamtmenge der zutreffenden Ergebnisse Die Ausbeute der einzelnen Teilnehmer wird nun bewertet, indem die zutreffenden Ergebnisse jedes Teilnehmers in Relation zum Gesamt-ergebnis gesetzt werden. W. Gödert

Parameter TREC • Riesige Datensätze (verglichen mit ein paar MB in der SMART Collection) • Relevanzbeurteilung wird zur Verfügung gestellt • In ständiger Entwicklung mit Unterstützung der U.S.-Regierung • Beteiligung kommerzieller Ersteller von Retrieval-Software • Große Beteiligung: – TREC 1: 28 Papers (= Beteiligte) 360 Seiten. – TREC 4: 37 Papers 560 Seiten. – TREC 7: 61 Papers 600 Seiten. – TREC 8: 74 Papers. • Testdatensätze bestehen aus (z.B. TREC-1): WSJ Wall Street Journal articles ( ) 550 MB AP Associate Press Newswire (1989) 514 MB ZIFF Computer Select Disks (Ziff-Davis Publishing) 493 MB FR Federal Register 469 MB DOE Abstracts from Department of Energy reports 190 MB • Sowohl lange als auch kurze Dokumente (von ein paar hundert zu mehr als tausend unterschiedlichen Termen in einem Dokument) Institut für Informationswissenschaft Fachhochschule Köln W. Gödert

Retrieval Experimente: GIRT
German Indexing and Retrieval Testdatabase (GIRT) 1995 ff. Initiative des IZ Sozialwissenschaften, Bonn Knorz, G.: Testverfahren für intelligente Indexierungs- und Retrievalsysteme anhand deutsch-sprachiger sozialwissenschaftlicher Fachinformation (GIRT): Bericht über einen Workshop am 12. September 1997 im IZ Sozialwissenschaften, Bonn. In: nfd Information - Wissenschaft und Praxis. 49(1998) H.2, S Vgl. auch unter: Kluck, M.: Eine deutschsprachige Testdatenbank für moderne Erschließungs- und Retrievalsysteme: German Indexing and Retrieval Testdatabase - GIRT. In: Die digitale Revolution: Deutscher Dokumentartag 1996, Neue Universität Heidelberg, Hrsg.: W. Neubauer. Frankfurt a.M.: DGD S (DGD-Schrift: DOK-9) Frisch, E., M. Kluck: Pretest zum Projekt German Indexing and Retrieval Testdatabase (GIRT) unter Anwendung der Retrievalsysteme Messenger und freeWAISsf. Bonn: IZ Sozialwissenschaften S. (IZ-Arbeitsbericht; Nr.10) Institut für Informationswissenschaft Fachhochschule Köln W. Gödert

Fachhochschule Köln Relevance Feedback
Institut für Informationswissenschaft Fachhochschule Köln Relevance Feedback verwendet Relevanzurteile des Nutzers für dieSuche nach relevanten Dokumenten W. Gödert

Fachhochschule Köln Die wichtigen Fragen des Lebens ...
Schluss Die wichtigen Fragen des Lebens ... Institut für Informationswissenschaft Fachhochschule Köln W. Gödert

Information Retrieval

Ähnliche Präsentationen

Präsentation zum Thema: "Information Retrieval"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback

Anmelden

Anmeldung über soziales Netzwerk:

Information Retrieval

Ähnliche Präsentationen

Präsentation zum Thema: "Information Retrieval"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback