Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

A.Kaiser; WU-Wien1 Information Retrieval Systeme Suchverfahren im Web.

Ähnliche Präsentationen


Präsentation zum Thema: "A.Kaiser; WU-Wien1 Information Retrieval Systeme Suchverfahren im Web."—  Präsentation transkript:

1 A.Kaiser; WU-Wien1 Information Retrieval Systeme Suchverfahren im Web

2 A.Kaiser; WU-Wien2 Information Retrieval Systeme Komponenten eines IR-Systems Informationserschließung Informationswiedergewinnung (Retrieval) Informationsaufbereitung

3 Folie in Anlehnung an Womser-Hacker Informationsmanagement I3 Grundmodell: Information Retrieval

4 A.Kaiser; WU-Wien4 Textmodellierung Die Veranstaltungen aus MIS werden an der Wirtschaftsuni von zwei verschiedenen Abteilungen angeboten. Die Inhalte decken sich nur zu einem kleinen Prozentsatz Veranstaltung MIS Wirtschaftsuni verschiedene Abteilungen anbieten Inhalte decken klein Prozentsatz Transfor- mation Stoppwörter

5 A.Kaiser; WU-Wien5 Informationserschließung Ein Beispiel für eine Methode der Informa- tionserschließung ist der invertierte Index. Erzeugung einer Tabelle, die in der 1.Spalte alle möglichen Suchbegriffe beinhaltet und in der 2.Spalte die Verweise auf diejenigen Dokumente (Adressen, etc.), die diese Suchbegriffe beinhalten.

6 A.Kaiser; WU-Wien6 invertierter Index DatenbankD1,D4,D7,D9 SQLD2,D4,D7,D8 InternetD5,D6,D7,D8,D9 ComputerD3,D4,D9 TextverarbeitungD1 Berücksichtigung von Stoppwortlisten, d.s. Listen von Begriffen ohne Informationsgehalt (der, die,...) Vorteil: Massive Beschleunigung des Suchprozesses

7 A.Kaiser; WU-Wien7 Informationserschließung Indexierung Manuelle Indexierung Automatische Indexierung Computer-unterstützte Indexierung Die Dokumente werden aufbereitet, um effizient nach Informationen suchen zu können.

8 Folie in Anlehnung an Womser-Hacker; Management der Informationssysteme 8 Das Matching-Paradigma des klassischen IR Klassisches Boolesches Retrieval Benutzer drücken ihr Suchproblem in einer exakten Retrievalsprache aus Verbindung von Termen und Boolescher Logik search (mess? OR pruef?) AND laser

9 A.Kaiser; WU-Wien9 Boolesche Logik Term1 AND, OR, NOT Term2 Term3

10 Folie in Anlehnung an Womser-Hacker; Management der Informationssysteme 10 Nachteile der Booleschen Systeme Disjunkte Unterteilung in relevant und nicht-relevant Erwünschter Umfang schwer kontrollierbar Benutzer haben Probleme mit der Booleschen Logik Visualisierbarkeit

11 Folie in Anlehnung an Womser-Hacker; Management der Informationssysteme 11 Ranking-Systeme Anordnung des Ergebnisses in einer nach Relevanz sortierten Reihenfolge notwendige Voraussetzung: gewichtete Indexierung cut-off kann vom Benutzer bestimmt werden

12 12 Grundprinzip Ranking

13 A.Kaiser; WU-Wien13 Boolesche Beispielrecherche Intelligentes Information Retrieval im Internet 1.AnfrageInformation Retrieval Anfrage IR AnfrageIntelligent Anfrage 1 AND Anfrage 4 AND Internet 61

14 A.Kaiser; WU-Wien14 Suche in Ranking-Systemen AnfrageGewichtD 1 D 2 D 3 Information Retrieval 5xxx Intelligent 5x Internet 1xx Gewicht5116 Anordnung: 1. D 2 2.D 3 3. D 1

15 Folie in Anlehnung an Womser-Hacker; Management der Informationssysteme 15 Vorteile von Ranking-Verfahren Die Rangordnung reiht die relevantesten Dokumente an den Anfang der Folge Der Benutzer bestimmt den Abbruch selbst, d.h. keine Mengenprobleme Experimente zeigen bessere Retrieval- qualität (bereits für sehr einfache Verfahren) cf. Salton et al. 1983

16 Folie in Anlehnung an Womser-Hacker; Management der Informationssysteme 16 Systemunterschiede Indexierungs- und Retrievalmodell Behandlung der Dokumente und Anfragen –Indexierungsvokabular –Gewichtung –Dokumentstruktur Ähnlichkeitsmaß Outputform: Ranking, Relevance Feedback

17 17 Einsatz von IR-Systemen Literaturrecherche Suchmaschinen im Internet Suchverfahren im Multimediabereich...

18 18 Formatierte DBS vs IR-Systeme formatierte DBSIR-Systeme strukturierte,unformatierte formatierte DatenDaten direkte Sucheindirekte Suche Erfolg ist objektivErfolg ist bestimmbarsubjektiv (Nutzen)

19 19 Ein konkretes Beispiel XBIBSUCHE an der Abteilung für Informationswirtschaft: ÜInhaltsverzeichnisse der Werke der Bibliotheken der Abteilung ÜEinscannen, Abspeichern als ASCII-Datei ÜInformationserschließung mit GLIMPSE ÜErzeugung eines invertierten Index ÜSuche über das WWW in allen Inhaltsverzeichnissen

20 A.Kaiser; WU-Wien20 Xbibsuche

21 A.Kaiser; WU-Wien21 Suchverfahren im WWW

22 A.Kaiser; WU-Wien22 Internet und WWW Linearer Text - Hypertext - Multimedia Hypermedia World Wide Web: weltweit verteiltes multimediales Informationssystem HTTP (Hypertext Transfer Protocol) –Connection - Request - Response - Close Caching: Zwischenspeicherung –Hauptspeicher/Platte - Proxy; Archivierung Client-Server Prinzip

23 A.Kaiser; WU-Wien23 WWW vs. konventionelle, datenbankbasierte IS Verteilte Datenhaltung hohe Dynamik bezüglich neuer, entfernter und geänderter Inhalte heterogene Datenformate und unheitlich strukturierte Inhalte hohe Anzahl von Dokument-Dubletten gigantische Menge von Dokumenten alle Eigenschaften erschweren die Suche und Lokalisierung von Infos im WWW

24 A.Kaiser; WU-Wien24 Suchverfahren im WWW Suche in lokalen WWW-Servern Katalog- und verzeichnisbasierte Suche Roboterbasierte Suche Metasuchmaschinen Intelligente Agenten

25 A.Kaiser; WU-Wien25 Suche in lokalen WWW-Servern und Datenbanken

26 A.Kaiser; WU-Wien26 Matching - Browsing Matching: Vergleich von Begriffen, die das Informationsbedürfnis des Suchenden umschreiben, mit Begriffen, die aus den indexierten Dokumenten gewonnen wurden. Browsing: (zielgerichtete) Navigation von einem Hyperlink zum anderen, so dass sich ein zurückgelegter Pfad von besuchten Seiten ergibt.

27 A.Kaiser; WU-Wien27 Matching Matching: Vorgehensweise der klassischen Suchmaschine. Zwingt den Suchenden sein Informationsproblem zu durchdenken und zu strukturieren Suchender muß über Problemgebiet und Vokabular Bescheid wissen und auch wissen was sein/ihr Problem ist.

28 A.Kaiser; WU-Wien28 Browsing Browsing wird erst möglich mit dem Vorhanden- sein von Hyperlinks. Ist das Suchverfahren in Katalogen –gerichtetes Browsing –ungerichtetes Browsing –assoziatives Browsing sukzessive Eingrenzung des Problembereichs, keine exakte Beschreibung des Problembereichs notwendig weniger zielorientiert, oft aufwendig, Risiko(? ) der Ablenkung

29 A.Kaiser; WU-Wien29 Katalog- und verzeichnisbasierte Suche (manuell) aufgebaute Linksammlungen Navigation in hierarchisch aufgebauten Sachgebieten Eignen sich dann, wenn man zu einem bestimmten Gebiet einen (guten) Einstieg finden will. Yahoo, Dino,...

30 A.Kaiser; WU-Wien30 Kataloge

31 A.Kaiser; WU-Wien31 Kataloge

32 A.Kaiser; WU-Wien32 Portale vs. Kataloge Portale: Einstiegspunkt für den vereinfachten Zugang zu einer großen Menge an Informationen. Sie verwenden Informationsquellen und Suchwerkzeuge, den den wirtschaftlichen Interessen der Portal-Anbieter entsprechen (Suchmaschinen, Kataloge, Spezialsuchdienste,...) Oftmals Möglichkeiten der Personalisierung = persönliche Anpassung der Seiten des Portals an Interessen und Präferenzen

33 A.Kaiser; WU-Wien33 Portale

34 A.Kaiser; WU-Wien34 Roboterbasierte Suche / Suchmaschinen Roboter, Spider, Wanderer, Worm rekursive Inhaltserschließung (über Referenzen des gerade bearbeiteten Dokuments) Erschließung weiterer Dokumentformate (PDF, Word, Postscript,...) Aufbau einer Indexdatenbank klassisches IR

35 A.Kaiser; WU-Wien35 Reichweite von Suchmaschinen

36 A.Kaiser; WU-Wien36 Systemaufbau von Suchmaschinen

37 A.Kaiser; WU-Wien37 Systemaufbau von Suchmaschinen

38 A.Kaiser; WU-Wien38 Aufbau der Datenbank von Suchmaschinen bekannte WWW-Seiten (Startpunkt Kataloge, etc.) rekursive Erschließung explizit durch Benutzer

39 A.Kaiser; WU-Wien39 Probleme beim Aufbau der DB WWW-Seiten mit Frames Link-Bilder über CGI-Schnittstelle Aktualisierung (neu erstellte / aktualisierte Dokumente) Nicht-verlinkte Dokumente Zugriffsgeschützte Dokumente Dynamische Dokumente Geschützte Seiten nach dem Roboter-Exclusion- Standard

40 A.Kaiser; WU-Wien40 Indexierung von Dokumenten Oftmals unklar, Kernkompetenz der Anbieter Methoden des klassischen Information Retrievals –Wortextraktion mit mehrsprachigen Stoppwortlisten –Position der Wörter –Berechnung der Dokumentähnlichkeiten –Funktion der Wörter (URL, Titel, Überschrift, Link, etc.) –HTML-Elemente –Verweisstrukturen

41 A.Kaiser; WU-Wien41 Indexierung von Dokumenten Volltext-Indexierung –die gesamte HTML-Seite wird unter Berücksichtigung von mehrsprachigen Stoppwortlisten indexiert Teilindex –nur ein Teil der Seite (meist URL, Titel, Überschriften) werden indexiert Spezielle inhaltsbeschreibende Bereiche –META-Tags in HTML

42 A.Kaiser; WU-Wien42 Anfragebearbeitung Verschiedene Suchmodi (einfache / erweiterte Suche) Formularbasierte Suchmasken mit diversen Einstellmöglichkeiten Voreinstellungen werden tw. Über Buttons, Menüs und Listen ausgewählt Java-basierte Suchmasken (selten)

43 A.Kaiser; WU-Wien43 Relevanzberechnung Anzahl gefundener Suchbegriffe Position der gefundenen Begriffe Statistische Häufigkeit des Begriffs innerhalb eines Dokuments Nähe der Suchbegriffe untereinander innerhalb des Textes Gesamtanzahl eines Suchbegriffs in der Datenbank Popularität eines Dokuments Anzahl und Qualität von Hyperlinks, die auf ein Dokument verweisen und von einem Dokument ausgehen.

44 A.Kaiser; WU-Wien44 Suchmaschinen

45 A.Kaiser; WU-Wien45 Metasuchmaschinen Gleichzeitige Suche bei mehreren Suchmaschinen über ein einziges Suchformular Die verschiedenen Suchdienste werden vorgegeben, tw. auch Auswahlmöglichkeiten für Benutzer Funktionalität und Operatoren der verschiedenen Suchdienste werden verwendet. Anpassung der Anfrage an die Metamaschine auf die einzelnen Suchdienste wird vorgenommen. Die spezifischen Eigenschaften der einzelnen Suchdienste bleiben dem Benutzer verborgen

46 A.Kaiser; WU-Wien46 Metasuchmaschinen Metasuchmaschinen die Duplikate eliminieren und eine fusionierte Relevanzbeurteilung vornehmen –entweder Weiterführen des Rankings im Ursprungssuchdienst oder komplette Neubeurteilung der Relevanz basierend auf den Worthäufigkeiten der Suchbegriffe in Angaben wie Titel, URL, Kurzbeschreibung) Metasuchmaschinen die Duplikate eliminieren, aber keine fusionierte Relevanzbeurteilung vornehmen Problem: Ranking der gemischten Treffermenge Treffermenge meist nach Suchdiensten gruppiert Duplikateliminierung lediglich über URL-Vergleich

47 A.Kaiser; WU-Wien47 Metasuchmaschinen Sequentielle Suche in mehreren Suchdiensten –Ausgabe erst nach der Befragung des letzten Suchdienstes Parallele Suche in mehreren Suchdiensten –Ausgabe, sobald einer der befragten Suchdienste die Anfrage abgearbeitet hat

48 A.Kaiser; WU-Wien48 Metasuchmaschinen Erspart das Laden der Homepages einzelner Suchdienste Guter Überblick über unterschiedliche Dienste Zeitersparnis und größerer Dokumentenraum Beschränkung bei der Formulierung der Suchanfrage, weil Syntax der einzelnen Maschinen unterschiedlich (vgl. Informationsbedürfnis und Informationsnachfrage)

49 A.Kaiser; WU-Wien49 Metasuchmaschinen

50 A.Kaiser; WU-Wien50 Eigene Webseiten und Suchmaschinen Wichtiger Text im oberen Bereich Schlüsselbegriffe im TITLE-Element und Überschrift (ev.auch in der Adresse) Keine Frames bzw. alternative Seiten zu Frames Regelmäßige Überprüfung der eigenen Seiten Verwendung von Metatags in HTML

51 A.Kaiser; WU-Wien51 Eigene Webseiten und Suchmaschinen

52 A.Kaiser; WU-Wien52 Vorgehensweise bei der Suche 1) Klärung des Informationsbedarfs 2) Auswahl der richtigen Suchbegriffe 3) Auswahl geeigneter Suchverfahren 4) Durchführung der Recherche

53 A.Kaiser; WU-Wien53 Klärung des Informationsbedarfs Gesamtüberblick über ein Thema? –Wahrscheinlich geringe Vorinformationen –Ziel: hohe Anzahl gefundener Web-Seiten Detailinformationen –wahrscheinlich gewisse Vorkenntnisse vorhanden –Ziel: hohe Anzahl relevanter Web-Seiten

54 A.Kaiser; WU-Wien54 Auswahl der Suchbegriffe Sprache der Suchbegriffe (eine oder mehrere) spezielle und allgemeinere Suchbegriffe verwenden Synonyme zu den Suchbegriffen überlegen

55 A.Kaiser; WU-Wien55 Auswahl der Suchverfahren Informationsbedürfnis Allgemeines Interesse Überblick über Thema Detailinformationen über ein Thema (man kennt die Suchbegriffe) Suchverfahren Surfen, spezielle Seiten mit aktuellen und interessanten Links Kataloge Suchmaschinen, Datenbanken

56 A.Kaiser; WU-Wien56 Intelligente Agenten Programme, die Aufträge eines Benutzers oder eines anderen Programmes ausführen und dabei Wissen über die Ziele und Wünsche des Benutzers anwenden vgl. Intelligentes IR, Letizia, etc.

57 A.Kaiser; WU-Wien57 Intelligentes Information Retrieval

58 A.Kaiser; WU-Wien58 Konventionelles vs intelligentes IR Konventionelles IR Informationsbedürfnis kann vor Recherche klar definiert werden Benutzer weiß was er/sie will Informationsbedürfnis ändert sich nicht im Dialog mit dem IR- System Intelligentes IR Benutzer weiß nicht genau nach welchen Informationen er/sie sucht Benutzer lernt im Dialog mit dem IR- System über Informationsbedürfnis dazu

59 A.Kaiser; WU-Wien59 Intelligentes Information Retrieval vergleiche Vorgehensweise beim Erstellen einer Diagnose beim Arzt Weg um in Kooperation mit dem IR-System (=Arzt), das wahre Informationsbedürfnis zu eruieren und die relevanten Informationen zu finden (=Therapie) Es sind (oft) nicht die Antworten die erhellen, sondern die Fragen

60 A.Kaiser; WU-Wien60 Intelligentes Information Retrieval Ziel: Angleich bzw. Annäherung Informationsbedürfnis und Informationsbedarf unterschiedliche Ansätze um dieses Ziel zu erreichen –Computerunterstütztes Indexieren mit Relevance Feedback –Fallbasiertes Schließen –Intelligente Agenten –...

61 A.Kaiser; WU-Wien61 Dynamischer Dokumentenraum - Ziele –Eliminierung von falschen Deskriptoren –Dokumente, die als relevant eingestuft wurden, sollen der Suchanfrage ähnlicher gemacht werden –Dokumente, die als nicht relevant eingestuft wurden, sollen der Suchanfrage unähnlicher gemacht werden –Anpassung des Dokumentenraums an die Sprachentwicklung –Anpassung des Dokumentenraums an die Benutzer

62 A.Kaiser; WU-Wien62 Prototypen Guided Information Exploration Letizia

63 A.Kaiser; WU-Wien63 Guided Information Exploration System als Assistent der dem Anwender über die Schultern schaut, was er tut, welche Informationen er verarbeitet und welche Informationen er übergeht. Basierend auf diesen Informationen stellt das System Hypothesen über das Informationsbedürfnis des Anwenders auf. Retrieval von relevanten Informationen basierend auf den aufgestellten Hypothesen Kein explizites Relevance-Feedback sondern implizites Ableiten dieser wichtigen Informationen durch Interpretation der Anwender-Aktionen

64 A.Kaiser; WU-Wien64 Guided Information Exploration Das System schätzt die Relevanz jedes Dokuments in Bezug auf die aufgestellten Hypothesen iterativer und dynamischer Aspekt von GIE Präsentation der durch GIE ''gefundenen'' Dokumente sollte ''unaufdringlich'' sein. Der Anwender soll nicht unnötig in seinem Suchprozeß unterbrochen werden. Trotzdem sollte es das Interface dem Benutzer erlauben sich die angebotenen Dokumente schnell durchzusehen um deren Relevanz beurteilen zu können. Implementation mit neuronalen Netzen

65 A.Kaiser; WU-Wien65 Letizia Software-Agent der einen Anwender beim Browsing assistiert verfolgt die Gewohnheiten des Benutzers und versucht basierend auf den gewonnenen Erfahrungen jeweils ausgehend von der aktuellen Position des Benutzers, weitere passende Links selbständig zu finden. Suche nach Information ist cooperatives Unternehmen zwischen dem Anwender und einem intelligenten Software-Agenten

66 A.Kaiser; WU-Wien66 Letizia Schnelleres Erkunden möglicher relevanter Informationsknoten. Orientierung an den ''Bewegungen'' des Anwenders einfache Heuristiken Verknüpfung von Konzepten des Information Retrievals und des Information Filterings Nutzung der Idle-Time Anwendung dann, wenn sich der Anwender unsicher ist, welchen Schritt er als nächstes setzen soll.

67 A.Kaiser; WU-Wien67 Letizia lieber/Lieberary/Letizia/Letizia.html


Herunterladen ppt "A.Kaiser; WU-Wien1 Information Retrieval Systeme Suchverfahren im Web."

Ähnliche Präsentationen


Google-Anzeigen