Präsentation herunterladen
Die Präsentation wird geladen. Bitte warten
Veröffentlicht von:Adelheid Boeger Geändert vor über 9 Jahren
1
Institute for Science Networking Thomas Severiens severien@uni-oldenburg.de Online Fachinformation Veranstaltungsnummern: 1.05.07 und 8.1.53 Veranstalter: Eberhard R. Hilf Michael Hohlfeld Heinrich Stamerjohanns Thomas Severiens Zeit und Ort: Montags 14:15 - 15:45 A3-4-402 Form: Vorlesung, Kolloquium, Seminar ins.uni-oldenburg.de/Institute/education/sose01
2
Institute for Science Networking Thomas Severiens severien@uni-oldenburg.de Termine und Themen 23.4.Einführung, Strategien, MessgrößenT.S. 30.4.Geschichte des Internets, Suchmaschinen, FIZeH.S. 7.5.Zentrale Datenbanken (STN), FernleiheBIS 14.5.Metadaten, FormateT.S. 21.5.Dezentrale Konzepte, Portale, PrePrint-DiensteE.H.,M.H. 28.5.MPressJ.P. (OS) 11.6.Übungsaufgaben 18.6.Seminar 25.6.Seminar 2.7.Seminar 9.7.Kuchenseminar
3
Institute for Science Networking Thomas Severiens severien@uni-oldenburg.de Scheinkriterien Regelmäßige Teilnahme Bearbeitung einer Übungsaufgabe Bericht als kurzer Seminarvortrag Interesse am Thema
4
Institute for Science Networking Thomas Severiens severien@uni-oldenburg.de Themen today Einführung Boolsche Operatoren Suchstrategien Messparameter
5
Institute for Science Networking Thomas Severiens severien@uni-oldenburg.de Was sind die Ziele? Wo suche ich was? Wie suche ich im Zeitalter des Internet und digitaler Bibliotheken? Wie funktionieren Suchmaschinen? Welche Konzepte stecken hinter Suchmaschinen? Welche Möglichkeiten bieten mir Online- Publikationen?
6
Institute for Science Networking Thomas Severiens severien@uni-oldenburg.de Information Retrieval „...leading the user to those documents that will best enable him/her to satisfy his/her need for information.“ S. E. Robertson. The methodology of information retrieval experiments. p. 10. 1981 „...the goal of an information system is for the user to obtain information from the knowledge resource which helps her/him in problem management.“ N. J. Belkin. Cognitive models and information transfer. In: Social Science Inform. Studies (4)2-3, p.111-129, 1984
7
Institute for Science Networking Thomas Severiens severien@uni-oldenburg.de Retrieval-Prozess Problem Problem- analyse Informations- quellenauswahl Suchfrage formulieren Suche Bewertung Informations- aufbereitung Problem: Wie soll man Anfragen zu einem Bereich formulieren, über den man ja noch nicht viel weiß?
8
Institute for Science Networking Thomas Severiens severien@uni-oldenburg.de Some Definitions Information „... die Teilmenge von Wissen, die von einer bestimmten Person oder Gruppe in einer konkreten Situation zur Lösung von Problemen benötigt wird...“ R. Kuhlen, Pragmatischer Mehrwert von Information. Bericht 1989 Informationsbedarf „... Art, Menge und Qualität der Informationsgüter, die ein Informationssubjekt im gegebenen Informationskontext zur Erfüllung einer Aufgabe in einer bestimmten Zeit innerhalb eines gegebenen Raumgebiets benötigt...“ N. Szyberski, p. 904 In: Handwörterbuch der Organisation. 2. Auflage 1980
9
Institute for Science Networking Thomas Severiens severien@uni-oldenburg.de Some Definitions Objektiver Informationsbedarf „...Menge derjenigen Informationen..., die in unmittelbarem sachlichem Kontext zu der betrachteten Aufgabe stehen...“ H. Garbe, p.1873, In: Poeschel, Handwörterb. d. Betriebswirtschaft. 4.Aufl.1975 Subjektiver Informationsbedarf „...durch die Person oder die Wünsche des Entscheidungsträgers determiniert und kann als ein Mangel an Aussagen verstanden werden, den das Informationssubjekt empfindet bzw. zu haben glaubt...“ A.R. Bahlmann, Informationsbedarfsanalysen für das Beschaffungsmanagement. Mannhold: Gelsenkirchen, 1982
10
Institute for Science Networking Thomas Severiens severien@uni-oldenburg.de Informationsbedarf, -nachfrage und -angebot IA IN subj. IB obj. Informationsstandmax. Ziel:INIB IAIB
11
Institute for Science Networking Thomas Severiens severien@uni-oldenburg.de Informationsquellenauswahl Inhaltlich: Fachgebietsabdeckung Art der ausgewerteten Quellen Qualität der Inhalte Formal: Aktualität des Informationsangebotes (Updates) Qualität der Retrievalsprache geographische Abdeckung zeitliche Abdeckung Kosten Online Hilfen Zugangsberechtigung
12
Institute for Science Networking Thomas Severiens severien@uni-oldenburg.de Suchfrageformulierung und -erweiterung Um die semantische Genauigkeit in Bezug auf die Problemstellung zu verbessern, muß eine zunächst formulierte Suchanfrage verbessert werden. Klassische Verfahren der Indexierung und Klassifizierung werden zur Verbesserung der Suchanfrage eingesetzt. Kontrolliertes Vokabular erlaubt dabei den Suchenden, eine gemeinsame Sprache mit den Autoren zu verwenden. Automatische Verfahren, die bspw. auf assoziativen Verfahren oder der Einbindung von relationiertem Vokabular (Thesaurus) beruhen, erhöhen die Anzahl der Suchterme und verbessern damit den Retrievalvorgang.
13
Institute for Science Networking Thomas Severiens severien@uni-oldenburg.de Operatoren Die meisten/manche Retrieval-Sprachen kennen Boolsche Operatoren: AND OR NOT weitere Operatoren: NEAR SOUNDS_LIKE ordnende Elemente: () “” Trunkierungen: * ? Reguläre Ausdrücke (regular expressions).* \n* [] {} ^$
14
Institute for Science Networking Thomas Severiens severien@uni-oldenburg.de Relevanz Die Relevanz bezeichnet den Grad der Übereinstimmung der inhaltlichen Aussage eines Dokumentes mit der Suchanfrage. Man kann beispielsweise verschiedene Relevanzstufen unterscheiden 0: Keine Berührung mit dem Suchthema 1: berührt das Suchthema 2: trifft das Suchthema
15
Institute for Science Networking Thomas Severiens severien@uni-oldenburg.de Relevanzbewertung: Maßzahlen Relevanzquote oder „precision“ relevante gefundene / alle gefundenen = A / (A+B) Idealer Wert: 1 Nachweisquote oder „recall“ relevante gefundene / alle relevanten = A / (A+C) Idealer Wert: 1 A = „Treffer“ oder die relevanten gefundenen Dokumente B = „Ballast“ oder die nicht relevanten gefundenen Dokumente C = „Silence“ oder die vermißten relevanten Dokumente D = „Umgangene Dokumente“ oder die nicht nachgewiesenen und nicht relevanten Dokumente Problem: Wie ermittelt man C ? Schätzwert im Nenner !!!
16
Institute for Science Networking Thomas Severiens severien@uni-oldenburg.de Relevanzbewertung: Maßzahlen Ausfallquote oder „fallout ratio“ irrelevant gefundene / alle irrelevanten = B / (B+D) Idealer Wert: 0 Single-Number-Measures relevance balance = (A+C) / (B+D) retrieval balance = (A+B) / (C+D) search distillation= AD - BC A = „Treffer“ oder die relevanten gefundenen Dokumente B = „Ballast“ oder die nicht relevanten gefundenen Dokumente C = „Silence“ oder die vermißten relevanten Dokumente D = „Umgangene Dokumente“ oder die nicht nachgewiesenen und nicht relevanten Dokumente
17
Institute for Science Networking Thomas Severiens severien@uni-oldenburg.de Maßauswahl Boolsche Systeme: 1. Ein System ist umso besser, je mehr relevante Dokumente gefunden werden. 2. Ein System ist umso besser, je geringer der Ballast ist. 3. Punkt (1) hat Priorität vor Punkt (2). Ranking Systeme: Die Position der Dokumente spielt die entscheidende Rolle.
18
Institute for Science Networking Thomas Severiens severien@uni-oldenburg.de Bewertungskriterien Die Fähigkeit eines Systems, alle relevanten Dokumente nachzuweisen Die Fähigkeit eines Systems, nur relevante Dokumente nachzuweisen Aufwand, intellektuell und physisch, um die Suchanfragen zu formulieren, die Suche durchzuführen und die Ergebnisse durchzuschauen Zeit, die zwischen Eingabe der Suchanfrage und der Präsentation der Suchergebnisse vergeht Ausgabe der Suchergebnisse in weiterverarbeitbarer Form Qualität der Datenbasis (Abdeckung in zeitlicher, geographischer und inhaltlicher Sicht)
19
Institute for Science Networking Thomas Severiens severien@uni-oldenburg.de Heterogenität Massendaten Multimedia Crosslingualität Online-Retrieval Semantik Dateiformate Struktur Data-Warehousing
20
Institute for Science Networking Thomas Severiens severien@uni-oldenburg.de Evaluierung von IR-Systemen Datenanalytische Verfahren Vergleich: automatische Indexierung mit manuellem Pendant differenzierte Fehlerbewertung wichtig sind die Fehler, die den Zugang zum Dokument verwehren Statistische und qualitative Verfahren Verbindung von Recall-Precision-Zahlen mit bestimmten Strategien Anzahl der Interaktionen Anzahl der Deskriptoren
21
Institute for Science Networking Thomas Severiens severien@uni-oldenburg.de Systemunterschiede System A: Analyse des Textes in Einzelterme System B: Grundformenreduktion und Kompositazerlegung System C: Grundformenreduktion, Kompositazerlegung, Komplexe Deskriptoren System D: Nominalgruppen max. Länge
22
Institute for Science Networking Thomas Severiens severien@uni-oldenburg.de TREC TREC (Text Retrieval Conferences) http://trec.nist.gov/ Ziele: Herstellung der Vergleichbarkeit der IR-Verfahren durch die Verwendung gleicher Kollektionen und Evaluierungsverfahren. Zugrundelegung realistisch-großer Testkollektionen Bereitstellung operationalistischer Grundlagen für die Testdurchführung und -auswertung technologischer „Transfer“ zwischen Universitäten und Industrie
23
Institute for Science Networking Thomas Severiens severien@uni-oldenburg.de Suche im Netz W W W Komponenten des WWW Information Retrieval Kataloge Such- roboter Suche innerhalb eines Servers Clientbasierte Suche Hypertext HTTP HTML URI
24
Institute for Science Networking Thomas Severiens severien@uni-oldenburg.de Katalogbasierte Suche Charakteristiken: hierarchisch aufgebaut nach Sachgebieten meist nur URL und TITLE-Elemente Einträge werden über WWW-Seiten gemacht meist Stichwortsuche möglich (Indexierung) Problematik: kein Volltextinvertierung unbefriedigende Abdeckung des WWW-Space Aktualität und Korrektheit hängt vom Eintragenden ab Vorteile: leichte Handhabung gut für Browsing
25
Institute for Science Networking Thomas Severiens severien@uni-oldenburg.de Roboterbasierte Suche Charakteristiken: auch Spider, Wanderer etc. genannt automatisches Holen von WWW-Seiten weltweit diverse Indexierungsverfahren, meist Volltextinvertierung mehrere Abfragemodi, IR-Methoden Problematik: Anbieter bestimmt Vollständigkeit Performance Sicherheit / Zugriffschutz Aufwendige Konfiguration Vorteile: Volltextsuche mit IR-Methoden
26
Institute for Science Networking Thomas Severiens severien@uni-oldenburg.de Agenten Internet User- Interface DB WWW- Library Search-Engine Agenten
27
Institute for Science Networking Thomas Severiens severien@uni-oldenburg.de Eigenschaften von Agenten Autonomie: Arbeit wird ohne direkte Einflußnahme verrichtet. Agenten planen ihre Aktionen und haben Kontrolle über ihren Zustand. Sozialfähigkeit: Agenten kommunizieren mit anderen Agenten und mit Menschen. Reaktionsfähigkeit: Agenten nehmen ihre Umwelt wahr und reagieren auf Änderungen. Selbständigkeit: Agenten reagieren nicht nur, sondern agieren, um ihre Ziele zu erreichen. Mobilität: Agenten können sich in Netzwerken bewegen. Wahrhaftigkeit: Ein Agent vermittelt nicht absichtlich falsche Informationen Gutmütigkeit: Es soll keine Zielkonflikte geben. Rationalität: Agenten handeln so, daß sie ihre Ziele erreichen können.
28
Institute for Science Networking Thomas Severiens severien@uni-oldenburg.de Typen von Agenten Intelligente Agenten Software- Agenten Hardware- Agenten Menschliche Agenten Informations- Agenten Transaktions- Agenten Kooperations- Agenten
29
Institute for Science Networking Thomas Severiens severien@uni-oldenburg.de Intelligenz Inwieweit wir das Verhalten eines Objektes als intelligent beurteilen, hängt sowohl von unserer eigenen Intelligenz und unserer Ausbildung als auch von den Eigenschaften des fraglichen Objekts ab. Wenn wir in der Lage sind, sein Verhalten zu erklären und vorherzusagen, oder wenn wir ihm keine noch so einfachen Regeln zugrunde legen, so sind wir wenig geneigt, ihm Intelligenz zuzuschreiben. Deshalb ist es möglich, daß ein und dasselbe Objekt von einer Person als intelligent, von einer anderen Person als nicht intelligent beurteilt wird; letztere hat die Regeln für das Verhalten des Objekts herausgefunden. Alan Turing (1912 - 1954)
Ähnliche Präsentationen
© 2024 SlidePlayer.org Inc.
All rights reserved.