Institute for Science Networking Thomas Severiens Online Fachinformation Veranstaltungsnummern: 1.05.07 und 8.1.53 Veranstalter:

Slides:



Advertisements
Ähnliche Präsentationen
Algorithmen und Datenstrukturen
Advertisements

Stefan Lohrum Konrad-Zuse-Zentrum für Informationstechnik Berlin (ZIB)
Ebru Iscan, Andrea Kováčová Experimente Seminar "Experimentielle Evaluierung im IR"
Kohonennetze für Information Retrieval mit User Feedback
Prüfungspläne Bachelor-Thesis
Herzlich willkommen zur Veranstaltung „Internet-Recherche“
LiLi und die Lernplattform
Grundstudiumspraktikum “Maschinelle Übersetzung”
Julika Mimkes ISN Oldenburg LiLi Links zu Lerninhalten der Physik Eine Datenbank zu verteilten Quellen Julika Mimkes Institute.
IuK2003, Osnabrück Th. Severiens, ViFaPhys Virtuelle Fachbibliothek Physik Ein kooperatives Dienstleistungsangebot für die Physik.
Seminar Textmining WS 06/07 Themen Übung 8 Stemming Crawling.
Seminar Textmining WS 06/07 Aufgaben I 1.Metadaten 2.Einfache Inverse Liste 3.Modifizierte Inverse Liste für komplexere Anfragen 4.Boolsches Retrieval.
Seminar Textmining WS 06/07 Themen Übung 9 Multilingualität Weitere Termine: 13.7.Symbolfolgen und PageRank Findlinks mitstreiter gesucht!
Inhaltlich orientierter Zugriff auf unstrukturierte Daten
Auswertung der Interviews
Eigenschaften und Pflichten vertrauenswürdiger digitaler Archive
Wissensmanagement mit semantischen Netzen – Analyse und Vergleich verschiedener Softwarelösungen Autor: Holger Wilhelm Referentin: Prof. Dr. Uta Störl.
Fallstudie. 2 Statistik April Dokumente Jan Mio. Dokumente Performance 3 Mio. Queries pro Tag 9. Juni 2000 Most popular search engines.
Universität Stuttgart Institut für Kernenergetik und Energiesysteme MuSofT LE Capability Maturity Model Tailoring Tailoring bedeutet ungefähr: Maßschneidern.
Suchen und Finden von WWW-Dokumenten Internet-Tutorium WS 99/00 Plenum am :
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/7 Information Retrieval auf Texten An ihre Grenzen stoßen relationale Datenbanken bei der.
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/5 Grundtechniken des Information Retrieval Deskribierung Hierunter versteht man eine manuelle.
Math-Net ein Netzwerk für die Mathematik
Wahl des Themas Präzisieren der Formale Eingrenzung Fragestellung
1 KM-Modul: Knowledge Wizard Personalisierte Verknüpfung von Wissensprozessen und Geschäftsprozessen auf Basis von Metainformationen Dr. Marc Diefenbruch.
Suchmaschinenlabor an der Uni Hannover Derek Daniel.
Text-Retrieval mit Oracle Vortrag von Andreas Mück & David Diestel.
Grundkurs Linguistik Programm der Vorlesung Oktober
1/25 UNIVERSITY OF PADERBORN Projektgruppe KIMAS Projektgruppe KIMAS MultiAgenten-Systeme Andreas Goebels.
Qualitätskriterien zur Beurteilung von Dokumentationen
Externe Informationsbeschaffung
Fortgeschrittene Methoden der Wissensorganisation
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek 3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung.
Überlegungen zur Architektur eines Fachinformations-Netzwerkes am Beispiel des CeGIM Mehrwert ist es nicht nur, Daten von ihren Quellen zu den Nutzern.
Intelligentes Crawling im WWW mit Hilfe intuitiver Suchbedingungen
RDF-S3 und eRQL: RDF-Technologien für Informationsportale Karsten Tolle und Fabian Wleklinski.
Simulation komplexer technischer Anlagen
Entwurf und Realisierung einer digitalen Bibliothek zur Verwaltung von Notenhandschriften Dipl.-Ing. Temenushka Ignatova Datenbank- und Informationssysteme,
Suchen im Internet Eine Einführung. Suchen im Internet Wer bietet Informationen an? è Privatpersonen è Kommerzielle Organisationen, Firmen è Universitäten,
Theologische Hochschule Friedensau BS5P1-3: Literaturstudium und Recherche Baustein 7 Recherche im Internet 1 Dozent: Dietmar Päschel, Dipl.-Theol. Wintersemester.
Entstehung & Einflüsse Ideen, Wünsche, eigene Überlegungen bisheriges Dateisystem Einschrän- kungen: - technisch - zeitlich - fachlich Literatur, ältere.
Theorien, Methoden, Modelle und Praxis
GIS - Seminar Wintersemester 2000/2001
Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Softwaretechnologie II (Teil I): Simulation und 3D Programmierung Prof.
Kompetenz -, Lern - und Prüfungsbereiche Anforderungsbereiche
Context-awareness Andreas Bossard, Matthias Hert.
Birgit Wittenberg Kompetenzzentrum eLearning Niedersachsen
Proseminar GMA Web Suche und Information Retrieval (SS07)
Suchmaschinen.
Content Management System
Lernen durch Vergleiche
Eike Schallehn, Martin Endig
Portal-Treffen des AKI Hamburg 23. Oktober 2001 Fachportal-Physik.de Ideen für ein Physik-Portal Thomas Severiens
Von Unternehmen und Unternehmern
TECHNIKEN WISSENSCHAFTLICHEN ARBEITENS
MareNet Ein neuer elektronischer Informationsdienst für die Meeresforschung IuK Trier, 12. März 2001 Michael Hohlfeld Institute for Science Networking.
Informationsrecherche & Analyse im Netz
MareNet Marine Research Institutions & Documents Worldwide Ein elektronischer Informationsdienst für die Meeresforschung Michael Hohlfeld, Institute for.
Physik multimedial: LiLi und die Lernplattform physik multimedial Lehr- und Lernmodule für das Studium der Physik als Nebenfach Julika Mimkes:
Suchmaschinen Seminar Prinzipien und Algorithmen Peter K. Ibach Suchmaschinen.
The PicSOM Retrieval System 1 Christian Steinberg.
Die Übersetzung von “Diskursdialekten” für die Suche: Das Mapping zwischen Fachsprachen und Indexierungssprachen Vivien Petras Vortrag im Berliner Bibliothekswissenschaftlichen.
Suchmaschinen Seminar Prinzipien und Algorithmen Peter K. Ibach Suchmaschinen.
Niko Zenker1 Besondere Aspekte in Multimedia-Datenbanken Methoden zur iterativen Anfrageverfeinerung (Relevanz Feedback)
Arten von Suchwerkzeugen
Recherche-Workshop der Stadtbücherei Metzingen Schritte zur erfolgreichen Recherche.
Digital Repository Auffindbare Publikationen. Was sind Repositorien ? Als Repositorium bezeichnet man eine Struktur in der Dokumente Organisiert abgelegt.
Univ.-Prof. Dr. L. Müller-HagedornSofia 2007 Marketing 1 Kapitel 4 Nach der Bearbeitung des 4. Kapitels sollten Sie in der Lage sein, q Kennzahlen aufzuzeigen,
Organisationsweite Kommunikation und Kooperation
 Präsentation transkript:

Institute for Science Networking Thomas Severiens Online Fachinformation Veranstaltungsnummern: und Veranstalter: Eberhard R. Hilf Michael Hohlfeld Heinrich Stamerjohanns Thomas Severiens Zeit und Ort: Montags 14: :45 A Form: Vorlesung, Kolloquium, Seminar ins.uni-oldenburg.de/Institute/education/sose01

Institute for Science Networking Thomas Severiens Termine und Themen 23.4.Einführung, Strategien, MessgrößenT.S Geschichte des Internets, Suchmaschinen, FIZeH.S. 7.5.Zentrale Datenbanken (STN), FernleiheBIS 14.5.Metadaten, FormateT.S Dezentrale Konzepte, Portale, PrePrint-DiensteE.H.,M.H MPressJ.P. (OS) 11.6.Übungsaufgaben 18.6.Seminar 25.6.Seminar 2.7.Seminar 9.7.Kuchenseminar

Institute for Science Networking Thomas Severiens Scheinkriterien  Regelmäßige Teilnahme  Bearbeitung einer Übungsaufgabe  Bericht als kurzer Seminarvortrag  Interesse am Thema

Institute for Science Networking Thomas Severiens Themen today  Einführung  Boolsche Operatoren  Suchstrategien  Messparameter

Institute for Science Networking Thomas Severiens Was sind die Ziele?  Wo suche ich was?  Wie suche ich im Zeitalter des Internet und digitaler Bibliotheken?  Wie funktionieren Suchmaschinen?  Welche Konzepte stecken hinter Suchmaschinen?  Welche Möglichkeiten bieten mir Online- Publikationen?

Institute for Science Networking Thomas Severiens Information Retrieval „...leading the user to those documents that will best enable him/her to satisfy his/her need for information.“ S. E. Robertson. The methodology of information retrieval experiments. p „...the goal of an information system is for the user to obtain information from the knowledge resource which helps her/him in problem management.“ N. J. Belkin. Cognitive models and information transfer. In: Social Science Inform. Studies (4)2-3, p , 1984

Institute for Science Networking Thomas Severiens Retrieval-Prozess Problem Problem- analyse Informations- quellenauswahl Suchfrage formulieren Suche Bewertung Informations- aufbereitung Problem: Wie soll man Anfragen zu einem Bereich formulieren, über den man ja noch nicht viel weiß?

Institute for Science Networking Thomas Severiens Some Definitions Information „... die Teilmenge von Wissen, die von einer bestimmten Person oder Gruppe in einer konkreten Situation zur Lösung von Problemen benötigt wird...“ R. Kuhlen, Pragmatischer Mehrwert von Information. Bericht 1989 Informationsbedarf „... Art, Menge und Qualität der Informationsgüter, die ein Informationssubjekt im gegebenen Informationskontext zur Erfüllung einer Aufgabe in einer bestimmten Zeit innerhalb eines gegebenen Raumgebiets benötigt...“ N. Szyberski, p. 904 In: Handwörterbuch der Organisation. 2. Auflage 1980

Institute for Science Networking Thomas Severiens Some Definitions Objektiver Informationsbedarf „...Menge derjenigen Informationen..., die in unmittelbarem sachlichem Kontext zu der betrachteten Aufgabe stehen...“ H. Garbe, p.1873, In: Poeschel, Handwörterb. d. Betriebswirtschaft. 4.Aufl.1975 Subjektiver Informationsbedarf „...durch die Person oder die Wünsche des Entscheidungsträgers determiniert und kann als ein Mangel an Aussagen verstanden werden, den das Informationssubjekt empfindet bzw. zu haben glaubt...“ A.R. Bahlmann, Informationsbedarfsanalysen für das Beschaffungsmanagement. Mannhold: Gelsenkirchen, 1982

Institute for Science Networking Thomas Severiens Informationsbedarf, -nachfrage und -angebot IA IN subj. IB obj. Informationsstandmax. Ziel:INIB IAIB

Institute for Science Networking Thomas Severiens Informationsquellenauswahl  Inhaltlich:  Fachgebietsabdeckung  Art der ausgewerteten Quellen  Qualität der Inhalte  Formal:  Aktualität des Informationsangebotes (Updates)  Qualität der Retrievalsprache  geographische Abdeckung  zeitliche Abdeckung  Kosten  Online Hilfen  Zugangsberechtigung

Institute for Science Networking Thomas Severiens Suchfrageformulierung und -erweiterung Um die semantische Genauigkeit in Bezug auf die Problemstellung zu verbessern, muß eine zunächst formulierte Suchanfrage verbessert werden. Klassische Verfahren der Indexierung und Klassifizierung werden zur Verbesserung der Suchanfrage eingesetzt. Kontrolliertes Vokabular erlaubt dabei den Suchenden, eine gemeinsame Sprache mit den Autoren zu verwenden. Automatische Verfahren, die bspw. auf assoziativen Verfahren oder der Einbindung von relationiertem Vokabular (Thesaurus) beruhen, erhöhen die Anzahl der Suchterme und verbessern damit den Retrievalvorgang.

Institute for Science Networking Thomas Severiens Operatoren  Die meisten/manche Retrieval-Sprachen kennen Boolsche Operatoren: AND OR NOT  weitere Operatoren: NEAR SOUNDS_LIKE  ordnende Elemente: () “”  Trunkierungen: * ?  Reguläre Ausdrücke (regular expressions).* \n* [] {} ^$

Institute for Science Networking Thomas Severiens Relevanz  Die Relevanz bezeichnet den Grad der Übereinstimmung der inhaltlichen Aussage eines Dokumentes mit der Suchanfrage.  Man kann beispielsweise verschiedene Relevanzstufen unterscheiden  0: Keine Berührung mit dem Suchthema  1: berührt das Suchthema  2: trifft das Suchthema

Institute for Science Networking Thomas Severiens Relevanzbewertung: Maßzahlen  Relevanzquote oder „precision“ relevante gefundene / alle gefundenen = A / (A+B) Idealer Wert: 1  Nachweisquote oder „recall“ relevante gefundene / alle relevanten = A / (A+C) Idealer Wert: 1 A = „Treffer“ oder die relevanten gefundenen Dokumente B = „Ballast“ oder die nicht relevanten gefundenen Dokumente C = „Silence“ oder die vermißten relevanten Dokumente D = „Umgangene Dokumente“ oder die nicht nachgewiesenen und nicht relevanten Dokumente Problem: Wie ermittelt man C ? Schätzwert im Nenner !!!

Institute for Science Networking Thomas Severiens Relevanzbewertung: Maßzahlen  Ausfallquote oder „fallout ratio“ irrelevant gefundene / alle irrelevanten = B / (B+D) Idealer Wert: 0  Single-Number-Measures  relevance balance = (A+C) / (B+D)  retrieval balance = (A+B) / (C+D)  search distillation= AD - BC A = „Treffer“ oder die relevanten gefundenen Dokumente B = „Ballast“ oder die nicht relevanten gefundenen Dokumente C = „Silence“ oder die vermißten relevanten Dokumente D = „Umgangene Dokumente“ oder die nicht nachgewiesenen und nicht relevanten Dokumente

Institute for Science Networking Thomas Severiens Maßauswahl  Boolsche Systeme:  1. Ein System ist umso besser, je mehr relevante Dokumente gefunden werden.  2. Ein System ist umso besser, je geringer der Ballast ist.  3. Punkt (1) hat Priorität vor Punkt (2).  Ranking Systeme:  Die Position der Dokumente spielt die entscheidende Rolle.

Institute for Science Networking Thomas Severiens Bewertungskriterien  Die Fähigkeit eines Systems, alle relevanten Dokumente nachzuweisen  Die Fähigkeit eines Systems, nur relevante Dokumente nachzuweisen  Aufwand, intellektuell und physisch, um die Suchanfragen zu formulieren, die Suche durchzuführen und die Ergebnisse durchzuschauen  Zeit, die zwischen Eingabe der Suchanfrage und der Präsentation der Suchergebnisse vergeht  Ausgabe der Suchergebnisse in weiterverarbeitbarer Form  Qualität der Datenbasis (Abdeckung in zeitlicher, geographischer und inhaltlicher Sicht)

Institute for Science Networking Thomas Severiens Heterogenität Massendaten Multimedia Crosslingualität Online-Retrieval Semantik Dateiformate Struktur Data-Warehousing

Institute for Science Networking Thomas Severiens Evaluierung von IR-Systemen  Datenanalytische Verfahren  Vergleich: automatische Indexierung mit manuellem Pendant  differenzierte Fehlerbewertung  wichtig sind die Fehler, die den Zugang zum Dokument verwehren  Statistische und qualitative Verfahren  Verbindung von Recall-Precision-Zahlen mit bestimmten Strategien  Anzahl der Interaktionen  Anzahl der Deskriptoren

Institute for Science Networking Thomas Severiens Systemunterschiede  System A: Analyse des Textes in Einzelterme  System B: Grundformenreduktion und Kompositazerlegung  System C: Grundformenreduktion, Kompositazerlegung, Komplexe Deskriptoren  System D: Nominalgruppen max. Länge

Institute for Science Networking Thomas Severiens TREC  TREC (Text Retrieval Conferences)   Ziele:  Herstellung der Vergleichbarkeit der IR-Verfahren durch die Verwendung gleicher Kollektionen und Evaluierungsverfahren.  Zugrundelegung realistisch-großer Testkollektionen  Bereitstellung operationalistischer Grundlagen für die Testdurchführung und -auswertung  technologischer „Transfer“ zwischen Universitäten und Industrie

Institute for Science Networking Thomas Severiens Suche im Netz W W W Komponenten des WWW Information Retrieval Kataloge Such- roboter Suche innerhalb eines Servers Clientbasierte Suche Hypertext HTTP HTML URI

Institute for Science Networking Thomas Severiens Katalogbasierte Suche  Charakteristiken:  hierarchisch aufgebaut nach Sachgebieten  meist nur URL und TITLE-Elemente  Einträge werden über WWW-Seiten gemacht  meist Stichwortsuche möglich (Indexierung)  Problematik:  kein Volltextinvertierung  unbefriedigende Abdeckung des WWW-Space  Aktualität und Korrektheit hängt vom Eintragenden ab  Vorteile:  leichte Handhabung  gut für Browsing

Institute for Science Networking Thomas Severiens Roboterbasierte Suche  Charakteristiken:  auch Spider, Wanderer etc. genannt  automatisches Holen von WWW-Seiten weltweit  diverse Indexierungsverfahren, meist Volltextinvertierung  mehrere Abfragemodi, IR-Methoden  Problematik:  Anbieter bestimmt Vollständigkeit  Performance  Sicherheit / Zugriffschutz  Aufwendige Konfiguration  Vorteile:  Volltextsuche mit IR-Methoden

Institute for Science Networking Thomas Severiens Agenten Internet User- Interface DB WWW- Library Search-Engine Agenten

Institute for Science Networking Thomas Severiens Eigenschaften von Agenten  Autonomie: Arbeit wird ohne direkte Einflußnahme verrichtet. Agenten planen ihre Aktionen und haben Kontrolle über ihren Zustand.  Sozialfähigkeit: Agenten kommunizieren mit anderen Agenten und mit Menschen.  Reaktionsfähigkeit: Agenten nehmen ihre Umwelt wahr und reagieren auf Änderungen.  Selbständigkeit: Agenten reagieren nicht nur, sondern agieren, um ihre Ziele zu erreichen.  Mobilität: Agenten können sich in Netzwerken bewegen.  Wahrhaftigkeit: Ein Agent vermittelt nicht absichtlich falsche Informationen  Gutmütigkeit: Es soll keine Zielkonflikte geben.  Rationalität: Agenten handeln so, daß sie ihre Ziele erreichen können.

Institute for Science Networking Thomas Severiens Typen von Agenten Intelligente Agenten Software- Agenten Hardware- Agenten Menschliche Agenten Informations- Agenten Transaktions- Agenten Kooperations- Agenten

Institute for Science Networking Thomas Severiens Intelligenz Inwieweit wir das Verhalten eines Objektes als intelligent beurteilen, hängt sowohl von unserer eigenen Intelligenz und unserer Ausbildung als auch von den Eigenschaften des fraglichen Objekts ab. Wenn wir in der Lage sind, sein Verhalten zu erklären und vorherzusagen, oder wenn wir ihm keine noch so einfachen Regeln zugrunde legen, so sind wir wenig geneigt, ihm Intelligenz zuzuschreiben. Deshalb ist es möglich, daß ein und dasselbe Objekt von einer Person als intelligent, von einer anderen Person als nicht intelligent beurteilt wird; letztere hat die Regeln für das Verhalten des Objekts herausgefunden. Alan Turing ( )