Empirische Informationswissenschaft

Slides:



Advertisements
Ähnliche Präsentationen
Algorithmen und Datenstrukturen
Advertisements

Metaanlysen klinischer Studien Rainer Schalnus
Anzahl der ausgefüllten und eingesandten Fragebögen: 211
Vorlesung Programmieren II
Sprachstatistik: Das Zipf‘sche Gesetz
eine Datenbank im Web of Knowledge
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil3.
LS 2 / Informatik Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)
Übung Datenbanksysteme WS 2003/ Übung Datenbanksysteme Entwurf eines Bibliothekssystems
TECHNISCHE UNIVERSITÄT DARMSTADT Naive Bayes for Ranking
GMS Konzept: Ebenen von GMS. GMS German Medical Science Die Ziele Beschleunigung des Wissenstransfers Schnelligkeit der Publikation und des Zugriffs Verbesserung.
Einführung in die Informationswissenschaft
Inhaltlich orientierter Zugriff auf unstrukturierte Daten
„Netzwerk Medizin und Geschlecht“ an der Medizinischen Hochschule Hannover Projektleitung: Dr. phil. Bärbel Miemietz Projektkoordination: Larissa Burruano,
Fallstudie. 2 Statistik April Dokumente Jan Mio. Dokumente Performance 3 Mio. Queries pro Tag 9. Juni 2000 Most popular search engines.
Sortierverfahren Richard Göbel.
Sortierverfahren Richard Göbel.
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/7 Information Retrieval auf Texten An ihre Grenzen stoßen relationale Datenbanken bei der.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen Halbzeit: Was haben wir bisher gelernt? Prof. Th. Ottmann.
Rechneraufbau & Rechnerstrukturen, Folie 2.1 © W. Oberschelp, G. Vossen W. Oberschelp G. Vossen Kapitel 2.
Erweiterte Fassung Karin Haenelt, IR-Evaluierung Evaluierung von Information Retrieval Systemen Kursfolien Karin Haenelt.
Wahl des Themas Präzisieren der Formale Eingrenzung Fragestellung
Internet facts 2006-I Graphiken zu dem Berichtsband AGOF e.V. September 2006.
Internet facts 2009-IV Grafiken zu dem Berichtsband AGOF e.V. März 2010.
Internet facts 2006-III Graphiken zum Berichtsband AGOF e.V. März 2007.
Internet facts 2008-II Graphiken zu dem Berichtsband AGOF e.V. September 2008.
Internet facts 2006-II Graphiken zu dem Berichtsband AGOF e.V. November 2006.
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil2.
Support.ebsco.com Lernprogramm zur einfachen Suche in wissenschaftlichen Bibliotheken.
Prof. Dr. Bernhard Wasmayr
Qualitätskriterien zur Beurteilung von Dokumentationen
Relevanz Ranking Bisher: Sind wir davon ausgegangen, dass das Ergebnis des Rankings des statistischen Verfahrens in den Index geschrieben wird und dem.
Relevanz Ranking Bisher:
Vortragender Messung des Erfolgs einer Website Subjektive Attraktivität Besuchsintensität Produktivität Finanzielle Maße
Prof. Dr. Bernhard Wasmayr VWL 2. Semester
AWA 2007 Natur und Umwelt Natürlich Leben
Prof. Dr. Günter Gerhardinger Soziale Arbeit mit Einzelnen und Familien Übersicht über die Lehrveranstaltung Grundlegende Bestimmungsfaktoren der Praxis.
Daten auswerten Boxplots
20:00.
Internetverwendung und Werbeaffinität APA-IT Forum 7. Mai 2008
Theologische Hochschule Friedensau BS5P1-3: Literaturstudium und Recherche Baustein 7 Recherche im Internet 1 Dozent: Dietmar Päschel, Dipl.-Theol. Wintersemester.
Eine Einführung in die CD-ROM
GBI Genios Wiso wiso bietet Ihnen das umfassendste Angebot deutsch- und englischsprachiger Literatur für die Wirtschafts- und Sozialwissenschaften. Wir.
1 Einführung in Literaturrecherche (WS 2004/5) Welche e-Tools helfen mir bei der Suche nach Literatur zu einem bestimmten Thema? Welche e-Tools (e-Werkzeuge)
Wichtige bibliographische Begriffe: Kurs WA, Zrelski, BRG WY, 2013.
Syntaxanalyse Bottom-Up und LR(0)
Hartmut Klauck Universität Frankfurt SS
1 Universitätsbibliothek Johann Christian Senckenberg Das Angebot E lektronischer M edien eLearning Netzwerktag am 30. Juni 2008 Subtitel Dr. Klaus Junkes-Kirchen.
Information und Kommunikation Hartmut Klauck Universität Frankfurt SS
Information und Kommunikation
Peter Grzybek Projekt # (FWF) Projekt # 43s9 (OEAD/SAIA) Graphem-Häufigkeiten.
Aufgabensammlung Thermodynamik Frank-Michael Barth ISBN: © 2014 Oldenbourg Wissenschaftsverlag GmbH Abbildungsübersicht / List of Figures.
Ertragsteuern, 5. Auflage Christiana Djanani, Gernot Brähler, Christian Lösel, Andreas Krenzin © UVK Verlagsgesellschaft mbH, Konstanz und München 2012.
Vorlesung Mai 2000 Konstruktion des Voronoi-Diagramms II
Zahlentheorie und Zahlenspiele Hartmut Menzer, Ingo Althöfer ISBN: © 2014 Oldenbourg Wissenschaftsverlag GmbH Abbildungsübersicht / List.
MINDREADER Ein magisch - interaktives Erlebnis mit ENZO PAOLO
Using latent semantic analysis to find different names for the same entity in free text Präsentation und Diskussion des Papers Im Rahmen des PS Web-Information.
Seite 1 Institut für Wirtschaftsinformatik Universität Bern Proseminar –Literaturrecherche.
Der Zentralwert.
Folie Beispiel für eine Einzelauswertung der Gemeindedaten (fiktive Daten)
Unternehmensbewertung Thomas Hering ISBN: © 2014 Oldenbourg Wissenschaftsverlag GmbH Abbildungsübersicht / List of Figures Tabellenübersicht.
Forschungsprojekt Statistik 2013 „Jugend zählt“ – Folie 1 Statistik 2013 „Jugend zählt“: Daten zur Arbeit mit Kindern und Jugendlichen.
Folie Einzelauswertung der Gemeindedaten
MareNet Ein neuer elektronischer Informationsdienst für die Meeresforschung IuK Trier, 12. März 2001 Michael Hohlfeld Institute for Science Networking.
Google (Web-Suchmaschine) Google Books Google Scholar
Einführung in die Volkswirtschaftslehre, Mikroökonomie und Wettbewerbspolitik Lothar Wildmann ISBN: © 2014 Oldenbourg Wissenschaftsverlag.
Eine bibliometrische Analyse eines Dokumentlieferdienstes am Beispiel von Subito: Zusammenhang von Zeitschriftennachfrage und -zitationshäufigkeiten Christian.
Qualitative Interviews Sabina Misoch ISBN: © 2015 Walter de Gruyter GmbH, Berlin/Mu ̈ nchen/Boston Abbildungsübersicht / List of Figures.
Master in Web Science Shape the Web of Tomorrow!.
Gewusst wie - Literatur suchen und finden in der Unibibliothek
 Präsentation transkript:

Empirische Informationswissenschaft HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft

Empirische Informationswissenschaft Informetrie: nomothetische Informetrie (informetrische Gesetzmäßigkeiten) - deskriptive Informetrie – Online-Informetrie – Web-Informetrie Analyse von Informationssystemen: Retrievalsysteme (Relevanz, Recall, Precision) – Datenbasen (Availability) – Funktionalität von Datenbanken – Usability von Websites Wissenschaftliche Kommunikation: Der „Ethos“ der Wissenschaft – Zitationen und Referenzen – Zitatenanalyse – Impact Factor akademischer Zeitschriften - Themenanalyse – Wissenschaft und Öffentlichkeit – Thematisierungen HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft

Empirische Informationswissenschaft Empirische Wissenschaftsforschung / Wissenschaftsgeschichte: Szientometrie - Wissenschaftsevaluation – Wissenschaftsgeschichtsschreibung mittels Datenbanken Knowledge Mining: Data Mining (Informetrie strukturierter Daten) – Text Mining (Informetrie unstrukturierter Daten) Nutzeranalyse: Informationsbedarf und –bedürfnis, Nutzung von Informations-systemen und –diensten Empirie der Informationstätigkeiten: Bibliotheksforschung - Informationswirtschaft HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft

Empirische Informationswissenschaft Informetrie HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft

Informetrie Zeitschriften: Kongress: Basisliteratur: Scientometrics - Cybermetrics Journal of the American Society for Information Science and Technology Kongress: International Conference on Scientometrics and Informetrics (seit 1987; alle 2 Jahre) Basisliteratur: Leo Egghe; Ronald Rousseau: Introduction to Informetrics. – Amsterdam [u.a.]: Elsevier Science, 1990. Wolfgang G. Stock: Informationswirtschaft. – München; Wien: Oldenbourg, 2000. – Kap. 5 (Data Mining bei externen Informationen) HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft

Empirische Informationswissenschaft Informetrie Nomothetische Informetrie Konzentrationsgesetze Zipfsches Gesetz: Verteilung von Worthäufigkeiten in Texten Lotkas Gesetz: Verteilung von Publikationen eines Fachgebiets auf Autoren Bradfordsches Gesetz: Verteilung von Artikeln eines Fachgebiets auf Zeitschriften Garfieldsches Gesetz: Verteilung von Zitationen auf wissenschaftliche Zeitschriften Gesetz der zeitlichen Verteilung Halbwertzeit: Zeit, nach der die Hälfte einer Literatur-menge nicht mehr benutzt wird Virgil P. Diodato: Dictionary of Bibliometrics. – New York [u.a.]: Haworth, 1994. HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft

Empirische Informationswissenschaft Informetrie Zipfsches Gesetz George Kingsley Zipf (1902 - 1950) gegeben: Text (Artikel, Buch, ...) Auszählen der Häufigkeiten jedes Wortes Ordnung der Wörter nach Häufigkeit (absteigend) r * f = C r =: Rangplatz des Wortes f =: Häufigkeit des Wortes C =: Konstante (abhängig vom Text) HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft

Empirische Informationswissenschaft Informetrie Zipfsches Gesetz Beispiel: “Ulysses” (James Joyce) Wort auf Rang 10 kommt 2.653mal vor: C = 26.530 Wort auf Rang 20 kommt 1.311mal vor: C = 26.220 Wort auf Rang 1.000 kommt 26mal vor: C = 26.000 C (Ulysses) ~ 26.000 Das Gesetz gilt für Hochfrequenzworte, z.T. auch - je nach Text - für alle Worte eines Textes. Für Niedrigfrequenz-worte hat Zipf ein weiteres Gesetz entwickelt (Zweites Zipfsches Gesetz). George K. Zipf: Human Behavior and the Principle of Least Effort. – Cambridge, MA: Addison-Wesley, 1949. HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft

Informetrie Lotkas Gesetz Alfred J. Lotka (1880 - 1949) gegeben: Fachgebiet mit umfassender Liste der Publikationen zum Fachgebiet (Biblio- graphie, Spezialdatenbank) Auszählen der Publikationsraten für alle Autoren Sortieren der Autoren nach der Anzahl der Publikationen Zählen der Autoren mit gleichviel Publikationen x * y = c oder y = c / x x =: Anzahl der Publikationen y =: relative Häufigkeit der Autoren mit x Publikationen n, c =: Konstanten (je nach Fachgebiet) [n ~ 2] n n Alfred J. Lotka: The frequency distribution of scientific productivity. – In: Journal of the Washington Academy of Sciences 16 (1926), 317-323. HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft

Informetrie Lotkas Gesetz Beispiel: “Journal of Finance”, 1946-1980; insgesamt 1.844 Artikel) 1.237 Autoren (67,1%) produzierten je 1 Artikel 295 Autoren (16,0%) produzierten je 2 Artikel 140 Autoren (7,6%) produzierten je 3 Artikel 63 Autoren (3,4%) produzierten je 4 Artikel 41 Autoren (2,2%) produzierten je 5 Artikel angenommen: n = 2 (1 * 1) * 0,671 = 0,671 (2 * 2) * 0,160 = 0,640 (3 * 3) * 0,076 = 0,684 c ~ 0,6 (4 * 4) * 0,034 = 0,544 (5 * 5) * 0,022 = 0,550 M. Keenan: Report on the 1987 membership survey. – In: Journal of Finance 43 (1988), 767-777. HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft

Informetrie Lotkas Gesetz Kreise: empirische Daten Linie: nach Theorie erwartet Reduktion der Daten auf genau 100 Autoren, die 1 Aufsatz publiziert haben (C = 1, n = 2) Derek J. de Solla Price: Litte Science, Big Science. – Frankfurt: Suhrkamp, 1974. HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft

Empirische Informationswissenschaft Informetrie Bradfordsches Gesetz Samuel Clement Bradford (1878 - 1948) gegeben: Artikel eines Fachgebiets Zählen der Anzahl der Artikel pro Zeitschrift Sortieren der Zeitschriften nach der Anzahl der Artikel Bildung von drei Mengen, die jeweils die gleiche Anzahl der Artikel enthalten die Anzahl der Zeitschriften in den drei Zonen folgt der Formel 1 : n : n n =: Konstante (“Bradford Multiplikator”) 2 HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft

Empirische Informationswissenschaft Informetrie Bradfordsches Gesetz drei Zonen: Kern - Mitte - Rand empirisches Beispiel: Bradford (1934): Schmiermittel (395 Artikel in 164 Zeitschriften) Kern: 8 Zeitschriften produzieren 110 Artikel Mitte: die nächsten 29 Zs. produzieren 133 Artikel Rand: die nächsten 127 Zs. produzieren 152 Artikel 8 : 29 : 127 = 1 : 3,625 : 15,875 ~ 1 : 4 : 16 Samuel C. Bradford: Sources of information on specific subjects. – In: Engineering 137 (1934), 85-86. HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft

Empirische Informationswissenschaft Informetrie Bradford-Zipf-Bibliograph Verallgemeinerung des Bradfordschen Gesetzes im Sinne des Zipfschen Gesetzes Zuordnung der kumulierten Anzahl der Artikel zur kumulierten Anzahl der Zeitschriften Berechnung der Logarithmen (Basis 10) der beiden Zahlenreihen Darstellung als Graph der absoluten Häufigkeiten Darstellung als Graph der Logarithmen Darstellung als Graph in halblogarithmischer Darstellung (nur eine Achse logarithmisch; in der Regel die Anzahl der Zeitschriften); typische Formen J-Kurve S-Kurve Kurve mit umgekehrtem J HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft

Empirische Informationswissenschaft Informetrie Bradford-Zipf-Bibliograph Ausgangsdaten (Quelle: Bradford 1934: Angewandte Geophysik Jg. 1928-1931) HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft

Empirische Informationswissenschaft Informetrie Bradford-Zipf-Bibliograph Absolute Häufigkeiten HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft

Empirische Informationswissenschaft Informetrie Bradford-Zipf-Bibliograph Log-Log-Graph HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft

Empirische Informationswissenschaft Informetrie Bradford-Zipf-Bibliograph Halb-Log-Graph J-Kurve: Disziplin mit ergiebigen Zeit-schriften ohne großen Rand S-Kurve: Disziplin mit ergiebigen, aber auch mit vielen Zeit-schriften im Rand Kurve wie umgekehrtes J: Disziplin konzentriert auf eigene Zeitschriften, aber mit Rand HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft

Informetrie Garfieldsches Gesetz Eugene Garfield (geb. 1925) gegeben: Referenzen aus Quellenzeitschriften der Reihen des ISI (multidisziplinär) Zuordnung von Zitationsraten zu Zeitschriften Sortierung der Zeitschriften nach Zitationsraten Konzentration wie bei Bradford-Zipf: 75% aller Zitationen entfallen auf knapp 1.000 Zeitschriften; 84% auf ca. 2.000 Zeitschriften Praktische Konsequenz: eine Datenbank, die einige Tausend Zeitschriften (nämlich die jeweils meistzitierten) auswertet, ergibt ein repräsentatives Abbild der Wissenschaft; hieran orientiert sich die Quellenauswahl bei SCI, SSCI, A&HCI Eugene Garfield: The mystery of the transposed journal list – wherein Bradford‘s law of scattering is generalized according to Garfield‘s law of concentration. – In: E.Garfield: Essays of an Information Scientist, Vol 1. – Philadelphia: ISI Press, 1977, 222-223. HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft

Philosophy of Sciences American Philosophical Quarterly Informetrie Garfieldsches Gesetz Beispiel: Philosophie (Drei-Zonen-Einteilung wie Bradford) gegeben: 735 Referenzen (Jg. 1975); darin zitierte Zeitschriften: 223 Kern: 6 Zeitschriften (genannt in 245 Zitationen) Mitte: 23 Zeitschriften (genannt in 245 Zitationen) Rand: 194 Zeitschriften (genannt in 245 Zitationen) also: 6 : 23 : 194 = 1 : 3,8 : 32,3 ~ 1 : 4 : 32 (erwartet: 1 : 4 : 16), demnach: sehr große Randzone Kernzeitschriften: Journal of Philosophy Philosophical Review Analysis Mind Philosophy of Sciences American Philosophical Quarterly HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft

Das informetrische Verteilungsgesetz Informetrie Das informetrische Verteilungsgesetz f (x) C _____ f (x) = a x ca. 80 % x ca. 20% HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft

Empirische Informationswissenschaft Informetrie Gesetz der zeitlichen Verteilung: Halbwertszeit Analogie zum radioaktiven Zerfall Die Halbwertszeit ist die Zeit, in der die Hälfte eines radioaktiven Stoffes in einen anderen Stoff zerfallen ist. Dieser Prozess ist zufallsabhängig; d.h. man weiß nicht, welches Atom zu welcher Zeit zerfällt. Beispiele für Halbwertszeiten: Uran-238: 4,5 Mrd. Jahre C-14: 5.730 Jahre Jod-131: 8 Tage HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft

Empirische Informationswissenschaft Informetrie Gesetz der zeitlichen Verteilung: Halbwertszeit gegeben: Zitationen / Referenzen Sortierung der Zitationen nach der Zeit Zählen der Anzahl der Zitationen pro Jahr; Zählen der Gesamtanzahl der Zitationen Markierung des Jahres, an dem die Hälfte (ein Viertel, ein Achtel usw.) der Zitationen erreicht wird Gesetz: Die Halbwertzeiten sind (bei großen Zahlen) jeweils gleich. HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft

Empirische Informationswissenschaft Informetrie Deskriptive Informetrie Beschreibung von Dokumentmengen. Beispiele: Werke eines Wissenschaftlers (Wieviel geschrieben? In welcher Zeit? Worüber? Welche Wirkung?) Artikel und Bücher von Angehörigen eines Instituts Patente und Artikel eines Wirtschaftsunternehmens Wissenschaftliche Zeitschriften (Wieviele Publikationen? Wieviele unterschiedliche Autoren? Welche Wirkung?) Wissenschaftliche und technische Themen (Wann zuerst aufgekommen? Wie verbreiteten sie sich? Wie lange diskutiert? Welche Autoren?) Länder / Weltregionen (Nationaler Output? Internationale Wirkung?) Websites / Domains (Einfluss? Verlinkung?) HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft

Empirische Informationswissenschaft Informetrie deskriptive Informetrie: Aufspüren von neuen Informationen in Datenbanken („Knowledge Mining“) Rangordnungen Zeitreihen Semantische Netze Informationsfluß- und Linkanalysen dabei – soweit möglich: Vergleich der beschriebenen Verteilungen mit den (nach den informetrischen Gesetzen) erwarteten HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft

Empirische Informationswissenschaft Informetrie Rangordnungen Fragestellung: Welches sind die Top-X-Items in einer Dokumentenmenge? Theoretische Basis: Konzentrationsgesetze Ziel: 1. Retrievalverbesserung; 2. Neue Informationen Vorgehen: Suche nach allen Datensätzen zum Thema Rangordnung zur gewünschten Ausprägung (in den meisten Systemen der Befehl: RANK) Ausgabe der “Hitparade” bis Platz X Beispiel: Welche Unternehmen sind in der FuE bei Verpackungsmaschinen führend? Wolfgang G. Stock: Wirtschaftsinformationen aus informetrischen Online-Recherchen. – In: Nachrichten für Dokumentation 43 (1992), 301-315. - Wolfgang G. Stock: Das „Online-Unternehmensbild“ anhand von Wirtschaftsdaten und informetrischen F&E-Indikatoren. – In: Harald Killenberg et al. (Hrsg.): Wissensbasierte Informationssysteme und Informationsmanagement. – Konstanz: Univ.-Verl., 1991, 376-386. HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft

Empirische Informationswissenschaft Informetrie Rangordnung der Unternehmen nach Patenten bei Verpackungsmaschinen Rang absolute H. relative H. Unternehmen 1 170 0,74 % Focke & Co GmbH & Co 2 153 0,66 % Grace & Co 3 126 0,55 % Robert Bosch GmbH 4 105 0,45 % Packaging Filling Equip. N = 22.867 Patentfamilien in der IPC-Unterklasse B65B (nebst aller Unter- begriffe) N’ = 7.448 (unterschiedliche) Unternehmen mit mindestens einem Patent in B65B HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft

Empirische Informationswissenschaft Informetrie Informetrische Zeitreihen Fragestellung: Wie entwickelt sich ein Aspekt einer Dokumentmenge im Laufe der Zeit? Ziel: Neue Informationen Vorgehen: Suche nach allen Datensätzen zum Thema Ausgabe der Inhalte des Feldes “Jahrgang” (mit Angabe der Anzahl der DE) graphische Aufbereitung als Zeitreihe (Tabellenkalkulationsprogramm) Beispiel: Wieviele Patente für Verpackungsmaschinen haben die führenden Unternehmen pro Jahr zwischen 1981 und 1993 angemeldet? HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft

Empirische Informationswissenschaft Informetrie HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft

Empirische Informationswissenschaft Informetrie Semantische Netze Fragestellung: Gibt es in einer Dokumentenmenge zusammengehörige Komplexe? Bsp.: kooperierende Autoren oder Institute; gemeinsam auftretenden Themen; gemeinsame Referenzen oder Zitationen Ziel: 1. Retrievalverbesserung; 2. Neue Informationen Vorgehen: Suche nach allen Datensätzen zum Thema clusteranalytische Aufbereitung der DE (Spezialsoftware) graphische Aufbereitung Beispiel: Wie hängen die Forschungsthemen der Krones AG im Bereich der Etikettiermaschinen zusammen? HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft

Empirische Informationswissenschaft Informetrie Thematisches Cluster der Artikel von Krones-Mitarbeitern im Bereich der Etikettiermaschinen (im Bild der Deskriptoren der FIZ Technik-Datenbank DOMA) HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft

Empirische Informationswissenschaft Informetrie Informationsflussgraphen / Linkanalysen (1) Fragestellung: Fließen innerhalb einer Dokumentenmenge Informationen (welche?, wieviele?) von A nach B? Sofern Hypertextdokumente vorliegen: Sind A und B verlinkt? Ziel: 1. Retrievalstrategie; 2. Neue Informationen Vorgehen bei Zitationen: Aufruf einer Datenbank, die Zitationen speichert (wiss. Artikel; Patente; Grundsatzurteile) Suche nach zitierenden Dokumenten (nach vorne) und nach zitierten Dokumenten (nach hinten) – Hostsoftware graphische Aufbereitung als Informationsflussgraph Beispiel: Woher stammen die Technologieinformationen der Krones AG? Wohin fließen die Technologieinformationen von Krones? HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft

Empirische Informationswissenschaft Informetrie Wissensimport und –export bei der Krones AG (im Bild von Derwent World Patents Index bei Questel-Orbit) HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft

Empirische Informationswissenschaft Informetrie Informationsflussgraphen / Linkanalysen (2) Fragestellung: Fließen innerhalb einer Dokumentenmenge Informationen (welche?, wieviele?) von A nach B? Sofern Hypertextdokumente vorliegen: Sind A und B verlinkt? Ziel: 1. Retrievalstrategie; 2. Neue Informationen Vorgehen bei Hypertextdokumenten: Aufruf einer Suchmaschine, die eine Feldsuche zu Links, Ankertexten, Hosts und Domains anbietet entweder direkte Ausgabe der „Landkarte“ oder graphische Aufbereitung als Linkgraph Beispiel 2: Wie sind deutsche Webseiten zu Miranda Otto verlinkt? HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft

Informetrie Link-Topologie deutscher Webseiten zu Miranda Otto (im Bild von Kartoo.com) HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft

Empirische Informationswissenschaft Informetrie Datengewinnung der Informetrie Online-Informetrie bei Content-Aggregatoren Voraussetzungen: (1) spezifische informetrische Befehle (2) adäquates Feldschema (3) adäquate Datenbasis Web-Informetrie bei Suchmaschinen (1) Abfrage der HTML-Tags (2) adäquate Datenbasis Offline-Informetrie mittels spezifischer Analysesoftware Download von Datensätzen Weiterverarbeitung offline HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft

Empirische Informationswissenschaft Informetrie Online-Informetrie bei Content-Aggregatoren HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft

Informetrie Informetrische Befehle bei STN Rangordnungen mit ANALYZE ANALYZE and TABULATE Commands. – In: STNotes No. 17 (1998), 1-5. HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft

Informetrie Informetrische Befehle bei STN Zusammenhänge zweier Variablen mit TABULATE (wenn eine Variable PY ist: Zeitreihe) ANALYZE and TABULATE Commands. – In: STNotes No. 17 (1998), 6-8. HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft

Informetrie Informetrische Befehle bei DIALOG: In welche Technikgebiete hinein haben Düsseldorfer Unternehmen die größte Wirkung? Welches ist das meistzitierte Patent des Jahres 1995? Informetrische Befehle bei DIALOG: Zusammenspiel von MAP und RANK MAP PN/CT= Mechtild Stock; Wolfgang G. Stock: Dialog/DataStar. One-Stop-Shops internationaler Fachinformationen. – In: Password Nr. 4 (2003), 22-29. HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft

Ausführen der gespeicherten Suche: EXS SC004 Informetrie Zusammenspiel von MAP und RANK Zwischenergebnis; unter SC004 gespeichert Datenbankwechsel: b 342 Ausführen der gespeicherten Suche: EXS SC004 HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft

G08G : Verkehrsregelungs- und -überwachungssysteme Informetrie RANK IC(1-4) RANK CT C11D : Reinigungsmittel G08G : Verkehrsregelungs- und -überwachungssysteme HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft

Empirische Informationswissenschaft Informetrie Web-Informetrie bei Suchmaschinen Web Impact Factor (WIF) WIF(C) = (# Links auf Seiten von C) / (# Seiten innerhalb C) bei AltaVista: Zähler: link:.XX/ Nenner: domain:XX oder host:www.XXX/ Self-Link WIF (C) = (# Links aus C auf C) / (# Seiten innerhalb C) bei AltaVista: Zähler: domain/host:XX/ AND link:.XX/ Ext-Link WIF (C) = (# Links außerhalb C auf C) / (# Seiten innerhalb C) bei AltaVista: Zähler: link:.XX/ AND NOT (domain/host:XX AND link:.XX/) Es gilt: WIF(C) = Self-Link (C) + Ext-Link (C) Peter Ingwersen: The calculation of Web Impact Factors. – In: Journal of Documentation 54 (1998), 236-243. HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft

Empirische Informationswissenschaft Informetrie Web Impact Factor (WIF): Die „klassischen“ Ergebnisse von Ingwersen (AltaVista; Mitte 1997) HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft

Empirische Informationswissenschaft Informetrie Web Impact Factor (WIF) für Norwegen (.no) und Deutschland (.de) – April 2003 WIF (NO) = 2,97 WIF (DE) = 0,65 Self-Link WIF (NO) = 0,46 Self-Link WIF (DE) = 0,38 Ext-Link (NO) = 2,51 Ext-Link (DE) = 0,25 N (Seiten NO) = 4,77 Mio. N (Seiten DE) = 86,61 Mio. HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft

Empirische Informationswissenschaft Informetrie Web Impact Factor (WIF) für Uni Düsseldorf und Uni Köln – April 2003 WIF (DDF) = 0,44 WIF (KÖLN) = 0,49 Self-Link WIF (DDF) = 0,03 Self-Link WIF (KÖLN) = 0,14 Ext-Link (DDF) = 0,41 Ext-Link (KÖLN) = 0,35 N (Seiten DDF) = 56.927 N (Seiten KÖLN) = 87.421 HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft

Informetrie Variante des Web Impact Factor von Thelwall Kritik am Verfahren von Ingwersen: Die Zahl der Webseiten eines Hosts sagt nichts über die dahinterstehende Organisation aus. Vorschlag: (a) Beschränkung auf externe Links (b) Relativierung auf die Anzahl der Vollzeitäquivalente akademischer Mitarbeiter einer Institution (was heißt, dass diese Variante ausschließ-lich auf Universitäten und andere Forschungseinrichtungen anwendbar ist) Academic-WIF (C) = (# Links außerhalb C auf C) / (# Wissenschaftler-Vollzeitäquivalente in C) Mike Thelwall: A comparison of sources of links for academic Web impact factor calculation. – In: Journal of Documentation 58 (2002), 66-78. HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft

Empirische Informationswissenschaft Informetrie Academic Web Impact Factor (Acad. WIF) und Wissen-schaftsevaluation Gibt es Korrelationen (Pearson) zwischen Acad. WIF und „Official Government Research Assessment Exercise“ (RAE) für britische Universitäten? Domain der externen Links HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft

Analyse von Informationssystemen HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft

Analyse von Informationssystemen Die „klassischen“ Kennwerte zur Bewertung von Retrievalsystemen Haben wir alle Datensätze gefunden, die handlungsrelevantes Wissen beinhalten? (Vollständigkeit; Recall) Recall R = a / a + c Haben wir nur solche Datensätze gefunden? (Genauigkeit, Precision) Precision P = a / a + b a =: gefundene relevante Treffer b =: nichtrelevante Datensätze, die in der Treffermenge enthalten sind (Ballast) c =: relevante Datensätze in der Datenbank, die nicht gefunden wurden Salton Gerard Salton; Michael J. McGill: Information Retrieval – Grundlegendes für Informationswissenschaftler. – Hamburg [u.a.]: McGraw-Hill, 1983. – Kap. 5: Die Bewertung von Retrievalsystemen, 167-210. HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft

Analyse von Informationssystemen Recall / Precision Relevanz: kontextuelle Übereinstimmung zwischen einem Suchargument und einem Dokument - unabhängig von konkreten subjektiven Informationsbedürfnissen (Salton/McGill) Pertinenz: Übereinstimmung zwischen einem subjektivem Informationsbedürfnis und einem Dokument Ein Relevanzurteil nimmt in der klassischen Variante genau einen von zwei Werten an: relevant – nicht relevant. Relevanzurteile sind mitunter unscharf, insofern unterschiedliche Beurteiler zu abweichenden Urteilen kommen können. HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft

Analyse von Informationssystemen Recall / Precision Mengentheoretische Betrachtung (A: relevante Dokumente; B: Dokumente in Treffermenge) C.J. van Rijsbergen: Information Retrieval. – 2nd. Ed. – London; Boston: Butterworth, 1979. HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft

Analyse von Informationssystemen Recall / Precision Quelle: Salton; McGill, 180 HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft

Analyse von Informationssystemen Die „klassischen“ Kennwerte zur Bewertung von Retrievalsystemen: Das Effektivitätsmaß von v.Rijsbergen E: Effektivität; R: Recall; P: Precision α: Wert zwischen 0 und 1 α = 0 : Effektivität wird auf Recall (1-R) reduziert α = 1 : Effektivität wird auf Precision (1-P) reduziert α = ½ : Effektivität beruht ausgewogen auf R und P van Rijsbergen E ist zwischen 0 (beste Effektivität) und 1 (unendlich schlechte Effektivität) definiert. Quelle: v.Rijsbergen, 174 HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft

Analyse von Informationssystemen Serendipity Kennwert zur Erfassung der Fähigkeit eines Informationssystems, im Ballast nützliche Informationen zu finden b: Anzahl der Dokumente, die nicht relevant zum Suchargument sind (wie bei Precision) – bei Relevance Ranking mit Cut-off-Wert b(u): Anzahl der Dokumente im Ballast, die völlig unbrauchbar sind b(s): Anzahl der Dokumente im Ballast, die – durchaus auch für ein völlig anderes Suchargument – brauchbar sind Serendipity S = b(s) / b Jutta H.T. Klawitter-Pommer; Wolf D. Hoffmann: Übersicht über die für den Leistungsvergleich mehrerer Literatur-Datenbasen wichtigsten Parameter. – In: Nachrichten für Dokumentation 27 (1976), 103-108. HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft

Analyse von Informationssystemen Serendipity Term eingeführt von Horace Walpole (1717 – 1797) in einem Brief aus dem Jahre 1754 Basis: Märchen „The Three Princes of Serendip“ diese finden unerwartet Sachen heraus, die kein anderer weiß seitdem: Bezeichnung für etwas, was gefunden, aber nicht gesucht worden ist Serendip: Ceylon einer der Prinzen Richard Boyle: The Three Princes of Serendip. – 2000. – URL: http://livingheritage.org/three_princes.htm HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft