Bettina Berendt, Frank HavemannBeschleunigung der Wissenschaftskommunikation durch OA  Fragen & Lösungsansätze Was sollten Zitationsindikatoren berücksichtigen?

Slides:



Advertisements
Ähnliche Präsentationen
Vernetzung von Repositorien : DRIVER Guidelines Dr Dale Peters, SUB Goettingen 4. Helmholtz Open Access Workshop Potsdam, 17 Juni 2008.
Advertisements

Word Order in German Subordiante Clauses
E-Solutions mySchoeller.com for Felix Schoeller Imaging
Themenportal Europäische Geschichte / Web portal European History
R. Zankl – Ch. Oelschlegel – M. Schüler – M. Karg – H. Obermayer R. Gottanka – F. Rösch – P. Keidler – A. Spangler th Expert Meeting Business.
General Cost Center Planning SAP Best Practices Baseline Package
The difference between kein and nicht.
Multi electron atoms Atoms with Z>1 contain >1 electron. This changes the atomic structure considerably because in addition to the electron-nucleus interaction,
Peter Marwedel TU Dortmund, Informatik 12
Aufgabenbesprechung Programming Contest. Order 7 Bo Pat Jean Kevin Claude William Marybeth 6 Jim Ben Zoe Joey Frederick Annabelle 0 SET 1 Bo Jean Claude.
Stärken-Schwächen- Chancen-Risken Lernziele: to talk about future job possibilities to develop the ability to compare and contrast to confidently use present,
Wenn…… the conditional. Using the conditional tense The conditional tense is used to talk about something that happens only after something else happened.
Rethinking Linguistic Relativity John A. Lucy. Gliederung Einführung in das Problem Kritik an bisherigen Untersuchungen der Anthropologen Psycholinguisten.
Wozu die Autokorrelationsfunktion?
Three minutes presentation I ArbeitsschritteW Seminar I-Prax: Inhaltserschließung visueller Medien, Spree WS 2010/2011 Giving directions.
This presentation is timed so you will only need to click on the left mouse button when it is time to move to the next slide. Right click on this screen.
Comparative Adjectives. The term comparison of adjectives is used when two or more persons or things have the same quality (height, size, color, any characteristic)
Haben – to have ich habe du hast er/sie hat es hat man hat wir haben
Kapitel 1 Komm mit! Level I erste Stufe.
Adjektive Endungen von Frau Templeton.
Laurie Clarcq The purpose of language, used in communication, is to create a picture in the mind and/or the heart of another.
Machen Sie sich schlau am Beispiel Schizophrenie.
How many more nouns can you think of?
Institut AIFB, Universität Karlsruhe (TH) Forschungsuniversität gegründet 1825 Towards Automatic Composition of Processes based on Semantic.
| DC-IAP/SVC3 | © Bosch Rexroth Pneumatics GmbH This document, as well as the data, specifications and other information set forth in.
Plural Forms of Nouns & Wie viel? or Wie viele?
Dienstag, den Hausaufgabe für Mittwoch den IA 10.4 and printout LB 10.4 A-C Guten Tag!
Morphology and Syntax More on sentence structure.
Reflexive Verbs.
Deutsch 1 G Stunde. Donnerstag, der 25. Oktober 2012 Deutsch 1, G Stunde Heute ist ein B- Tag Unit: Family & homeFamilie & Zuhause Objectives: Phrases.
Meine Schulfächer.
Department of Computer Science Homepage HTML Preprocessor Perl Database Revision Control System © 1998, Leonhard Jaschke, Institut für Wissenschaftliches.
INTAKT- Interkulturelle Berufsfelderkundungen als ausbildungsbezogene Lerneinheiten in berufsqualifizierenden Auslandspraktika DE/10/LLP-LdV/TOI/
Algorithm Engineering Parallele Algorithmen Stefan Edelkamp.
Verben Wiederholung Deutsch III Notizen.
Miteinander Leben Deutch III Notizen Einheit 5. In this unit you will: Learn vocabulary for talking about relationships Learn vocabulary for various emotions.
Faculty of Public Health Department of Health Economics and Management University of Bielefeld WP 3.1 and WP 4.1: Macrocost EUprimecare Plenary Meeting.
Staatsballett Berlin Ein Verbesserungskonzept für den Social- Media Auftritt Your picture here.
Ein Projekt des Technischen Jugendfreizeit- und Bildungsvereins (tjfbv) e.V. kommunizieren.de Blended Learning for people with disabilities.
“Weil” und “Denn”.
The most obvious or direct use of auch is to mean also. Ich möchte auch Gitarre lernen. Auch ich möchte Gitarre lernen. I would like to learn Guitar. Someone.
Grammatik Deutsch I Kapitel 3 – 1. Stufe LERNZIEL:
Design Patterns Ein Muster (pattern) ist eine Idee, die sich in einem praktischen Kontext als nützlich erwiesen hat und dies auch in anderen sein wird.
Talking about yourself
Feste und Feiertage Treffpunkt Deutsch Sixth Edition.
Relativpronomen / Relativsätze:
Gestern hat mich ein Regentropfen getroffen Yesterday a rain drop met me. ;) und gab meinem Kopf einen nassen Kuss. And gave my head a wet kiss. Ohne Warnung,
Phrasen Ich wache auf. Ich bereite mich für den Tag vor.
© Boardworks Ltd of 8 Time Manner Place © Boardworks Ltd of 8 This icon indicates that the slide contains activities created in Flash. These.
Heute ist Montag, der 17. September 2012: Lernziel: 1.Diskussion: Sprechen 2.Wie kommst du zur Schule? 3.Leseverständnis (Reading Comprehension) 4.Quiz.
Alltagsleben Treffpunkt Deutsch Sixth Edition
Negation is when you dont have or dont do something.
AS Thema Die Schule.
Adjectiv Endungen Lite: Adjective following articles and pre-ceeding nouns. Colors and Clothes.
Two-part conjunctions
Relativpronomen / Relativsätze:
AVL-Trees (according to Adelson-Velskii & Landis, 1962) In normal search trees, the complexity of find, insert and delete operations in search.
Greetings and goodbyes Deutschland v. USA
Sentence Structure Subject and verb are always together. Subject and verb are always together. Subject and verb must agree Subject and verb must agree.
To school => zu der Schule With friends => mit den Freunden On top of the desk => auf dem Schreibtisch Through the wall => durch die Wand.
German Word Order explained!
Separable Verbs Turn to page R22 in your German One Book R22 is in the back of the book There are examples at the top of the page.
Plusquamperfekt The past of the past.
1 Stevens Direct Scaling Methods and the Uniqueness Problem: Empirical Evaluation of an Axiom fundamental to Interval Scale Level.
Adjective Endings Nominative & Accusative Cases describing auf deutsch The information contained in this document may not be duplicated or distributed.
How to use and facilitate an OptionFinder Audience Response System.
Mann gegen Man Man / Husband One Mann = man =
THE CONVERSATIONAL PAST
Data Mining Spectral Clustering Junli Zhu SS 2005.
Adjective Declension in German
 Präsentation transkript:

Bettina Berendt, Frank HavemannBeschleunigung der Wissenschaftskommunikation durch OA  Fragen & Lösungsansätze Was sollten Zitationsindikatoren berücksichtigen? 1.Ältere Publikationen haben größere Chance, zitiert zu sein 2.Aktualität der Zitierung ist von Interesse 3.Zitierung durch selber hochzitierte Artikel höher bewerten als durch wenig oder gar nicht zitierte 4.Probleme: Bedeutung aggregierter Indikatoren erschließt sich nicht unmittelbar Unterschiedliche Zitiergewohnheiten 5.Lösung: Vergleich von fachlich benachbarten Aufsätzen Interaktivität statt Indikatoren Nachbarschafts-/Ähnlichkeitsmaße

Bettina Berendt, Frank HavemannBeschleunigung der Wissenschaftskommunikation durch OA Ähnlichkeitsmaße zur Bestimmung von Nachbarschaften basieren auf Links (Zitationen) Text Nutzung

Bettina Berendt, Frank HavemannBeschleunigung der Wissenschaftskommunikation durch OA Co-citationBibliographic coupling Linkbasierte Ähnlichkeitsmaße: Grundformen Direct citation AB C AB Bibliographic coupling C AB Co-citation & Ähnlichkeitsmaß – z.B. Jaccard-Koeffizient für Kozitation: Zahl der in beiden Dokumenten zitierten Quellen Zahl der in mindestens 1 Dokument zitierten Quellen

Bettina Berendt, Frank HavemannBeschleunigung der Wissenschaftskommunikation durch OA Linkbasierte Ähnlichkeit: zitierende Dokumente

Bettina Berendt, Frank HavemannBeschleunigung der Wissenschaftskommunikation durch OA Linkbasierte Ähnlichkeit: zitierte Dokumente

Bettina Berendt, Frank HavemannBeschleunigung der Wissenschaftskommunikation durch OA Linkbasierte Ähnlichkeit: Lokale Kozitations-NBS

Bettina Berendt, Frank HavemannBeschleunigung der Wissenschaftskommunikation durch OA Linkbasierte Ähnlk.: Lokale Bibliographische-Kopplungs-NBS

Bettina Berendt, Frank HavemannBeschleunigung der Wissenschaftskommunikation durch OA Linkbasierte Ähnlk.: Lokale Bibliographische-Kopplungs-NBS Active Bibliography –auch von anderen zitierte Quellen Active Bibliography Score = Common Citation Inverse Document Frequency Active Bibliography –auch von anderen zitierte Quellen Active Bibliography Score = Common Citation Inverse Document Frequency

Bettina Berendt, Frank HavemannBeschleunigung der Wissenschaftskommunikation durch OA Exkurs: Linkbasiertes Ranking Zitierung durch hochzitierte Artikel höher bewerten...  Verwendung von PageRank + X

Bettina Berendt, Frank HavemannBeschleunigung der Wissenschaftskommunikation durch OA Exkurs Weitere Link-Analysen: Soziale-Netzwerk-Analyse (?)

Bettina Berendt, Frank HavemannBeschleunigung der Wissenschaftskommunikation durch OA Textbasierte Ähnlichkeit (I)

Bettina Berendt, Frank HavemannBeschleunigung der Wissenschaftskommunikation durch OA Textbasierte Ähnlichkeit (I) Similarity at the sentence level: –respects sentence structure (sequence, minus some data cleaning) –usually revisions of the document under consideration Similarity at the text level: –based on bag-of-words and TF.IDF

Bettina Berendt, Frank HavemannBeschleunigung der Wissenschaftskommunikation durch OA Textbasierte Ähnlichkeit (II)

Bettina Berendt, Frank HavemannBeschleunigung der Wissenschaftskommunikation durch OA Nutzungs-basierte Ähnlichkeit (hier: community-basiert)

Bettina Berendt, Frank HavemannBeschleunigung der Wissenschaftskommunikation durch OA Interaktive Zitationsanalyse-Tools: Vorteile und Nachteile + sofortige Verfügbarkeit der Quellen (sofern OA) + Zusammenhänge werden sichtbar, insbesondere bei Inspektion des Volltext - nicht für alle Disziplinen in gleicher Qualität verfügbar - Lücken- und fehlerhafte Dokumentenerschließung - Frustration bei nicht OA verfügbaren Volltexten - Algorithmen nur selten nachvollziehbar oGoogle Scholar proprietär  Citeseer open source - Unübersichtlichkeit I: nur lokale Suche, ausgehend von einem Dokument - Unübersichtlichkeit II: kein oder unklares Ranking innerhalb von Ergebnismengen

Bettina Berendt, Frank HavemannBeschleunigung der Wissenschaftskommunikation durch OA Problem Unübersichtlichkeit aufgrund nur lokaler Suche Nur lokale Suche der Nachbarschaft je 1 Dokuments Keine „Top-Down“-Gruppierung von Dokumenten Warum sind Gruppen sinnvoll? –Zitationsindikatoren müssen bezüglich solcher Gruppen gebildet werden –Verständnis eines Gebiets beinhaltet Bildung von Gruppen von Konzepten  Annahme: Konzepte werden durch Gruppen repräsentiert

Bettina Berendt, Frank HavemannBeschleunigung der Wissenschaftskommunikation durch OA Grundidee: Ausgehend von Suchbegriff Gruppen finden Interaktives Tool: 1.Inhaltliche Einschränkung des Suchraums durch Suchbegriff / -phrase 2.Retrieval aller Dokumente, auf die dieser Suchbegriff passt 3.Erstellen einer Ähnlichkeitsmatrix all dieser Dokumente 4.Clustern, um Gruppen von Dokumenten zu bilden 5.Manuelle Bearbeitung (Umgruppieren, Löschen, Labeln) der Gruppen

Bettina Berendt, Frank HavemannBeschleunigung der Wissenschaftskommunikation durch OA Systemarchitektur Web services Text mining / Information Extraction tools Text mining / Information Extraction tools Databases (local a/o mirrored) Databases (local a/o mirrored) other WS and info. sources VBA macro Berendt, Dingel, & Hanser (Proc. ECDL 2006):

Bettina Berendt, Frank HavemannBeschleunigung der Wissenschaftskommunikation durch OA Literatursuche und Bibliographie-Konstruktion

Bettina Berendt, Frank HavemannBeschleunigung der Wissenschaftskommunikation durch OA Veröffentlichen und Teilen der Resultate

Bettina Berendt, Frank HavemannBeschleunigung der Wissenschaftskommunikation durch OA Ausblick: Literatursuchen und –bewerten im Kontext

Bettina Berendt, Frank HavemannBeschleunigung der Wissenschaftskommunikation durch OA Und wenn man nun die „richtige“ Nachbarschaft gefunden hat wie kann man dann Dokumente in dieser Gruppe bewerten / ranken?

Bettina Berendt, Frank HavemannBeschleunigung der Wissenschaftskommunikation durch OA

Bettina Berendt, Frank HavemannBeschleunigung der Wissenschaftskommunikation durch OA Backup-Folien

Bettina Berendt, Frank HavemannBeschleunigung der Wissenschaftskommunikation durch OA Active Bibliography The active bibliography is a notion relative to a given document. Consider a document D, the active bibliography for D is the set of documents cited by D that are also being cited by other documents (in our case these "other documents" are in SMEALSearch). In other words, the active bibliography of a document is the sub-set of its bibliography that has a non-zero intersection with the bibliography (set) of any other document (in SMEALSearch).active bibliographydocument active bibliographydocuments SMEALSearchactive bibliographydocument bibliography documentSMEALSearch SMEALSearch attributes a score to each document sharing all or part of its bibliography with document D, which defines the active bibliography score for that document with respect to document D. The score for each such document is computed as follows : SMEALSearchdocumentbibliography documentactive bibliographydocument In the formula above, Citing(Y) is the set of documents citing the document Y. This score identifies the documents that share their bibliography with D: the higher the score for a document X, the more X cites the same documents as D. Note that the active bibliography score can be greater than 1. In the literature active bibliography (scoring) is also referred to as CCIDF (Common Citation Inverse Document Frequency) by analogy to TFIDF.documentsdocumentdocumentsbibliography documentdocumentsactive bibliography CCIDF

Bettina Berendt, Frank HavemannBeschleunigung der Wissenschaftskommunikation durch OA What is the text similarity based on text and how does SMEALSearch computes the associated similarity score ? For any document in its database, SMEALSearch maintains a set of similar documents (also in database), based on textual information. The documents in this set are those featuring words that are also found in the document under consideration. The similarity score between two documents emphasizes the occurrence of words which occur in both documents while having an overall low occurrence frequency in the database: the more both documents have infrequent words in common, the higher their relative similarity score based on text. More details can be found in the glossary entry for text similarity at the text level.documentSMEALSearchdocuments documentdocuments similarity score based on textglossarytext similarity at the text level Text Level For a given document D, a set of similar documents {Xi} can be generated by similarity at the text level. The similarity at the text level is an implementation of the TFIDF ranking scheme, which, for any document Xi, emphasizes the weight of words that (1) are common to both D and Xi, (2) have an overall low occurrence frequency in the database. The more such words are found for D and Xi, the higher their similarity score. The actual scoring formula for the similarity based on text is:TFIDF where freq(wi,X) gives the frequency (number of occurrences) of the word wi in the body of document X, and freq(wi) gives the frequency of the the word wi in the entire database (body of all the documents in database). Note finally that, for performance considerations, only the first 10,000 characters / 5000 words (whichever comes first) of the body of the current document (D) are considered for similarity analysis.bodydocumentbodydocumentsbodydocumentsimilarity What is the text similarity at the sentence level and what is the difference with the text similarity based on text ? Documents that are similar at the sentence level have a high ratio of sentences in common, that is that many sentences occurring in one document also occur in the other. While the text similarity is a notion based only on the occurrence of words, the similarity at the sentence level exploits the full sentence structure for comparison purposes. Documents listed as similar at the sentence level are usually revisions of the document under consideration. Note also that SMEALSearch filters out, at submission time, documents with a very high ratio of common sentences with a document already in database to avoid the creation of duplicates. More details can be found in the glossary entry for text similarity at the sentence level. Documentssimilar at the sentence leveldocumenttext similaritysimilarity at the sentence levelDocumentssimilar at the sentence leveldocumentSMEALSearchdocumentsdocumentglossarytext similarity at the sentence level Sentence Level In order to detect the overlap between documents, SMEALSearch maintains a database of all the sentences occurring in all the documents in database. SMEALSearch uses punctuation (periods, exclamation marks and question marks) to delineate sentences (although this is not always correct, e.g. consider abbreviations). Sentence identification is non-trivial, however the problem is simplified by considering a more compact form of each sentence: non alphabetical characters and vowels are removed, finally the resulting string is truncated to a maximum length if necessary. The database of sentences is an actual hash table which associates each sentence (unique string - key) to a list of documents (value) where this sentence occurs at least once. By considering all the sentences occurring in the current document, SMEALSearch can compute the ratio of those sentences that also occur in any other document in database: this is the percentage provided for each document listed in the corresponding section of the document pages.documentsSMEALSearchdocumentsSMEALSearchdocumentsdocumentSMEALSearchdocument document pages

Bettina Berendt, Frank HavemannBeschleunigung der Wissenschaftskommunikation durch OA The same in other archives (here: citebase)

Bettina Berendt, Frank HavemannBeschleunigung der Wissenschaftskommunikation durch OA Citations and downloads (citebase)

Bettina Berendt, Frank HavemannBeschleunigung der Wissenschaftskommunikation durch OA Linkbasierte Ähnlichkeit: Lokale Kozitations-NBS

Bettina Berendt, Frank HavemannBeschleunigung der Wissenschaftskommunikation durch OA Linkbasierte Ähnlichkeit: Lokale Kozitations-NBS Co-citation score (?) Co-citation score (?)