Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

13.03.2014 lbsffm/pop Suchportal Informationen zum Ranking.

Ähnliche Präsentationen


Präsentation zum Thema: "13.03.2014 lbsffm/pop Suchportal Informationen zum Ranking."—  Präsentation transkript:

1 lbsffm/pop Suchportal Informationen zum Ranking

2 Level 0 person person_lc_word title title_lc_word title_lc_phrase topic … Level 1 / Level 2 kls_3 shelfmark_3 topic_3 topic_lc_word_3 … Fremddaten (z.B. Titelanreicherungen) HDS-Index CBS-Retro CBS Tlw. Einsatz von „Filtern“ (Stemming, Phonetische Unschärfe, etc.)

3 Indexierung - Beispiel IndexfeldIndexierungsverfahrenAutor: „Gerthsen, Christian“ Titel: „Gerthsen Physik“ wird im Index gespeichert als … personWortweise mit Modifikation (Phonetische Unschärfe) gerdzen | gertsen | dZertsen | tSristjan| xriStjan| xristjan person_lc_wordWortweise „exakte Schreibweise“ (auf Kleinschreibung normiert) gerthsen | christian titleWortweise mit Modifikation (Phonetische Unschärfe + „starkes“ Stemming) gerts | fisik | fizik | phisik | phizik title_lc_wordWortweise „exakte Schreibweise“ (auf Kleinschreibung normiert) gerthsen | physik title_lc_phrasePhrasegerthsen physik miscWortweise mit Modifikation („schwaches“ Stemming) gerths | physik …

4 Suchanfrage IndexfeldAutor: „Gerthsen, Christian“ Titel: „Gerthsen Physik“ wird im Index gespeichert als … Suchanfrage: „Gerdsen Physik“ wird im Index gesucht als … persongerdzen | gertsen | dZertsen | tSristjan| xriStjan| xristjan gerdzen | gertsen | dZertsen | fisik | fizik | phisik | phizik title_lc_wordgerthsen | physikgerdsen | physik title_lc_phrasegerthsen physikgerdsen physik

5 DismaxFields: - person - person_lc_word ^5^2 - title_lc_word ^4 - id - isxn - topic ^0.6 - topic_lc_word ^0.6 - topic_3 ^0.5 - topic_lc_word_3 ^0.5 - kls_3 ^0.5 - kls_lc_word_3^0.5 - misc ^ shelfmark_3 - series_statement ^ retroocr - retroocr_lc_word - part_of Ranking-Einstellungen der Einfachen Suche I  Kein eigener ALL-Index, wie im OPAC  Stattdessen ein Suchfeld „allfields“, in dem festgelegt wird, welche Indexfelder bei der Suche berücksichtigt werden  Relevanz-Grundwert multipliziert mit ^Wert  Stärkere Gewichtung / Boosting (>1) bzw.  Schwächere Gewichtung (<1) eines Indexfelds

6 Ranking-Einstellungen der Einfachen Suche II DismaxParams:  Parameter zum Einstellen, wie viele Suchbegriffe gefunden werden müssen - [mm, 4<-1 7<80%]  Erscheinungsjahr-Boosting - [boost, sum(product(max(0,sum(product(abs(ms(NOW/YEAR,pub_date_max)), e-13),1)),6.5),1)]  Dämpfung der Relevanzwerte von Titelaufnahmen aus dem Retrokatalog - [boost, if(exists(query({!v='id:HEBr*'})),0.4,1)]  Automatische Phrasenbildung - [ps, 3] - [pf, title_lc_word^3 kls_3] Mehr Infos unter:

7 publisher: DismaxFields: - publisher - publisher_lc_word^5 DismaxParams: - [mm, 4<-1 7<80%] - [bf, product(max(0,sum(product(abs (ms(NOW/YEAR,pub_date_max)), e-13),1)),250)] QueryFields: - publisher: - [and, 100] - [or, ~] - publisher_lc_word: - [and, 100] - [or, ~] Ranking-Einstellungen der Erweiterten Suche I Für die Erweiterte Suche werden die Suchfelder einzeln definiert allfields title fulltitle author topic publisher misc shelfmark isn

8 Ranking-Einstellungen der Erweiterten Suche II title: DismaxFields: - title_lc_word^2 DismaxParams: - [mm, 4<-1 7<80%] - [bf, product(max(0,sum(product (abs(ms(NOW/YEAR,pub_date_max)), e-13),1)),250)] - [ps, 1] - [pf, title_lc_word] fulltitle: QueryFields: - title_lc_phrase: - [onephrase, 10] Suchbegriffe, die nur sinnvoll als Phrase gesucht werden können, z.B. „Vollständiger Titel“, „Klassifikationen“ und „Signaturen“ müssen über den Standard-Query-Parser gesucht werden. Tlw. andere Parameter als in der Einfachen Suche, da in der Erweiterten Suche nicht alle DisMax-Parameter funktionieren.

9 Auswertung I https://fantasio.rz.uni-frankfurt.de/ubffm2

10 Auswertung II Seitenquelltext anzeigen lassen … … und diesen komplett kopieren.

11 Auswertung III „http://explain.solr.pl“ aufrufen und dort den Seitenquelltext einfügen.

12 Auswertung IV

13 Berechnung des Relevanz-Wertes I  Pro Suchbegriff wird für jedes Indexfeld ein Relevanz-Grundwert ermittelt, der sich an Hand der folgenden Kriterien berechnet:  Je seltener ein Suchwort im Index vorhanden ist, desto höher ist sein Beitrag zum Ranking.  Je länger der Feldinhalt ist, in dem ein Suchwort gefunden wurde, desto geringer ist sein Beitrag zum Ranking.  Dokumente, in denen die Suchworte häufiger vorkommen, werden höher bewertet.  Dokumente, in denen mehr Suchworte vorkommen, werden höher bewertet.  Den Relevanz-Grundwert kann man nur bedingt mit den Ranking-Einstellungen in der searchspecs.yaml beeinflussen, z.B. stärker oder schwächer gewichten mit '^'.  Die Berücksichtigung der Feldlänge ist bei bibliographischen Daten allerdings nicht sinnvoll und sollte daher nur bei Indexfeldern mit Volltexten berücksichtigt werden.

14 Berechnung des Relevanz-Wertes II Pro Suchbegriff wird für jedes Indexfeld ein Relevanz-Grundwert ermittelt.

15 Berechnung des Relevanz-Wertes III Pro Suchbegriff wird der größte Relevanz- Grundwert eines Indexfeldes mit der Summe der übrigen Relevanz-Grundwerte x 0,1 * addiert. 1, ((0, , , , ) x 0,1) = 1, * Der Faktor kann über den "tie-Parameter" geändert werden.

16 Berechnung des Relevanz-Wertes IV Die so ermittelten Werte werden addiert und mit dem Wert des Erscheinungsjahr-Boostings multipliziert. (0, , ) x 7, =


Herunterladen ppt "13.03.2014 lbsffm/pop Suchportal Informationen zum Ranking."

Ähnliche Präsentationen


Google-Anzeigen