Suchen mit AltaVista im WebSpace der ETHZ ein kleiner Überblick dazu von Thomas Piendl
Suchen mit AltaVista Übersicht I Suchanfrage HTML Dokumente AltaVista ETHZ WebSpace Index WWW Abfrage Roboterbasiertes Indexieren
Suchen mit AltaVista Indexierung Suchanfrage HTML Dokument: alle “relevanten” Begriffe AltaVista ETHZ WebSpace Index WWW Abfrage Roboterbasiertes Indexieren
Suchen mit AltaVista Indexierung Was wird in einem HTML Dokument indexiert? (bzw. was kann überhaupt gesucht werden?) Es werden alle »relevanten« Begriffe extrahiert und indiziert Funktion der Wörter (URL, Titel, Überschrift, Link usw.) werden berücksichtigt HTML-Elemente (z.B. Dateinamen von Bildern, Java-Applets) werden erkannt und entsprechend indiziert
Suchen mit AltaVista Indexierung II Welche Bereiche werden nicht indexiert? Kommentarzeilen im HTML-Dokument Dokumente auf die kein Link verweist und die auch nicht bei den Suchmaschinen eingetragen werden Dokumente, die durch Paßwort, Registrierung oder Firewall geschützt sind Dokumente, die über Formulare usw. dynamisch generiert werden (CGI / Datenbanken). Dokumente bzw. Bereiche die im »robots.txt« aufgeführt sind: AltaVista hält sich an den “Standard of Robot Exclusion”
Suchen mit AltaVista META-Tags Suchanfrage HTML Dokument: alle “relevanten” Begriffe META-Tags AltaVista ETHZ WebSpace Index WWW Abfrage Roboterbasiertes Indexieren
Suchen mit AltaVista META-Tags I Beinhalten Metainformationen (Zusatzinformationen) über das Dokument Gehören zum HEAD-Abschnitt eines HTML-Dokuments Für die Indexierung wichtig sind “Keywords” und “Description” Der Inhalt von “Keywords” und “Description” ist auf jeweils 1024 Zeichen begrenzt
Suchen mit AltaVista META-Tags II META-Tag “Keywords”: Keywords: Zusätzliche Deskriptoren des Dokuments Beispiel: <HEAD> <TITLE>......</TITLE> <META name="keywords" content="Suchen, suchen, search, ETHZ, ethz"> </HEAD>
Suchen mit AltaVista META-Tags III META-Tag “Description”: Description: Individuelle Beschreibung des HTML-Seiteninhalts, die dann zur Inhaltsbeschreibung in der Suchantwortseite benutzt wird Beispiel: <HEAD> <TITLE>......</TITLE> <META name="description" content="Suchen mit AltaVista im ETHZ WebSpace: Ein kleiner Überblick. Search the ETHZ WebSpace with AltaVista: a short tutorial."> </HEAD>
Suchen mit AltaVista Suchanfrage HTML Dokument alle “relevanten” Begriffe Meta-Tags AltaVista ETHZ WebSpace Index WWW Abfrage Roboterbasiertes Indexieren
Suchen mit AltaVista Suchanfrage Vorüberlegungen zur Suchanfrage: Vor der Suche das Suchziel genau bestimmen und eine Such-strategie dafür zurechtlegen (Suchworte?, Operatoren?, Verknüpfungen?) Am besten immer Advanced Search Mode suchen, da einige Suchoptionen nur in diesem Modus verfügbar sind Interessant: Ca. 80% aller Suchanfragen an die internationalen WWW-Suchdienste sind Ein- und Zweiwortabfragen ohne Suchwortverknüpfung
Suchen mit AltaVista Übersicht Suchanfrage: Groß/Kleinschreibung HTML Dokument AltaVista ETHZ WebSpace Index WWW Abfrage Roboterbasiertes Indexieren
Suchen mit AltaVista Groß-/Kleinschreibung Ist die Suchanfrage durchgehend in Kleinschreibung so wird die Schreibweise nicht beachtet (case-insensitive) Beispiel: “reto” sucht reto und Reto Ist in der Suchanfrage mindestens ein Großbuchstabe vorhanden so wird die Schreibweise aller Worte beachtet (case-sensitive) “Reto”, findet nur Reto
Suchen mit AltaVista Trunkierung Suchanfrage: Groß/Kleinschreibung Trunkierung HTML Dokument AltaVista ETHZ WebSpace Index WWW Abfrage Roboterbasiertes Indexieren
Suchen mit AltaVista Trunkierung Trunkierung (= truncation) dient dazu, mögliche Schreibweisen bzw. Wortvariationen von Suchwörten, z.B. Singular oder Plural, zu berücksichtigen Trunkierungsoperator ist der ” * ”, er deckt den Bereich zwischen Null und Fünf Kleinbuchstaben ab Trunkierung innerhalb eines Wortes und am Wortende möglich, allerdings müssen mindestens 3 Buchstaben vor dem Operator stehen Beispiele: “colo*r” sucht zumindest color und colour “hand*” sucht alle Wörter, die mit “hand” anfangen, wie Handschuh, Hand, Handlung, etc.
Suchen mit AltaVista Phrasensuche Suchanfrage: Groß/Kleinschreibung Trunkierung Phrasensuche HTML Dokument AltaVista ETHZ WebSpace Index WWW Abfrage Roboterbasiertes Indexieren
Suchen mit AltaVista Phrasensuche Phrasensuche (Adj- bzw. Adjacent-Operator) bezeichnet die Suche nach der exakten Reihenfolge der Begriffe in der Suchanfrage Operatoren: Die Suchbegriffe müssen in Hochkommata “....” eingeschlossen sein Beispiel: “operation system” sucht genau nach Dokumenten die operation und system in der angegebenen Reihenfolge enthalten
Suchen mit AltaVista Abstandsoperator Suchanfrage: Groß/Kleinschreibung Trunkierung Phrasensuche Abstandsoperator HTML Dokument AltaVista ETHZ WebSpace Index WWW Abfrage Roboterbasiertes Indexieren
Suchen mit AltaVista Abstandsoperator Abstandoperator (Proximity-Operator) sucht zwei Begriffe, die innerhalb maximal 10 Wörten Abstand zueinander stehen Operator: “NEAR” Beispiel: “roger NEAR weck” ergibt zumindest Dokumente die roger de weck, de weck roger, roger weck, weck roger, etc. beinhalten
Suchen mit AltaVista Boolesche Operatoren Suchanfrage: Groß/Kleinschreibung Trunkierung Phrasensuche Abstandsoperator Boolesche Operatoren HTML Dokument AltaVista ETHZ WebSpace Index WWW Abfrage Roboterbasiertes Indexieren
Suchen mit AltaVista Boolesche Operatoren Boolesche Operatoren (Boolean Operators) verknüpfen Suchbegriffe entsprechend der Booleschen Logik Boolesche Operatoren: AND, OR, NOT Werden mehrere Boolesche Operatoren in einer Abfrage verwendet, so empfiehlt es sich Klammern zu setzen um die Hierarchien festzulegen
Suchen mit AltaVista Boolesche Operator AND Boolescher Operator “AND”: “server” “mainframe” Schnittmengenbildung Es werden nur Dokumente angezeigt,die die Suchbegriffe “server” und “mainframe” enthalten
Suchen mit AltaVista Boolesche Operator OR Boolescher Operator “OR”: “server” “mainframe” Vereinigungsmenge Es werden Dokumente angezeigt, die sowohl beide Suchbegriffe als auch nur “server” oder “mainframe” enthalten
Suchen mit AltaVista Boolesche Operator NOT Vorsicht: NOT nur in Verbindung mit AND oder OR benutzen, sonst Syntax-Error! Boolescher Operator “NOT”: “server” “mainframe” server AND (NOT mainframe) Es werden alle Dokumente angezeigt, die zwar “server” aber nicht “mainframe” enthalten
Suchen mit AltaVista Suchraumeingrenzung Suchanfrage: Groß/Kleinschreibung Trunkierung Phrasensuche Abstandsoperator Boolesche Operatoren Suchraumeingrenzung HTML Dokumente: AltaVista ETHZ WebSpace Index WWW Abfrage Roboterbasiertes Indexieren
Suchen mit AltaVista Suchraumeingrenzung I Suchraumeingrenzung (= constraining searches bzw. keyword search) Suchraumeingrenzungen (keywords): title, text, image, applet, url, domain, etc. Syntax: “keyword:Suchbegriff” Beispiele: applet:ticker* oder image:eth* Datum bzw. zeitliche Eingrenzung: kann direkt in einem speziellen Feld der Suchmaske eingegeben werden im Format dd/mmm/yy, wobei: dd=Tag, z.B. 05 mmm=die drei Anfangsbuchstaben des Monats in Englischer Schreibweise, z.B. jan, dec, etc. yy=Jahr in der Zweiziffernschreibweise, z.B. 88 oder 97
Suchen mit AltaVista Suchraumeingrenzung II Datum bzw. zeitliche Eingrenzung: kann direkt in einem speziellen Feld der Suchmaske eingegeben werden im Format dd/mmm/yy, wobei: dd=Tag, z.B. 05 mmm=die drei Anfangsbuchstaben des Monats in Englischer Schreibweise, z.B. jan, dec, etc. yy=Jahr in der Zweiziffernschreibweise, z.B. 88 oder 97 Das relevante Datum eines indexierten HTML-Dokuments ist dabei das Datum dessen letzter Änderung Es kann bis zu einem und ab einem definierten Zeitpunkt gesucht werden. Das Festlegen eines Suchzeitraums ist ebenfalls möglich
Suchen mit AltaVista Zusammenfassung Suchanfrage: Groß/Kleinschreibung Trunkierung Phrasensuche Abstandsoperator Boolesche Operatoren Suchraumeingrenzung Treffer-Anzeige HTML Dokumente: AltaVista ETHZ WebSpace Index Roboterbasiertes Indexieren WWW Abfrage
Suchen mit AltaVista Treffer-Anzeige Die Reihenfolge der Treffer-Auflistung muß in der Suchmaske im Feld “Results Ranking Criteria” vorgegeben werden Es können Wörter oder Phrasen einegegeben werden, nach denen die Trefferliste dann geordnet wird Die Ordnung innerhalb der Trefferliste erfolgt abhängig vom Relevanzgrad des einzelnen Dokuments bezüglich der Suchanfrage Der Relevanzgrad wir aufgrund statistischer Verfahren berechnet, die z.B. Worthäufigkeiten, Wortabstände oder Positionen berücksichtigen Keine Eintragung in “Results Ranking Criteria” bewirkt eine “zufällige” Ordnung in der Auflistung der Treffer
Suchen mit AltaVista Beispiele ...live...
Suchen mit AltaVista Zusammenfassung Suchanfrage: Groß/Kleinschreibung Trunkierung Phrasensuche Abstandsoperator Boolesche Operatoren Suchraumeingrenzung Treffer-Anzeige HTML Dokumente: Meta-Tags alle “relevanten” Begriffe AltaVista ETHZ WebSpace Index Roboterbasiertes Indexieren WWW Abfrage