Manfred Thaller, Universität zu Köln Köln 26. November 2007

Slides:



Advertisements
Ähnliche Präsentationen
Der PC als Hilfsmittel für die Schule
Advertisements

Webseitenranking für Suchanfragen anhand von Linkgraphen
Dynamische Seiten mit Dreamweaver Zugriff auf (mysql) Datenbank mit PHP.
Google Larry Page Sergej Brin 7. Sept Google Inc. PageRank – Citation Index – Qualität der Suchergebnisse Wider die Lügen im Hyperraum – Ranking.
Webseiten, die gefunden werden Dr. Eduard Heindl, Heindl Internet AG Tübingen.
Seminar Textmining WS 06/07 Themen Übung 11 unsupervised vs. supervised Symbolfolgen, Kunstsprachen Page Rank.
Indexed Sequential Access Method
Typo3 Schulung.
Manfred Thaller, Universität zu Köln Köln 10. Dezember 2010
Manfred Thaller, Universität zu Köln Köln 22. Januar 2009
Einführung in die Informationsverarbeitung Teil Thaller Stunde VI: Wege und warum man sie geht Graphen. Manfred Thaller, Universität zu Köln Köln.
HEINZ NIXDORF INSTITUT Universität Paderborn EIM Institut für Informatik 1 Algorithm. Grundlagen des Internets 30. Juni 2003 Christian Schindelhauer Vorlesung.
Fallstudie. 2 Statistik April Dokumente Jan Mio. Dokumente Performance 3 Mio. Queries pro Tag 9. Juni 2000 Most popular search engines.
HTML - Einführung Richard Göbel.
Suchmaschine vs. Katalog Such-Robots i.d.R. werden alle Seiten erfasst täglich werden mehrere Mio. Seiten besucht Redaktion relativ wenig Seiten erfasst.
XINDICE The Apache XML Project Name: Jacqueline Langhorst
HTML - Eine erste Annäherung
Benutzen von Internetseiten
Rechneraufbau & Rechnerstrukturen, Folie 14.1 © W. Oberschelp, G. Vossen W. Oberschelp G. Vossen Kapitel 14.
Technik Gestaltung Navigation Daten. Übersicht Client Webbrowser InternetServer.
Rigi und Web2Rsf vorgestellt von Tobias Weigand. Inhalt Ziel von Web2Rsf und Rigi Vorstellung des Parsers Web2Rsf Vorstellung des Werkzeugs Rigi Analyse.
XPointer Die Xpointer beschreiben einen Ort oder Bereich innerhalb einer XML-Instanz. Die XPointer bauen auf der XML Path Language auf. Die XPointer ist.
Access 2000 Datenbanken.
Wie funktionieren Suchmaschinen?
Relevanz Ranking Bisher: Sind wir davon ausgegangen, dass das Ergebnis des Rankings des statistischen Verfahrens in den Index geschrieben wird und dem.
Relevanz Ranking Bisher:
Schulen ans Netz Oberhausener Moderatoren
Concurrent Versions System
Inhalt der Präsentation
Intelligentes Crawling im WWW mit Hilfe intuitiver Suchbedingungen
FH-Hof HTML - Einführung Richard Göbel. FH-Hof Komponenten des World Wide Webs WWW Browser HyperText Transfer Protocol (HTTP) via Internet WWW Server.
Informationen finden und beurteilen
Internet Suchmaschinen basiert auf: Arasu Arvind et. al., Searching the Web, S. Brin, L. Page, The.
Wie Google Webseiten bewertet
Seniorkom.at vernetzt Jung & Alt Das Internet ist reif
Suchmaschinen Das "Surfen" im Internet ist eine gewisse Zeit lang interes-sant, aber auf Dauer ist dies ineffektiv und teuer, wenn man bestimmte Informationen.
Suchen im Internet Eine Einführung. Suchen im Internet Wer bietet Informationen an? è Privatpersonen è Kommerzielle Organisationen, Firmen è Universitäten,
Kostenlose Alternative zu Microsoft Office
Effiziente Algorithmen
Information und Kommunikation Hartmut Klauck Universität Frankfurt SS
16. Mit dem Explorer im WWW arbeiten l Wenn die Adresse bekannt ist l Ins Feld Adresse klicken l URL eingeben (RETURN¢) oder l Wenn nach einer Adresse.
Tabellen erstellen und aufbereiten
Entwicklung verteilter Anwendungen II, SS 13 Prof. Dr. Herrad Schmidt SS 13 Kapitel 4 Folie 2 REST Web Services (1)
Mit Favoriten (Lesezeichen) arbeiten
Web-Publishing: HTML im Rahmen des PS aus Elektronischer Datenverarbeitung (Rechnerpraktikum)
Wohlgeformtheit und Gültigkeit Grundlagen der Datenmodellierung Anke Jackschina.
Oliver Spritzendorfer Thomas Fekete
Manfred Thaller, Universität zu Köln Köln 30. Januar 2014
Using latent semantic analysis to find different names for the same entity in free text Präsentation und Diskussion des Papers Im Rahmen des PS Web-Information.
Suchmaschinen.
Maya Kindler 5c. 1.Voraussetzungen für die Installation 2.Installation 3.Template lade, installieren und anpassen 4.Kategorie und Inhalt 5.Menü.
Provider und Dienste im Internet
Erstelle deine eigene Timeline
->Prinzip ->Systeme ->Peer – to – Peer
Google (Web-Suchmaschine) Google Books Google Scholar
Das Interenet als Recherchemedium nutzen!
Suchmaschinen im Internet
26. Oktober 2005Autor: Walter Leuenberger Computeria Urdorf Treff vom 26. Oktober 2005 Suchmaschinen im Internet Google & Co.
Greenstone. Theoretischer Teil Entstehung: Entwickelt vom New Zealand Digital Library Project an der Universität von Waikato Kooperation mit der UNESCO.
Internetrecherche Sebastian Wolf, Universitätsbibliothek Bielefeld Februar 2014.
Das Internet Ein Netzwerk, das viele Rechner miteinander verbindet
Maya Kindler 5c. SEO- URL = Suchmaschinenoptimierung Alles was auf der Website steht wird von einer Suchmaschine gefunden und angezeigt. Alle Daten sind.
Hypertext Markup Language
Pool Informatik, Sj 11/12 GZG FN W.Seyboldt 1 Pool Informatik 5 GZG FN Sj. 11/12 Kopieren, Daten, Programme.
Binärbäume.
Einführung in die Informationsverarbeitung Teil Eide (auf Basis von Thaller 2014–15) Stunde VI: Suche Planen und Realisieren Köln 21. Januar 2016.
Arbeiten mit WordSmith 4. Inhalt 1. Arbeiten mit der Funktion Wortliste (im getaggten Korpus) 1. Arbeiten mit der Funktion Wortliste (im getaggten Korpus)
Netzwerktechnik The Network Is The Computer. Etwas Statistik... Anteil der Deutschen, die 2001 im Internet sein werden: Ein Drittel Anzahl der Bundesbürger,
Suchen mit AltaVista im WebSpace
Suchmaschinen im Internet
 Präsentation transkript:

Manfred Thaller, Universität zu Köln Köln 26. November 2007 Einführung in die Informationsverarbeitung Stunde VII: Zusammengefügte Bausteine: Google Manfred Thaller, Universität zu Köln Köln 26. November 2007

Google - ein „System“ Crawler Speicher URL Server Anker URL Auflösung Indizierer Repository „Barrels“ Links Lexikon Doc Index Sortieren PageRank Suchen

„Ur Google“ Sergey Brin and Lawrence Page: The Anatomy of a Large-Scale Hypertextual Web Search Engine. Proceedings of the seventh World Wide Web Conference (WWW7), Brisbane, also in a special issue of the journal Computer Networks and ISDN Systems, Volume 30, issues 1-7. http://infolab.stanford.edu/~backrub/google.html Vgl.: http://www.google.com/technology/pigeonrank.html

Formalia Entwickler: Sergey Brin, Lawrence Page. Name: "Google" Verballhornung von "Googol" ( = 10 100). System verteilt auf viele kooperierende Rechner: Google operates what is probably the world's largest Linux cluster that puts many supercomputing centers to shame.

URL Server Startet mit Anfangs URL. Crawler URL Server Startet mit Anfangs URL. Liest weitere URLs aus einem Dokumenten-Index. Schickt URLs an Crawler um Seiten zu holen. Wichtig: Art der Suche im WWW (Tiefen v. Breitensuche). Doc Index

Crawler Holen Web-Seiten. Speicher Holen Web-Seiten. Speichern individuelle Seiten in Speicher-Subsystem. Mehrere Crawler! "Robots Exclusion Protocol" - "Wohlverhalten"

Indizierer I Liest Seiten aus dem Repository und dekomprimiert sie. "Parsed" jedes Dokument und verwandelt es in "Treffer", bestehend aus der Wortform. der Position innerhalb des Dokuments. einer relativen Fontgröße. Anzeige der Großschreibung. Treffer sind "fancy" (in URL, Überschrift, Anker Text oder Meta-Tag) oder "plain" (alle anderen Fälle). Indizierer Repository

Indizierer II Verteilt Treffer in "barrels", wobei ein sortierter Index entsteht. Extrahiert Links und speichert sie {Start URL, Ziel URL, Text} in Anker Datei. Erzeugt Lexikon Datei. Anker Indizierer „Barrels“ Lexikon

Erinnerung Crawler Speicher URL Server Anker URL Auflösung Indizierer Repository „Barrels“ Links Lexikon Doc Index Sortieren PageRank Suchen

URL Auflösung I Anker URL Auflösung „Barrels“ Links Doc Index

URL Auflösung II Liest Anker Datei. Verwandelt relative URLs in absolute. Verwandelt absolute URLs in Dokumenten IDs. Fügt Anker Text in einen vorwärts gerichteten Index ein, zusammen mit den Dokumenten IDs auf die der Anker zeigt. Erzeugt eine Link Datenbank, die Paare von Dokumenten IDs enthält. (Wird für die Errechnung der PageRanks verwendet!)

Sortierung Verwandelt einen Index der Dokumenten Ids in einen "invertierten Index", sortiert nach Wort Ids. "Short barrel" - invertierter Index of Treffern in Titel- und Ankertags. "Full barel" - invertierter Index der Bodytags. Enthält Offsets der Dokumentenposition für jede Wort Id. (Nachbarschaftsberechnung / Positionsanzeige.) „Barrels“ Sortieren

Page Rank I Kann beschrieben werden als Modell des Verhaltens von Benutzern. Geht von einem "Zufallssurfer" aus, der von einer bestimmten Seite ausgeht und auf Links clickt. Er / Sie geht nie zurück und wird schließlich weitere Zufallsseite auswählen. Der "PageRank" ist die Wahrscheinlichkeit (p), dass der Surfer eine bestimmte Seite besucht. Die Wahrscheinlichkeit, dass BenutzerIn auf einer Zufallsseite landet ist 1-p. Links PageRank

Page Rank II Wir nehmen an: Auf Seite A zeigen die Seiten T1 ... Tn (zitieren sie also). C(A) ist die Anzahl der Links, die von Seite A ausgehen. d ist ein empirischer / arbiträrer Dämpfungsfaktor zwischen 0 und 1 (in Google 0.85?). Dann gilt: PR(A) = (1-d) + d ( PR(T1) / C (T1) + ... + PR(Tn)/C(Tn) ) PageRanks stellen eine Wahrscheinlichkeitsverteilung dar; die Summe der PageRanks aller Seiten im Web ist also 1.0.

Page Rank III Hoher PageRank kann anzeigen: Dass sehr viele Seiten auf eine Seite zeigen ... ... oder dass eine relativ kleine Anzhal von Seiten mit hohem PageRank auf diese Seite zeigen.

Erinnerung Crawler Speicher URL Server Anker URL Auflösung Indizierer Repository „Barrels“ Links Lexikon Doc Index Sortieren PageRank Suchen

Repository Voller (HTML) Text jeder Webseite. Seiten werden komprimiert gespeichert (ZLIB). Format: Dokumenten Id. Dokumentenlänge. URL des Dokuments. Inhalt des Dokuments.

Anker Beschreibung der Verweise in den Seiten sie {Start URL, Ziel URL, Text} Laut Google of genauere Beschreibung der Seiten, als die Seiten selbst. Können auch nicht-Texte berücksichtigen. Problem: Tote Links ...

Links Datenbank aller Paare von Dokumenten Ids. Basis aller PageRank Berechnungen.

Doc Index Datenbank aller verarbeiteten Dokumente (Web Seiten) Organisiert als ISAM Datei. (Indexed sequential access mode.) Geordnet nach DokumentenId. Jeder Eintrag enthält: Status des Dokuments. Prüfsumme des Dokuments. Statistiken zum Dokument. Angabe ob Seite von Crawlern schon durchsucht wurde. Sonst Verweis auf Liste abzuarbeitender URLs.

Lexikon

Barrels I Datenbank des Inhalts aller verarbeiteten Dokumente (Web Seiten) Beginnt mit einem Index von Dokumenten Ids, wird danach zu einem Index der Wort IDs sortiert. Die Suchmaschine sucht zuerst in den "short barrels" nach Treffern (Titel und Anker), erst danach in den "full barrels".

Barrels II

Google - ein „System“ Crawler Speicher URL Server Anker URL Auflösung Indizierer Repository „Barrels“ Links Lexikon Doc Index Sortieren PageRank Suchen

Suche I Besonderheiten der Googlesuche: Google analysiert nicht nur die Wortformen, sondern auch ihren (auch graphischen) Kontext. Jede Trefferliste enthält Informationen über die Position, den Schrifttyp und die Großschreibung. Zudem wird zwischen "fancy" und "plain" unterschieden - und der PageRank wird berücksichtigt. Ausgewogenheit zwischen diesen Faktoren.

Suche II – Abfragebearbeitung Abfrage "parsen". Worte in WortIds verwandeln. "Short barrel" auf Anfang der Dokumentenliste für jedes Wort der Abfrage positionieren. Dokumentenliste durchsuchen, bis es Dokument gibt, dass alle Suchterme enthält. Rang dieses Dokuments berechnen, relativ zu den anderen, die die Bedingungen erfüllen. Wenn wir mit der Bearbeitung der "short barrels" fertig sind, wiederhole Schritt 3 ff. sinngemäß für die "full barrels". Wenn wir noch nicht am Ende der Dokumentenliste sind, gehe zu Schritt 4. Gefundene Dokumente nach Rang sortieren und n beste mitteilen.

Suche III – Ranking, Einzelwort Trefferliste erstellen. Jedem Treffer Typ {Überschrift, Anker, URL, Großer Font, Kleiner Font ...}, mit spezifischem Typwert, zuweisen. Vector der Typen-Gewichte in der Reihenfolge der Typen erzeugen. Typen zählen und Häufigkeiten in Häufigkeitsgewichtungen verwandeln. Häufigkeitsgewichtung normalisieren, am Anfang linear, dann abnehmend. Gewichtungsrang entspricht dem Skalarprodukt aus dem Vektor der Typengewichte mit dem Vektor der Häufigkeitsgewichte. Kombination aus Gewichtungsrang und PageRank ergibt endgültigen Rang des Dokuments.