Qualitative und quantitative Textanalyse PageRank.

Slides:



Advertisements
Ähnliche Präsentationen
Die neue Sulzer Website Internet Core Team | Juli 2012.
Advertisements

8. Termin Teil B: Wiederholung Begriffe Baum
Informatik II: Algorithmen und Datenstrukturen SS 2013
Herzlich willkommen zur Veranstaltung „Internet-Recherche“
Webseitenranking für Suchanfragen anhand von Linkgraphen
Google Larry Page Sergej Brin 7. Sept Google Inc. PageRank – Citation Index – Qualität der Suchergebnisse Wider die Lügen im Hyperraum – Ranking.
WS 05/06Automatische Akquisition linguistischen Wissens1 Partielles Wissen erweitern 1.Zusammenhang mit bisherigen Algorithmen 2.Vom offensichtlichen zum.
R. Der - Vorlesung Algorithmen und Datenstrukturen (Magister)
HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 1 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer.
HEINZ NIXDORF INSTITUT Universität Paderborn EIM Institut für Informatik 1 Algorithm. Grundlagen des Internets 30. Juni 2003 Christian Schindelhauer Vorlesung.
Fallstudie. 2 Statistik April Dokumente Jan Mio. Dokumente Performance 3 Mio. Queries pro Tag 9. Juni 2000 Most popular search engines.
Suchmaschine vs. Katalog Such-Robots i.d.R. werden alle Seiten erfasst täglich werden mehrere Mio. Seiten besucht Redaktion relativ wenig Seiten erfasst.
WS Algorithmentheorie 13 - Kürzeste (billigste) Wege Prof. Dr. Th. Ottmann.
Bestimmung des Next-Arrays im KMP-Algorithmus
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (27 – Kürzeste Wege) Prof. Th. Ottmann.
High Performance = Innovative Computer Systems + Efficient Algorithms Friedhelm Meyer auf der Heide 1 HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen.
Wie funktionieren Suchmaschinen?
Minimum Spanning Tree: MST
Intelligentes Crawling im WWW mit Hilfe intuitiver Suchbedingungen
Manfred Thaller, Universität zu Köln Köln 26. November 2007
Wie Google Webseiten bewertet
Die „Erweiterte Suche“
Eine Produktion von der Firma Presentations GmbH
W w w. s a f e r i n t e r n e t. a t Die Welt zu Hause Informationen suchen und finden.
Suchmaschinen am Theo Groß und Bernhard Meyer.
Die feinen Lederhandschuhe
Theologische Hochschule Friedensau BS5P1-3: Literaturstudium und Recherche Baustein 7 Recherche im Internet 1 Dozent: Dietmar Päschel, Dipl.-Theol. Wintersemester.
Effiziente Algorithmen
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen
Effiziente Algorithmen
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Quantum Computing Hartmut Klauck Universität Frankfurt WS 04/
Polynome und schnelle Fourier-Transformation
Informatik Datenstruktur Graph 3.3 Durchlaufen von Graphen
Information Retrieval, Vektorraummodell
Die Ganze Welt im Computer? Informationsbeschaffung im Internet
Internet-Marketing Die beste Website nutzt nichts,
Google (Web-Suchmaschine) Google Books Google Scholar
Suchmaschinen im Internet
26. Oktober 2005Autor: Walter Leuenberger Computeria Urdorf Treff vom 26. Oktober 2005 Suchmaschinen im Internet Google & Co.
Binärbäume.
New Yorker Technologie-Börsenindex
Programmiersprachen II Vorbesprechung Klausur Prof. Dr. Reiner Güttler Fachbereich GIS HTW.
Recherche-Workshop der Stadtbücherei Metzingen Schritte zur erfolgreichen Recherche.
1 Maik Hetmank Google, Yahoo und Co Wer suchet, der findet - Über die Kunst des Suchens -
O N L I N E – M A R K E T I N G ncm.at – Net Communication Management Gmbh Aigner Straße 55a I 5026 Salzburg I Österreich I I T:
Der Mitbewerb Wie sieht Google eine Seite. Suchtypen Warum suchen wir.
Wie verwende ich Suchmaschinen richtig?
Googelnde Wikipedianer
Ein Sohn fragt den Vater
Suchen und Finden Wie verwende ich Suchmaschinen richtig?
Ein Sohn fragt den Vater
Ein Sohn fragt den Vater
Eine Produktion von der Firma Presentations GmbH
Marketingcontrolling Kapitel 4: Suchmaschinenmarketing Teil 1
Ein Sohn fragt den Vater
Ein Sohn fragt den Vater
1. Die rekursive Datenstruktur Liste 1
Suchmaschinen im Internet
mit linker Maustaste anklicken mit rechter Maustaste markieren
3. Die Datenstruktur Graph 3.2 Repräsentation von Graphen
Ein Sohn fragt den Vater
 Präsentation transkript:

Qualitative und quantitative Textanalyse PageRank

Problemstellung und Motivation Wer wir sind, was wir machen und der ganze Rest

Wir... ● Alexandra Danilkina, Fabian Fier und Thomas Krause ● alle Informatiker ● Linguist?

Unser Thema ● „irgendwas mit PageRank“ ● „mit Linguisten zusammensetzen und mögliches konkretes Thema finden“

Unser Thema ● Problem: PageRank bezieht sich nur auf die Links, nicht auf sprachliche Elemente ● Korpus enthält keine Links ● nach langer Suche doch noch fündig geworden

Unser Thema Neologismus [Pl. Neologismen; griech. néos "neu", lògos "Wort"] (1) Neugebildeter sprachlicher Ausdruck (Wort oder Wendung), der zumindest von einem Teil der Sprachgemeinschaft, wenn nicht im allgemeinen, als bekannt empfunden wird, zur Bezeichnung neuer Sachverhalte, sei es in der Technik oder Industrie, oder neuer Konzepte, etwa in Politik, Kultur und Wissenschaft. [...] (zitiert nach wortwarte.de, wiederum entnommen von Hadumod Bußmann; Lexikon der Sprachwissenschaft, 2. Auflage 1990)

Unser Thema Neologism en Verlinkung ?

Unser Thema ● Arbeitshypothese: Die Verlinkung und die Entwicklung neuer Worte auf Webseiten könnten zusammenhängen ● PageRank als Maß für die Wichtigkeit einer Seite und damit möglicher Indikator für den Ursprung eines Begriffes

Unser Thema ● Verbreitung neuer Worte kann denen von Epidemien ähneln ● Einfluss anderer Sprachen ● Was bewegt die Menschen gerade? ● Was für Worte halten sich, welche sind Eintagsfliegen? ● wortwarte.de von der Universität Tübingen

Unser Thema ● Idee: Suche nach neuen Wörtern bei Google und Auswertung der Suchergebnisse ● PageRank berechnen und graphische Aufarbeitung ● Visualisierung der Verlinkungsstruktur

Ein wenig Geschichte Oder wie Google das wurde was es heute ist

Google Geschichte ● Gründer: Larry Page und Sergey Brin ● Studenten in Stanford ● innovative Suchmaschine BackRub (1996): berücksichtigt zum ersten mal „back links“ (später mehr dazu)

Google Geschichte ● Wahlmöglichkeiten zu dieser Zeit: – entweder sehr spezieller Suchbegriff: Suchmaschine (AltaVista und Co.) – oder bei allgemeineren Begriffen: Verzeichnisse (Yahoo,...)

Google Geschichte ● Verzeichnisse wurden manuell von Menschen gepflegt: lange Latenzzeiten beim Eintragen ● Suchmaschinen lieferten (zu) viele unspezifische Ergebnisse ● Überladene Portalseiten mit Nachrichten, Gewinnspielen und massiver Werbung, auch wenn man „nur“ mal suchen möchte

Google Geschichte ● Googles Vorteile: – bis dato unschlagbare Heuristik (allem voran PageRank): wichtige Seiten erscheinen schon unter den ersten Treffern – simple Oberfläche – hochaktuell und enorme Anzahl indexierter Seiten: erreicht durch (fast) vollständige Automatisierung

Google Geschichte ● aus „BackRub“ wird Google ● 1998: Einstieg des ersten Investors (Andy Bechtolsheim, Sun Mitbegründer) ● Juni 1999: weitere Investoren, insgesamt 25 Mio. USD Startkapital ● September 1999: beta-Status wird aufgegeben

Google Geschichte ● wie verdient so eine Suchmaschine Geld? ● Lizensierung der Suche durch andere Web- Firmen ● seit 2000: AdWords: – unauffällige suchwortabhängige kleine Werbetexte – seit 2002: cost-per-click Bezahlmodell – Anzeigen stehen untereinander in Konkurrenz

Google Geschichte ● und Google verdient gut... ● seit 4. Quartal 2001 mit Gewinn ● Einkaufstouren und Expansion, eine kleine Auswahl – Usenet-Archiv Deja.com – Bildersuche – Google – Google News

Google Geschichte – blogger.com – Google Toolbar und Deskbar – Picasa – Google Earth – Google Video und Youtube ● enorme Vielfalt und Reichweite ● Börsengang, Marktwert von 147 Mrd. $ (IBM 139 Mrd. $)

Google Geschichte ● „don't be evil“ ● Campus-Charakter der Google Inc. ● Forschung und Innovation ● z.B. Peter Norvig als „Director of Research“ (sehr bekannt in der Künstlichen Intelligenz- Forschung)

Google Geschichte ● zensierte Ergebnisse in Ländern wie China ● „Datensammelwut“ ● automatische Auswertung von privaten Daten (z.B. bei Google ) ● Größe macht unheimlich

Zwischenfazit ● vom Campus-Projekt zum Giganten (in wenigen Jahren) ● Innovation und Benutzerfreundlichkeit ● Expansion ● viel Licht, viel Schatten

PageRank Theorie

● Suchmaschinenproblematik ● Situation aus Sicht der Benutzer, Suchmaschinen ● Ranking, PageRank ● Random-Surfer-Modell ● Dangling Links

Situation aus der Benutzersicht ● Unüberschaubare Menge an Webseiten ● Unterschiedliche Qualität und Zielgruppen der Seiten ● Siehe Beispiel Autoverkauf

Situation aus der Sicht der Suchmaschinen ● Es gibt mehrere Milliarden Webpages ● Mehrere Hundert Millionen verschiedene Themen müssen indiziert werden ● Pro Tag müssen hundert Millionen Suchanfragen beantwortet werden

Lösungsansatz ● Möglicher Ansatz: Trennung zwischen relevanten und nicht-relevanten Seiten ● aber: reicht nicht aus ● Entscheidend: Reihenfolge bei Präsentation der Treffer

Klassische Heuristiken der Suchmaschinen ● viele Suchbegriffe tauchen im Titel auf ● Suchbegriff kommt oft im Inhalt der Seite vor ● URL ist nicht lang → Seite ist relevant

Ranking allgemein ● Mechanismus zur Relevanzbewertung von Suchergebnissen ● Suchergebnisse werden in der Regel in absteigender Reihenfolge dargestellt

PageRank PageRank ist eine Methode die Webseiten maschinell, effektiv und abhängig vom menschlichen Interesse nach Wichtigkeit und Relevanz einzuordnen.

PageRank: Idee ● Internet als gerichteter Graph ● Webpages - Knoten ● Links – Kanten ● PageRank – eine Zahl für Sortierung der Ergebnisse

Web als gerichteter Graph A A B B C C A und B sind Backlinks (eingehende) von C C ist ein ForwardLink von A u. B Unterscheidung von Links wichtig

Annahmen ● Links als implizite Aussage über (subjektive) hohe Meinung von Seiten, auf die Links verweisen ● viele Verweise auf eine Seite →Seite ist „wichtig“ ● Seite hat wenige Links→Jeder Link ist „wichtig“ ● Link kommt von einer „wichtigen“ Seite→Link ist „wichtig“

Beschreibung vom Algorithmus 1. Jeder Knoten (Seite) kriegt einen Startwert (z.B. 1/# Knoten) WIEDERHOLE bis Knotengewichte konvergiert sind: 2.Gewichte der Kanten Bestimmen als Gewicht des Knotens / # Links 3.Berechne Knotengewichte aus den Backlinks neu als ∑ Kantengewichte

PageRank mathematisch (etwas vereinfacht) u - eine Webseite B u - Menge der Seiten, die Links auf u enthalten N u – Anzahl Links in u Faktor c < 1

Nachteil der vereinfachten Definition ● Rank Sinks - zyklisch verlinkte Seiten mit einem Eingang, aber ohne Ausgang (genauer später) ● PageRank erhöht sich innerhalb des Zyklus, ohne nach „außen“ abgegeben zu werden ∞ ∞ ∞

Lösung – Rank Source Rank Source - Vektor E, der jeder Seite bei jeder Iteration einen gewissen konstanten „Bonus“ gibt

Matrixnotation (1) A: quadratische Matrix, in der Spalten und Zeilen Webseitenentsprechend gefüllt sind:

Matrixnotation (2) = A Pagerank ausrechnen: R = cAR

Random-Surfer-Modell (1) ● Zufalls-Surfer befindet sich mit einer bestimmten Wahrscheinlichkeit auf einer Website (aus PageRank berechnet) ● P(Verfolgung von Links nicht abgebrochen ≡ weiterklicken) = Dämpfungsfaktor ● Es ergibt sich eine Kette von verlinkten besuchten Seiten ● „Langeweile“ → Unterbrechung der Kette, (= Aufruf einer komplett neuen Seite )

Random-Surfer-Modell (2) ● Gewicht einer Seite als Wahrscheinlichkeit, dass ein zufälliger Surfer sich auf dieser Seite befindet ● Rank Source die Wahrscheinlichkeit für die Wahl einer best. Seite als neuer Startseite ● Surfer bleibt nicht in einem Rank Sink hängen

Dangling Links ● Links, die auf eine Seite, die keine ausgehende Links hat, zeigen ● → PageRank Sick ● Diese Einträge (Dangling Links) entfernen bis PageRank ausgerechnet ist, danach Werte den Seiten zuweisen Iteration 1 Iteration 2 A A B B C C

Implementation

Warum Java? ● Einfach ● Plattformübergreifend ● bereits vertraut Ideal für einen kleinen Prototyp

Aufbau

DataStructure Repräsentiert eine Internetseite: ● ID / URL ● PageRank ● LinkIDs / LinkURLs ● next

DataStructure ● diverse getter- / setter-Methoden ● toString für einfache Ausgabe Einfach verkettete lineare Struktur (linearisierter Graph -> Algorithmus)

AdvancedCrawler Eingabe: Suchwort Ausgabe: DataStructure, die die Suchergebnisse repräsentiert => Parsen der HTML-Ausgaben max Suchergebnisse (von „ungefähr “)

HTTPCrawler Eingabe: URL Ausgabe: String der korrespondierenden Internetseite wget: problematisch (Google blockiert, zuverlässig aber langsam) Greedy (enge Timeouts) Benutzt: Apache Commons HTTPClient

LinkParser Eingabe: HTML-Seiten Ausgabe: Liste der darin enthaltenen Links, möglichst keine PDFs oder (Google- )Suchergebnisse Reguläre Ausdrücke: ]*href=\"? )]*\"?[^>]*>

PageRankAlgorithm initialisiert die DataStructure (URLs -> IDs, linkURLs -> linkIDs) berechnet den "Quell"-PageRank jeder Seite (0,15/#Seiten) = zufälliger Surfer Berechnet einmalig (Verlinkungs-)Matrix T

PageRankAlgorithm Methode makeAnIteration: - Berechnet neuen PageRank und speichert ihn in die vorliegende DataStructure - gibt delta zurück: Differenz zwischen altem und neuem PageRank (könnte man als Abbruchkriterium verwenden)

Demonstration

Wortwarte

Implementierung: Kritik ● Duplikate? Anker? Interne Links? ● Threads ● Effizienz ● Google-Optimierungen: Enthalten die Seiten die Begriffe überhaupt? ● Google als Blackbox benutzt, aber eigener Suchindex viel zu aufwendig ● nur erste Tiefe der Suchergebnisse untersucht