Seminar Textmining WS 06/07 Themen Übung 8 Stemming Crawling.

Seminar Textmining WS 06/07 Themen Übung 8 Stemming Crawling

Seminar Textmining WS 06/07 1. Arten von Stemming Erklären und an Beispiel vorfüren und Sprachen nennen, wo das gut, oder schlecht funktioniert: –N-gram stemming –Affixabtrennung –Porter Algorithmus –Trie-basiertes Stemming Was ist under- und overstemming? Beispiele?

Seminar Textmining WS 06/07 2. Crawling Was sind Ziele des crawling? Was gilt es dabei zu beachten? Wenn man schnell crawlen will, was hindert einen wirklich daran? Brin and Page note that: "... running a crawler which connects to more than half a million servers (...) generates a fair amount of email and phone calls. Because of the vast number of people coming on line, there are always those who do not know what a crawler is, because this is the first one they have seen." (Brin and Page, 1998)

Seminar Textmining WS 06/07 2.1. Crawling Ziele Ziele –Vorhandensein einer Seite –Inhalt einer Seite –Links zu anderen Seiten –Links von anderen Seiten –Andere Seiten, auf die ähnlich gelinkt wird wie auf diese Seite –Andere Seiten, die ähnliche Links haben –Andere Seiten, die ähnlichen Inhalt haben –… –Bereitstellung all dieser Information für weitere Anwendungen, wie Information Retrieval, Clustering, Nextlinks, etc.

Seminar Textmining WS 06/07 2.2. Crawling Regeln Bad bots vs. Good bots –robots.txt beachten! –Server nicht überlasten! –Eine Seite nur einmal herunterladen! (leider wird Aktualisierungsdatum nicht immer korrekt gesetzt) –Bilder und anderen Multimedia content nicht herunterladen –Linkfarmen ignorieren! –Nur das crawlen, was man benötigt (nicht im Englischen Web wildern, wenn man Deutsch haben will) –Schnell crawlen! –Stetig crawlen (Information verändert sich garantiert schneller als man crawlen kann)

Seminar Textmining WS 06/07 2.3. Gutes Schnelles Crawling Nicht Menge der Information ist das Problem, sondern Menge verschiedener Fehler und Fallen! Whitelist / Blacklist Datenverwaltung auf crawlerserver ist ebenfalls Problematisch. –Ein gefundener Link bereits heruntergeladen? Hash? Liste? Gutes crawling benötigt aufwendige Logik bezüglich Linkfarmen, dynamischer URLs (damit nicht der gleiche Inhalt in 20 verschiedenen Sortierformen heruntergeladen wird), usw. Man kann nicht jede Seite erwischen, aber die wichtigen sollte man erwischen! –Nur, wie erkennt man wichtig?

Seminar Textmining WS 06/07 2.4. Verschiedene Cawler Technologien Breadth-first Depth-first Random-ordering Omniscient-ordering OPIC (one line page importance crawling (cash per page)) Backlink-count Partial Page-rank Path-ascending crawl (einfach von hinten chunks im path weglassen) Deep web crawling (Die ganzen DBs absaugen) Was unterscheidet eigentlich einen guten Crawl von einem schlechten?

Seminar Textmining WS 06/07 2.5. Essentielle Konzepte Parallel Crawling Distributed Crawling Polite crawling

Seminar Textmining WS 06/07 2.5. Erwischen der häufigen updates Uniform crawling Proportional policy Classes of Sites according their change-frequency Adaptive crawling

Seminar Textmining WS 06/07

Seminar Textmining WS 06/07 Themen Übung 8 Stemming Crawling.

Ähnliche Präsentationen

Präsentation zum Thema: "Seminar Textmining WS 06/07 Themen Übung 8 Stemming Crawling."— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback

Anmelden

Anmeldung über soziales Netzwerk:

Seminar Textmining WS 06/07 Themen Übung 8 Stemming Crawling.

Ähnliche Präsentationen

Präsentation zum Thema: "Seminar Textmining WS 06/07 Themen Übung 8 Stemming Crawling."— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback