Seminar Textmining WS 06/07 Themen Übung 8 Stemming Crawling.

Slides:



Advertisements
Ähnliche Präsentationen
-A demonstrative pronoun refers to a person or thing JUST mentioned that needs to be referred to in more detail. -In English, the demonstrative pronouns.
Advertisements

Seminar Textmining WS 06/07 Themen I Übung in erster Linie um zugrundeliegende Methoden zu verstehen. D.h. es gibt immer einen/mehrere Themenschwerpunkte,
Seminar Textmining WS 06/07 Themen Übung 8 Diskussion über Erkennung von Eigennamen Question Answering Stemming.
Seminar Textmining WS 06/07 Aufgaben IV Postings Datei Clustering Probabilistisches Information Retrieval.
Klassifizierung der sprachlichen Unterschiede zwischen Intonationsmelodien Jonathan Harrington.
Adjektive Endungen von Frau Templeton.
Alex will Jeans kaufen. preiswert = reasonably priced teuer = expensive Die Auswahl = selection bestimmt = certain(ly) passen = to fit dunkel= dark hell.
Don`t make me think! A Common Sense Approach to Web Usability
You need to use your mouse to see this presentation © Heidi Behrens.
You need to use your mouse to see this presentation
You need to use your mouse to see this presentation © Heidi Behrens.
Was ist bilingualer Unterricht?
The Male Perspective! Ever got sick of those luvy-duvy s that women seem to love to proliferate? Die Perspektive des Mannes! Schon mal genug gehabt.
You need to use your mouse to see this presentation © Heidi Behrens.
You need to use your mouse to see this presentation.
You need to use your mouse to see this presentation
You need to use your mouse to see this presentation © Heidi Behrens.
You need to use your mouse to see this presentation
You need to use your mouse to see this presentation
Wo ist der Hund? Do not run the slide show.
Comenius Projekt Liceo F.Petrarca Trieste a.s. 2011/12 M. Lamba, V. Munaò, A. Pascazio.
Clean Code Software-Entwicklung als Handwerkskunst Thomas Nagel, November 2011.
Wie fühlst du dich? Wie fühlen Sie sich?
You need to use your mouse to see this presentation
Passiv What are these sentences expressing?
You need to use your mouse to see this presentation
Coordinating Conjunctions Why we need them & how to use them deutschdrang.com.
 Every part in a sentence has a grammatical function. Some common functions are: - Subject - Verb - Direct object / accusative object - Indirect object.
Reading for inference. Hat Silvana Koch-Mehrin abgeschrieben? Immer neue Fundstellen in der Doktorarbeit der FDP-Spitzenfrau deuten darauf hin. Sie selbst.
Die Fragen Wörter Wer? Was? Wann?.
Weak pushover verbs..... lieben kaufen spielen suchen....are verbs that do exactly as they are told. They stick to a regular pattern that does not change!
You need to use your mouse to see this presentation © Heidi Behrens.
Deutsch 1 Lesson 6 den 30. April  What do all German nouns have in common? Revision.
You need to use your mouse to see this presentation © Heidi Behrens.
3rd Review, Vienna, 16th of April 1999 SIT-MOON ESPRIT Project Nr Siemens AG Österreich Robotiker Technische Universität Wien Politecnico di Milano.
Zeit, Tempus und Aspekt im Englischen
Willkommen Deutsche II Schüler! What can you remember after the LONG, LONG summer? Let’s see! Count to 20 (you do it in 2's starting with 2; your partners.
DEUTSCH 1 den 4. Juni. TODAY IS THE LAST LESSON  Until 30 July.
COMMANDS imperative 1. you (formal): Sie 2. you (familiar plural): ihr
You need to use your mouse to see this presentation © Heidi Behrens.
Studentenstreik 2009, 2010 in Deutschland Part 1: Studiengebühren.
Kapitel 4 Grammar INDEX 1.Nouns & Their Plural Forms.
Imperfekt (Simple Past) Irregular or strong verbs
Kapitel 2 Grammar INDEX 1.Subjects & Verbs 2.Conjugation of Verbs 3.Subject Verb Agreement 4.Person and Number 5.Present Tense 6.Word Order: Position of.
Kapitel 7 Grammar INDEX 1.Comparison 2.Adjectives 3.Adjective Endings Following Ein-Words.
Kapitel 8 Grammar INDEX 1.Command Forms: The Du-Command Form & Ihr- Command 2.Sentences & Clauses.
Fotografier nicht!. Iss nicht! Rauch nicht! What is the meaning in English? How do I say “Let’s go” Gehen wir! How do I command someone to not eat,
WILLKOMMEN. By the end of today’s lesson You will know where to find some important information in the text book You will know what is expected of you.
Kapitel 9 Grammar INDEX 1.Formal Sie- Command 2.There Is/There Are 3.Negation: Nicht/Klein.
Ü bersetzen VokabelnFragenKulturBilder
Word order: 1.In a main clause the VERB is the second idea: Helgakommteben aus der Bäckerei This may not be the second word Meiner Meinung nachsind Hobbys.
 Was Sie nicht tun sollten!  Was Sie tun sollten  Einfache Möglichkeiten der Steigerung  Erweiterte Möglichkeiten der Steigerungen  Tipps und Tricks.
On the case of German has 4 cases NOMINATIVE ACCUSATIVE GENITIVE DATIVE.
Indico Meeting Dennis Klein 4. August Übersicht  Korrespondenz CERN  Trouble Ticket Queue  Integration GSI-Accounts  Subversion & Wiki  Todo.
FREUNDSCHAFTEN 11A Freunde fürs Leben Lernziele Lernziele: 1.Understand and produce vocabulary to describe the roles and importance of friends 2. Consider.
What’s the weather like?. Look at the question above Turn it around and you have Das Wetter ist.... The phrase Das Wetter ist.... or Es ist.... can be.
Fitness. An english presentation.
Ja, wir haben all die harte Arbeit gemacht.
Sentence Structure Questions
Volume 1, Chapter 9.
Cobra 120 Tablets Price In Pakistan
Sentence Structure Connectives
Deutsch 1 Die Familie Frau Spampinato
Wie spät ist es? Ich habe keine Ahnung!!.
Responding to good news and bad news So sagt man das!
Users outside of UCA Dear Elke Kerner, if this is your real name, and others: you have downloaded my PowerPoints and posted them on public access websites.
THE PERFECT TENSE IN GERMAN
German Year 4 Units Hallo! Wie geht’s?
Quality assured by the ALL Connect project (2015)
School supplies.
 Präsentation transkript:

Seminar Textmining WS 06/07 Themen Übung 8 Stemming Crawling

Seminar Textmining WS 06/07 1. Arten von Stemming Erklären und an Beispiel vorfüren und Sprachen nennen, wo das gut, oder schlecht funktioniert: –N-gram stemming –Affixabtrennung –Porter Algorithmus –Trie-basiertes Stemming Was ist under- und overstemming? Beispiele?

Seminar Textmining WS 06/07 2. Crawling Was sind Ziele des crawling? Was gilt es dabei zu beachten? Wenn man schnell crawlen will, was hindert einen wirklich daran? Brin and Page note that: "... running a crawler which connects to more than half a million servers (...) generates a fair amount of and phone calls. Because of the vast number of people coming on line, there are always those who do not know what a crawler is, because this is the first one they have seen." (Brin and Page, 1998)

Seminar Textmining WS 06/ Crawling Ziele Ziele –Vorhandensein einer Seite –Inhalt einer Seite –Links zu anderen Seiten –Links von anderen Seiten –Andere Seiten, auf die ähnlich gelinkt wird wie auf diese Seite –Andere Seiten, die ähnliche Links haben –Andere Seiten, die ähnlichen Inhalt haben –… –Bereitstellung all dieser Information für weitere Anwendungen, wie Information Retrieval, Clustering, Nextlinks, etc.

Seminar Textmining WS 06/ Crawling Regeln Bad bots vs. Good bots –robots.txt beachten! –Server nicht überlasten! –Eine Seite nur einmal herunterladen! (leider wird Aktualisierungsdatum nicht immer korrekt gesetzt) –Bilder und anderen Multimedia content nicht herunterladen –Linkfarmen ignorieren! –Nur das crawlen, was man benötigt (nicht im Englischen Web wildern, wenn man Deutsch haben will) –Schnell crawlen! –Stetig crawlen (Information verändert sich garantiert schneller als man crawlen kann)

Seminar Textmining WS 06/ Gutes Schnelles Crawling Nicht Menge der Information ist das Problem, sondern Menge verschiedener Fehler und Fallen! Whitelist / Blacklist Datenverwaltung auf crawlerserver ist ebenfalls Problematisch. –Ein gefundener Link bereits heruntergeladen? Hash? Liste? Gutes crawling benötigt aufwendige Logik bezüglich Linkfarmen, dynamischer URLs (damit nicht der gleiche Inhalt in 20 verschiedenen Sortierformen heruntergeladen wird), usw. Man kann nicht jede Seite erwischen, aber die wichtigen sollte man erwischen! –Nur, wie erkennt man wichtig?

Seminar Textmining WS 06/ Verschiedene Cawler Technologien Breadth-first Depth-first Random-ordering Omniscient-ordering OPIC (one line page importance crawling (cash per page)) Backlink-count Partial Page-rank Path-ascending crawl (einfach von hinten chunks im path weglassen) Deep web crawling (Die ganzen DBs absaugen) Was unterscheidet eigentlich einen guten Crawl von einem schlechten?

Seminar Textmining WS 06/ Essentielle Konzepte Parallel Crawling Distributed Crawling Polite crawling

Seminar Textmining WS 06/ Erwischen der häufigen updates Uniform crawling Proportional policy Classes of Sites according their change-frequency Adaptive crawling

Seminar Textmining WS 06/07