23.01.2014Spree/Worg2/LE 10 Automatische Klassifikation = Zuordnung von Dokumenten zu bereits vorher festgelegten Klassen Zielsetzung: Dem Nutzer Informationen.

Slides:



Advertisements
Ähnliche Präsentationen
Kohonennetze für Information Retrieval mit User Feedback
Advertisements

Johannes-Kepler-Gymnasium
Gebrauchsmuster, Patente, Marken
WS Prof. Dr. Th. Ottmann Algorithmentheorie 09 - Suche in Texten KMP, BM.
TECHNISCHE UNIVERSITÄT DARMSTADT Naive Bayes for Ranking
Computeria Zürich Treff vom 1. November 2006 Spamihilator ein sehr wirksamer Spamfilter Ein Vortrag von René Brückner.
Vokabeln ImperativRelativ- pronomen Konjunktiv II Alles geht.
IuK 2003 Ansätze zur TeX-to-MathML Konvertierung - Semantik durch fachspezifische Usepackages Prof. Dr. Günter Törner Sebastian Pokutta Universität Duisburg-Essen.
Welche Kinder sollten am Münsteraner Training teilnehmen?
Suche in Texten (Stringsuche )
Informationsgewinnung mit Agenten
1 Automatische Klassifikation von Nomen nach Begriffstyp Christof Rumpf Heinrich-Heine-Universität
Information Retrieval Modelle: Vektor-Modell
Hypothesen testen: Grundidee
Support.ebsco.com Lernprogramm zur einfachen Suche in wissenschaftlichen Bibliotheken.
How much paternal resemblance is enough? Sex differencies in hypothetical investment decisions but not in the detection of resemblance Platek, Critton,
Automatisches Clustering und automatische Klassifikation
Indexierung - Verschlagwortung
Spree SoSe 2011 Clustering – Wie Maschinen die Ähnlichkeit von Dokumenten erkennen.
IndexierungsqualitätEinstieg
Relevanz Ranking Bisher: Sind wir davon ausgegangen, dass das Ergebnis des Rankings des statistischen Verfahrens in den Index geschrieben wird und dem.
Spree/Lexikographie Die Kunst der Definition Sidney Landau (1984): –A definition, for Aristotle is a statement of the essential character of a subject,
Relevanz Ranking Bisher:
Vereinfachtes Beispiel: Zuordnung von Dokumenten zu einer Klasse
SoSe 2005 Spree / Worg 1 Grundbegriffe der Klassifikation Gleiches zu Gleichem.
Tabellenkalkulationssysteme
Relationentheorie AIFB SS Algorithmen zur Bildung von 3NF-Relationsschemata Algorithmen zur Bildung von 3NF-Relationsschemata (2|8) (2)Synthese.
Was ich gern lese Lesetagebuch von
Bayes‘sche Verfahren (Mitchell Kap. 6), Teil 1
Maschinelles Lernen Bayessche Verfahren (Mitchell Kap. 6), Teil 1.
Wiederholung zur Kapitel 1
Outlook_03 - Freigabe von Postfächern für Kollegen
Christian Schulz, Marc Thielbeer, Sebastian Boldt
Einstellungen im Web für Outlook
Tagesprogramm Aufwärmen: Wort der Woche Klassenleiter Quiz- Nützliche Ausdrücke Neues Thema: Sommer, Hobbies Wiederholung von Deutsch 1 – Handout Packet.
Hallo. Ich bin die Martina.
Eine Anleitung für Lernende der Gewerblichen Berufsschule Chur
Übersicht Auf den folgenden Seiten wird Ihnen anhand einer kleinen Abteilung gezeigt, wie Sie PQM an Ihre Bedürfnisse anpassen können. Mitarbeiter einrichten.
Tabor: KI & Sprachtechnologien Reise um die KI Turing-Spiel (Wer ist der Junge?) Turing-Test (Wer ist der Computer?) KI-Systeme simulieren künstl. Intelligenz.
1 Dipl.-Ing.(FH) Oliver Schulte In Kooperation mit Thema : Objektorientierte Realisierung eines Programms zur Erkennung von Vogelstimmen mit Hilfe Neuronaler.
Generalisiertes Vektorraummodell (Generalized Vector Space Model, GSVM) Karin Haenelt
Eine Anleitung für Lernende der GIB Liestal
Automatische Texterkennung
1. 2. Berechnen von Wahrscheinlichkeiten
Information Retrieval, Vektorraummodell
Multimediapraktikum SS07 Vision-Based Motion Analysis Handgestenerkennung.
Lernzielorientierter Quintalsplan ©
Unser neues Lager Lambsborn/Pfalz Our new stock Lambsborn/Pfalz
Unterstützung der Softwarebeschaffung durch Prozesse
L.O. to be able to say what activities you like to do add a reason why
You need to use your mouse to see this presentation
SS 2014 – IBB4C Datenmanagement Do 17:00 – 18:30 R Vorlesung #2 Datenbankentwurf.
Institut für Softwarewissenschaft – Universität WienP.Brezany 1 Beispiele (Frist: ) Beispiel 1: Sei  = {a, b} ein Alphabet und Q = {q 0, q 1 } eine.
Bienert EDV Software für das 21. Jahrhundert Der Einsatzplaner ist das ideale Hilfsmittel für alle, die Personal zu organisieren.
Die Frau des Hauses war unzufrieden mit ihrem Auto und beklagte sich darüber bei ihrem Mann:
subordinierend und koordinierend
Deutsch 3 Frau Snell.
Clusteranalyse Tamara Katschnig.
Form sentences with the given words. You will have to conjugate the verbs and apply the correct case (nominative, accusative,dative) to the articles and.
Adjective Endings Accusative Case. You already know how to use descriptive words: Das Haus ist gross und blau. Die Küche ist klein und hell. Meine Freundin.
Identifying sentence components subject / indirect obj. / direct obj. The salesman offered the customer the car. We’re bringing her the mail. I lent my.
Phone 1 – Das Telefon 1 LO: Speak on the phone in German SC I can recall vocabulary that I can use on the phone I know that some.
Herzlich Willkommen!. Guten Morgen! (Good morning!) Herzlich Willkommen! (A hearty welcome!) Ich heiβe Veena Maben. Mein Name ist Veena Maben. (My name.
Übung „Aquarium“. Ablauf Übung Aquarium Sie finden sich in 6 Gruppen zusammen pro Gruppe wird eine freiwillige Person ausgewählt die freiwillige Person.
TU Darmstadt FB 20 Informatik Bayes Decision Theory von Martin Tschirsich, Shuo Yang & Zijad Maxuti Hausübung 5: Erläuterung Anwendung.
HCS Übung 3: Computer Vision
Heute ist Dienstag, der 27. November 2007.
VERB CONJUGATION AND WORD ORDER
Einführung: Statistische Verfahren der automatischen Indexierung
1. Wir geben THEM die T-Shirts
 Präsentation transkript:

Spree/Worg2/LE 10 Automatische Klassifikation = Zuordnung von Dokumenten zu bereits vorher festgelegten Klassen Zielsetzung: Dem Nutzer Informationen über inhaltlich ähnliche Dokumente geben Browsing in der Ergebnismenge erlauben

Spree/Worg2/LE 10 Mail a Sehr geehrte Frau Spree, Hiermit reiche ich Ihnen meine Hausarbeit über das Referat zu wissenschaftlichen Erkenntnissen zur Wirkungsweise von Viagra nach. Mail b Hi, Today we announce the selling of our new Viagra pills that allow you to enjoy Sex again. Order now Anwendungsbeispiel Spamerkennung Wie kann ein Programm automatisch erkennen, ob es sich bei diesen beiden Mails um Spam handelt?

Spree/Worg2/LE 10 Zwei Verfahren 1. Einfacher Merkmalsabgleich zwischen Klassifikation und Dokument 2.Lernende Verfahren der automatischen Klassifikation anhand von Trainingsdokumenten

Spree/Worg2/LE 10 1.Merkmale eine Klassifikation werden festgelegt Merkmale können einer Klasse zugeordnete Wörter sein In einer Klassifikation für Pressartikel IPTC wird die Klasse Freizeit durch die Terme Reisen, Spiel, Hobby, Wohnen definiertIPTC 2.Das Vorkommen bestimmter Terme im Dokument wird mit dem Vorkommen dieser Terme in der Merkmals-Beschreibung der Klassen verglichen 3.Dies kann über die Bildung von Skalarprodukten zwischen den Dokumentvektoren (bestimmt über die Deskriptoren) und den Vektoren der Klassen (bestimmt über die Klassenbeschreibungen) geschehen 1.Einfacher Merkmalsabgleich zwischen Klassifikation und Dokument

Spree/Worg2/LE 10 Zwei Phasen der Klassifikation von Dokumenten (Quelle: Robert Hoffmann:

Spree/Worg2/LE 10 Vereinfachtes Beispiel: Zuordnung von Dokumenten zu einer Klasse Klasse/ Attribut SPAMKein Spam ViagraSehr geehrte SexHochachtungsvoll sellingwissenschaftlich buyHausarbeit pillsReferat Dok a Sehr geehrte Frau Spree, Hiermit reiche ich Ihnen meine Hausarbeit über das Referat zu wissenschaftlichen Erkenntnissen zur Wirkungsweise von Viagra nach. Dok b Hi, Today we announce the selling of our new Viagra pills that allow you to enjoy Sex again. Bestimmung der Klassen durch Merkmale (Attribute) - Ausgangslage

Spree/Worg2/LE 10 Vereinfachtes Beispiel: Zuordnung von Dokumenten zu einer Klasse SPAMABKein SPAMab Viagra11Sehr geehrte10 sex01Hochachtungsvoll00 selling01wissenschaftliche10 buy00Hausarbeit10 pills01Referat10 Skalarprodukt: Klasse/Dok 1440 Darstellung der Klassen und der Dokumente als Vektoren und Ermittlung der Ähnlichkeit durch Bildung des Skalarproduktes Dok a Sehr geehrte Frau Spree, Hiermit reiche ich Ihnen meine Hausarbeit über das Referat zu wissenschaftlichen Erkenntnissen zur Wirkungsweise von Viagra nach. Dok b Hi, Today we announce the selling of our new Viagra pills that allow you to enjoy Sex again.

Spree/Worg2/LE 10 Vereinfachtes Beispiel: Zuordnung von Dokumenten zu einer Klasse SPAMABKein SPAMab Viagra11Sehr geehrte10 sex01Hochachtungsvoll00 selling01wissenschaftliche10 buy00Hausarbeit10 pills01Referat10 Skalarprodukt: Klasse/Dok 1440 Darstellung der Klassen und der Dokumente als Vektoren und Ermittlung der Ähnlichkeit durch Bildung des Skalarproduktes Mail a ist : = 20% Spam = 80% kein Spam Einordnung kein Spam Mail b: = 0% kein Spam = 80% Spam Einordnung Spam

Spree/Worg2/LE Lernende Verfahren der automatischen Klassifikation Voraussetzung: –Bestand von Trainingsdokumenten, die intellektuell Klassen zugeordnet wurden, ist vorhanden Vorgehen –Analyse der Trainingsdokumente –Ermittlung der Eigenschaften der Dokumente, die bereits einer Klasse zugeteilt wurden Eigenschaften sind häufig das Vorkommen und Gewicht bestimmter Indextermini in den Dokumenten –Berechnung der Wahrscheinlichkeit, dass ein bestimmtes Dokument, in dem das Wort x vorkommt, der Klasse y zugeordnet wird

Spree/Worg2/LE 10 Berechnung der Vorkommenswahrscheinlichkeit von Wörtern in Klassen Berechnung der Relation Z / Naiver Bayes Algorithmus: Anzahl der Dokumente mit Wort x, die Klasse y zugeteilt sind /Anzahl der Dokumente, in denen x vorkommt Beispiel automatische Erkennung von Spam s: Im Trainingsbestand sind 8 Dokumente mit Wort Viagra der Klasse Spam zugeteilt. Viagra kommt insgesamt in 10 s vor. = 8/10 -> 0,8 Die Wahrscheinlichkeit, dass ein Dokument mit Viagra der Klasse Spam zugeordnet wird, liegt bei 0,8 2 Dokumente mit Kuss sind der Klasse Spam zugeteilt. Kuss kommt in 50 Dokumenten vor. =2/50 ->0,04 Die Wahrscheinlichkeit, dass ein Dokument mit Kuss der Klasse Spam zugeteilt wird, liegt nur bei 0,04

Spree/Worg2/LE 10

Spree/Worg2/LE 10 Zu Hause Bitte lesen Sie zur nächsten Woche die Lerneinheit 10 nach. 1.Notieren Sie Verständnisfragen 2.Erklären Sie an einem eigenen Beispiel, was ein Vektorzentroid ist 3.Bereiten Sie Step 4 so vor, dass Sie den Prozess der automatischen Klassifikation in einem Flussdiagramm darstellen können