Vereinfachtes Beispiel: Zuordnung von Dokumenten zu einer Klasse

Slides:



Advertisements
Ähnliche Präsentationen
HÄNSEL UND GRETEL.
Advertisements

Berühmte Märchen Schneewittchen Hänsel und Gretel
Beispiel zum RSA-Algorithmus
Kohonennetze für Information Retrieval mit User Feedback
Ähnlichkeitsmaße für Vektoren
Data Mining Anwendungen und Techniken
TECHNISCHE UNIVERSITÄT DARMSTADT Naive Bayes for Ranking
Suche in Texten (Stringsuche )
Seminar Textmining WS 06/07 Aufgaben V Bemerkung zu clustering Probabilistic IR Indexierung von Dokumenten Thesauri.
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/4 Manuelle Verfahren Klassifizierung Hier werden Dokumente in ein fest vorgegebenes System.
1 Automatische Klassifikation von Nomen nach Begriffstyp Christof Rumpf Heinrich-Heine-Universität
Information Retrieval Modelle: Vektor-Modell
Numerische Klassifikation TWINSPAN
MÄRCHEN Aus aller Welt.
Spree/Worg2/LE 10 Automatische Klassifikation = Zuordnung von Dokumenten zu bereits vorher festgelegten Klassen Zielsetzung: Dem Nutzer Informationen.
Wie funktionieren Suchmaschinen?
Automatisches Clustering und automatische Klassifikation
Spree SoSe 2011 Clustering – Wie Maschinen die Ähnlichkeit von Dokumenten erkennen.
Relevanz Ranking Bisher: Sind wir davon ausgegangen, dass das Ergebnis des Rankings des statistischen Verfahrens in den Index geschrieben wird und dem.
Relevanz Ranking Bisher:
Nachholung der Vorlesung vom Freitag
Ab nächster Woche wird die Übungsgruppe Gruppe 2: Henrike Berg Di SR 222 wegen Personalmangel eingestellt.
Erhard Künzel für Info 9. Klasse: Digitale Schule Bayern© Erhard Künzel.
Classification of Credit Applicants Using Data Mining. Thema.
Univariate Statistik M. Kresken.
Terminplan I (geändert)
ABC-Analyse von Michael Getzinger.
LITERATUR: Die Märchen
Vorlesung: Biometrie für Studierende der Veterinärmedizin
Bayes‘sche Verfahren (Mitchell Kap. 6), Teil 1
Machine Learning KNN und andere (Kap. 8).
Maschinelles Lernen Bayessche Verfahren (Mitchell Kap. 6), Teil 1.
Christian Schulz, Marc Thielbeer, Sebastian Boldt
Rechnen mit Prozenten Klasse 7c – Schuljahr 2013/2014.
Zur Veranstaltung Business Intelligence
Märchen der Brüder Grimm
SPSS für Windows Auswertung von Marktforschungsdaten mit SPSS für Windows WINDER Thomas Porzellangasse 32, 1090 Wien.
Aufgabenzettel V Statistik I
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Märchen Elemente Fairy Tale Elements
Berechnung von Prozentwert, Prozentsatz und Grundwert mit dem Dreisatz und mit der Operatorenschreibweise Prozentrechnung.
Bestimmen von Prozentwert, Grundwert und Prozentsatz
Deutsche Kinderliteratur
Deutsche Kinderliteratur
Energieoffensive 2007 Physikalische Grundlagen Berechnung Auswertung Kundenvorteil.
Studieren Lernen Claudia Lischke-Arzt.
3 4 = 3 : 4 = 0, = 0,75 denn: 3 : 4 = 0,75 Die Division geht auf. Es entsteht ein endlicher Dezimalbruch = 4,12 denn:
Die Gebrüder Grimm.
Information Retrieval, Vektorraummodell
Bist du ein guter Märchenkenner?
Berechnung der Gesamtqualifikation
BEKANNTE MÄRCHEN.
“Wir lesen deutsche Märchen g e r n .’’
„Märchen. Märchen? Märchen!“
Hessen.
DIE BRÜDER GRIMM.
Kopfübungen BORG Schoren KÜ 3
Die Clusteranalyse Zielsetzung Datenreduktion: Zusammenfassung einer Vielzahl von Objekten oder Variablen zu Gruppen mit möglichst ähnlichem Informationsgehalt.
Deutsche Kinderliteratur
Niko Zenker1 Besondere Aspekte in Multimedia-Datenbanken Methoden zur iterativen Anfrageverfeinerung (Relevanz Feedback)
Brüder Grimm.
Gattung, Autoren, Merkmale...
Märchen.
MÄRCHENFIGUREN.
PCA Principal Component Analysis. Gliederung PCA – Warum eigentlich? PCA – Was ist zu tun? Was passiert eigentlich? Anwendungen Zusammenfassung.
TU Darmstadt FB 20 Informatik Bayes Decision Theory von Martin Tschirsich, Shuo Yang & Zijad Maxuti Hausübung 5: Erläuterung Anwendung.
Märchen Was ist ein Märchen? Im Volk überlieferte Erzählung, in der übernatürliche Kräfte und Gestalten in das Leben der Menschen eingreifen (und meist.
HCS Übung 3: Computer Vision
Die dumme Prinzessin Es war einmal eine Prinzessin. Sie war die Tochter des Herrschers. Sie war sehr hoch und nicht ganz hübsch. Sie wollte hübscher werden.
Umweltfreundliche Geschichte
 Präsentation transkript:

Vereinfachtes Beispiel: Zuordnung von Dokumenten zu einer Klasse Bestimmung der Klassen durch Merkmale (Attribute) Klasse/ Attribut Märchen Krimi Schnulze Fee Mord Liebe Hexe Kommissar Sehnsucht „und wenn sie nicht gestorben sind…“ Gewalt Kuss Prinzessin Kanone Arzt Aut = Grimm, Wilhelm Aut = Christie, Agatha Aut = Courths-Mahler, Hedwig Dok 1 Courths-Mahler, Hedwig: Der Arzt gab der Prinzessin einen Kuss. Das wollte der Kommissar mit Gewalt verhindern. Dok 2 Grimm, Wilhelm: Die Hexe und die Fee trafen auf dem Blocksberg die Prinzessin. LE 10

Vereinfachtes Beispiel: Zuordnung von Dokumenten zu einer Klasse Darstellung der Klassen und der Dokumente als Vektoren und Ermittlung der Ähnlichkeit durch Bildung des Skalarproduktes Märchen 1 2 Krimi Schnulze Fee Mord Liebe Hexe Kommissar Sehnsucht „und wenn Sie nicht gestorben sind…“ Gewalt Kuss Prinzessin Kanone Arzt Aut = Grimm, Wilhelm Aut = Christie, Agatha Aut = Courths-Mahler, Hedwig Skalarprodukt: Klasse/Dok 4 3 Dok 1 Courths-Mahler, Hedwig: Der Arzt gab der Prinzessin eine Kuss. Das wollte der Kommissar mit Gewalt verhindern. Dok 2 Grimm, Wilhelm: Die Hexe und die Fee trafen auf dem Blocksberg die Prinzessin. Zuordnung zu Klasse: Märchen 1 Krimi 2 Schnulze 3 Zuordnung zu Klasse: Märchen 4 Krimi 0 Schnulze 0

Zwei Methoden der Berechnung der Zuordnung einer Klasse zu einem Dokument Der naive Bayes Algorithmus / auch Relation Z Mit welcher Wahrscheinlichkeit wird einem Dokument d die Klasse Cj zugeordnet? P(Attribut i in Cj)= Gewicht Attribut i (Cj) / Gewicht Attribute in Cj In 100 Dokumenten der Klasse Märchen kommt Hexe 50 x vor Wahrscheinlichkeit von Hexe für Märchen 50/100 „nächster Nachbar“ Klassifikation Wird ein neues Dokument klassifiziert, so werden die x ähnlichsten Trainingsdokumente über ein Ähnlichkeitsmaß bestimmt Das neue Dokument wird jener Klasse zugeteilt, aus der die meisten dieser Trainingsdokumente stammen. Die 10 ähnlichsten Dok von Dok x werden errechnet Von diesen 10 fallen 8 in die Klasse Krimi und 4 in die Klasse Märchen = 8/10 -> 0,8 für Krimi und 4/10 -> 0,4 für Märchen

Analyse der Klassifikation Ermittlung der Merkmale (Einträge im invertierten Dateisystem) der Dokumente, die manuell (oder durch Clustering) einer Klasse zugeordnet wurden Klasse Märchen: Hexe Teufel Gut Böse Zauberer Hänsel Gretel Prinzessin Bestimmung von Wahrscheinlichkeiten Wenn in einem Dokument Hexe vorkommt, wird es zu 80% als Märchen klassifiziert Wenn in einem Dokument gut vorkommt, wird es zu 25% als Märchen klassifiziert Bestimmung eines Vektorzentroids für die Klasse Märchen

Wahrscheinlichkeitsansatz jedes Dokument für jede Klasse neu Neues Dokument kommt an Dokument analysieren: gewichteten Index erstellen Nachschauen, in welchen Klassen die Wörter aus dem Index des Dokumentes vorkommen Wort, das in keiner Klasse vorkommt, wird ignoriert Klassen nacheinander durchgehen Wahrscheinlichkeit, mit der das Wort in Dokumenten in der Klasse vorkommt auslesen Den Wahrscheinlichkeitswert des Merkmals für die Klasse mit dem Gewicht des Dokumentvektors multiplizieren Diesen Prozess für alle Merkmale der Klasse wiederholen Ergebnis errechnen Dokument der Klasse mit dem höchsten Wert zuordnen Text „Hänsel und Gretel“ Gewichteten Index erstellen (Dokumentvektor) Für jeden Indexeintrag nachschauen, in welcher Klasse er vorkommt Pfefferkuchenhaus ignorieren, da in keiner Klasse Hexe kommt in Märchen und Frauenbewegung vor Nacheinander alle Merkmale der Klasse Märchen und der Klasse Frauenbewegung mit den Merkmalen des neuen Dokuments vergleichen Märchen Hexe hat für Märchen einen Wert von 0,50 Gewicht von Hexe in Dokumentvektor 0,75 Wert aus Klassifikation mit Wert aus Dokument multiplizieren 0,50*0,75 Frauenbewegung Hexe hat für Frauenbewegung Wert von 0,15 0,15*0,75 Die einzelnen Werte zu einem Dokumentvektor aufaddieren Beispiel Märchen: Hexe 0,375 Fee 0 Köning 0,1 Prinzessin 0,2 = 0,675 Beispiel Frauenbewegung Hexe 0,1125 Heilerin 0,5 Feminismus 0,5 Pendel 0,25 =1,362 Dokument der Klassse Frauenbewegung zurechnen