Automatisches Clustering und automatische Klassifikation

Slides:



Advertisements
Ähnliche Präsentationen
Cluster- Projekt Präsentiert von Dominik Henn & Torben Pastuch
Advertisements

Grammatik Deutsch I Kapitel Stufe
Johannes-Kepler-Gymnasium
Computeria Zürich Treff vom 1. November 2006 Spamihilator ein sehr wirksamer Spamfilter Ein Vortrag von René Brückner.
Vokabeln ImperativRelativ- pronomen Konjunktiv II Alles geht.
Seminar Textmining WS 06/07 Aufgaben V Bemerkung zu clustering Probabilistic IR Indexierung von Dokumenten Thesauri.
Seminar Textmining WS 06/07 Aufgaben II 1.Dokumente im VSM 2.Ranking 3.Term-Term-Korrelation 4.Relevance Feedback 5.Termgewichtung.
Seminar Textmining WS 06/07
Seminar Textmining WS 06/07 Aufgaben IV Postings Datei Clustering Probabilistisches Information Retrieval.
Information Retrieval Modelle: Vektor-Modell
Gebrauchsmuster, Patente, Marken
Wissensorganisation Einstieg
Optimierung von Volltextindices
Spree/Worg2/LE 10 Automatische Klassifikation = Zuordnung von Dokumenten zu bereits vorher festgelegten Klassen Zielsetzung: Dem Nutzer Informationen.
Spree SoSe 2007 Titel Lexikographie – Produktion lexikographischer Werke (am Beispiel lookedup4you) Abb.: Relaunch lookedup4you Betaversion.
How to? Tipps und Tricks für die Thesauruserstellung
Spree SoSe 2011 Qualität einer Erschließung Relevanz- und Vollständigkeitsrate Zur Erinnerung: Zweck der Erschließung von Dokumenten/Texten ist nicht in.
OWL-Web Ontology Language Eine Einführung
Klassifikation - Grundbegriffe
Methoden der Content Analysis (Inhaltsanalyse)
Diskussion Fundamentalkategorien nach Aristoteles Seminar I-Prax: Inhaltserschließung visueller Medien, Spree WS 2005/06 Diskusion Fundamentalkategorien.
Spree SoSe 2009 Feedback Thesaurus Feedback Thesaurus Einstieg Frau Spree Schöne Ergebnisse – bei strengster Bewertung: 1,01,31,72,02,32,73,03,74,
How to? Tipps und Tricks für die Thesauruserstellung
Spree SoSe 2007 Titel Herausforderungen bei der Erstellung von (allgemeinen) Nachschlagewerken Among these unhappy mortals is the writer of dictionaries;
Spree SoSe 2011 Feedback Thesaurus / Facettenklassifikation Feedback Thesaurus / Facettenklassifikation Einstieg Schöne Ergebnisse – bei strengster Bewertung:
Spree SoSe 2007 Titel Lexikographie und Metalexikographie Lexikonproduktion und Lexikontheorie Dank an Franziskus Geeb, der mir seine Unterrichtsmaterialien.
1 Indexierung - Begriffszerlegung Alphabete Seminar I-Prax: Inhaltserschließung visueller Medien, Spree WS 2005/2006 Begriffszerlegung – wo gibt.
Letzte Aktualisierung: Spree WS 2007/2008 Fachterminologie Klassifikation Feedback Fachterminologie Klassifikation Feedback Einstieg.
Three minutes presentation I ArbeitsschritteW Seminar I-Prax: Inhaltserschließung visueller Medien, Spree WS 2010/2011 Giving directions.
Indexierung - Verschlagwortung
Spree SoSe 2011 Clustering – Wie Maschinen die Ähnlichkeit von Dokumenten erkennen.
Protégé OWL – TBox und ABox Abox_tbox_protege Seminar I-Prax: Inhaltserschließung visueller Medien, Spree WS 2009/2010 Wissensbasis TBox Frau.
IndexierungsqualitätEinstieg
1 Letzte Aktualisierung: Spree WS 2005/2006 Feedback Arbeitsaufgabe - Regelwerk Viele interessante Einsendungen Ich glaube, Sie haben verstanden,
Diskussion Dezimalklassifikation - Expertendiskussion Seminar I-Prax: Inhaltserschließung visueller Medien, Spree WS 2006/76 Diskusion Woran.
Spree SoSe 2009 Kundeneigene Wissensorganisation Kundeneigene Wissensorganisation Einstieg Was leisten Folksonomies im Bereich der Inhaltserschließung?
Relevanz Ranking Bisher: Sind wir davon ausgegangen, dass das Ergebnis des Rankings des statistischen Verfahrens in den Index geschrieben wird und dem.
Feedback Thesaurus-Projekt
Spree SoSe 2006 Titel Typen von Informationsressourcen Eine systematische Übersicht.
Informationsarchitektur Beschreiben und Benennen
Spree SoSe 2011 Volltextsuche Sequentielle Suche und interviertes Dateisystem.
Feedback Hörfunkdokumentation
Relevanz Ranking Bisher:
Indexierung – Verschlagwortung –Social Taggingstieg
Semantic Web und Kultur – Ein Widerspruch?
Spree SoSe 2010 Feedback Thesaurus / Facettenklassifikation Feedback Thesaurus / Facettenklassifikation Einstieg Frau Spree Schöne Ergebnisse – bei strengster.
Vereinfachtes Beispiel: Zuordnung von Dokumenten zu einer Klasse
Spree WS 2008/2009 Facetmap debugged Debugging macht teilweise mehr als 50% der Arbeitszeit eines Programmierers aus Proof of concept: Ihre Facetmaps funktionieren.
Spree SoSe 2007 Titel Lexika und ihre Benutzer Benutzervoraussetzungen Dank an Franziskus Geeb, der mir seine Unterrichtsmaterialien zum Thema Lexikographie.
Diskussion Hjørland – Grundannahme Seminar I-Prax: Inhaltserschließung visueller Medien, Spree WS 2005/06 Diskusion Ausgangsthesen Erfolgskriterium.
Erste Schritte im §§§§§§§ Dschungel Spree SoSe 2010 Rechtsinformationen.
OWL-Web Ontology Language Eine Einführung
Fortgeschrittene Methoden der Wissensorganisation
Information Broking als Beruf? Spree SoSe 2010 Quelle: 0/ /
Spree SoSe 2006 Titel Fortgeschrittene Methoden der Wissensorganisation Rückblick und Vorschau.
Qualität einer Dokumentation Relevanz- und Vollständigkeitsrate
Auswertung der Mitgliederumfrage 2011 der Bundesarbeitsgemeinschaft Schuldnerberatung e.V. 1.
Messung des pH-Wertes von Weinsäure.
... Unternehmens- leitung
Bestimmen von Prozentwert, Grundwert und Prozentsatz
Generalisiertes Vektorraummodell (Generalized Vector Space Model, GSVM) Karin Haenelt
Unser neues Lager Lambsborn/Pfalz Our new stock Lambsborn/Pfalz
You need to use your mouse to see this presentation © Heidi Behrens.
 Arbeitsschritte zur Erstellung einer Facettenklassifikation
Philosophie BA-KiJu Überblick über den Studienverlauf Philosophisches Seminar.
Erstellung einer Facettenklassifikation
Deutsch 3 Frau Snell.
Spree SoSe 2006 Feedback Bilderschließung. Klassifikation  vollständig Seminar I-Prax: Inhaltserschließung visueller Medien, Spree SoSe 2006.
Heute und gestern Read the sentences carefully and fill the forms in your ‘Heute und gestern’ list.
VERB CONJUGATION AND WORD ORDER
 Präsentation transkript:

Automatisches Clustering und automatische Klassifikation Quelle: http://people.revoledu.com/kardi/tutorial/kMean/Image/kMeanClustering.jpg http://www.ecm.irislink.com/Documents/Image/images/Illustrations/classeur.jpg Spree SoSe 2011

 Ausgangssituation Folgende 4 Dokumente sollen geclustert werden: D1 Fische in Olivenöl anbraten und mit Wasser ablöschen D2 Fische braten und mit Wasser ablöschen D3 den Fischen nur bei abgestellter Pumpe Fischfutter in das Wasser des Aquariums geben D4 Pumpe abstellen, bevor Sie den Fischen das Fischfutter geben Wie würden Sie diese 4 Dokumente in 2 Cluster aufteilen? Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004 Spree SoSe 2011

 Clustering Festlegung der Indexterme, die Dokument beschreiben indexvektor Festlegung der Indexterme, die Dokument beschreiben Fische(n) Braten Olivenöl Fischfutter Pumpe Wasser D1: 1 1 1 0 0 1 D2: 1 1 0 0 0 1 D3: 1 0 0 1 1 1 D4: 1 0 0 1 1 1 Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004 Spree SoSe 2011

 Paarweise Multiplikation der Vektoren (verkürzt) indexvektor Der Ähnlichkeitsabgleich durch paarweises Multiplizieren aller Dokumente miteinander ergibt zwei Cluster Fische(n) Braten Olivenöl Fischfutter Pumpe Wasser Cluster 1 (benenne ich Intellektuell Kochen) D1: 1 1 1 0 0 1 D2: 1 1 0 0 0 1 Cluster 2 (benenne ich intellektuell Aquarium) D3: 1 0 0 1 1 1 D4: 1 0 0 1 1 1 Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004 Spree SoSe 2011

 Clusterzentroid berechenen indexvektor Für die Cluster 1 und 2 lässt sich jetzt der Clusterzentroid (Mittelwert) berechnen D1: 1 1 1 0 0 1 D2: 1 1 0 0 0 1 Zentroidvektor Cluster 1: Kochen 1 1 0 0 0 1 D3: 1 0 0 1 1 1 Zentroidvektor Cluster 2 Aquarium D4: 1 0 0 1 1 1 1 0 0 1 1 1 Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004 Spree SoSe 2011

 Neues Dokument mit den Zentroidvektoren vergleichen indexvektor Welchem Cluster wird das neue Dokument D5 zugeordnet? D5 „Fisch mit Olivenöl in Wasser braten“ Fische(n) Braten Olivenöl Fischfutter Pumpe Wasser Zuordnung Vektoren 1 1 1 0 0 1 1 1 0 0 0 1 Paarweise Mulitplikation mit den Zentroidvektoren der vorhandenen Cluster 1 1 0 0 0 1 = 3:6 =0,5 Zentroidvektor Kochen Zentroidvektor Aquarium 1 0 0 1 1 1 1 0 0 0 0 1 = 2:6 = 0,33 Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004 Spree SoSe 2011

 Neues Dokument wird Cluster Kochen zugeordnet indexvektor Welchem Cluster wird das neue Dokument D5 zugeordnet? D5 „Fisch mit Olivenöl in Wasser braten“ Fische(n) Braten Olivenöl Fischfutter Pumpe Wasser Zuordnung Vektoren 1 1 1 0 0 1 1 1 0 0 0 1 1 1 0 0 0 1 = 3:6 = 0,5 Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004 Spree SoSe 2011

Automatische klassifikation  Automatische Zuordnung zu einer Klassifikation Automatische klassifikation Merkmale eine Klassifikation werden festgelegt Merkmale können einer Klasse zugeordnete Wörter sein In einer Klassifikation für Pressartikel IPTC wird die Klasse Freizeit durch die Terme Reisen, Spiel, Hobby, Wohnen definiert Das Vorkommen bestimmter Terme im Dokument wird mit dem Vorkommen dieser Terme in der Merkmals-Beschreibung der Klassen verglichen. Dies kann über die Bildung von Skalarprodukten zwischen den Dokumentvektoren (bestimmt über die Deskriptoren) und den Vektoren der Klassen (bestimmt über die Klassenbeschreibungen) geschehen. Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004 Spree SoSe 2011

 Automatische Zuordnung zu einer Klassifikation beispiel Wie kann ein Programm automatisch erkennen, ob es sich bei diesen beiden Mails um Spam handelt? Mail a Sehr geehrte Frau Spree, Hiermit reiche ich Ihnen meine Hausarbeit über das Referat zu wissenschaftlichen Erkenntnissen zur Wirkungsweise von Viagra nach. Mail b Hi, Today we announce the selling of our new Viagra pills that allow you to enjoy Sex again. Order now Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004 Spree SoSe 2011

 Automatische Zuordnung zu einer Klassifikation ausgangssituation Bestimmung der Klassen durch Merkmale (Attribute) - Ausgangslage Klasse/ Attribut SPAM Kein Spam Viagra Sehr geehrte Sex Hochachtungsvoll selling wissenschaftlich buy Hausarbeit pills Referat Merkmale der Klassen Dok a Sehr geehrte Frau Spree, Hiermit reiche ich Ihnen meine Hausarbeit über das Referat zu wissenschaftlichen Erkenntnissen zur Wirkungsweise von Viagra nach. Dok b Hi, Today we announce the selling of our new Viagra pills that allow you to enjoy Sex again. 27.03.2017 Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004 Spree SoSe 2011

 Automatische Zuordnung zu einer Klassifikation ausgangssituation Darstellung der Klassen und der Dokumente als Vektoren und Ermittlung der Ähnlichkeit durch Bildung des Skalarproduktes SPAM a b Kein SPAM Viagra 1 Sehr geehrte sex Hochachtungsvoll selling wissenschaftliche buy Hausarbeit pills Referat Skalarprodukt: Klasse/Dok 1/5 4/5 Dok a Sehr geehrte Frau Spree, Hiermit reiche ich Ihnen meine Hausarbeit über das Referat zu wissenschaftlichen Erkenntnissen zur Wirkungsweise von Viagra nach. Dok b Hi,Today we announce the selling of our new Viagra pills that allow you to enjoy Sex again. 27.03.2017 Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004 Spree SoSe 2011

 Automatische Zuordnung zu einer Klassifikation ausgangssituation Darstellung der Klassen und der Dokumente als Vektoren und Ermittlung der Ähnlichkeit durch Bildung des Skalarproduktes SPAM a b Kein SPAM Viagra 1 Sehr geehrte sex Hochachtungsvoll selling wissenschaftliche buy Hausarbeit pills Referat Skalarprodukt: Klasse/Dok 1/5 4/5 Mail a ist : = 20% Spam = 80% kein Spam  Einordnung kein Spam Mail b: = 0% kein Spam = 80% Spam Einordnung Spam Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004 Spree SoSe 2011