Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

23.01.2014Spree/Worg2/LE 10 Automatische Klassifikation = Zuordnung von Dokumenten zu bereits vorher festgelegten Klassen Zielsetzung: Dem Nutzer Informationen.

Ähnliche Präsentationen


Präsentation zum Thema: "23.01.2014Spree/Worg2/LE 10 Automatische Klassifikation = Zuordnung von Dokumenten zu bereits vorher festgelegten Klassen Zielsetzung: Dem Nutzer Informationen."—  Präsentation transkript:

1 23.01.2014Spree/Worg2/LE 10 Automatische Klassifikation = Zuordnung von Dokumenten zu bereits vorher festgelegten Klassen Zielsetzung: Dem Nutzer Informationen über inhaltlich ähnliche Dokumente geben Browsing in der Ergebnismenge erlauben

2 23.01.2014Spree/Worg2/LE 10 Mail a Sehr geehrte Frau Spree, Hiermit reiche ich Ihnen meine Hausarbeit über das Referat zu wissenschaftlichen Erkenntnissen zur Wirkungsweise von Viagra nach. Mail b Hi, Today we announce the selling of our new Viagra pills that allow you to enjoy Sex again. Order now Anwendungsbeispiel Spamerkennung Wie kann ein Programm automatisch erkennen, ob es sich bei diesen beiden Mails um Spam handelt?

3 23.01.2014Spree/Worg2/LE 10 Zwei Verfahren 1. Einfacher Merkmalsabgleich zwischen Klassifikation und Dokument 2.Lernende Verfahren der automatischen Klassifikation anhand von Trainingsdokumenten

4 23.01.2014Spree/Worg2/LE 10 1.Merkmale eine Klassifikation werden festgelegt Merkmale können einer Klasse zugeordnete Wörter sein In einer Klassifikation für Pressartikel IPTC wird die Klasse Freizeit durch die Terme Reisen, Spiel, Hobby, Wohnen definiertIPTC 2.Das Vorkommen bestimmter Terme im Dokument wird mit dem Vorkommen dieser Terme in der Merkmals-Beschreibung der Klassen verglichen 3.Dies kann über die Bildung von Skalarprodukten zwischen den Dokumentvektoren (bestimmt über die Deskriptoren) und den Vektoren der Klassen (bestimmt über die Klassenbeschreibungen) geschehen 1.Einfacher Merkmalsabgleich zwischen Klassifikation und Dokument

5 23.01.2014Spree/Worg2/LE 10 Zwei Phasen der Klassifikation von Dokumenten (Quelle: Robert Hoffmann: http://www.iicm.edu/cguetl/education/thesis/rhoff/dagegliedert/Hoffmann_DA_8.htm>

6 23.01.2014Spree/Worg2/LE 10 Vereinfachtes Beispiel: Zuordnung von Dokumenten zu einer Klasse Klasse/ Attribut SPAMKein Spam ViagraSehr geehrte SexHochachtungsvoll sellingwissenschaftlich buyHausarbeit pillsReferat Dok a Sehr geehrte Frau Spree, Hiermit reiche ich Ihnen meine Hausarbeit über das Referat zu wissenschaftlichen Erkenntnissen zur Wirkungsweise von Viagra nach. Dok b Hi, Today we announce the selling of our new Viagra pills that allow you to enjoy Sex again. Bestimmung der Klassen durch Merkmale (Attribute) - Ausgangslage

7 23.01.2014Spree/Worg2/LE 10 Vereinfachtes Beispiel: Zuordnung von Dokumenten zu einer Klasse SPAMABKein SPAMab Viagra11Sehr geehrte10 sex01Hochachtungsvoll00 selling01wissenschaftliche10 buy00Hausarbeit10 pills01Referat10 Skalarprodukt: Klasse/Dok 1440 Darstellung der Klassen und der Dokumente als Vektoren und Ermittlung der Ähnlichkeit durch Bildung des Skalarproduktes Dok a Sehr geehrte Frau Spree, Hiermit reiche ich Ihnen meine Hausarbeit über das Referat zu wissenschaftlichen Erkenntnissen zur Wirkungsweise von Viagra nach. Dok b Hi, Today we announce the selling of our new Viagra pills that allow you to enjoy Sex again.

8 23.01.2014Spree/Worg2/LE 10 Vereinfachtes Beispiel: Zuordnung von Dokumenten zu einer Klasse SPAMABKein SPAMab Viagra11Sehr geehrte10 sex01Hochachtungsvoll00 selling01wissenschaftliche10 buy00Hausarbeit10 pills01Referat10 Skalarprodukt: Klasse/Dok 1440 Darstellung der Klassen und der Dokumente als Vektoren und Ermittlung der Ähnlichkeit durch Bildung des Skalarproduktes Mail a ist : = 20% Spam = 80% kein Spam Einordnung kein Spam Mail b: = 0% kein Spam = 80% Spam Einordnung Spam

9 23.01.2014Spree/Worg2/LE 10 2. Lernende Verfahren der automatischen Klassifikation Voraussetzung: –Bestand von Trainingsdokumenten, die intellektuell Klassen zugeordnet wurden, ist vorhanden Vorgehen –Analyse der Trainingsdokumente –Ermittlung der Eigenschaften der Dokumente, die bereits einer Klasse zugeteilt wurden Eigenschaften sind häufig das Vorkommen und Gewicht bestimmter Indextermini in den Dokumenten –Berechnung der Wahrscheinlichkeit, dass ein bestimmtes Dokument, in dem das Wort x vorkommt, der Klasse y zugeordnet wird

10 23.01.2014Spree/Worg2/LE 10 Berechnung der Vorkommenswahrscheinlichkeit von Wörtern in Klassen Berechnung der Relation Z / Naiver Bayes Algorithmus: Anzahl der Dokumente mit Wort x, die Klasse y zugeteilt sind /Anzahl der Dokumente, in denen x vorkommt Beispiel automatische Erkennung von Spam emails: Im Trainingsbestand sind 8 Dokumente mit Wort Viagra der Klasse Spam zugeteilt. Viagra kommt insgesamt in 10 emails vor. = 8/10 -> 0,8 Die Wahrscheinlichkeit, dass ein Dokument mit Viagra der Klasse Spam zugeordnet wird, liegt bei 0,8 2 Dokumente mit Kuss sind der Klasse Spam zugeteilt. Kuss kommt in 50 Dokumenten vor. =2/50 ->0,04 Die Wahrscheinlichkeit, dass ein Dokument mit Kuss der Klasse Spam zugeteilt wird, liegt nur bei 0,04

11 23.01.2014Spree/Worg2/LE 10

12 23.01.2014Spree/Worg2/LE 10 Zu Hause Bitte lesen Sie zur nächsten Woche die Lerneinheit 10 nach. 1.Notieren Sie Verständnisfragen 2.Erklären Sie an einem eigenen Beispiel, was ein Vektorzentroid ist 3.Bereiten Sie Step 4 so vor, dass Sie den Prozess der automatischen Klassifikation in einem Flussdiagramm darstellen können


Herunterladen ppt "23.01.2014Spree/Worg2/LE 10 Automatische Klassifikation = Zuordnung von Dokumenten zu bereits vorher festgelegten Klassen Zielsetzung: Dem Nutzer Informationen."

Ähnliche Präsentationen


Google-Anzeigen