Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Kohonennetze für Information Retrieval mit User Feedback Georg Ruß Otto-von-Guericke-Universität Magdeburg

Ähnliche Präsentationen


Präsentation zum Thema: "Kohonennetze für Information Retrieval mit User Feedback Georg Ruß Otto-von-Guericke-Universität Magdeburg"—  Präsentation transkript:

1 Kohonennetze für Information Retrieval mit User Feedback Georg Ruß Otto-von-Guericke-Universität Magdeburg

2 Gliederung Motivation der präsentierten Datenverarbeitungsmethode Kohonennetze / Self Organizing Maps (SOM) Information Retrieval am Beispiel von - Sammlungen User Feedback Zusammenfassung der Ergebnisse

3 Einleitung / Motivation -großes Datenaufkommen in digitaler Form (Datenbanken, -Sammlungen, Newsgroups,...) -zunehmende Unübersichtlichkeit Methode zur Klassifikation und Filterung der Informationen notwendig gewünschte Eigenschaften: 1. Verständlich2. Fehlerfrei 3. Automatisch Growing Self-Organizing Maps als Methode, die die gewünschten Eigenschaften aufweist

4 Self-Organizing Maps (1) 1. Verständlich -bilden hochdimensionalen Eingaberaum in zweidimensionale Karte ab -Ähnlichkeitsbeziehungen werden durch Nachbarschaften dargestellt - Anpassungen des Netzes durch Gewichtsänderungen

5 Self-Organizing Maps (2) 2. Fehlerfrei - Verfahren basiert auf Voronoi-Zerlegung fehlerminimale Zerlegung des Eingaberaums in eine endliche Anzahl von Zuständigkeitsgebieten hexagonales Grid als Optimum zwischen lückenlos und fehlerminimal

6 Self-Organizing Maps (3) 3. Automatisch -self-organizing als Begriff -modellhafte Nachbildung von neuronalen Strukturen -Lernen als automatisierter Prozeß -Paradigma des unsupervised learning - einfache mathematische Vektor-Methoden

7 Information Retrieval (1) Definition: Information Retrieval ist ein Prozeß zur 1. Gewinnung, 2. Speicherung und 3. Pflege von Informationen. -Visualisierung kommt noch hinzu -im Folgenden an einem Text-Mining-Beispiel

8 Information Retrieval (2) zu 1. Informationsgewinnung -filtering (Entfernen von Stop-Words) -stemming (Bilden der Wortstämme) -indexing (Bildung von Gruppen von Wörtern, die in ähnlichem Kontext auftauchen, buckets) -Erstellen von Kontextvektoren für jedes Wort -Erstellen von charakteristischen n-dimensionalen Vektoren für jedes Dokument, sog. fingerprints

9 Information Retrieval (3)

10 Information Retrieval (4) zu 2. Speicherung (mit Visualisierung) - Worte, die in ähnlichem Kontext auftauchen, sind selbst ähnlich zueinander ähnliche Worte werden in der Wortkarte (word category map) benachbart sein Aufbau der Wortkarte erfolgt sukzessive

11 Information Retrieval (5) zu 2. Speicherung (mit Visualisierung) - ähnliche Dokumente besitzen ähnliche Vektoren ähnliche Dokumente werden in der Karte benachbart sein (bzw. im selben bucket) Aufbau der Dokumentenkarte erfolgt sukzessive zukünftige Veränderungen (z.B. neue buzz words) können durch ein erneutes Anlernen der Karte berücksichtigt werden

12 User Feedback Problem: -Dokumente könnten in mehrere Cluster der Karte gut passen Lösung: - Einbeziehung der oft guten Intuition des Nutzers -z.B. Abfrage per Drag-and-Drop -Anpassung des gewünschten Ähnlichkeitsmaßes (d.h. Änderung von Prioritäten einzelner Features)

13 Ergebnisse / Nutzen (1) Ergebnis: mehr Möglichkeiten einer Datenbankanfrage - herkömmliche Suche nach Keyword - visuelle Suche auf den erstellten Karten i) auf der Wortkarte (Finden neuer Keywords) ii) auf der Dokumentenkarte (Finden ähnlicher Dokumente) - Content Based Search (Query by Example)

14 Ergebnisse / Nutzen (2) Ablauf einer Suche: 1. Herkömmliche Keyword-Suche 2. Anzeige der Treffer auf der Wort- / Dokumentenkarte Wortkarte: 3a. Inspizieren der Wortkarte zum Finden neuer Keywords Dokumentenkarte: 3b. Inspizieren der Dokumentenkarte zum Finden weiterer relevanter Dokumente

15 Ergebnisse / Nutzen (3) Content Based Search / Classification / Query by Example a) als Vorlage für die Suche nach ähnlichen s: - Berechnung des Fingerprints - Anzeige auf der Dokumentenkarte - Ergebnis: ähnliche s b) Automatische Klassifikation von eingehenden s: - Berechnung des Fingerprints - Einsortieren in die Dokumentenkarte, wobei die Buckets in diesem Fall echte Mail-Ordner sein können

16

17

18

19

20

21 Zusammenfassung Der Einsatz von Self-Organizing Maps innerhalb von Dokumentensammlungen bringt erhebliche Vorteile: - automatisches Lernen sowie Visualisierung großer Dokumentsammlungen - mehr Möglichkeiten zur Suche - intuitive Verständlichkeit des Systems -Möglichkeit zur Einbeziehung des Nutzers - Flexibilität ohne großen Aufwand - Prototypen: SOMAccess auf DUST-2 CD-ROM Websom (http://websom.hut.fi)

22 Vielen Dank für Ihre Aufmerksamkeit !


Herunterladen ppt "Kohonennetze für Information Retrieval mit User Feedback Georg Ruß Otto-von-Guericke-Universität Magdeburg"

Ähnliche Präsentationen


Google-Anzeigen