Kohonennetze für Information Retrieval mit User Feedback

Name: Kohonennetze für Information Retrieval mit User Feedback
Uploaded: 2017-12-26T15:17:54+00:00
Duration: PTM9S43
Channel: Burk Boerger
Description: Kohonennetze für Information Retrieval mit User Feedback

Kohonennetze für Information Retrieval mit User Feedback
Georg Ruß Otto-von-Guericke-Universität Magdeburg

Gliederung Motivation der präsentierten Datenverarbeitungsmethode
Kohonennetze / Self Organizing Maps (SOM) Information Retrieval am Beispiel von -Sammlungen User Feedback Zusammenfassung der Ergebnisse

Einleitung / Motivation
- großes Datenaufkommen in digitaler Form (Datenbanken, -Sammlungen, Newsgroups, ...) - zunehmende Unübersichtlichkeit → Methode zur Klassifikation und Filterung der Informationen notwendig → gewünschte Eigenschaften: 1. Verständlich 2. Fehlerfrei 3. Automatisch → Growing Self-Organizing Maps als Methode, die die gewünschten Eigenschaften aufweist -scannerkassen, Usenet-Diskussionen, Instant Messaging,... - -sammlungen kursiv, weil als Beispiel im Vortrag verwendet -automatisch fauler user, ich kann/will ja nicht ständig dem programm sagen, was es machen soll -fehlerfrei wird von jedem programm erwartet aus richtigem wissen sollte man nichts falsches schlußfolgern, nur weil das Programm etwas falsch macht -verständlich was nutzt mir generiertes wissen, mit dem ich nichts anfangen kann, weil ich es nicht verstehe Information mining: Wissensentdeckung in Datenbanken ist der nichttriviale Prozeß der Identifikation gültiger, neuer, potentiell nützlicher und schlußendlich verständlicher Muster in Datenbeständen (wert auf „verständlich“)

Self-Organizing Maps (1)
1. Verständlich - bilden hochdimensionalen Eingaberaum in zweidimensionale Karte ab - Ähnlichkeitsbeziehungen werden durch Nachbarschaften dargestellt - Anpassungen des Netzes durch Gewichtsänderungen (Output nicht zwangsläufig zweidimensional, aber sinnvoll in diesem Fall) Aufgrund von Ähnlichkeitsmaßen wird der Eingaberaum in den Ausgaberaum abgebildet. Zu jedem hochdimensionalen Input-Vektor wird ein zweidimensionaler Output-Vektor generiert, der in einer Karte dargestellt werden kann. Nachbarschaftserhaltende Abbildung, d.h. ähnliche s sind auch in der Karte benachbart. So wie ich z.B. ähnliche s in denselben Ordner stecke, sind ähnliche s auch in der Karte dicht beieinander. Am Beispiel Klassifikation von s: Wie sollen s diesen Input Layer darstellen? -> Preprocessing bzw. Datenvorverarbeitung ist notwendig, damit das neuronale Netz einen passenden Input erhält. Preprocessing in mehreren Schritten. -> nächste Folie

2. Fehlerfrei - Verfahren basiert auf Voronoi-Zerlegung → „fehlerminimale“ Zerlegung des Eingaberaums in eine endliche Anzahl von Zuständigkeitsgebieten → hexagonales Grid als Optimum zwischen lückenlos und fehlerminimal Nicht ganz fehlerfrei, aber fehlerminimal

3. Automatisch - “self-organizing“ als Begriff - modellhafte Nachbildung von neuronalen Strukturen - Lernen als automatisierter Prozeß - Paradigma des „unsupervised learning“ - einfache mathematische Vektor-Methoden Self-organizing als Begriff sagt schon aus, dass der Prozeß weitgehend automatisch abläuft -Mensch lernt auch automatisch -Lernen aufgrund von Inputs - -weitere Paradigmen: supervised/teacher || Reinforcement/Reward Learning

Information Retrieval (1)
Definition: Information Retrieval ist ein Prozeß zur 1. Gewinnung, 2. Speicherung und 3. Pflege von Informationen. Visualisierung kommt noch hinzu im Folgenden an einem „Text-Mining“-Beispiel

zu 1. Informationsgewinnung - filtering (Entfernen von Stop-Words) - stemming (Bilden der Wortstämme) - indexing (Bildung von Gruppen von Wörtern, die in ähnlichem Kontext auftauchen, „buckets“) - Erstellen von Kontextvektoren für jedes Wort - Erstellen von charakteristischen n-dimensionalen Vektoren für jedes Dokument, sog. „fingerprints“ Filtering: Entfernen solcher Wörter, die nicht zur Unterscheidung zwischen Dokumenten beitragen -> Präpositionen, Artikel, Konjunktionen ... -> sehr seltene Wörter (z.B. Vertipper) -> sehr häufige Wörter (Informationsgehalt umgekehrt proportional zur Auftretenswahrscheinlichkeit (Shannon‘scher Informationsbegriff)) -> kann mit vordefinierten Stop-Lists geschehen (Beispiel einer Stop-List) Effekte: -> beeinträchtigt nicht den Prozeß des Information Retrieval -> beschleunigt weitere Verarbeitung -> spart Speicherplatz Stemming: Bilden der Wortstämme -> Entfernung von Suffixen und Präfixen -> z.B. durch Angeben einer Grammatik mit Produktionsregeln Indexing: Vorstellbar als eine Art „Einsortieren von ähnlichen Wörtern in Eimer oder Behälter“ Fingerprints: N-dimensionale Vektoren, für jeden Eimer zähle ich, wieviele Wörter aus dem Dokument in diesen einsortiert werden, Anzahl steht im Vektor Ein beispiel sagt mehr als tausend Worte, also kommt jetzt eins.

zu 2. Speicherung (mit Visualisierung) - Worte, die in ähnlichem Kontext auftauchen, sind selbst ähnlich zueinander → ähnliche Worte werden in der Wortkarte („word category map“) benachbart sein → Aufbau der Wortkarte erfolgt sukzessive

zu 2. Speicherung (mit Visualisierung) - ähnliche Dokumente besitzen ähnliche Vektoren → ähnliche Dokumente werden in der Karte benachbart sein (bzw. im selben „bucket“) → Aufbau der Dokumentenkarte erfolgt sukzessive → zukünftige Veränderungen (z.B. neue „buzz words“) können durch ein erneutes Anlernen der Karte berücksichtigt werden

User Feedback Problem:
- Dokumente könnten in mehrere Cluster der Karte gut passen Lösung: - Einbeziehung der oft guten Intuition des Nutzers - z.B. Abfrage per Drag-and-Drop - Anpassung des gewünschten Ähnlichkeitsmaßes (d.h. Änderung von Prioritäten einzelner Features)

Ergebnisse / Nutzen (1) Ergebnis: mehr Möglichkeiten einer Datenbankanfrage - herkömmliche Suche nach Keyword visuelle Suche auf den erstellten Karten i) auf der Wortkarte (Finden neuer Keywords) ii) auf der Dokumentenkarte (Finden ähnlicher Dokumente) - Content Based Search (Query by Example)

Ergebnisse / Nutzen (2) Ablauf einer Suche:
1. Herkömmliche Keyword-Suche 2. Anzeige der Treffer auf der Wort- / Dokumentenkarte Wortkarte: 3a. Inspizieren der Wortkarte zum Finden neuer Keywords Dokumentenkarte: 3b. Inspizieren der Dokumentenkarte zum Finden weiterer relevanter Dokumente

Ergebnisse / Nutzen (3) Content Based Search / Classification / Query by Example a) als Vorlage für die Suche nach ähnlichen s: - Berechnung des Fingerprints - Anzeige auf der Dokumentenkarte - Ergebnis: ähnliche s b) Automatische Klassifikation von eingehenden s: - Einsortieren in die Dokumentenkarte, wobei die Buckets in diesem Fall „echte“ Mail-Ordner sein können

Zusammenfassung Der Einsatz von Self-Organizing Maps innerhalb von Dokumentensammlungen bringt erhebliche Vorteile: - automatisches Lernen sowie Visualisierung großer Dokumentsammlungen - mehr Möglichkeiten zur Suche - intuitive Verständlichkeit des Systems - Möglichkeit zur Einbeziehung des Nutzers - Flexibilität ohne großen Aufwand Prototypen: SOMAccess auf DUST-2 CD-ROM Websom (

Vielen Dank für Ihre Aufmerksamkeit !

Kohonennetze für Information Retrieval mit User Feedback

Ähnliche Präsentationen

Präsentation zum Thema: "Kohonennetze für Information Retrieval mit User Feedback"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback

Anmelden

Anmeldung über soziales Netzwerk:

Kohonennetze für Information Retrieval mit User Feedback

Ähnliche Präsentationen

Präsentation zum Thema: "Kohonennetze für Information Retrieval mit User Feedback"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback