Kohonennetze für Information Retrieval mit User Feedback

Slides:



Advertisements
Ähnliche Präsentationen
Cluster- Projekt Präsentiert von Dominik Henn & Torben Pastuch
Advertisements

Webinar für [Name der Gruppe] [Name des Institutes]
Webportale mit Typo3 Eine Einführung 29. März 2008
Inhaltlich orientierter Zugriff auf unstrukturierte Daten
Daffodil Such-/ Agentensystem zur Literaturrecherche in Digitalen Bibliotheken Prototypen PIANO, 2000 zielt auf strategische Unterstützung während Informationssuchprozesses.
Fallstudie. 2 Statistik April Dokumente Jan Mio. Dokumente Performance 3 Mio. Queries pro Tag 9. Juni 2000 Most popular search engines.
WIRTSCHAFTSINFORMATIK Westfälische Wilhelms-Universität Münster WIRTSCHAFTS INFORMATIK Seminar Software Agenten Agenten als Informationsfilter Referent.
Wie passt unser Projekt in die Entwicklung des Paradigmas der Digitalen Bibliothek? Referat von Lukas Jörgens.
PinK Plattform für intelligente Kollaborationsportale Dr. Joachim Quantz, e.V. Berlin, 13. September 2005.
Marko Rosenmüller Universität Magdeburg 1 Software Produktlinien und Featureorientierte Programmierung.
Query Reformulation Seminar Multimedia-Datenbanken Sommersemester 2002 Marcus Denecke.
MMQL – Multimedia Query Language Eine Anfragesprache für Multimedia-Ähnlichkeitsanfragen Christian Mantei.
By Monika Krolak & Christian Meschke
Theorien zum computergestützten Lernen mit Multimedia
Selbstorganisierende Neuronale Netze
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek 3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung.
Beispielrelation Buchbestellungen H = Menge der bedeutenden Ziele = {a, d} Schwelle T = 4 Stichprobe S = {a, b, a, a, a, a} mit s = |S| = 6 N = Anzahl.
Intelligentes Crawling im WWW mit Hilfe intuitiver Suchbedingungen
1 Talk - CeBIT 2008 GroupMe!... where Semantic Web meets Web 2.0 Prof. Dr. Nicola Henze Leibniz Universität.
Informationen finden und beurteilen
Machine Learning KNN und andere (Kap. 8).
Entitäten Extraktion Einführung
Spezifikation von Anforderungen
Dokumentenerstellung mit rs&p-Dossier - kurze Programmvorstellung -
Entwurf und Realisierung einer digitalen Bibliothek zur Verwaltung von Notenhandschriften Dipl.-Ing. Temenushka Ignatova Datenbank- und Informationssysteme,
Formular- und Dokumentenarchivierung
Self Organizing Tree Algorithm
AGENDA Abgrenzung SEO zu SEA Suchmaschinenwerbung (SEA)
Geo-Informations-Systeme
Abschlussvortrag zur Studienarbeit
1 Nutzen Sie diese Powerpoint-Präsentation beim Selbstlernen oder in Veranstaltungen zur Einführung in das jeweilige Thema. Einführung Lernmodul Nutzungsbedingungen:
Erzeugen von Karten, Layern und Legenden
Die Weihnachtszeit kommt näher
Abteilung für automatische Sprachverarbeitung
Studieren Lernen Claudia Lischke-Arzt.
Using latent semantic analysis to find different names for the same entity in free text Präsentation und Diskussion des Papers Im Rahmen des PS Web-Information.
Proseminar GMA Web Suche und Information Retrieval (SS07)
Bauhaus-Universität Weimar 1 Dateiname Plausibilität in der Planung Semesterbegleitender Entwurf Städte - Pattern 015 Identifizierbare Nachbarschaft Menschen.
Suchmaschinen.
Bilddatenbank der Universität Magdeburg Ähnlkeitssuche im hochdimensionalen Raum von Bilddatenbanken Stand April 2005 Anke Schneidewind.
Content Management System
Integration oberflächenbestimmender Objekte ins DGM Seminar GIS IV SS
SOTA Andrej Gisbrecht
Lernen durch Vergleiche
Klassifikation und Regression mittels neuronaler Netze
Information Retrieval, Vektorraummodell
Eike Schallehn, Martin Endig
Contentmanagement mit der OpenSourceLösung TYPO3
Contentmanagement mit der OpenSourceLösung TYPO3
XML-Datenbanken Weiterentwicklung eines Prototypen zur nativen Speicherung von XML-Dokumenten Georg Kiekel
Neue Medien Geschichte - Hagen Februar 2004
Videobearbeitung Lektion 11. Module 11.1Überarbeiten Sie die Ergebnisse 11.2Bearbeiten Sie die Videos 11.3Erstellen Sie den Businessplan 11.4Fahren Sie.
Die Clusteranalyse Zielsetzung Datenreduktion: Zusammenfassung einer Vielzahl von Objekten oder Variablen zu Gruppen mit möglichst ähnlichem Informationsgehalt.
1 Wolfgang Wiese, Regionales RechenZentrum Erlangen WCMS 3. August 2000 Wolfgang Wiese RRZE / Lehrstuhl für Informatik VII
Topic Maps: Personal Brain
The PicSOM Retrieval System 1 Christian Steinberg.
Visualisierung von Geodaten
Routenplanung querfeldein - Geometric Route Planning
© Fraunhofer-Institut für Angewandte Informationstechnik FIT Social Search.
Prof. Dr. Ludwig Nastansky University of Paderborn Wirtschaftsinformatik 2 – FB 5 Prof. Dr. Ludwig Nastansky Warburger Straße 100, Paderborn Tel.:
Lernen 1. Vorlesung Ralf Der Universität Leipzig Institut für Informatik
Niko Zenker1 Besondere Aspekte in Multimedia-Datenbanken Methoden zur iterativen Anfrageverfeinerung (Relevanz Feedback)
Grundschulung Schulung der Autorinnen und Autoren
MS Word 2010 Word Texte eingeben und bearbeiten automatische und manuelle Korrekturen Text bearbeiten Word Texte eingeben und bearbeiten automatische und.
Studentisches Seminar
CL Tree MW 31.1 Business Intelligence Wintersemester 2015 / 2016 Stanislav Prokupetz.
1 Interaktives Lernen durch digitale Hausübungen Thelen Florian Seminarvortrag Interaktives Lernen durch digitale Hausübungen , Ort der Veranstaltung.
Prognose von Zeitreihen Hans Nübel Hans Nübel Prognose von Zeitreihen Aufbau 1.Motivation 2.Holt-Winters-Verfahren 3.Prognose.
Innovation im DaF-Unterricht: Flashcards online Monika Honti – Mai 2016.
Strategie-Workshop eLearning einfach nutzen
 Präsentation transkript:

Kohonennetze für Information Retrieval mit User Feedback Georg Ruß Otto-von-Guericke-Universität Magdeburg E-mail: georg.russ@student.uni-magdeburg.de

Gliederung Motivation der präsentierten Datenverarbeitungsmethode Kohonennetze / Self Organizing Maps (SOM) Information Retrieval am Beispiel von Email-Sammlungen User Feedback Zusammenfassung der Ergebnisse

Einleitung / Motivation - großes Datenaufkommen in digitaler Form (Datenbanken, E-Mail-Sammlungen, Newsgroups, ...) - zunehmende Unübersichtlichkeit → Methode zur Klassifikation und Filterung der Informationen notwendig → gewünschte Eigenschaften: 1. Verständlich 2. Fehlerfrei 3. Automatisch → Growing Self-Organizing Maps als Methode, die die gewünschten Eigenschaften aufweist -scannerkassen, Usenet-Diskussionen, Instant Messaging,... -e-mail-sammlungen kursiv, weil als Beispiel im Vortrag verwendet ------------------- -automatisch fauler user, ich kann/will ja nicht ständig dem programm sagen, was es machen soll -fehlerfrei wird von jedem programm erwartet aus richtigem wissen sollte man nichts falsches schlußfolgern, nur weil das Programm etwas falsch macht -verständlich was nutzt mir generiertes wissen, mit dem ich nichts anfangen kann, weil ich es nicht verstehe Information mining: Wissensentdeckung in Datenbanken ist der nichttriviale Prozeß der Identifikation gültiger, neuer, potentiell nützlicher und schlußendlich verständlicher Muster in Datenbeständen (wert auf „verständlich“)

Self-Organizing Maps (1) 1. Verständlich - bilden hochdimensionalen Eingaberaum in zweidimensionale Karte ab - Ähnlichkeitsbeziehungen werden durch Nachbarschaften dargestellt - Anpassungen des Netzes durch Gewichtsänderungen (Output nicht zwangsläufig zweidimensional, aber sinnvoll in diesem Fall) Aufgrund von Ähnlichkeitsmaßen wird der Eingaberaum in den Ausgaberaum abgebildet. Zu jedem hochdimensionalen Input-Vektor wird ein zweidimensionaler Output-Vektor generiert, der in einer Karte dargestellt werden kann. Nachbarschaftserhaltende Abbildung, d.h. ähnliche e-mails sind auch in der Karte benachbart. So wie ich z.B. ähnliche e-mails in denselben Ordner stecke, sind ähnliche e-mails auch in der Karte dicht beieinander. Am Beispiel Klassifikation von e-mails: Wie sollen e-mails diesen Input Layer darstellen? -> Preprocessing bzw. Datenvorverarbeitung ist notwendig, damit das neuronale Netz einen passenden Input erhält. Preprocessing in mehreren Schritten. -> nächste Folie

Self-Organizing Maps (2) 2. Fehlerfrei - Verfahren basiert auf Voronoi-Zerlegung → „fehlerminimale“ Zerlegung des Eingaberaums in eine endliche Anzahl von Zuständigkeitsgebieten → hexagonales Grid als Optimum zwischen lückenlos und fehlerminimal Nicht ganz fehlerfrei, aber fehlerminimal

Self-Organizing Maps (3) 3. Automatisch - “self-organizing“ als Begriff - modellhafte Nachbildung von neuronalen Strukturen - Lernen als automatisierter Prozeß - Paradigma des „unsupervised learning“ - einfache mathematische Vektor-Methoden ------------- Self-organizing als Begriff sagt schon aus, dass der Prozeß weitgehend automatisch abläuft -Mensch lernt auch automatisch -Lernen aufgrund von Inputs - -weitere Paradigmen: supervised/teacher || Reinforcement/Reward Learning

Information Retrieval (1) Definition: Information Retrieval ist ein Prozeß zur 1. Gewinnung, 2. Speicherung und 3. Pflege von Informationen. Visualisierung kommt noch hinzu im Folgenden an einem „Text-Mining“-Beispiel

Information Retrieval (2) zu 1. Informationsgewinnung - filtering (Entfernen von Stop-Words) - stemming (Bilden der Wortstämme) - indexing (Bildung von Gruppen von Wörtern, die in ähnlichem Kontext auftauchen, „buckets“) - Erstellen von Kontextvektoren für jedes Wort - Erstellen von charakteristischen n-dimensionalen Vektoren für jedes Dokument, sog. „fingerprints“ Filtering: Entfernen solcher Wörter, die nicht zur Unterscheidung zwischen Dokumenten beitragen -> Präpositionen, Artikel, Konjunktionen ... -> sehr seltene Wörter (z.B. Vertipper) -> sehr häufige Wörter (Informationsgehalt umgekehrt proportional zur Auftretenswahrscheinlichkeit (Shannon‘scher Informationsbegriff)) -> kann mit vordefinierten Stop-Lists geschehen (Beispiel einer Stop-List) Effekte: -> beeinträchtigt nicht den Prozeß des Information Retrieval -> beschleunigt weitere Verarbeitung -> spart Speicherplatz --------------------- Stemming: Bilden der Wortstämme -> Entfernung von Suffixen und Präfixen -> z.B. durch Angeben einer Grammatik mit Produktionsregeln ----------------------- Indexing: Vorstellbar als eine Art „Einsortieren von ähnlichen Wörtern in Eimer oder Behälter“ Fingerprints: N-dimensionale Vektoren, für jeden Eimer zähle ich, wieviele Wörter aus dem Dokument in diesen einsortiert werden, Anzahl steht im Vektor Ein beispiel sagt mehr als tausend Worte, also kommt jetzt eins.

Information Retrieval (3)

Information Retrieval (4) zu 2. Speicherung (mit Visualisierung) - Worte, die in ähnlichem Kontext auftauchen, sind selbst ähnlich zueinander → ähnliche Worte werden in der Wortkarte („word category map“) benachbart sein → Aufbau der Wortkarte erfolgt sukzessive

Information Retrieval (5) zu 2. Speicherung (mit Visualisierung) - ähnliche Dokumente besitzen ähnliche Vektoren → ähnliche Dokumente werden in der Karte benachbart sein (bzw. im selben „bucket“) → Aufbau der Dokumentenkarte erfolgt sukzessive → zukünftige Veränderungen (z.B. neue „buzz words“) können durch ein erneutes Anlernen der Karte berücksichtigt werden

User Feedback Problem: - Dokumente könnten in mehrere Cluster der Karte gut passen Lösung: - Einbeziehung der oft guten Intuition des Nutzers - z.B. Abfrage per Drag-and-Drop - Anpassung des gewünschten Ähnlichkeitsmaßes (d.h. Änderung von Prioritäten einzelner Features)

Ergebnisse / Nutzen (1) Ergebnis: mehr Möglichkeiten einer Datenbankanfrage - herkömmliche Suche nach Keyword visuelle Suche auf den erstellten Karten i) auf der Wortkarte (Finden neuer Keywords) ii) auf der Dokumentenkarte (Finden ähnlicher Dokumente) - Content Based Search (Query by Example)

Ergebnisse / Nutzen (2) Ablauf einer Suche: 1. Herkömmliche Keyword-Suche 2. Anzeige der Treffer auf der Wort- / Dokumentenkarte Wortkarte: 3a. Inspizieren der Wortkarte zum Finden neuer Keywords Dokumentenkarte: 3b. Inspizieren der Dokumentenkarte zum Finden weiterer relevanter Dokumente

Ergebnisse / Nutzen (3) Content Based Search / Classification / Query by Example a) e-mail als Vorlage für die Suche nach ähnlichen e-mails: - Berechnung des Fingerprints - Anzeige auf der Dokumentenkarte - Ergebnis: ähnliche e-mails b) Automatische Klassifikation von eingehenden e-mails: - Einsortieren in die Dokumentenkarte, wobei die Buckets in diesem Fall „echte“ Mail-Ordner sein können

Zusammenfassung Der Einsatz von Self-Organizing Maps innerhalb von Dokumentensammlungen bringt erhebliche Vorteile: - automatisches Lernen sowie Visualisierung großer Dokumentsammlungen - mehr Möglichkeiten zur Suche - intuitive Verständlichkeit des Systems - Möglichkeit zur Einbeziehung des Nutzers - Flexibilität ohne großen Aufwand Prototypen: SOMAccess auf DUST-2 CD-ROM Websom (http://websom.hut.fi)

Vielen Dank für Ihre Aufmerksamkeit !