Collaborative Filtering with Privacy via Factor Analysis

Slides:



Advertisements
Ähnliche Präsentationen
Chancen und Risken für KMU bei EU Förderungen
Advertisements

Stefan Lohrum Konrad-Zuse-Zentrum für Informationstechnik Berlin (ZIB)
Pop Jazz C B A Jazz C A Lehrstuhl für Künstliche Intelligenz
IT-Projektmanagement
Intelligente Anwendungen im Internet
K-Modeler Engineering
Thema: Sicherheitsarchitektur für mobiles Arbeiten
» Imagine « Gestaltung von Benutzungsschnittstellen in der Praxis, Beispiele für Hypermedia- Systeme und virtuelle Realität Videoseminar zur Software-Ergonomie.
:33 Architektur Moderner Internet Applikationen – Prolog Copyright ©2003 Christian Donner. Alle Rechte vorbehalten. Architektur Moderner.
:33 Internet Applikationen – Hard und Softwareplattform Copyright ©2003, 2004 Christian Donner. Alle Rechte vorbehalten. Architektur Moderner.
:33 Architektur Moderner Internet Applikationen – Hard- und Software Copyright ©2003 Christian Donner. Alle Rechte vorbehalten. Architektur.
Prof. Dr. Günter Törner Dipl-Math. Thorsten Bahne
Institut für Informatik Abteilung Datenbanken Problemseminar Datacleaning Überblick Datacleaning.
Übung 5 Mehrstufige Client/Server-Systeme mit Enterprise Java Beans
Datenbankzugriff im WWW (Kommerzielle Systeme)
Eine Fallstudie zur Wirtschaftsinformatik
Konzeption und prototypische Implementierung eines zentralen Informationssystems für Systemmanagement Motivation Oft wird es schwierig, die benötigten.
Prof. Dr. Holger Schlingloff
© 2002 Prof. Dr. G. Hellberg 1 XML-Seminar XML-Technologie: XML in Theorie und Praxis Prof. Dr. G. Hellberg XML-Technologie: XML in Theorie und Praxis.
S.I.N.N. Suchmaschinennetzwerk im Internationalen Naturwissenschaftlichen Netz Ein Vortrag von Fabian A. Stehn
Vortrag 11: Reengineering - Refactoring
Software Risk Evaluation Method (SRE)
Überlegungen zur Architektur eines Fachinformations-Netzwerkes am Beispiel des CeGIM Mehrwert ist es nicht nur, Daten von ihren Quellen zu den Nutzern.
Beispielrelation Buchbestellungen H = Menge der bedeutenden Ziele = {a, d} Schwelle T = 4 Stichprobe S = {a, b, a, a, a, a} mit s = |S| = 6 N = Anzahl.
Vortragender Messung des Erfolgs einer Website Subjektive Attraktivität Besuchsintensität Produktivität Finanzielle Maße
Die Bank von morgen - eine neue Welt für IT und Kunden? 23. Oktober 2001.
Kann man im Netz Geld verdienen? Proseminar 2: Medienlehre Dozentin: Maria Löhblich, M.A. Denka Stancheva
Vorlesung: Einführung in der Bioinformatik
Data Documentation Initiative (DDI)
PHProjekt – eine open source Projektmanagementsoftware
2 Beispiele von Wissensorganisation 2.0 del.icio.us und BibSonomy vorgestellt von Sylvia Fabricius-Wiese 08. April 2008.
Simulation komplexer technischer Anlagen
Technische Fachhochschule Berlin University of Applied Sciences Zur Entwicklung eines FAQ-Forums mit Benachrichtigungssystem für den Einsatz in Studienmodulen.
Blacklist- / Whitelist-Verfahren
Folie 1 © IAB Austria, Presseinformation Roland M. Kreutzer, 4/2005.
E-Learning in Theorie & Praxis
Binde & Wallner Engineering GmbH
Einsatz von Anwendungssystemen WS 2013/14 Prof. Dr. Herrad Schmidt
Volumenorientierte Modellierung als Grundlage einer vernetzt- kooperativen Planung im konstruktiven Ingenieurbau Antragsteller: Prof. E. Rank, Prof. H.-J.
A Social Tagging Environment for Web Information Extraction
WebML for Semantic Web Michael Hertel.
© Fraunhofer ISI AP 1: Projektfortschritt Fallstudien (ISI, ZIRN) Die soziale Dimension des Rebound- Effekts (REBOUND) Projekttreffen, ZEW,
Definitionen der SWT (1)
© J.Heigert 2005 Betriebliche Informations- und Steuerungssysteme II Prof. Dr. Johannes Heigert Fachhochschule München Es ist nicht genug, zu wissen,
Seminar: Entwicklung verteilter eingebetteter Systeme WS05/06 Betreuer: Info:
Silvia Schlagnitweit Betreuer: a. Univ.-Prof. Dr. Franz Hackl
Archival and Discovery
Marktübersicht für Content Management Systeme
Management- und Web Services- Architekturen
Generalisiertes Vektorraummodell (Generalized Vector Space Model, GSVM) Karin Haenelt
Web 1.0 vs. Web 2.0.
Der betrieblichen Projektarbeit: plattformunabhängiger E-Commerce Webshop auf Java-Script Basis Datum: 01. Juli 2002 Präsentation.
Using latent semantic analysis to find different names for the same entity in free text Präsentation und Diskussion des Papers Im Rahmen des PS Web-Information.
Rechnersysteme: Halbzeit Marcel Waldvogel. Marcel Waldvogel, IBM Zurich Research Laboratory, Universität Konstanz, , 2 Daten und Information.
Integration existierender digitaler Bibliotheken in Lernumgebungen LEBONED (Learning Environment Based On Non Educational Digital Libraries) Dipl.-Inform.
1 Vorbesprechung Seminar: Weitverteiltes Rechnen mit dem Grid (SE 2.0, ) LVA-Leiter: T. Fahringer Büro: 8/09 Tel.: Mail:
Fundamente der Computational Intelligence (Vorlesung) Prof. Dr. Günter Rudolph Fachbereich Informatik Lehrstuhl für Algorithm Engineering Wintersemester.
Peer-to-Peer-Netzwerke
9 th SIG Sonification Meeting Bibliothek Institut für Elektronische Musik und Akustik.
Das Essener-Lern-Modell
prof. dr. dieter steinmannfachhochschule trier © prof. dr. dieter steinmann Folie 1 vom Montag, 30. März 2015.
Intel® Lehren für die Zukunft
AUGE e.V. - Der Verein der Computeranwender Augmented reality Kostenlose Apps für Android-Devices Peter G. Poloczek, M5543.
Arazm Hosieny – Department Informatik “Wearable Computing” als Unterstützung für Pervasive Gaming Seminar/Ringvorlesung Wintersemester 2008/2009.
© Fraunhofer-Institut für Angewandte Informationstechnik FIT Social Search.
SWE for DS Thema und Organisation Prof. Dr. Stephan Trahasch 1.
Technische Universität München Praktikum Mobile Web Teil Kollaboratives Bewerten und Filtern am Touchscreen Robert Eigner
Focusing Search in Multiobjective Evolutionary Optimization through Preference Learning from User Feedback Thomas FoberWeiwei ChengEyke Hüllermeier AG.
Daten als Basis für Entscheidungen
 Präsentation transkript:

Collaborative Filtering with Privacy via Factor Analysis Data Mining Seminar im Sommersemester 2005 Prof. Dr. Thomas Hofmann, Dipl. Inform. Steffen Hartmann TU Darmstadt, Fachbereich Informatik Fachgebiet: Intelligente Systeme Collaborative Filtering with Privacy via Factor Analysis Stefan Seiermann

Collaborative Filtering with Privacy via Factor Analysis Inhalt Einleitung Problemstellungen Das Wahrscheinlichkeitsmodell Aspekte der Vertraulichkeit Verwandte Arbeiten Fazit & Ausblick 21.06.2005 Collaborative Filtering with Privacy via Factor Analysis

Beispiel: "Empfehlungen" eines Web-Buchhändlers 1 Einleitung Hintergrund: Menschen nutzen oft „Empfehlungen“ von anderen Personen mit ähnlichen Interessen, falls Sie keine weiteren Informationen für eine Handlungsauswahl besitzen. Beispiele: Bücher, CD´s, Restaurants, ... Automatisierung durch: „Collaborative Filtering“ Berechnung von Ähnlichkeiten zwischen dem eigenem Verhalten und dem Verhalten von anderen Benutzern durch den Einsatz von Datenbanken. Generiert Aussagen, wie z.B.: „Benutzer wie Sie, haben folgende Artikel betrachtet (gekauft, gemocht, …)“ Unterstützen den Benutzer bei der Auswahl von Produkten (Entscheidungen) Beispiel: "Empfehlungen" eines Web-Buchhändlers 21.06.2005 Collaborative Filtering with Privacy via Factor Analysis

Beispiel: Bewertung eines Artikel durch einen Kunden 1 Einleitung Anwendungsmöglichkeiten: e-Commerce Empfehlungssysteme („recommendation systems“) für: Filme, Musik, Restaurants, Nachrichten, Witze, etc. Die Erhebung der Daten für eine Bewertung: a) Explizit Durch die Bewertung eines Artikels auf einer Skala Durch das Erstellen einer Rezension (wie z.B. bei Büchern) b) Implizit Durch den Kauf eines Artikels auf einer Web-Seite, meist mit persönlichen Daten verknüpft (Anschrift, etc.) Durch das Anklicken, Verweilen, Wechseln einer Web-Seite Durch Standortinformationen bei der Auswahl (wie z.B. GSM-, UMTS- oder WLAN-Standorte) Beispiel: Bewertung eines Artikel durch einen Kunden 21.06.2005 Collaborative Filtering with Privacy via Factor Analysis

Beispiel für Bewertungen in einer Filmdatenbank (Movielens, 2003) 1 Einleitung 1.1 Beispiel: „Movielens“ Bewertung von Spielfilmen durch die Benutzer, anhand der Vergabe von „Sternen“ Erfordert eine Identifizierung des Benutzers durch das System Ziel: Personalisierte Empfehlungen von Filmen durch: „Collaborative Filtering“ Beispiel für Bewertungen in einer Filmdatenbank (Movielens, 2003) 21.06.2005 Collaborative Filtering with Privacy via Factor Analysis

Collaborative Filtering with Privacy via Factor Analysis 2 Problemstellungen a) „Lückenhafte“ Datenbanken (è Kapitel 3) Beispiel: Ein einzelner Kunde eines Web-Buchladens (z.B. Amazon.com) bewertet nur einen Bruchteil des Angebotes an Büchern. Die durchschnittliche „Besetzung“ einer Filmdatenbank (z.B. EachMovie) mit Bewertungen beträgt nur ca. 3%, andere Datenbanken erreichen hingegen nur einen Wert von ca. 0.01%-0.1% der möglichen Bewertungen. Dieses kann zu einer fehlerhaften Interpretation der Daten und somit auch zu fehlerhaften Empfehlungen führen. b) Vertraulichkeit der Benutzerdaten (è Kapitel 4) Die personalisierten Daten der Benutzer können von den Betreibern unkontrolliert weiterverwendet, mit anderen Daten verknüpft oder weitergegeben werden (SPAM). Der Anwender hat keinerlei Kontrolle mehr über diese Vorgänge. (Beispiel: Mögliche Kontrolle des Leseverhaltens in US-Buchläden) Tatsächlich stellen solche Daten aber einen hohen Wert für ein Unternehmen dar. 21.06.2005 Collaborative Filtering with Privacy via Factor Analysis

3 Das Wahrscheinlichkeitsmodell 3.1 Grundlagen Ziel: Entwicklung eines Wahrscheinlichkeitsmodells zur Vorhersage des Benutzerverhaltens durch Beobachtung. Extrapolieren von beobachteten Bewertungen zur Erstellung von Empfehlungen, durch die Verwendung der linearen Faktor-Analyse. Verwendete Größen: m Die Anzahl der Benutzer einer Empfehlungsdatenbank n Die Anzahl der zu bewertenden „Artikel“, wie z.B. Filme in einer Filmdatenbank k Anzahl der „Benutzerprofile“ (preference space) Diese kann z.B. eine Vorliebe eines Benutzers für bestimmte Filmtypen enthalten. (k liegt zwischen 4 und 20, k<<n, k<<m) 21.06.2005 Collaborative Filtering with Privacy via Factor Analysis

3 Das Wahrscheinlichkeitsmodell 3.1 Grundlagen (Forts.) Verwendete Matrizen: Y: Bewertungen Dimension: Artikel x Benutzer (n x m) Enthält die beobachteten Bewertungen der Benutzer für die zu bewertenden Artikel. Beispiel: yi,j=5 entspricht einer Bewertung des Benutzers j für den Film i von 5 Punkten, auf einer Werteskala (z.B. von 0 bis 10 Punkte). X: Benutzerprofile Dimension: Benutzerprofile x Benutzer (k x m) Enthält die Vorlieben eines Benutzers für eine bestimmte Artikelgruppen, z.B. Vorlieben für bestimmte Filmtypen. Diese Matrix wird im Laufe des Algorithmus automatisch generiert. 21.06.2005 Collaborative Filtering with Privacy via Factor Analysis

3 Das Wahrscheinlichkeitsmodell 3.1 Grundlagen (Forts.) A: "Zielmatrix" Dimension: Artikel x Benutzergruppen (n x k) Matrix, die durch den Algorithmus berechnet werden soll. N: Rauschen („Noise“) Dimension: Artikel x Benutzer (n x m) Enthält das typische Rauschen bei der Bewertung eines Artikels durch einen Benutzer. Varianz über die Bewertung der Artikel: VAR (Ni) = y, Initialisierung mit Gausscher Verteilung Annahme: Alle VAR(Ni) sind identisch Varianz VAR(Ni) = y i 21.06.2005 Collaborative Filtering with Privacy via Factor Analysis

3 Das Wahrscheinlichkeitsmodell 3.2 Lineare Regression Lineares Modell für eine Bewertungsdatenbank: a) Falls X und Y zur gleichen Zeit bekannt sein sollten, handelt es sich um ein Problem, welches sich mit linearen Regression lösen lässt. b) Falls X nicht bekannt sein sollte, handelt es sich um ein Problem, welches sich mit Hilfe der Faktor-Analyse lösen lässt. Ziele: Berechnung von A, wobei X mit Zufallswerten nach einer Gaußschen Verteilung initialisiert wird (lineare Regression). Þ "schnelles" Verfahren "Lücken" in Y werden mit Mittelwerten (über alle Benutzer & Artikel) gefüllt, aber nur in diesem Berechnungs-Schritt. Die somit erhaltenen Werte für A können dann für eine Faktor-Analyse verwendet werden. (1) 21.06.2005 Collaborative Filtering with Privacy via Factor Analysis

3 Das Wahrscheinlichkeitsmodell 3.2 Lineare Regression (Forts.) Vorgehen: Initialisierung von X mit Zufallswerten nach Gausscher Verteilung Durchführung der folgenden Berechnungen (ca. 10 Iterationen): AU (2) Hinweise: A(p) = Wert von A nach der p. Iteration A = Wert von A vor der p. Iteration Alle zu invertierenden Matrizen besitzen die Dimension k x k (Zeitfaktor!) k ist unabhängig von der Anzahl der Benutzer oder Artikel (4 <= k <=20) AU = (ATA)-1AT : sog. "Pseudoinverse". Vorteil: quadratisch, Nachteil: AUA = (ATA)-1(ATA) = I, aber AAU = "nicht immer" I. 21.06.2005 Collaborative Filtering with Privacy via Factor Analysis

3 Das Wahrscheinlichkeitsmodell 3.3 Faktor-Analyse Statistisches Verfahren Gegeben ist eine Vielzahl von möglicherweise voneinander abhängigen Variablen (z.B. Beobachtungen von Personen). Gesucht ist eine geringe Anzahl von untereinander unabhängigen „Einfluss- Faktoren“. Diese Faktoren sind nicht „beobachtbar“, sie „verbergen“ sich in den Variablen. Faktoren können aber aus den Variablen isoliert werden. Ziel: Generierung der Faktoren, mit welchen sich die Merkmale der Variablen (Beobachtungen) besonders gut erklären lassen. Anwendungen: Beobachtungen in der Chemie, Psychologie, Wirtschaft (z.B. Kundenverhalten), … Beispiel: Automatische, angeborene Faktor-Analyse von menschlichen Gesichtern. Umkehrung: Visualisierung von Zusammenhängen durch sog. „Chernoff-Gesichter“, für bis zu 19 Dimensionen (Wandmacher, 1993). 21.06.2005 Collaborative Filtering with Privacy via Factor Analysis

3 Das Wahrscheinlichkeitsmodell 3.3 Faktor-Analyse (Forts.) i Zusätzliche Matrix (für jeden Benutzer j): Ij: "Trimming-Matrix" Dimension: Artikel x Artikel (n x n) Enthält auf der Hauptdiagonalen eine "1", falls der Benutzer j den Artikel i bewertet hat, sonst "0". Einschränkung der weiteren Berechnung auf Artikel, die der Benutzer schon bewertet hat. = I: Einheitsmatrix Dimension: Benutzerprofile x Benutzerprofile (k x k) i 21.06.2005 Collaborative Filtering with Privacy via Factor Analysis

3 Das Wahrscheinlichkeitsmodell 3.3 Faktor-Analyse (Forts.) Algorithmus: EM-Faktoranalyse Expectation Maximization (Newcomb, 1887 Þ Dempster, Laird & Robin, 1977) Motivation: Einfacher rekursiver Algorithmus (2 Schritte, E- & M-Schritt) Sicherer Umgang mit dünn besetzten Matrizen (keine "Default-Annahmen") Lässt sich für den vertraulichen Umgang mit Benutzerdaten adaptieren Vorgehen ("distributed EM-Faktor-Analyse") Initialisierung A, y mit Werten aus der linearen Regression Schritt 1: Anwender (Clients) berechnen A', B, C aus A und y Þ Server Schritt 2: "Totalizer" (Server) berechnet neues A und y aus allen A', B, C Þ Clients weiter mir Schritt 1, bis Konvergenz (ca.15-25 Iterationen), oder bei Änderungen A, y A, y A',B,C A',B,C Server: berechnet A, y Client: berechnet A',B,C Client: berechnet A',B,C 21.06.2005 Collaborative Filtering with Privacy via Factor Analysis

3 Das Wahrscheinlichkeitsmodell 3.3 Faktor-Analyse (Forts.) Schritt 1: Berechnungen der Benutzer (Clients): (nur für die eigenen Bewertungen) Berechnung nur für Artikel, die auch vom Client bewertet wurden Berücksichtigung der Varianz aus (2) Berechnung von A', B, C Formeln zur Berechnung ergeben sich aus dem Maximize-Schritt (M-Schritt) des EM-Algorithmus (3) (4) Ä = Kronecker-Produkt (èAnhang B) 21.06.2005 Collaborative Filtering with Privacy via Factor Analysis

3 Das Wahrscheinlichkeitsmodell 3.3 Faktor-Analyse (Forts.) Schritt 2: Berechnung der Summen (über alle Benutzer m): Iterative Berechnung von A und y (L(A) èAnhang B) Formeln zur Berechnung ergeben sich aus dem EM-Algorithmus Ergebnis (Modell: A, y): Dieses Modell wurde aus allen Bewertungen von allen Benutzern berechnet. Ein Benutzer kann jetzt mit Hilfe dieses Modells (A, y) sich eigene Empfehlungen, auf der Basis seiner Bewertungen, berechnen lassen. Aufwand: O(n m k2) je Iteration, günstig bei großen Datenbanken (5) 21.06.2005 Collaborative Filtering with Privacy via Factor Analysis

3 Das Wahrscheinlichkeitsmodell 3.3 Faktor-Analyse (Forts.) Vorhersage einer Bewertung für Benutzer j: yj = Bewertungen des Benutzers j Benutzer j kennt A, y Berechnung von xj aus (3) Fehlende Bewertungen (=Empfehlungen) durch die Berechnung von y=A xj "Persönliche Empfehlungen" für Benutzer j: Korrektur der Mittelwerte: Annahme der Faktoranalyse ist, dass die Bewertungen der Benutzer den Mittelwert: 0 haben. Vor der Berechnung des Modells (A, y) werden die Bewertungen durch einen Schätzwert korrigiert (subtrahiert). Bei der Verwendung einer Empfehlung (s.O.) muss dieser Schätzwert wieder auf die Empfehlungen addiert werden. Ermittlung des Schätzwertes: Mittelwert aller Bewertungen eines Artikels (z.B. falls #Benutzer >> #Artikel) Mittelwert aller Bewertungen eines Benutzers 21.06.2005 Collaborative Filtering with Privacy via Factor Analysis

4 Aspekte der Vertraulichkeit è Die verteilte Faktor-Analyse kann durch iterative Vektoradditionen der Benutzer- Daten (A', B, C) auf einem Server durchgeführt werden (5). Wie kann hierbei die Vertraulichkeit der Benutzerdaten sichergestellt werden? Verschlüsselung mit einem asymmetrischen Schlüssel p: (è nächste Seite) Jeder Client sendet nur seine verschlüsselten Daten E(Mj) = E(A', B, C) Nutzung des "Homomorphismus" von Verschlüsselungs-Methoden (z.B. RSA): è Der Server kann die Additionen der Benutzerdaten (A', B, C) durch Multiplikationen der verschlüsselten Nachrichten E(Mj) der Benutzer durchführen. 4.1 Verschlüsselung A',B,C A',B,C Client 1: berechnet A',B,C Server Client n: berechnet A',B,C (6) 21.06.2005 Collaborative Filtering with Privacy via Factor Analysis

4 Aspekte der Vertraulichkeit 4.2 Key Sharing Erzeugung eines verteilten El-Gamal-Schlüsselpaares (Nach der Methode von Pendersen) n = # User, a = # "trusted Users", wähle t, so dass t > (1-a)n Beispiel: Benutzer online = 60% -> t > 0.4n Public Key p, dieser ist jedem Benutzer bekannt Private Key s, wobei jeder Benutzer nur einen "Teil" des Schlüssels (si) kennt s kann aber wieder aus t+1 "Teilschlüsseln" si konstruiert werden A, y Server berechnet A, y aus den verschlüsselten Werten der Clients Client 1 Client n 21.06.2005 Collaborative Filtering with Privacy via Factor Analysis

4 Aspekte der Vertraulichkeit 4.2 Key Sharing (Forts.) Um das verschlüsselte Ergebnis des Servers (A, y) zu entschlüsseln, müssen die Benutzer dieses jeweils mit Ihrem Teilschlüssel si entschlüsseln. Durch das Zusammensetzten der entschlüsselten (Teil-)Ergebnisse kann nun (A, y) berechnet und nach Kapitel 3.3 eine persönliche Empfehlung generiert werden. Bei diesem Protokoll werden zu keiner Zeit unverschlüsselte Bewertungsdaten der Benutzer übertragen è Sicherung der Vertraulichkeit der Benutzerdaten. Nachteile: User können ungültige Werte (z.B. außerhalb der Bewertungsskala) übertragen Server können Ergebnisse der User unterschlagen oder duplizieren Einsatz eines ZKP-Protokolls ("zero-knowledge proofs"), sind (A', B, C) gültig? Dieses ist wirksam bis zu einem Anteil von ca. 20% "Betrügern" (Beispiel für den Einsatz von ZKP: Authentifizierungsprotokolle) 21.06.2005 Collaborative Filtering with Privacy via Factor Analysis

Performance-Vergleiche (Canny, 2002) 5 Verwandte Arbeiten Vergleich des NMAE ("Normalized Mean Absolut Error", nach Goldberg) mit anderen Methoden: "Pearson correlation" (è Anhang C) "Personality diagnosis" 1. Witz-Datenbank ("Jester") 100 Artikel x 18.000 Benutzer Bewertungen: ca. 50 % Performance: + 14 % (Standard) + 5 % (Pearson) 2. Film-Datenbank ("EachMovie") U 1.600 Artikel x 73.000 Benutzer Bewertungen: ca. 3 % Performance: +18 % (Standard) + 9 % (Pearson) è Performance-Zugewinn, speziell bei besonders "dünn besetzten" Datenbanken "besser" Standard: Durchschnittliche Bewertung eines Artikel über alle Benutzer (>0,07%) Performance-Vergleiche (Canny, 2002) 21.06.2005 Collaborative Filtering with Privacy via Factor Analysis

Der Einsatz von Metadaten (Canny, 2002) 6 Fazit und Ausblick Mit der Faktor-Analyse, aufbauend auf einem linearen Modell, können effizient Empfehlungen für Produkte, basierend auf den Bewertungen (keine "binäre" Daten) anderer Benutzer, berechnet werden ("Recommending System"). Dieses ist besonders für lückenhafte, "dünn besetzte" Datenbanken geeignet, wie sie bei Empfehlungssystemen häufig auftreten. Durch den Einsatz eines verteilten Systems (Server, Clients) und der Verwendung von verteilten Schlüsseln ist die Vertraulichkeit der Benutzerdaten gewährleistet. Durch eine Erweiterung der Methode mit sog. "Meta-Daten" (Attribute) kann eine weitere Performance-Steigerung erreicht werden. Beispiele: Kategorien, Beschreibungen, Texte, ... Dieses ist besonders wichtig bei "neuen" Produkten, die bisher noch keinerlei Bewertungen der Benutzer aufweisen. Der Einsatz von Metadaten (Canny, 2002) 21.06.2005 Collaborative Filtering with Privacy via Factor Analysis

Literaturverzeichnis Canny, J. (2002). Collaborative Filtering with Privacy via Factor Analysis, Annual ACM Conference on Research and Development in Information Retrieval. Proceedings of the 25th annual international ACM SIGIR conference on Research and development. Retrieved 12.06.2005, from http://www.cs.berkeley.edu/~jfc/'mender/sigir.pdf Canny, J. (2002). Some techniques for privacy in ubicomp and context-aware applications. In UBICOMP-2002, Goteborg, Sweden, Sept. 2002. Retrieved 12.06.2005, from http://guir.berkeley.edu/pubs/ubicomp2002/privacyworkshop/papers/ubicomp.pdf Kamps, T. & Frommholz, I. (2004). Industrielle Wissensanwendungen. Skript zur Vorlesung im SS 2004. Fraunhofer Institut für integrierte Publikations- und Informationssysteme. TU-Darmstadt. Retrieved 12.06.2005, from http://www.ipsi.fraunhofer.de/~brocks/IndustrielleWissensanwendungen-SS04.html Movielens (2003). Movielens - Project Homepage. Group Lens Research. University of Minnesota. Department of Computer Science and Engineering. Retrieved 12.06.2005, from http://movielens.umn.edu/login Pedersen, T. (2001). A Gentle Introduction to the EM-Algorithm. Department of Computer Science. University of Minnesota Duluth. Retrieved 12.06.2005, from http://www.d.umn.edu/~tpederse/Pubs/emnlp01-em-slides.pdf Wandmacher, J. (1993). Mensch-Computer-Kommunikation – Grundwissen 2: Software-Ergonomie. Berlin: Walter de Gruyter. Wikipedia (2005). Online-Enzyklopädie. Div. Artikel über die lineare Algebra, wie z.B. das Kronecker-Produkt. Wikimedia Foundation. Florida, USA. Retrieved 12.06.2005, from http://de.wikipedia.org/wiki/Kronecker-Produkt 21.06.2005 Collaborative Filtering with Privacy via Factor Analysis

Vielen Dank für Ihre Aufmerksamkeit 21.06.2005 Collaborative Filtering with Privacy via Factor Analysis

Münzwurf als MLE-Beispiel (Pedersen, 2001) Anhang A Maximum Likelihood Estimates (am Beispiel von Münzwürfen): Münzwurf als MLE-Beispiel (Pedersen, 2001) 21.06.2005 Collaborative Filtering with Privacy via Factor Analysis

Beispiel für die Berechnung des Kronecker-Produkts (Wikipedia, 2005) Anhang B Das Kronecker-Produkt: Beispiel für die Berechnung des Kronecker-Produkts (Wikipedia, 2005) L(A) - "Stacking" von A - Beispiel: 21.06.2005 Collaborative Filtering with Privacy via Factor Analysis

Berechnung der Pearson-Korrelation (aus: Kamps & Frommholz, 2004) Anhang C Pearson User to User Korrelation 1. Schritt: Berechnung der Korrelation zwischen den Benutzern a und u: Berechnung der Pearson-Korrelation (aus: Kamps & Frommholz, 2004) 21.06.2005 Collaborative Filtering with Privacy via Factor Analysis

Vorhersage für den Artikel i (aus: Kamps & Frommholz, 2004) Anhang C Pearson User to User Korrelation (Forts.) 2. Schritt: Berechnung der Empfehlungen Um für User a Empfehlungen zu generieren, werden die n User mit höchster Pearson-Korrelation ausgewählt (50<n<200) Für jedes Item i wird eine Voraussage pa,i gemacht, wie User a das Item i bewerten würde. Empfehlung = Items mit höchstem pa,i Vorhersage für den Artikel i (aus: Kamps & Frommholz, 2004) Hinweis: Es erfolgt eine Modifizierung der Korrelation, je nach "Güte" (Anzahl der gemeinsam bewerteten Artikel m). 21.06.2005 Collaborative Filtering with Privacy via Factor Analysis