Informationsextraktion mit LastFM im Vergleich zu Google Spezielle Kapitel der Informatik: Music Information Retrieval | KV SS 2009 Jakob Doppler, Matthias.

Slides:



Advertisements
Ähnliche Präsentationen
Kohonennetze für Information Retrieval mit User Feedback
Advertisements

Pop Jazz C B A Jazz C A Lehrstuhl für Künstliche Intelligenz
Inhalt Saarbrücken,.
Ähnlichkeitsmaße für Vektoren
Team 1 Annemarie Ulbricht, Ariane Kunst, Jan Bierer
Webseitenranking für Suchanfragen anhand von Linkgraphen
TECHNISCHE UNIVERSITÄT DARMSTADT Naive Bayes for Ranking
Lagemaße kritische Fragen
Streuungsmaß 3: absolute Abweichung vom Mittelwert
ΜΕΙΖΟΝ ΠΡΟΓΡΑΜΜΑ ΕΠΙΜΟΡΦΩΣΗΣ ΕΚΠΑΙΔΕΥΤΙΚΩΝ ΔΙΔΑΚΤΙΚΗ ΠΡΑΚΤΙΚΗ
Ska © by Anna Bannasch.
Statistische Suche nach melodischen Prototypen
BTW, 26. Februar 2003Übertragung von Rangordnungen1 Ein Ansatz zur Übertragung von Rangordnungen bei der Suche auf strukturierten Daten Andreas Henrich.
Seminar Textmining WS 06/07 Aufgaben II 1.Dokumente im VSM 2.Ranking 3.Term-Term-Korrelation 4.Relevance Feedback 5.Termgewichtung.
Klaus Kopperschmidt 22. Januar 2001
Stefanie Selzer - Pascal Busch - Michael Kropiwoda
Gottfried Vossen 5. Auflage 2008 Datenmodelle, Datenbanksprachen und Datenbankmanagementsysteme Kapitel 16: Grundlagen des Data Mining.
Information Retrieval Modelle: Vektor-Modell
Demoprogramm: Clustering Eine graphische Demonstration verschiedener Clusteringalgorithmen anhand des Clusterings von Punkten im zweidimensionalen Raum.
Dynamische Webseiten mit PHP
Webserver, © Till Hänisch 2002 Apache The open way.
Suchmaschinenlabor an der Uni Hannover Derek Daniel.
Präsentation der Ergebnisse von Clusteranalysen
Vereinfachtes Beispiel: Zuordnung von Dokumenten zu einer Klasse
Classification of Credit Applicants Using Data Mining. Thema.
Hänchen & Partner GmbH 1 Web-Anwendungen mit dem Jakarta Struts Framework 3.Juli 2003 Martin Burkhardt.
Kennlinie Lichtregelung in JavaNNS Version 1.1
RDF-S3 und eRQL: RDF-Technologien für Informationsportale Karsten Tolle und Fabian Wleklinski.
Punk-Rockband aus Deutschland. Gegründet wurden die Ärzte 1982, zwischen 1989 und 1993 kam es zu einer zeitweiligen Trennung. Seit 1993 besteht die Band.
Vorlesung: Biometrie für Studierende der Veterinärmedizin
Wiederholung und Beispiele
Machine Learning KNN und andere (Kap. 8).
Wie Google Webseiten bewertet
SEO für Kleinbetriebe mit Google Places
Case Study: Telelernen an der FH Joanneum A. Koubek, J. Pauschenwein, ZML.
Text Mining Dr. Brigitte Mathiak.
Ein Toolkit für hierarchische Bibliotheksdaten Ein Toolkit zur Präsentation von hierarchischen Bibliotheksdaten Andres von Arx UB Basel, August 2006.
PPS-Design einer eigenen WWW-Homepage SS 2003 Applets.
Ausgleichungsrechnung II
Ausgleichungsrechnung I
Einführung / Geschichte Einführung / Geschichte Motivation Motivation Beispiel Beispiel Architektur / Komponenten Architektur / Komponenten Konfiguration.
Minh Bui 14. März 2013 Mobile Visualization in SenseDroid Diplomarbeit Minh Bui, # 1 of 16 Aufgabensteller: Prof. Dr. Andreas Butz Betreuer:
Teilnehmer: Sven Dahmer BAMP01 Marco Pohl BAMP02 Toni Möckel BAMP02 Java – Projekt 2010 Projekt: Realisierung einer API – Applikation für den weltgrößten.
Aufgabenzettel V Statistik I
Hauptseminar WS10-11 : VRE Dozent: Prof. Manfred Thaller Tag clouds Referentin: N.X. Duyen Tao-Pham Datum:
Informationsextraktion mit LastFM im Vergleich zu Google Spezielle Kapitel der Informatik: Music Information Retrieval | KV SS 2009 Jakob Doppler, Matthias.
Informationsextraktion mit LastFM im Vergleich zu Google Spezielle Kapitel der Informatik: Music Information Retrieval | KV SS 2009 Jakob Doppler, Matthias.
STATISIK LV Nr.: 0028 SS Mai 2005.
Übersicht Was ist cocoon? Separation of Concerns Pipeline Modell
3. Juni 2003Moritz Petersen Minimales Markup und Templates zur Erstellung von strukturierten Texten Ein Zwischenbericht zur Diplomarbeit.
Trust and context using the RDF- Source related Storage System (RDF‑S3) and easy RQL (eRQL) Karsten Tolle und Fabian Wleklinski.
Linking and Brushing on ODBC Basis
Data Mining Georg Pölzlbauer.
Using latent semantic analysis to find different names for the same entity in free text Präsentation und Diskussion des Papers Im Rahmen des PS Web-Information.
Klassifikation und Regression mittels neuronaler Netze
Information Retrieval, Vektorraummodell
Maria Maschina Klasse 9a Schule № 19 Mischeljöwka, Ussolskyj Bezirk
Multimediapraktikum SS07 Vision-Based Motion Analysis Handgestenerkennung.
Statistik – Regression - Korrelation
Grammy Kritik Projekt Kritik. Hintergrund: You and your partner are Grammy critics talking about the results of the 2014 Grammy’s. This is a 2 – 5 minute.
Informationsrecherche & Analyse im Netz
Sebastian Loose DPF – A Perceptual Distance Function for Image Retrieval Proseminar SS 2005 Distanzen und Ähnlichkeitsmaße im Hochdimensionalem.
- Studienarbeit - Entwurf und Umsetzung von kombinierten Anfragen für die Ähnlichkeitssuche auf digitalen Bilder auf der Basis von Regionen und Features.
c-means clustering (FCM)
Populäre Musik.
Einführung in Text Mining
EIN NEUES ENSEMBLE- KLASSIFIKATIONSVERFAHREN Tim Schneider Rotation Forest.
The PageRank Axioms Johannes Zaunschirm. Überblick / Outline  Alon Altman and Moshe Tennenholtz. “Ranking Systems: The PageRank Axioms”., 2005  Basisstruktur.
Präsentation von Cristiana Cachada
 Präsentation transkript:

Informationsextraktion mit LastFM im Vergleich zu Google Spezielle Kapitel der Informatik: Music Information Retrieval | KV SS 2009 Jakob Doppler, Matthias Husinsky, Doris Zachhuber

Aufgabenstellung Context-basierte Feature Extraktion (Google, LastFM) Music Community Portal LastFM, Informationskategorien Ähnlichkeitsmaße berechnen Optional Visualisierung Klassifikation Einleitung

AbstractArtistSimilarity Systemarchitektur MirArist LastFM API Artist <> Genre Mapping SearchEngine HTTP Request Data Source MirGenre LFM TagCloud [LFM Weight] LFM TagCloud [Google Weight] Feature extraction Epoche Data extraction -Artists -TopTags -Albums -Events -Artists -TopTags -Albums -Events - Text-based search results - TF/IDF - Text-based search results - TF/IDF Artist similarity CosSimTagCloudDist EuclideanEpochDist AbstractFeature Results Genre Classification Cluster Visualization LastFM - Google Feature Comparison

Systemarchitektur MirArtist A Skalar Interpretation Visualization Classification Feature Term Weight … Feature Similarity Measure Result Artist-to-Artist Similaritymatrix 250 x250 Double[][] MirArtist B Feature Similarity Measure Cosine Euclidean

Implementierung Umfangreiche Implementierung in Java MIR Entitäten als Objekte mit abstrakten Features und Similarities 40 Klassen, ~4000 LoC, unendlich viel Geduld ;-) SVN - Google Code Repository Zahlreiche Libraries LastFM Java API Matrix Utils Text Utils Apache Commons Lang CoMirva (Anysearch, UrlRetriever) Visualisierung JUNG (Java Universal Network Graph) Klassifikation Machine Learning Toolkit Weka Systemarchitektur

Datenquellen Artist zu Genre Mapping Ausgangsmaterial für Feature Extraction ~ 250 Artists, 14 Genres Genre-Labeling -Groundtruth für Klassifizierung LastFM Benutzeraccount zum Generieren eines API Keys Informationskategorien Artist,Top Tags, Top Artists in Tags, Top Albums in Tags, Features: Artist Tag Cloud, Wirkzeit Ähnlichkeitsmaß: Similar Artist Ranking Search Engine Google Informationskategorien: Term-based filtering and weighting Feature: LastFM Artist Tag Cloud Neu gewichtet Ähnlichkeitsmaß TF basierend auf Informationsgewinnung

Feature Extraktion und Ähnlichkeitsmaß (I) – Albumbasierte Wirkungszeit LastFM Alben-Releasedates Extraktion der Alben eines Artists Extraktion des Releasedates eines Albums Jahr Arithmetisches Mittel aller Releasedates Absolute Distanz zweier skalarer Werte Similarity-Matrix Normierung und Invertierung der Ähnlichkeitswerte Informationsgewinnung : Albumbasierte Wirkungszeit

Je 3 Artists aus 14 Genres

Visualisierung – Clustering Jung-basiertes Visualisierungstool zur Darstellung von Ähnlichkeitsclustern Achtung ClusterAbstand und Kantenlänge haben keine Bedeutung (Einschränkung nicht sehr elaboriert) Slider für die Wahl des Similarity- Thresholds [ ] Demo Visualisierung

Similarity: 0,75 Viele Künstler liegen eng beieinander, nur wenige heben sich ab (Miles Davis, Dave Brubeck, Leonard Cohen, Kraftwerk) Miles Davis (1982) hat ausschließlich zu Dave Brubeck (1987 eine Ähnlichkeit von >= 0,75 (Verbindungslinie) Kraftwerk (1990) weist wesentlich mehr Ähnlichkeiten zu anderen Artists auf Zeitliche Abfolge ist erkennbar 1982 Miles Davis 1997 Bob Marley 1998 Nirvana 2003 Justin Timerlake, The Rolling Stones

Similarity: 0,87 Trennung der Wirkungszeiten deutlicher erkennbar Erste Gruppierungen Junge Artists wie Eminem (2002), Sean Paul (2002), The Chemical Brothers (2002), Justin Timerlake (20093) Ausreißer Leonard Cohen, Dave Brubeck und Kraftwerk haben zu keinen anderen mehr eine so hohe Ähnlichkeit Similarity: 0,96 Sehr starke Separierung (beinahe schon nach den Featurewerten/der Wirkungszeit selbst) Gruppierungen sind eher zufällig und wenig aussagekräftig

Similarity: 0,87 Trennung der Wirkungszeiten deutlicher erkennbar als bei 0,75 Erste Gruppierungen Junge Artists wie Eminem (2002), Sean Paul (2002), The Chemical Brothers (2002), Justin Timerlake (20093) Ausreißer Leonard Cohen, Dave Brubeck und Kraftwerk haben zu keinen anderen mehr eine so hohe Ähnlichkeit

Mängel Bei älteren oder schon verstorbenen Künstler hat die berechnete nichts mit der tatsächlichen Wirkungszeit zu tun, v.a. im Genre Klassik: Wolfgang Amadeus Mozart (1993), J. S. Bach (2000) Gründe: Alben später veröffentlicht und teilweise in lastFM nicht so gut abgebildet Genreähnlichkeiten Bei 0,96 Ähnlichkeit keine aussagekräftigen Ergebnisse (zu kleine Zeitintervalle) Bei 0,87 bessere Abbildung der Genres Rap/Hip-Hop: Eminem, Missy Elliott; Electronic: The Chemical Brothers, Fatboy Slim Aber: Nicht empfehlenswert wegen großer Ungenauigkeiten und vieler Ausreißer! Ergebnisse : Albumbasierte Wirkungszeit

Fazit Zum Vergleich der aktiven Wirkzeit von Artists der letzten 30 Jahre gut geeignet gute Darstellung WANN die meisten Alben veröffentlicht wurden Keine Berücksichtigung ob One-Hit/Album-Wonder oder langjährig Veröffentlichungen Optimierung Andere Berechnungsart des Features Mittelwert ohne Werte außerhalb der Standardabweichung Median statt arithmetischem Mittel Ausdehnung der Wirkungszeit auf einen Bereich (von – bis) Pre-Filtering der verwendeten Alben Eliminieren von Titeln wie Best-Of, Greatest Hits,… Kombination mit weiteren Informationen Jahreszahlen von Events (Konzerte, etc.) Artist Infos (Lebzeiten, etc.) Fazit & Optimierung : Albumbasierte Wirkungszeit

Feature Extraktion und Ähnlichkeitsmaß (II) –Tag Cloud LastFM gewichtet Extraktion der Top 100 Tags für einen Artist Tag Filtering Substrings der Artists (billy Joel billy joel billy-joel) Normierung der Tags [100,0] Cosinus Ähnlichkeitsmatrix Google gewichtet Basierenden auf LastFM Top 100 Tags neue Gewichte nach Term Frequency Download der ersten 50 Dokumente des Search Terms Artist Name Often gefunden Pages (Offizielle Homepage, Wikipedia, IMDB, Mp3 Musik Seiten) HTML, Script Filtering Cosinus Ähnlichkeitsmatrix Informationsgewinnung : Tag Cloud

Ähnlichkeiten –Tag Cloud LastFM gewichtete Ähnlichkeiten (I) Ergebnisse : Tag Cloud

Ähnlichkeiten – Tag Cloud Google gewichtete Ähnlichkeiten (II) Ergebnisse : Tag Cloud

Ähnlichste Künstler - TagCloudSim versus LastFM Website Ergebnisse : Tag Cloud

Versuch Genre Klassifizierung Klassifikation der Labels des Genre<>Artist Mappings Gute Resultate bei Default Einstellungen, 10-fold CV Lazy Ibk (KNN Klassifier) - 95 %, Naive Bayes - 89% Baseline ZeroR, 4,5% Aber: Unabhängigkeit der Features<> Instances nicht gegeben. Jeder Artist ist ultimativ unterscheidbar durch eine Dimension (1.0) Overfitting Geplant:Nur Ähnlichkeiten der Top 10 Artists eines Genres als Features, Alle überbleibenden Artists als Instances Work in progress Lazy IBk TP Rate FP Rate Precision Class reggae alt.rockindie folk jazz pop punk electronica country classical heavymetalhardrock rocknroll rnbsoul raphiphop blues (Weighted Avg)

Versuch Genre Clustering 14 Genres kMeans Clustering mit 14 Cluster?! Work in progress Reggae 2x country electronica raphiphop 3x heavymetalhardrock punk 3x Classical rnbsoul jazz country Folk Jazz Blues rnbsoul hHeavymetalhardrock Alt.rockindie punk Raphiphop electronica reggae RocknRoll pop classical