Informationsextraktion mit LastFM im Vergleich zu Google Spezielle Kapitel der Informatik: Music Information Retrieval | KV SS 2009 Jakob Doppler, Matthias.

Slides:



Advertisements
Ähnliche Präsentationen
Vernetzung von Repositorien : DRIVER Guidelines Dr Dale Peters, SUB Goettingen 4. Helmholtz Open Access Workshop Potsdam, 17 Juni 2008.
Advertisements

OSM-Daten filtern Osmosis Java Kommandozeile Filter Konvertieren
Dynamische WEB-Applikationen
Themenportal Europäische Geschichte / Web portal European History
Pop Jazz C B A Jazz C A Lehrstuhl für Künstliche Intelligenz
Dominic Ziegler 12c Webprogrammierung.
Windows Vista für Entwickler
Neue Mobilität Frank Prengel Developer Evangelist Developer Platform & Strategy Group Microsoft Deutschland GmbH
© 2006 Open Grid Forum OGF26 - Chapel Hill, May 2009 Addressing Metadata Challenges OGF Digital Repositories RG.
Ralf Schenkel joint work with Fabian Suchanek and Gjergji Kasneci YAWN A Semantically Annotated Wikipedia XML Corpus.
Internet Protokolle und Formate 1.1 HTTP 1.2 HTML 1.3 SGML 2. XML 3. WAP Matthias Thränhardt Sebastian Weber.
We test your ideas. Test us. ASAM-ODS Benutzertreffen, Glashütten 16. Juni 2005 Page 1 Eine Suchmaschine für ASAM-ODS Dr. Bruno Thelen
XML Entwicklungen in Giessen XML Clearinghouse - Berlin,
Universität Dortmund, Lehrstuhl Informatik 1 EINI II Einführung in die Informatik für Naturwissenschaftler und Ingenieure.
Objektorientierte Programmierung JDK-Klassenbibliothek
Reverse Engineering 1 Reverse Engineering WS 04 / 05 A. Zündorf.
CTS2 based Terminology Server – Overview – Project eBPG
Linguistically Motivated Information Retrieval
Proseminar Web Engineering PS07: Retrieving data from social networks: APIs and protocols.
PPS-Design einer eigenen WWW-Homepage SS 2003 Applets.
Institute for Program Structures and Data Organization Universität Karlsruhe Germany Entwicklung eines Suchsystems und einer.
Testing using Mock Obejcts
Mobile Uni-App UNISG Page 1 International State of Practice St. Gallen, 02/2011 Institute of Information Mgmt., University of St. Gallen, Chair.
GEMEINSAME NUTZUNG VON GRUNDRISS- UND LASER-DATEN ZUR AUTOMATISCHEN ERZEUGUNG VON STADTMODELLEN | Robert Bürger | Diplomverteidigung
Metro-Style Apps mit Expression Blend 5 für HTML designen Christian Moser User Experience Designer Zühlke Engineering AG
Clever Search: A WordNet Based Wrapper for Internet Search Engines Peter M. Kruse, André Naujoks, Manuela Kunze, Dietmar Rösner Otto-von-Guericke-Universität.
Institut AIFB, Universität Karlsruhe (TH) Forschungsuniversität gegründet 1825 Towards Automatic Composition of Processes based on Semantic.
Automated Software Testing
Versionsverwaltung für Visual Studio .NET mit Subversion
Teilnehmer: Sven Dahmer BAMP01 Marco Pohl BAMP02 Toni Möckel BAMP02 Java – Projekt 2010 Projekt: Realisierung einer API – Applikation für den weltgrößten.
Direct Support Infrastructure
© All rights reserved. Zend Technologies, Inc. Jan Burkl System Engineer, Zend Technologies Zend Server im Cluster.
E STUNDE Deutsch AP. Montag, der 20. Mai 2013 Deutsch AP (E Stunde)Heute ist ein G Tag Goal: to understand authentic written text, audio material and.
Informationsextraktion mit LastFM im Vergleich zu Google Spezielle Kapitel der Informatik: Music Information Retrieval | KV SS 2009 Jakob Doppler, Matthias.
RateMe Slides. Ablauf Präsentation des Konzepts (5-10 min) Demonstration der laufenden Software (5-10 min) Fazit der gesammelten Erkenntnisse.
Your name Bedeutung von Internet- Technologien Gruppe 1 Andreas Feuerstein Philipp Hochratner Christian Weinzinger.
Informationsextraktion mit LastFM im Vergleich zu Google Spezielle Kapitel der Informatik: Music Information Retrieval | KV SS 2009 Jakob Doppler, Matthias.
RateMe Slides. Ablauf Präsentation des Konzepts (5-10 min) Demonstration der laufenden Software (5-10 min) Fazit der gesammelten Erkenntnisse.
Developer Day Webseiten auf Windows Azure hosten Britta Labud bbv Software Services AG Roland Krummenacher bbv Software Services AG.
Jan Hentschel Microsoft Expert Student Partner Windows Azure Windows Azure Windows Azure Mobile Services.
Windows Azure Websites Roland Krummenacher Senior Software Engineer, bbv Software Services
Frank Fischer + Bernhard Frank Microsoft Deutschland GmbH.
3/28/2017 8:11 PM Visual Studio Tools für Office { Rapid Application Development für Office } Jens Häupel Platform Strategy Manager Microsoft Deutschland.
JSP Einführung Skripte Direktiven Tomcat 3.2 Version 1.1
XML IV: Cocoon 2.
DEUTSCHLAND UND DIE MEDIEN
F-Sharp (F#) Eine multiparadigmatische Sprache. Merkmale von F# Multiparadigmatisch.NET-Sprache Skalierbar und effizient Als Forschungsprojekt von Microsoft.
Univ.-Lektor Dipl.-Ing. Dr. Markus Schranz staatlich befugter und beeideter Ingenieurkonsulent für Informatik Web Application Engineering & Content Management.
Einführung in das Wissenschaftliche Arbeiten Andreas Hechenblaickner Programmiersprache Eiffel
Projekt Systemintegration Datler, Kroiß, Sachs Systemintegration ILV, FL / MIC- 2 (SS2014)
© All rights reserved. Zend Technologies, Inc. Jenseits von var_dump(): Debugging in ZF Jan Burkl System Engineer.
Codes for data archiving, interchange, and analysis Music 253/CS 275A Stanford University.
REBOL III. Teil 1 – Nachtrag /View face/feel redraw [face action position] vor Neuzeichnen over [face action position] Mausbewegung engage [face action.
Ulrike Romatschke, Robert Houze, Socorro Medina
Torque in Turbine Team 3 Alexander Mittermair Michael Wesinger.
Using latent semantic analysis to find different names for the same entity in free text Präsentation und Diskussion des Papers Im Rahmen des PS Web-Information.
Gefunden Ein Gedicht von J. W. Goethe. Schaut euch die beiden Häuser an. Wie unterscheiden sie sich? von Andreas Trepte (Eigenes Werk) [CC-BY-SA-2.5 (
RateMe Slides. Ablauf Präsentation des Konzepts (5-10 min) Demonstration der laufenden Software (5-10 min) Fazit der gesammelten Erkenntnisse.
E STUNDE Deutsch AP. Freitag, der 10. Mai 2013 Deutsch AP (E Stunde)Heute ist ein A Tag Goal: to understand authentic written text, audio material and.
TUM in CrossGrid Role and Contribution Fakultät für Informatik der Technischen Universität München Informatik X: Rechnertechnik und Rechnerorganisation.
Learning Technology Teachware on Demand CeBIT Andreas Wendt Fraunhofer-Institut für Software- und Systemtechnik ISST Abteilung Learning Technology Hannover,
HTML Grundkurs Patrick Cato.
Data Mining Spectral Clustering Junli Zhu SS 2005.
ekek w ik aiai v ij METHOD FOR AUTOMATED CHOICE OF TECHNICAL PRODUCTS The proposed method is based on automatically classification.
Mehr als ein Modewort? Exzerpt nach Tim O‘Reilly, Michael Karrer
Einige Ideen für Module
Jakarta Struts Quasi-Standard für JSP-basierte Entwicklung: Jakarta Struts Key Features von Struts: Implementierung des Action-Command-Pattern („Model.
XTM - CMS Content Management mit TopicMaps CMS No. 3 bei iVS
XTM - CMS Content Management mit TopicMaps CMS No. 3 bei iVS
Azure Mobile Services Deep dive into node.js scripting
 Präsentation transkript:

Informationsextraktion mit LastFM im Vergleich zu Google Spezielle Kapitel der Informatik: Music Information Retrieval | KV SS 2009 Jakob Doppler, Matthias Husinsky, Doris Zachhuber

Aufgabenstellung Content-basierte Feature Extraktion aus Google, Musikportal Music Community LastFM Einleitung

AbstractArtistSimilarity Systemarchitektur MirArist LastFM API Artist <> Genre Mapping SearchEngine HTTP Request Data Source MirGenre LFM TagCloud [LFM Weight] LFM TagCloud [Google Weight] Feature extraction Epoche Data extraction -Artists -TopTags -Albums -Events -Artists -TopTags -Albums -Events - Text-based search results - TF/IDF - Text-based search results - TF/IDF Artist similarity CosSimTagCloudDist EuclideanEpochDist AbstractFeature Results Genre Classification Cluster Visualization LastFM - Google Feature Comparison

Systemarchitektur MirArtist A Skalar Interpretation Visualization Classification Feature Term Weight … Feature Similarity Measure Result Artist-to-Artist Similaritymatrix 250 x250 Double[][] MirArtist B Feature Similarity Measure Cosine Euclidean

Implementierung Umfangreiche Implementierung in Java MIR Entitäten als Objekte mit abstrakten Features und Similarities 40 Klassen, ~4000 LoC, unendlich viel Geduld ;-) SVN - Google Code Repository Zahlreiche Libraries LastFM Java API Matrix Utils Text Utils Apache Commons Lang CoMirva (Anysearch, UrlRetriever) Visualisierung JUNG (Java Universal Network Graph) Klassifikation Machine Learning Toolkit Weka Systemarchitektur

Datenquellen Artist zu Genre Mapping Ausgangsmaterial für Feature Extraction < 250 Artists, 11 Genres Genre-Labeling -Groundtruth für Klassifizierung LastFM Benutzeraccount zum Generieren eines API Keys Informationskategorien Artist,Top Tags, Top Artists in Tags, Top Albums in Tags, Features: Artist Tag Cloud, Wirkzeit Ähnlichkeitsmaß: Similar Artist Ranking Search Engine Google Informationskategorien: Term-based filtering and weighting Feature: LastFM Artist Tag Cloud Neu gewichtet Ähnlichkeitsmaß TF basierend auf Informationsgewinnung

Feature Extraktion und Ähnlichkeitsmaß (I) – Albumbasierte Wirkzeit DORIS Informationsgewinnung

Feature Extraktion und Ähnlichkeitsmaß (II) –Tag Cloud LastFM gewichtet Extraktion der Top 100 Tags für einen Artist Tag Filtering Substrings der Artists (billy Joel billy joel billy-joel) Normierung der Tags [100,0] Cosinus Ähnlichkeitsmatrix Google gewichtet Basierenden auf LastFM Top 100 Tags neue Gewichte nach Term Frequency Download der ersten 50 Dokumente des Search Terms Artist Name Often gefunden Pages (Offizielle Homepage, Wikipedia, IMDB, Mp3 Musik Seiten) HTML, Script Filtering Cosinus Ähnlichkeitsmatrix Informationsgewinnung

Ähnlichkeiten – LastFM zu Google gewichtete Ähnlichkeiten Ergebnisse

Visualisierung – Clustering Jung-basiertesVisualisierungstool zur Darstellung von Ähnlichkeitsclustern Achtung ClusterAbstand und Kantenlänge haben keine Bedeutung (nicht sehr elaboriert) Slider für die Wahl des Similarity-Thresholds Ergebnisse

Versuch Genre Klassifizierung Klassifikation der Labels des Genre<>Artist Mappings Gute Resultate bei Default Einstellungen, 10-fold CV Lazy Ibk (KNN Klassifier) - 95 %, Naive Bayes - 89% Baseline ZeroR, 4,5% Aber: Unabhängigkeit der Features<> Instances nicht gegeben. Jeder Artist ist ultimativ unterscheidbar durch eine Dimension (1.0) Overfitting Geplant:Nur Ähnlichkeiten der Top 10 Artists eines Genres als Features, Alle überbleibenden Artists als Instances Ergebnisse – Work in progress Lazy IBk TP Rate FP Rate Precision Class reggae alt.rockindie folk jazz pop punk electronica country classical heavymetalhardrock rocknroll rnbsoul raphiphop blues (Weighted Avg)

Versuch Genre Clustering 14 Genres kMeans Clustering mit 14 Cluster?! Ergebnisse – Work in progress Reggae 2x country electronica raphiphop 3x heavymetalhardrock punk 3x Classical rnbsoul jazz country Folk Jazz Blues rnbsoul hHeavymetalhardrock Alt.rockindie punk Raphiphop electronica reggae RocknRoll pop classical