Hauptseminar „Data Science“: Mining Social Media

Slides:



Advertisements
Ähnliche Präsentationen
Was ist Projektmanagement ?
Advertisements

Motivation E-Learning in der Hochschullehre
Programmieren im Großen von Markus Schmidt und Benno Kröger.
Kohonennetze für Information Retrieval mit User Feedback
Informatik II: Algorithmen und Datenstrukturen SS 2013
Fortgeschrittenenpraktika SS 2004
Fortgeschrittenenpraktika WS 2003/04 Database Research Group, Prof. Dr. Bernhard Seeger Department of Mathematics and Computer Science University of Marburg.
Web 2.0 und RIAs - Adobe Air1 Seminar: Web 2.0 und Rich Internet Applications Wintersemester 2007/2008 Daniel Thaidigsmann
Der Arbeitskreis Flexible service- und prozessorientierte Informationssysteme Universität Innsbruck, 28. Juli 2008.
Informationsveranstaltung zum Seminar „Wirtschaftslehreunterricht mit vierwöchigem Schulpraktikum“ 16. Juli 2009.
Fallstudie. 2 Statistik April Dokumente Jan Mio. Dokumente Performance 3 Mio. Queries pro Tag 9. Juni 2000 Most popular search engines.
Java: Grundlagen der Sprache
DOM (Document Object Model)
Der Umgang mit qualitativ erhobenen Daten: Strategien der Datenanalyse
Projekt Web Engineering
UML Begleitdokumentation des Projekts
Allgemeine Informationen
Allgemeine Informationen
Entitäten Extraktion Einführung
Masterseminar Robert Neßelrath Lehrstuhl Wahlster 2007 Framework zum Klassifizieren von Gesten basierend auf multiplen Sensoren.
Cooperation & management Institute of Telematics University of Karlsruhe Prof. Dr. S. Abeck FORUM der Fakultät für Informatik zur Unterstützung der Lehre.
Entwurf Staatsballett
Eignung von Grammatik-basiertem Layout für grafische Programmiersprachen Seminar Layout-Algorithmen für Graphen Institut für Informatik Christian-Albrechts.
Se.uni-oldenburg.de/pg-eea Projektgruppe Energieeffiziente Applikationen Ein komponentenbasiertes Framework zur Erkennung und Klassifizierung der Energieeffizienz.
Vortrag D. Braun, Praktikum. Übersicht Pleopatra API Pleopatra Tools Twitter Demonstration Ausblick.
DATA WAREHOUSE Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen Alfred Schlaucher, Detlef Schroeder DATA WAREHOUSE.
Microblogging Die Welt in 140 Zeichen Bildquelle: Wikipedia.
Von Heba Salah Somaya Muhammad Hend Hasan Einsatz von Wiki in der Fakultät.
Online & Präsenzkurse Neue Kursangebote entwickeln ZAWiW - Titel.
Forschendes Lernen Ein Beispiel aus dem Fachbereich für Psychologie, AG Klinische Psychologie, Psychotherapie und Gesundheitspsycholgie, Ass. Prof. Dr.
10.1 Recherche: Lernenden-Ebene
Software Architektur Service­orientierte Architektur und Sicherheit von Christian Schwerdtfeger & Matthias Folz.
Sesame Florian Mayrhuber
Data Mining Cup 2012 Wissensextraktion – Multimedia Engineering
Dienstleistungen für Ihren Fortschritt. Neigungsprofil für Servicetechniker More than psychology structures.
cs108 Programmier-Projekt Präsentation Meilenstein 3
Oliver Lietz – Mobile Software Mobile Software Ausgewählte Themen Software (ATS) Beuth-Hochschule SS 2010 Oliver Lietz Dipl.-Ing.
Twitter für Journalisten
Fakultät für Informatik WI/WE 2005S UE WI/WE Web Engineering /3 Dr. Michael Derntl Fakultät.
Fakultät für Informatik WI/WE 2005S UE WI/WE Web Engineering /3 und /4 Michael Derntl Fakultät.
Using latent semantic analysis to find different names for the same entity in free text Präsentation und Diskussion des Papers Im Rahmen des PS Web-Information.
1 Vorbesprechung Seminar: Weitverteiltes Rechnen mit dem Grid (SE 2.0, ) LVA-Leiter: T. Fahringer Büro: 8/09 Tel.: Mail:
Page Seminar IM EIN Thema auswählen Zumindest 3 Artikel (fast sicher englischsprachig) aus guten Journals dazu heraus suchen.
Twitter Begriffe und Techniken Nutzung Alternative Dienste.
Online GIS Online GIS – Der Nutzer Matthias Hofschen, ESRI Germany ESRI EUROPEAN USER CONFERENCE.
MediaQ: Practical Seminar on Big Data for Social Media
Page Seminar IM - Ablauf EIN Thema auswählen Zumindest 3 Artikel (fast sicher englischsprachig) aus guten Journals heraus suchen.
Geoinformation I Lutz Plümer
Evaluation von Lernplattformen IDEe qualifizierung :: ARGE :: Prof. Dr. Peter Baumgartner Herzlich Willkommen Evaluation von Lernplattformen Wien, 7. März.
Datenbanken im Web 1.
Institut für Informatik MediaQ: Practical Seminar on Big Data for Social Media Hauptseminar WS 2014/15 8. Dezember 2014 Ansprechpartner: Dr. Matthias Renz.
Computergrafik-Praktikum Abschlusspräsentation Sierpinski Sarah Voß und Lars Jung Johann Wolfgang von Goethe Universität Frankfurt am Main Institut für.
Dreamteam: Web 2.0 und der Katalog Anne Christensen und Thomas Hapke GBV-Verbundkonferenz
Microsoft.NET - Plattform Kurzer Überblick Vergleich mit Java Von Thomas Zahn Januar 2001.
Laborpraktikum Umsetzung von Pattern SS 05 Prof. Paul, Dipl.-Inf. Fröhlich, Dipl.-Inf. Linke {paul | iti.cs.uni-magdeburg.de
Ziel - Konzept - Realisierung 28. August 2003 Ursula Jutzi.
1 Prof. Dr. Andreas SchmietendorfWS06/07 Übung 3 Test der Möglichkeiten des JDBC-Interfaces.
N.Fremann, M.Jentsch, D.Wilmsmann Interaction with public and private displays Projektarbeit im Seminar Location Based Services.
@m_klima TWITTER - MAG. MANFRED KLIMA. Nutzer 03/2015 – 288 Mio. TWITTER - MAG. MANFRED KLIMA.
SWE for DS Thema und Organisation Prof. Dr. Stephan Trahasch 1.
Teamprojekt in Zusammenarbeit mit der BA Sachsen Abschlusspräsentation
The PageRank Axioms Johannes Zaunschirm. Überblick / Outline  Alon Altman and Moshe Tennenholtz. “Ranking Systems: The PageRank Axioms”., 2005  Basisstruktur.
Seite 1 TOOL: UNTERRICHTSGESTALTUNG MIT DIGITALEN MEDIEN DATUM.
Institut für Informatik Hauptseminar „Data Science“: Mining Social Media Hauptseminar SS 2016 Ansprechpartner: Prof. Thomas Seidl Dr. Tobias Emrich Johannes.
Entwurf, Implementierung und Test eines Java – Web Services als Kommunikationsschnittstelle für Webapplikationen mit Funktionen.
Institut für Informatik Betriebliche Informationssysteme S.Dietzold, T.Riechert, J.Lehmann, A.Aslam, M.Herrmann1 Semantic Web Services and Interfaces Sebastian.
Lern- und Forschungswerkstatt I - LF I (1) 1. Semester Soziale Arbeit, B. A. Gruppe A: Mi., Uhr bis Uhr, Raum 212 Dozentin: Prof. Dr. phil.
© WZL/Fraunhofer IPT Entwicklung einer Profilbörse für Konfigurationen von Smartphones Vortrag der Seminararbeit von Patrick Posor Aachen, den
Einführung Grundlagen Zwischenfazit Deep Learning Probleme Fazit
Azure Countdown Wenn der Freund und Helfer Freunde und Helfer braucht: Sichere Content-Upload-Plattform für Bürger.
 Präsentation transkript:

Hauptseminar „Data Science“: Mining Social Media Institut für Informatik Hauptseminar „Data Science“: Mining Social Media Hauptseminar SS 2015 Ansprechpartner: Prof. Matthias Renz Dr. Tobias Emrich Johannes Niedermayer

Agenda Ablauf Einleitung Seminarüberblick Ziele des Seminars Ablauf des Seminars Mining Twitter Warum Twitter? Mögliche Fragestellungen Grundlagen Twitter API Tools Einteilung der Gruppen

MediaQ Social Media Internetbasierte Applikationen, die auf dem Web 2.0 aufbauen und die Erzeugung sowie den Austausch nutzergenerierter Inhalte ermöglichen

Twitter Twitter Microblogging-Plattform Kommunikation erfolgt über Tweets Kurze Textnachrichten mit bis zu 140 Zeichen Hashtags zur Kategorisierung Möglichkeit der Einbindung von Bildern und Videos Zusätzliche Anreichung mit Geoinformationen möglich Literaturempfehlung: Kwak, Lee, Park, Moon: “What is Twitter, a Social Network or a News Media?“ (2010).

Ziele Entwicklung neuer Analysemethodiken für Microblogging-Plattformen wie Twitter und Instagram Einarbeitung in Fragestellungen des Themengebiets „Data Science“ mit Konzentration auf Social Media Mining Kreative Auseinandersetzung mit den gegebenen Daten Neue Fragestellungen zur Analyse von Social Media Daten entwickeln Ansprechende Visualisierung der Idee Umsetzung der Ideen Implementierung Präsentation

Ablauf des Seminars Ablauf des Seminars 1. Termin (Heute) Vorstellung der Thematik Einteilung der Gruppen 2. Termin (6. November 2015) Meilenstein: theoretische Auseinandersetzung abgeschlossen Paper-Präsentation (Theoretischer Teil) Vorstellung der Projektideen (Praktischer Teil) 3. Termin (4. Novemberwoche) Meilenstein: praktische Einarbeitung beendet Zwischenpräsentation des Projektes Diskussion der Zwischenergebnisse 4. Termin (5. Februar 2016) Meilenstein: Projekt abgeschlossen Abschlusspräsentation des Projektes

Ablauf: Theoretischer Teil Einarbeitung in ein festgelegtes Themengebiet anhand eines vorgegebenen Papers Entwicklung von eigenen Applikationsideen anhand der Publikation anhand eigener Ideen Präsentation der Ergebnisse im Seminar 15 Minuten Paper 5 Minuten eigene Projektideen 5 Minuten Diskussion

Ablauf: Praktischer Teil (Einarbeitung) Einarbeitung in die Twitter- oder Instagram-API und Crawling der benötigten Daten über die API Detaillierte Auseinandersetzung mit den Daten inklusiver erster Experimente - Realdaten sind schwierig: Vorverarbeitung ist kritisch! Vertraulichkeit: Twitter Terms of Service beachten Crawler wird bereit gestellt (Java) Weiterentwicklung der Ideen Skizzierung einer detaillierten Analysepipeline Präsentation der Ergebnisse (~10 Minuten) und Diskussion mit den Betreuern (~5 Minuten)

Ablauf: Praktischer Teil (Umsetzung) Implementierung des entwickelten Analyseverfahrens Dokumentation der Applikation, sowie Beschreibung der Softwarearchitektur und Algorithmen in einem Webdokument Präsentation des Verfahrens und der Umsetzung im Seminar (~15 Minuten)

Benotungskriterien Ziele Einarbeitung in ein Themengebiet anhand eines vorgegebenen Papers und Vortrag zu diesem Themengebiet Entwicklung und Implementierung eines Analyseverfahrens Dokumentation und Veröffentlichung des Verfahrens in Form eines Webauftritts Präsentation der Ergebnisse im Seminar Es wird in Gruppen von 3 Personen gearbeitet.

Bilder Geokoordinaten Hashtags Retweets Text Follower Links API Warum Twitter? Bilder Geokoordinaten Hashtags Retweets Text Follower Links API

Techniken Data Mining und Machine Learning Clustering Outlier Detection (bzw. Trend Detection) Regression Klassifikation Frequent Pattern Mining Hot-Spot Detection Graph Pattern Mining Query Processing …

# ? Mögliche Fragestellungen Ziele Retweet Prediction: Wie groß ist für einen gegebenen Tweet die Wahrscheinlichkeit eines Retweets? Trend Analysis: Welche Begriffe sind aktuell im Trend? Hashtag Prediction: Welche Hashtags bieten sich für einen Tweet an? Vergleich der Daten (Text, Geodaten, Bilder, Hashtags, …) von Twitter und Instagram Identifikation interessanter Orte (POIs) Weitere innovative Ideen sind Willkommen! # ?

MediaQ Twitter API Nach einer Registrierung ermöglicht Twitter den Datenzugriff über eine API Streaming API ermöglicht Empfang eines Samples Spezielle Anfragen an die Twitter-API (Begrenzt bzgl. Anzahl an Queries) Implementierungen für eine Vielzahl von Programmiersprachen Crawler wird bereit gestellt (Java) Links: API http://dev.twitter.com/ Libraries: http://dev.twitter.com/overview/api/twitter-libraries

Hard- und Software (Auszug) Hardware Hard- und Software (Auszug) hekto.cip.ifi.lmu.de – 136 GB Arbeitsspeicher, 24 Kerne deka.cip.ifi.lmu.de – 144 GB Arbeitsspeicher, 24 Kerne cerboli.dbs.ifi.lmu.de – 32 GB Arbeitsspeicher, 12 Kerne, Tesla M2090 GPU Nach Anmeldung! https://wiki.cip.ifi.lmu.de/tiki-index.php?page=tiki-sge – Sun Grid Engine des CIP-Pools

Arbeiten mit Texten Texte Tokenization: Splitten von einem Text String in einzelne Worte/Tokens Stopword Removal und Term Weighting: Entfernung irrelevanter Worte (der, die das, …) Gewichtung von Worten nach Informationsgehalt (TF/IDF) Frameworks NLTK (Python) – Stemming, Stopwortlisten, Klassifikatoren, Sentiment Analysis http://www.nltk.org/ Lucene (Java) – Textsuchmaschine http://lucene.apache.org OpenNLP (Java) – Natural Language Processing mit Java https://opennlp.apache.org/

Arbeiten mit Bildern Bilder Mit Caffe (http://caffe.berkeleyvision.org/) können State-of-the-Art Features aus Bildern extrahiert werden, die dann wie beliebige Vektordaten verarbeitet werden können OpenCV ermöglicht die Extraktion weiterer Features theano, numpy und sklearn eignen sich gut für Frage- stellungen aus dem Bereich Machine Learning (nicht nur für Bilder)

Arbeiten mit sozialen Netzwerken Social Graphs Arbeiten mit sozialen Netzwerken FlockDB (Graphdatenbank von Twitter) https://github.com/twitter/flockdb Neo4j (Graphdatenbank) http://neo4j.com Redis (NoSQL) http://redis.io/

Arbeiten mit Geodaten Geodaten Lucene (Textsuchmaschine mit Spatial Tools) http://lucene.apache.org PostGIS (Geodatenbank) http://postgis.net/ Weka (Data-Mining Framework) http://www.cs.waikato.ac.nz/ml/weka/ Elki (Data-Mining Framework) http://elki.dbs.ifi.lmu.de/

Ziele Gruppeneinteilung

Die-Informatiker Forum Austausch Die-Informatiker Forum Unter Hauptstudium -> DBS -> Hauptseminar „Data Science“ 2015

Vortragsthemen (1) Gruppeneinteilung Georgiou, Agrawal, Abbadi GeoScope: Online Detection of Geo-Correlated Information Trends in Social Networks. Topic: Trend Detection. Cataldi, Di Caro, Schifanella: Emerging Topic Detection on Twitter based on Temporal and Social Terms Evaluation. Tropic: Trend Detection. Bakshy, Hofman, Mason, Watts: “Everyone’s an Influencer: Quantifying Influence on Twitter” (2011). Topic: Twitter Analysis. Pak, Paroubek: “Twitter as a Corpus for Sentiment Analysis and Opinion Mining” (1010). Topic: Sentiment Analysis. Wang, Wei, Liu, Zhou, Zhang: “Topic Sentiment Analysis in Twitter: A Graph-based Hashtag Sentiment Classification Approach”. Topic: Graph Mining. Bahmani, Chowdhury, Goel: “Fast Incremental and Personalized PageRank” (2010). Topic: Social Network Analysis. Lu, Chen, Kou: "Algorithms for spatial outlier detection„ (2003). Topic: Spatial Data Analysis. Krizhevsky, Sutskever, Hinton: “ImageNet Classification with Deep Convolutional Neural Networks” (2012). Topic: Image Classification. Castillo, Mendoza, Poblete: “Information Credibility on Twitter” (2011). Topic: Twitter Analysis.

Hausaufgaben bis zum nächsten Mal… Vertraut machen mit den Daten und Plattform API-Richtlinien lesen Twitter Entwickler-Konto anlegen Einfache Applikation zum Zugriff auf die Streaming-API entwickeln Präsentation Erstellen (Präsentationslänge ~20 Minuten) Inhalt des Papers (ca. 15 Minuten) Kreativer Teil (ca. 5 Minuten) Auswahl einer der zuvor erwähnten Analysen oder Entwicklung einer neuen Fragestellung auf den Daten von Twitter oder Instagram Anwendung und ggfs. Anpassung der Techniken des Papers auf die ausgewählte Fragestellung Optional: Weitere Anwendungsideen unabhängig vom Paper