Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Hauptseminar „Data Science“: Mining Social Media

Ähnliche Präsentationen


Präsentation zum Thema: "Hauptseminar „Data Science“: Mining Social Media"—  Präsentation transkript:

1 Hauptseminar „Data Science“: Mining Social Media
Institut für Informatik Hauptseminar „Data Science“: Mining Social Media Hauptseminar SS 2015 Ansprechpartner: Prof. Matthias Renz Dr. Tobias Emrich Johannes Niedermayer

2 Agenda Ablauf Einleitung Seminarüberblick Ziele des Seminars
Ablauf des Seminars Mining Twitter Warum Twitter? Mögliche Fragestellungen Grundlagen Twitter API Tools Einteilung der Gruppen

3 MediaQ Social Media Internetbasierte Applikationen, die auf dem Web 2.0 aufbauen und die Erzeugung sowie den Austausch nutzergenerierter Inhalte ermöglichen

4 Twitter Twitter Microblogging-Plattform
Kommunikation erfolgt über Tweets Kurze Textnachrichten mit bis zu 140 Zeichen Hashtags zur Kategorisierung Möglichkeit der Einbindung von Bildern und Videos Zusätzliche Anreichung mit Geoinformationen möglich Literaturempfehlung: Kwak, Lee, Park, Moon: “What is Twitter, a Social Network or a News Media?“ (2010).

5 Ziele Entwicklung neuer Analysemethodiken für
Microblogging-Plattformen wie Twitter und Instagram Einarbeitung in Fragestellungen des Themengebiets „Data Science“ mit Konzentration auf Social Media Mining Kreative Auseinandersetzung mit den gegebenen Daten Neue Fragestellungen zur Analyse von Social Media Daten entwickeln Ansprechende Visualisierung der Idee Umsetzung der Ideen Implementierung Präsentation

6 Ablauf des Seminars Ablauf des Seminars 1. Termin (Heute)
Vorstellung der Thematik Einteilung der Gruppen 2. Termin (6. November 2015) Meilenstein: theoretische Auseinandersetzung abgeschlossen Paper-Präsentation (Theoretischer Teil) Vorstellung der Projektideen (Praktischer Teil) 3. Termin (4. Novemberwoche) Meilenstein: praktische Einarbeitung beendet Zwischenpräsentation des Projektes Diskussion der Zwischenergebnisse 4. Termin (5. Februar 2016) Meilenstein: Projekt abgeschlossen Abschlusspräsentation des Projektes

7 Ablauf: Theoretischer Teil
Einarbeitung in ein festgelegtes Themengebiet anhand eines vorgegebenen Papers Entwicklung von eigenen Applikationsideen anhand der Publikation anhand eigener Ideen Präsentation der Ergebnisse im Seminar 15 Minuten Paper 5 Minuten eigene Projektideen 5 Minuten Diskussion

8 Ablauf: Praktischer Teil (Einarbeitung)
Einarbeitung in die Twitter- oder Instagram-API und Crawling der benötigten Daten über die API Detaillierte Auseinandersetzung mit den Daten inklusiver erster Experimente - Realdaten sind schwierig: Vorverarbeitung ist kritisch! Vertraulichkeit: Twitter Terms of Service beachten Crawler wird bereit gestellt (Java) Weiterentwicklung der Ideen Skizzierung einer detaillierten Analysepipeline Präsentation der Ergebnisse (~10 Minuten) und Diskussion mit den Betreuern (~5 Minuten)

9 Ablauf: Praktischer Teil (Umsetzung)
Implementierung des entwickelten Analyseverfahrens Dokumentation der Applikation, sowie Beschreibung der Softwarearchitektur und Algorithmen in einem Webdokument Präsentation des Verfahrens und der Umsetzung im Seminar (~15 Minuten)

10 Benotungskriterien Ziele
Einarbeitung in ein Themengebiet anhand eines vorgegebenen Papers und Vortrag zu diesem Themengebiet Entwicklung und Implementierung eines Analyseverfahrens Dokumentation und Veröffentlichung des Verfahrens in Form eines Webauftritts Präsentation der Ergebnisse im Seminar Es wird in Gruppen von 3 Personen gearbeitet.

11 Bilder Geokoordinaten Hashtags Retweets Text Follower Links API
Warum Twitter? Bilder Geokoordinaten Hashtags Retweets Text Follower Links API

12 Techniken Data Mining und Machine Learning Clustering
Outlier Detection (bzw. Trend Detection) Regression Klassifikation Frequent Pattern Mining Hot-Spot Detection Graph Pattern Mining Query Processing

13 # ? Mögliche Fragestellungen Ziele
Retweet Prediction: Wie groß ist für einen gegebenen Tweet die Wahrscheinlichkeit eines Retweets? Trend Analysis: Welche Begriffe sind aktuell im Trend? Hashtag Prediction: Welche Hashtags bieten sich für einen Tweet an? Vergleich der Daten (Text, Geodaten, Bilder, Hashtags, …) von Twitter und Instagram Identifikation interessanter Orte (POIs) Weitere innovative Ideen sind Willkommen! # ?

14 MediaQ Twitter API Nach einer Registrierung ermöglicht Twitter den Datenzugriff über eine API Streaming API ermöglicht Empfang eines Samples Spezielle Anfragen an die Twitter-API (Begrenzt bzgl. Anzahl an Queries) Implementierungen für eine Vielzahl von Programmiersprachen Crawler wird bereit gestellt (Java) Links: API Libraries:

15 Hard- und Software (Auszug)
Hardware Hard- und Software (Auszug) hekto.cip.ifi.lmu.de – 136 GB Arbeitsspeicher, 24 Kerne deka.cip.ifi.lmu.de – 144 GB Arbeitsspeicher, 24 Kerne cerboli.dbs.ifi.lmu.de – 32 GB Arbeitsspeicher, 12 Kerne, Tesla M2090 GPU Nach Anmeldung! – Sun Grid Engine des CIP-Pools

16 Arbeiten mit Texten Texte
Tokenization: Splitten von einem Text String in einzelne Worte/Tokens Stopword Removal und Term Weighting: Entfernung irrelevanter Worte (der, die das, …) Gewichtung von Worten nach Informationsgehalt (TF/IDF) Frameworks NLTK (Python) – Stemming, Stopwortlisten, Klassifikatoren, Sentiment Analysis Lucene (Java) – Textsuchmaschine OpenNLP (Java) – Natural Language Processing mit Java

17 Arbeiten mit Bildern Bilder
Mit Caffe ( können State-of-the-Art Features aus Bildern extrahiert werden, die dann wie beliebige Vektordaten verarbeitet werden können OpenCV ermöglicht die Extraktion weiterer Features theano, numpy und sklearn eignen sich gut für Frage- stellungen aus dem Bereich Machine Learning (nicht nur für Bilder)

18 Arbeiten mit sozialen Netzwerken
Social Graphs Arbeiten mit sozialen Netzwerken FlockDB (Graphdatenbank von Twitter) Neo4j (Graphdatenbank) Redis (NoSQL)

19 Arbeiten mit Geodaten Geodaten
Lucene (Textsuchmaschine mit Spatial Tools) PostGIS (Geodatenbank) Weka (Data-Mining Framework) Elki (Data-Mining Framework)

20 Ziele Gruppeneinteilung

21 Die-Informatiker Forum
Austausch Die-Informatiker Forum Unter Hauptstudium -> DBS -> Hauptseminar „Data Science“ 2015

22 Vortragsthemen (1) Gruppeneinteilung
Georgiou, Agrawal, Abbadi GeoScope: Online Detection of Geo-Correlated Information Trends in Social Networks. Topic: Trend Detection. Cataldi, Di Caro, Schifanella: Emerging Topic Detection on Twitter based on Temporal and Social Terms Evaluation. Tropic: Trend Detection. Bakshy, Hofman, Mason, Watts: “Everyone’s an Influencer: Quantifying Influence on Twitter” (2011). Topic: Twitter Analysis. Pak, Paroubek: “Twitter as a Corpus for Sentiment Analysis and Opinion Mining” (1010). Topic: Sentiment Analysis. Wang, Wei, Liu, Zhou, Zhang: “Topic Sentiment Analysis in Twitter: A Graph-based Hashtag Sentiment Classification Approach”. Topic: Graph Mining. Bahmani, Chowdhury, Goel: “Fast Incremental and Personalized PageRank” (2010). Topic: Social Network Analysis. Lu, Chen, Kou: "Algorithms for spatial outlier detection„ (2003). Topic: Spatial Data Analysis. Krizhevsky, Sutskever, Hinton: “ImageNet Classification with Deep Convolutional Neural Networks” (2012). Topic: Image Classification. Castillo, Mendoza, Poblete: “Information Credibility on Twitter” (2011). Topic: Twitter Analysis.

23 Hausaufgaben bis zum nächsten Mal…
Vertraut machen mit den Daten und Plattform API-Richtlinien lesen Twitter Entwickler-Konto anlegen Einfache Applikation zum Zugriff auf die Streaming-API entwickeln Präsentation Erstellen (Präsentationslänge ~20 Minuten) Inhalt des Papers (ca. 15 Minuten) Kreativer Teil (ca. 5 Minuten) Auswahl einer der zuvor erwähnten Analysen oder Entwicklung einer neuen Fragestellung auf den Daten von Twitter oder Instagram Anwendung und ggfs. Anpassung der Techniken des Papers auf die ausgewählte Fragestellung Optional: Weitere Anwendungsideen unabhängig vom Paper


Herunterladen ppt "Hauptseminar „Data Science“: Mining Social Media"

Ähnliche Präsentationen


Google-Anzeigen