Identifikation der geographischen Lage von Zeitungsartikeln (GIR) Masterarbeit von Tobias Brunner Betreuung: Dr. R. S. Purves.

Slides:



Advertisements
Ähnliche Präsentationen
Ehemaliges Deutsches Bibliotheksinstitut Berlin
Advertisements

Das Web in der politischen Bildung – Das Politische im Web
Prof. Dr. Stephan Pareigis Prof. Dr. Birgit Wendholt
Kohonennetze für Information Retrieval mit User Feedback
Peer-to-Peer Tauschbörsen
Ökologischer Weinbau in Europa und weltweit
GESIS Bernd Hermes, Heiko Hellweg, Dr. Maximilian Stempfhuber Informationszentrum Sozialwissenschaften, Bonn Unterstützung kooperativer Verfahren beim.
Aufbau des Internets Überblick Prof. Dr. T. Hildebrandt
Das Erstellen einer Hausarbeit
EXPLOIT - Verbreitung und Verwertung der Ergebnisse des EU-Bibliotheksprogramms Ehemaliges Deutsches Bibliotheksinstitut Berlin EXPLOIT 1 Elektronische.
Agenda Branchen- überblick Fallbeispiel Chancen & Herausford. Fazit
Agenda Branchen- überblick Fallbeispiel Chancen & Herausford. Fazit
Browser Von Anna Zietek und Peter Paulus Verwendung Aufbau Anwendung.
Einführung Richard Göbel.
Die SSG-FI-Guides Anglistik Guide, Geo-Guide, History Guide, MathGuide Einführung und Hintergrund Dr. Wilfried Enderle SSG-FI-Workshop in der.
Das Build-Tool ANT ETIS SS05. ETIS SS05 - Nadine FröhlichANT 2 Gliederung Motivation Build - Datei –Allgemeiner Aufbau –Project –Target –Task –Properties.

Brandenburgische Technische Universität Cottbus Program Profiling Andrzej Filipiak Übung Testen von Software SoSe 2006.
Spree SoSe 2007 Titel Lexikographie und Metalexikographie Lexikonproduktion und Lexikontheorie Dank an Franziskus Geeb, der mir seine Unterrichtsmaterialien.
Informationsarchitektur Beschreiben und Benennen
WhatsUp Gold
Was ist eine Datenbank? ermöglicht die Eingabe von Daten
Beziehungen zwischen Klassen
Was sind Cluster und wie sind sie aufgebaut
Entitäten Extraktion Einführung
Anglo-Amerikanische Korpuslinguistik Anglo-American Corpus Linguistics Erstellt von Gudrun Krenn Slawische Korpuslinguistik SE SS 2006 Dr. Branko Tošović
E-lib.ch im europäischen Kontext von Wolfram Neubauer, Zürich Digitale Medien und Infrastrukturen / 11. u
Studentische Arbeiten im Social Web Aktuelle Nutzung und Anforderungen für die Nutzung Klaus Tochtermann Seite 1.
China mit Hauptstadt Peking Olympiade in Beijing 2008 Olympic Games
Fragen des Alters und des Alterns
Profile zeichnen – verschiedene Möglichkeiten
Übersicht Was ist cocoon? Separation of Concerns Pipeline Modell
Dr. Nicole Gallina Einführung in die Politikwissenschaft Sitzung vom 21.9.
Allgemeines zu Datenbanken
Urban Audit und Indikatoren der regionalen Disparitäten
RATEME Suchen und Bewerten von Ausgangsorten. Inhalt RateMe - Pirmin Schürmann, Thomas Junghans - Hochschule für Technik Zürich 2 Unser Ziel.
Das Internet Von Stefan Pfleger Stefan Pfleger.
AIRBNB Sibylle Frey und Alisa Zaugg
Struktur von RDF Fabian Scheller.
OpenStreetMap.org Einleitung und Erläuterung von OSM 1Created by: Rudolf Kremsner.
Using latent semantic analysis to find different names for the same entity in free text Präsentation und Diskussion des Papers Im Rahmen des PS Web-Information.
Proseminar GMA Web Suche und Information Retrieval (SS07)
Dokumentation von Software
Länder und Flaggen Europa Countries and flags EU
Wie sicher ist W-LAN?.
Wikis und Wikipedia Michal Simko Otis Skopik.
VU Digitale Medien - Lehreinheit 5 Digitale Lernobjekte Was ist E-Learning?
Koordinatensystem Das Gradnetz der Erde ist ein gedachtes Koordinatensystem auf der Erdoberfläche mit sich rechtwinklig schneidenden Längen- und Breitenkreisen;
Europa Europa: Eigenständiger Kontinent oder Subkontinent (Eurasien)
Bilder: Lizenz: public Domain commons. wikimedia
Information Retrieval, Vektorraummodell
DHMs aus dem Internet Tobias Keller.
Diplomat Von Max Seiwald.
Datenbanken Verwalten
Das kostenlose Lexikon im Internet Stelle dir eine Welt vor, in der alle freien Zugang zum gesamten Wissen der Menschen haben Computeria Wallisellen Joachim.
Die Abkürzungen des Internets
Willkommen zum Brückensemester
Neutronen Reflektometrie
8. November 2006Autor: Walter Leuenberger Computeria Urdorf Treff vom 8. November 2006 Digitale Kartenprodukte Swiss Map 50 und Swiss Map 25.
Studiumbereich: Informatik
14. Januar 2009Autor: Walter Leuenberger Computeria Urdorf Treff vom 14. Januar 2009 Interessante und nützliche URL’s.
Katarina Mir Natalija Ošep
Informationsrecherche & Analyse im Netz
Beispiel Somalia.
Was wissen Sie über unsere Erde?
Webserver Apache & Xampp Referenten: Elena, Luziano und Sükran
Geschichte - Entstehung - Was ist PHP? Einordnung - Allgemeines
GATE/Annie Zara Kanaeva, November 2002, Information Extraction.

 Präsentation transkript:

Identifikation der geographischen Lage von Zeitungsartikeln (GIR) Masterarbeit von Tobias Brunner Betreuung: Dr. R. S. Purves

Motivation Suchmaschinen können mit geographischen Anfragen oft wenig anfangen...

Motivation Zeitungsabschnitte Aufgrund von räumlichen Unterteilungen »Scan von NZZ-Vorderseite

Forschungsstand und -kontext geoCLEF GIR: –Geographic information retrieval (GIR) is concerned with providing access to geo- referenced information sources (Larson 2000). –Toponym Detection –Toponym Resolution / Disambiguation –Indexing

Toponym Detection Erkennung von Ortsnamen Methoden: –Gazetteer Lookup GETTY, Geonames, WorldGazetteer, GNIS, NIMA, Bevölkerungsstatistik.de –NER-Systems Regel-basiert, statistisch Z.B. GATE

Toponym Resoultion / Disambiguation Zuweisung von Footprint an Toponym Problem der Mehrdeutigkeit von Toponymen: –Coocurrence (z.B. in Wikipedia) –Hierarchisch –Map-Distance

Indexing Spatial Index Textual Index

Problemstellung und Zielsetzung (1) Statistische Auswertung der Gazetteers (2) Zuweisen von Footprint an Zeitungsartikel (3) Räumlicher Vergleich der Südostschweizartikel mit den NZZ- Artikeln

1. Statistische Auswertung Methodik: –Statistische Methoden in Java programmieren –Daten: Swissnames und Geonames These: Die räumliche Verteilung von mehrdeutigen Ortsnamen ist gleich wie die allgemeine Verteilung von Ortsnamen.

SwissNames (nur Schweiz): –Swisstopo –Kommerziell – Einträge –Hierarchische Angaben (Gemeinde, Kanton) –Typinformationen –Koordinatensystem: H1903 Geonames (weltweit): –Wiki-style User-Editing –Mehr als 8 Mio. Einträge –Hierarchische Angaben: Land –Typinformationen –Koordinatensystem: WGS84

Erste Ergebnisse (1)

Erste Ergebnisse (2)

Mögliche Erklärung...

2. Zuweisen von Footprint an Zeitungsartikel Methodik: –Toponym Detection: Gazetteer Lookup (GATE, SwissNames, Geonames) –Toponym Resolution / Disambiguation: Hierarchische Beziehungen Metonyme: Regeln

3. Räumlicher Vergleich von Südostschweiz- mit NZZ-Artikeln These: Artikel lokaler Zeitungen sind stärker auf ihre Region fokussiert als diejenigen global erhältlicher Zeitungen Aufbauend auf 2. Teil der Arbeit Statistischer Vergleich der Verteilung der Footprints

Problempunkte SwissNames: mehrmalige punkte Kombination SwissNames und Geonames Deutsche Sprache: –Gross-/Kleinschreibung –Satzstellung Zeitungstexte politischer Natur –Metonyme (z.B. Zug, Bern) –Location?

Zeittafel/Meilensteine

Zusammenfassung GIR Statistische Auswertung von SwissNames und Geonames Zuweisen von Footprints an Zeitungsartikel Vergleich von Südostschweizartikeln und NZZ-Artikeln In Java programmiert

Quellen Cunningham, Hamish et al. (2007): GATE - General Architecture for Text Engineering. Zugriff: Geonames (2007): Zugriff Larson, Ray R. (2000): Geographic Information Retrieval and Spatial Browsing. Zugriff: SwissTopo (2006): SwissNames - Georeferenzierte Sammlung der Landeskartennamen. Zugriff: