Identifikation der geographischen Lage von Zeitungsartikeln (GIR) Masterarbeit von Tobias Brunner Betreuung: Dr. R. S. Purves
Motivation Suchmaschinen können mit geographischen Anfragen oft wenig anfangen...
Motivation Zeitungsabschnitte Aufgrund von räumlichen Unterteilungen »Scan von NZZ-Vorderseite
Forschungsstand und -kontext geoCLEF GIR: –Geographic information retrieval (GIR) is concerned with providing access to geo- referenced information sources (Larson 2000). –Toponym Detection –Toponym Resolution / Disambiguation –Indexing
Toponym Detection Erkennung von Ortsnamen Methoden: –Gazetteer Lookup GETTY, Geonames, WorldGazetteer, GNIS, NIMA, Bevölkerungsstatistik.de –NER-Systems Regel-basiert, statistisch Z.B. GATE
Toponym Resoultion / Disambiguation Zuweisung von Footprint an Toponym Problem der Mehrdeutigkeit von Toponymen: –Coocurrence (z.B. in Wikipedia) –Hierarchisch –Map-Distance
Indexing Spatial Index Textual Index
Problemstellung und Zielsetzung (1) Statistische Auswertung der Gazetteers (2) Zuweisen von Footprint an Zeitungsartikel (3) Räumlicher Vergleich der Südostschweizartikel mit den NZZ- Artikeln
1. Statistische Auswertung Methodik: –Statistische Methoden in Java programmieren –Daten: Swissnames und Geonames These: Die räumliche Verteilung von mehrdeutigen Ortsnamen ist gleich wie die allgemeine Verteilung von Ortsnamen.
SwissNames (nur Schweiz): –Swisstopo –Kommerziell – Einträge –Hierarchische Angaben (Gemeinde, Kanton) –Typinformationen –Koordinatensystem: H1903 Geonames (weltweit): –Wiki-style User-Editing –Mehr als 8 Mio. Einträge –Hierarchische Angaben: Land –Typinformationen –Koordinatensystem: WGS84
Erste Ergebnisse (1)
Erste Ergebnisse (2)
Mögliche Erklärung...
2. Zuweisen von Footprint an Zeitungsartikel Methodik: –Toponym Detection: Gazetteer Lookup (GATE, SwissNames, Geonames) –Toponym Resolution / Disambiguation: Hierarchische Beziehungen Metonyme: Regeln
3. Räumlicher Vergleich von Südostschweiz- mit NZZ-Artikeln These: Artikel lokaler Zeitungen sind stärker auf ihre Region fokussiert als diejenigen global erhältlicher Zeitungen Aufbauend auf 2. Teil der Arbeit Statistischer Vergleich der Verteilung der Footprints
Problempunkte SwissNames: mehrmalige punkte Kombination SwissNames und Geonames Deutsche Sprache: –Gross-/Kleinschreibung –Satzstellung Zeitungstexte politischer Natur –Metonyme (z.B. Zug, Bern) –Location?
Zeittafel/Meilensteine
Zusammenfassung GIR Statistische Auswertung von SwissNames und Geonames Zuweisen von Footprints an Zeitungsartikel Vergleich von Südostschweizartikeln und NZZ-Artikeln In Java programmiert
Quellen Cunningham, Hamish et al. (2007): GATE - General Architecture for Text Engineering. Zugriff: Geonames (2007): Zugriff Larson, Ray R. (2000): Geographic Information Retrieval and Spatial Browsing. Zugriff: SwissTopo (2006): SwissNames - Georeferenzierte Sammlung der Landeskartennamen. Zugriff: