EnviroInfo 2011, Ispra, 5. October 2011 Identifying Information with Environmental Relevance in Web Sites of the Public Administration Using Automatic.

Slides:



Advertisements
Ähnliche Präsentationen
Cadastre for the 21st Century – The German Way
Advertisements

PRESENTATION HEADLINE
Environmental Assessment in Germany Environmental Assessment in Federations: Current Dynamics and Emerging Issues September , 2009 Ottawa, Canada.
Vernetzung von Repositorien : DRIVER Guidelines Dr Dale Peters, SUB Goettingen 4. Helmholtz Open Access Workshop Potsdam, 17 Juni 2008.
PSI and Competition The General Framework
Development of a Web-Service for the DIOXIN- Database of Germany
DNS-Resolver-Mechanismus
Managing the Transition from School-to-Work Empirical Findings from a Mentoring Programme in Germany Prof. i.V. Dr. Martin Lang.
Forschungsdatenzentrum der Bundesagentur für Arbeit im Institut für Arbeitsmarkt- und Berufsforschung Two Issues on Remote Data Access.
R. Zankl – Ch. Oelschlegel – M. Schüler – M. Karg – H. Obermayer R. Gottanka – F. Rösch – P. Keidler – A. Spangler th Expert Meeting Business.
Herzlich Willkommen zum Informations-Forum: SAP Interoperabilität
Die ZBW ist Mitglied der Leibniz-Gemeinschaft Copyright © ZBW 2010 Seite 1 Potenziale semantischer Technologien für die Bibliothek der Zukunft Klaus Tochtermann.
1 | R. Steinbrecher | IMK-IFU | KIT – die Kooperation von Forschungszentrum Karlsruhe GmbH und Universität Karlsruhe (TH) Natural Sources SNAP11.
First Seminar in Brussels, 15th of December 2010
Die Senatorin für Arbeit, Frauen, Gesundheit, Jugend und Soziales ESF-Verwaltungsbehörde Freie Hansestadt Bremen Hildegard Jansen, head of Unit labour.
FAST-LAIN Meeting May 2011 in Saarbrücken Partner Profile – Template Please use information from your FAST-LAIN work book for your profile in the.
Institut für Softwaresysteme in Wirtschaft, Umwelt und Verwaltung Folie 1 DER UMWELT CAMPUS BIRKENFELD ISS Institut für Softwaresysteme in Wirtschaft,
Fakultät für informatik informatik 12 technische universität dortmund Specifications Peter Marwedel TU Dortmund, Informatik 12 Graphics: © Alexandra Nolte,
NUMEX – Numerical experiments for the GME Fachhochschule Bonn-Rhein-Sieg Wolfgang Joppich PFTOOL - Precipitation forecast toolbox Semi-Lagrangian Mass-Integrating.
Insulin pump therapy in adults allows metabolic control at lower rates of hypoglycemia along with reduced insulin doses – results from the nationwide DPV-survey.
Lancing: What is the future? Lutz Heinemann Profil Institute for Clinical Research, San Diego, US Profil Institut für Stoffwechselforschung, Neuss Science.
Three minutes presentation I ArbeitsschritteW Seminar I-Prax: Inhaltserschließung visueller Medien, Spree WS 2010/2011 Giving directions.
Thomas Herrmann Software - Ergonomie bei interaktiven Medien Step 6: Ein/ Ausgabe Instrumente (Device-based controls) Trackball. Joystick.
Introduction to BOS Supplier Guidelines v6
POST MARKET CLINICAL FOLLOW UP
Introduction to the topic. Goals: Improving the students essay style in general Finding special words and expressions that can be used in essay writing.
CTS2 based Terminology Server – Overview – Project eBPG
Fachabteilung 16A Überörtliche Raumplanung Cross border co-operation from the view of a public administration unit.
Deutsche Gesellschaft für Technische Zusammenarbeit GmbH Integrated Experts as interface between technical cooperation and the private sector – An Example.
Methods Fuzzy- Logic enables the modeling of rule based knowledge by the use of fuzzy criteria instead of exact measurement values or threshold values.
Institut für Meteorologie und Klimatologie Universität Hannover Solare Strahlung – Stand und Perspektiven ihrer Erforschung Gunther Seckmeyer Short Notice.
Case Study Session in 9th GCSM: NEGA-Resources-Approach
Institut AIFB, Universität Karlsruhe (TH) Forschungsuniversität gegründet 1825 Towards Automatic Composition of Processes based on Semantic.
Institut für Solare Energieversorgungstechnik Verein an der Universität Kassel Bereich Energetische Biomassenutzung, Hanau Dipl.-Ing. J. Müller Bioturbine,
| DC-IAP/SVC3 | © Bosch Rexroth Pneumatics GmbH This document, as well as the data, specifications and other information set forth in.
Eigenbetrieb IT- und Organisationsdienstleistungen Dresden EU Service Directive updated work plan and basics of the final document.
Centre for Public Administration Research E-Government for European Cities Thomas Prorok
BAS5SE | Fachhochschule Hagenberg | Daniel Khan | S SPR5 MVC Plugin Development SPR6P.
The free XML Editor for Windows COOKTOP Semistrukturierte Daten 1 Vortrag Semistrukturierte Daten 1 COOKTOP The free XML-Editor for Windows
Deutsch 1 G Stunde. Donnerstag, der 25. Oktober 2012 Deutsch 1, G Stunde Heute ist ein B- Tag Unit: Family & homeFamilie & Zuhause Objectives: Phrases.
Deutsch 1 G Stunde. Donnerstag, der 18. Oktober 2012 Deutsch 1, G Stunde Heute ist ein E- Tag Unit: Family & homeFamilie & Zuhause Objectives: Phrases.
Deutsch 1 G Stunde. Donnerstag, der 18. Oktober 2012 Deutsch 1, G Stunde Heute ist ein D- Tag Unit: Family & homeFamilie & Zuhause Objectives: Phrases.
Department of Computer Science Homepage HTML Preprocessor Perl Database Revision Control System © 1998, Leonhard Jaschke, Institut für Wissenschaftliches.
INTAKT- Interkulturelle Berufsfelderkundungen als ausbildungsbezogene Lerneinheiten in berufsqualifizierenden Auslandspraktika DE/10/LLP-LdV/TOI/
BOKU – University of Natural Resources and Applied Life Sciences Department of Forest and Soil Sciences Has undergone several sever changes during the.
DEUTSCHLAND UND DIE MEDIEN
Verben Wiederholung Deutsch III Notizen.
SIT-MOON ESPRIT Project Nr st Review, Brussels, 27th of April 1998 slide 1 Siemens AG Österreich Robotiker Technische Universität Wien Politecnico.
Faculty of Public Health Department of Health Economics and Management University of Bielefeld WP 3.1 and WP 4.1: Macrocost EUprimecare Plenary Meeting.
Berner Fachhochschule Hochschule für Agrar-, Forst- und Lebensmittelwissenschaften HAFL Recent activities on ammonia emissions: Emission inventory Rindvieh.
4th Symposium on Lidar Atmospheric Applications
Ein Projekt des Technischen Jugendfreizeit- und Bildungsvereins (tjfbv) e.V. kommunizieren.de Blended Learning for people with disabilities.
Talking about yourself
Demonstration of Performance of CASCOT 5.0
ESSnet Workshop Conclusions.
1 von 10 ViS:AT Abteilung IT/3, IT – Systeme für Unterrichtszwecke ViS:AT Österreichische Bildung auf Europaniveau BM:UKK Apple.
FORSCHUNGSINSTITUT FÜR ÖFFENTLICHE VERWALTUNG BEI DER DEUTSCHEN HOCHSCHULE FÜR VERWALTUNGSWISSENSCHAFTEN SPEYER Dr. Sonja Bugdahn 1 Can New Regulators.
3rd Review, Vienna, 16th of April 1999 SIT-MOON ESPRIT Project Nr Siemens AG Österreich Robotiker Technische Universität Wien Politecnico di Milano.
Berner Fachhochschule Hochschule für Agrar-, Forst- und Lebensmittelwissenschaften HAFL 95% der Ammoniakemissionen aus der Landwirtschaft Rindvieh Pflanzenbau.
Ohne Rohstoffe keine Keramik No Ceramics Without Raw Materials
Wind Energy in Germany 2004 Ralf Christmann, BMU Joachim Kutscher, PTJ
Globale Plattform-Entwicklung für steigende Nachhaltigkeit
KIT – die Kooperation von Forschungszentrum Karlsruhe GmbH und Universität Karlsruhe (TH) Vorlesung Knowledge Discovery - Institut AIFB Tempus fugit Towards.
Lehrstuhl für Waldbau, Technische Universität MünchenBudapest, 10./11. December 2006 WP 1 Status (TUM) Bernhard Felbermeier.
Selectivity in the German Mobility Panel Tobias Kuhnimhof Institute for Transport Studies, University of Karlsruhe Paris, May 20th, 2005.
KGE Kommunalgrund GmbH Entwicklungsträger der Landeshauptstadt Magdeburg Presentation for the REDIS Project at the Interim Conference.
Technische Universität München 1 CADUI' June FUNDP Namur G B I The FUSE-System: an Integrated User Interface Design Environment Frank Lonczewski.
Andreas Burger ZENTRUM FÜR MEDIZINISCHE LEHRE RUHR-UNIVERSITÄT BOCHUM Irkutsk October 2012 Report about the lecture "Report of the TEMPUS IV- Project Nr.
Page 1 XXX21/08/2014 Implemented by Benutzen Sie diese Titelfolie für Programme und Projekte im Ausland. Setzen Sie das „einheitliche Logo der Zusammenarbeit“
Leonardo da Vinci Zukunftsbau GmbH European basic qualifications for building professions.
 Präsentation transkript:

EnviroInfo 2011, Ispra, 5. October 2011 Identifying Information with Environmental Relevance in Web Sites of the Public Administration Using Automatic Classification Franz Schenk, Coordination Center PortalU at the Lower Saxony Ministry of Environment and Climate Protection Daniel Meyerholt Department of Business Informatics at the University of Oldenburg

2 About PortalU Information brokering system Environmental data, literature, research projects, metadata,... Information from public authorities (all federal states and institutions of the federal government) Web Index, ~5mio Web pages all content with environmental relevance collaboratively compiled by the project partners

3 Web Crawler Pattern-based definitions of relevant web pages Entry point (= start URL) e.g. sachsen.de/umwelt.html Boundaries of the site (= limit URL ) e.g. umwelt.sachsen.de Exclusion patterns (= exclude URL) e.g. umwelt.sachsen.de/umwelt/2420.htm

4 Structure of Web Sites

5 Automatic Classification Typical application: spam filters Objective in the context of PortalU: Integration into nutch Web-crawler as a plugin Automatic detection of environmental relevance of single weg pages -> only the entry points to Web sites have to be provided

6 How does it work? Training Sets Creation of dictionaries for each training set Training of algorithm Testing of algorithm (on part of the training set) Evaluation on a test domain

7 Training Sets Two sets of Web Pages. both public authorities disjunct content with respect to environmental relevance uba.de (Federal Environment Agency) sachsen.de (Saxony) and rlp.de (Rhineland-Palatine)

8 Training Sets & Dictionaries uba.de (A) sachsen.de (B1) uba.de (A) sachsen.de + rlp.de (B2) Number of Web pages Size of dictionary available, insbesondere, texte, nachhaltiger, policy, adresse, development, pollutant, fachbibliothek, toxic, german, stellenangebote, luft, protection, resource, gesamtkatalog, rahmen, luftreinhaltung, bereich, system, consumption, conservation, antarktis, kostenlos, spatial, water, materialien, altlasten, stoffe, plant, verwandte, partnerverlage, publikation, report, chemikalienpolitik, release, mediendatenbank, internationaler, raumbezogene, energie, noise, umweltplanung, umwelt, landwirtschaft, änderung, boden, entwicklung, umweltbundesamt, erhalten, climate, planning, control, nachhaltige, health, safety, anlagensicherheit, produktion, ziel, deutschland, lärm, anforderungen, associational, technische, grundwasser, sites, internationale, rechtliche, related, order, energy, hintergrundpapiere, reach, informationen, trinkwasser, antarctic, schadstoffe, foodstuffs, gesundheit, verkehr, umweltbeobachtung, maßnahmen, umweltökonomie, umweltmanagement, change, jugendliche, sustainable, pollution, reihe, umweltrecht, products, kennnummer, kinder, waste, pollutants, cyanocenter, ressourcenschonung, environment, schutz, nahrungsmittelindustrie, services, umweltbewusstsein, awareness, environmental, papers, federal, richtlinie, economics, hygiene, transport, contaminated, wasser, teil, bewertung, free, background, produkte, konsum, gewässerschutz, umwelthygiene, bestellen, energieeffizienz, abfallwirtschaft, daten, agriculture, umsetzung, verbandsklage, wissen, sachgebiete, beiträge, langfassung, fragen, management, international, aktuelle, chemicals, germany, ergebnisse, neuerscheinungen, know, industry, klimaschutz, data, grundlagen, umweltschutz, monitoring, agency, gesamtliste, umweltinformation, umweltbundesamtes, claims, soil, transfer, ratgeber

9 Dictionaries: Results mixture of specialized and general terms (environment is a cross-sectoral topic) Mixture of english and german terms Manual refinement necessary: Many irrelevant terms that only concern the structure of the Web site have to be removed (e.g. site navigation, dates, Names,... )

10 Training: Evaluation Procedure randomly choose 2/3 of Web pages for training use the other 1/3 of Web pages for evaluation Typical measures Precision: tp/(tp + fp) Recall: tp/(tp + fn) F1 (weighted harmonic mean,or F measure) trades off precision versus recall MicroF1 (micro averaged harmonic mean, well suited average value when the document classes differ greatly in size)

11 Training and Testing of Algorithms Naïve Bayes A + B 1 A + B 2 AB1B1 AB 2 Precision Recall F MicroF Support Vector Machines A + B 1 A + B 2 AB1B1 AB 2 Precision Recall F MicroF

12 Evaluation on Test Domain Test Domain: niedersachsen.de niedersachsen.deTotal: pages from relevant sub-domains:Total: (pseudo a priori knowledge) Relevant subdomains: umwelt, numis, mu, mu1, lbeg, nlwkn, naturparke, weltnaturerbe, wattenmeerstiftung, nlga, nna-en, nna, elbtalaue, life-duemmer, naturschutzgebiete, natur-erleben, umweltbericht, umweltkarten

13 Results Naïve BayesSupport Vector Machines C(A+B 1 )C(A+B 2 )C(A+B 1 )C(A+B 2 ) Precision Recall F TP FP FN TN

14 Conclusions Evaluation of results is difficult, correctness of results is hard to be proven e.g. &_psmand=17 Marked as unrelevant by Naïve Bayes Identified as relevant by SVM Not all false positives are incorrect!

15 Again: Results Naïve BayesSupport Vector Machines C(A+B 1 )C(A+B 2 )C(A+B 1 )C(A+B 2 ) Precision Recall F TP FP FN TN

16 Outlook Precise a priori knowledge on large sets of documents is needed (like reuter text corpus) Tests with other / larger training sets Classifying Web pages with respect to environmental themes