Logfileanalyse Prof. Dr. Eduard Heindl
Elemente einer Logfilezeile IP-Adresse des Clients Identit ä t des Clientrechners (normalerweise nicht verf ü gbar) Identit ä t des Benutzers (nur bei Authentifikation verf ü gbar) Sekundengenauer Zeitpunkt des Abrufs (Serverzeit) Erste Zeile der http Clientanfrage Status der Serverantwort Dateigr öß e in Bytes
Combined Log Format Referer, letztes Dokument im Browser des Besucher Domain von der die Seite abgerufen wurde Browser des Besuchers Betriebssystem des Besuchers [01/Apr/2002:15:04: ] GET / HTTP/ G&hl=de&btnG=Google-Suche&meta=lr%3Dlang_de Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)
Warum Kennziffern Websites müssen sich lohnen Nur gute Websites lohnen sich Kundengerechte Websites sind gute Websites Controlling der Kundenzufriedenheit durch Kennziffern
Klassische Webstatistik MessgrößeProblem UmsatzNur bei reinen E-Shops sinnvoll PageViews (PV)Abhängig von der Auffindbarkeit SitzungsdauerAbhängig von Internetanbindung HitsAbhängig vom Webdesign
Anforderung an Kennziffern Aussagekräftig Unabhängig von Zusatzbefragung Einfach zu ermitteln Keine aufwendige Technik Überschaubare Fehlerquellen Statistisch signifikant Auch auf Einzeldokumente anwendbar
Pageimpression AdImpression "AdImpressions sind der messbare Werbemittelkontakt. Sie bezeichnen die Anzahl der von den Clients der Nutzer abgerufenen (requested) Werbemittel vom Server eines Werbetr ä gers oder anderen AdServers." (dmmv) Pageimpression PI Eine Internetseite im Browser ~ AdImpression Pageview PV Abruf einer HTML Seite vom Server (nicht Aussagekräftig)
Frame Frameseiten haben weniger PI als PV
Usersession Usersession = Visit Visit Zusammenhängender Nutzungsvorgang, Besuch auf der Internetsite View Time Nutzungsdauer, keine exakte Definition verfügbar (dmmv)
Erkenntnisse aus Abweichungen Flut der Anfragen
Marketingerfolg Beispiel einer Marketingkampagne mit Werbebriefen
Seitentypen Entry-, Brücken- und Exitpage
In-Out Analyse
Exit-Page Normale Ursachen Letzte Seite in einem Bestellprozess Linkliste, Angebot eines wichtigen externen Links Struktureller Abschluss etwa Z im Lexikon Newsseite Seite zum Ausdrucken Glossar Kanalwechsel, z.B. Ansprechpersonen, Kontaktformular
Exit-Page Problematische Ursachen Keine internen Links vorhanden Frameunterseiten, die isoliert gesehen werden (Externer Einstieg) Lange Ladezeit Seite hat unerwarteten Inhalt Layout problematisch z.B. zu kleine Schrift Unübliches Datenformat, z.B. Postscript
Berechnung der Kennziffern
Nützliche Kennziffern KennzifferBedeutung In/PV Einstiegseite/Seitenabruf Suchmaschinen, Externe Links Out/PV Letzte Seite/Seitenabruf Seitenqualität, Ladezeitprobleme Only/PV Einzige Seite/Seitenabruf Suchmachinentext, Seiteninhalt
Neue Kennziffer: Fav/PV Annahmen: Gute Seiten werden von Besuchern in die Favoriten aufgenommen (unter Netscape: Bookmark) Je häufiger von verschiedenen Besuchern ein Favorit gesetzt wird, um so besser das Dokument
Favicon im Browser Favicon von Google Standardicon
Das Favicon Das File favicon.ico wird immer vom Webbrowser (IE5 und höher) vom Webserver angefordert, wenn der Besucher ein Lesezeichen setzt. Favicon/Seitenabruf: Kennziffer, die ermittelt, ob ein Besucher Interesse an der Webseite (Website) hat.
Messverfahren Im Logfile werden alle Serveranfragen protokolliert, auch der Faviconabruf Logfileauswertung mit Statistikprogramm (z.B. websuxess) Bestimmung der Abrufe des Files favicon.ico Zeitabhängig Seitenbezogen
Technische Probleme Netscape und Gecko Browser rufen das File favicon.ico bei jedem Seitenabruf auf -> Filtern auf IE-Browser Favicon wird immer aus dem lokalen Verzeichnis geholt -> File in allen Verzeichnissen abspeichern Bezugsseite kann nur durch Pfadanalyse ermittelt werden (rechenaufwendig)
Tageszeitabhängigkeit Bestimmung des Faviconabrufs, relativ zu den Seitenaufrufen Je später der Abend, um so wahr- scheinlicher wird ein Lesezeichen gesetzt
Websitequalität Analyse Relaunch Favicon/Besucher Vorher ~1% Fav/PV Nachher ~2% Fav/PV Relaunch war erfolgreich
Webseitenqualität Auswertung Website Solarserver.de Zeitraum: 1. Quartal 2003 Datenbasis: Ca Seitenaufrufe Lehre: Branchenverzeichnis ist beliebt Die Top Seiten
Suchmaschinen Relevante Suchmaschinen Relevante Suchworte
Nutzung der Suchmaschinen
Externe Links
Quelle der Besucherströme Suchmaschinen Externe Links Favoriten s Manuelle Eingabe
Favoriten Lesezeichen = Bookmark = Favorit Bei Explorer: Abruf des Files favicon.ico Achtung: Netscape 7 ruft das File immer ab
Pfadverfolgung Wenig gleiche Pfade Lange Pfade von Interesse Analyse nach Zielelementen Einzelauswertung mühsam
Pfadlänge Längere Besuche sind wünschenswert Grund der längeren Pfade verstehen Pogosticking vermeiden
Zieldokumente Jede Website hat Targetdokumente Bestellabschluss Newsletterabo
Relevante Hyperlinks
Robotsfile Immer wenn eine Suchmaschine kommt wird das File robots.txt abgerufen
Ladezeit Zuerst wird das HTML-File geladen Bilder werden in der Reihenfolge im HTML Text nachgeladen Anzahl der abgerufenen Bilder gibt Einblick über Besucherverhalten
Fehleranalyse Datenquelle Statistik Signifikanz Grosse Ereigniszahl Längere Zeiträume Einfache Betrachtung Abhängigkeiten erkennen
Schiefe Statistik - Ursachen Suchrobots nicht herausgefiltert Sonderfunktion im Browser nötig Viele Nutzer außerhalb der Zielgruppe (z.B. Mitarbeiter, Sprachraum) Sitzungslänge falsch eingeschätzt Serverfehler falsch einbezogen (404-Fehlerseiten) Proxyserver Bildschirmauflösung Automatische Verknüpfung von Seiten (Frames) Änderung von Dokumentadressen (Seitenumzug) Inhalt – URL Relation falsch interpretiert
Proxyserver Normalerweise mit Meldung 304 zu erkennen Abhängig von HTTP Version Abhängig von Proxyeinstellung Lokaler Cache wird nicht erkannt
Pseudobesucher Interne Besucher (Startseite) Robots Downloads Linkchecker Störer (DDOS) Hacker Frameeinblendungen
Sitedownload
Dynamische Seiten Erzeugung durch Content Management System Erzeugung durch Shopsoftware Besucherindividuell Profilabhängig
Dynamische Seiten
Besuchszeiten Tagesverlauf Wochenverlauf Jahresverlauf Monat? Sehr viele Sondereffekte!
Zyklenvergleich
Statuscode Status aus dem HTTP Header 200 – alles ok 300 – kleine Umleitung 400 – dumme Frage 500 – Server kaputt
IVW Informationsgemeinschaft zur Feststellung der Verbreitung von Werbeträgern e.V. Registrierte Websites werden analysiert Jeder kann die Resultate abrufen Relativ teuer Nützlich für alle Banner-Werbetreibenden
Service aus den USA Arbeitet mit Browserplugin Analyse fremder Websites möglich Teilweise schiefe Statistik Nur ähnliche Websites vergleichbar
Alexa - IVW Problematik der Alexaabfrage
Seitenzähler ASP- Webstatistik Beispiel Hitbox
Trends Alle Bevölkerungsgruppen nutzen das Web Die durchschnittliche Nutzungsdauer wächst Die Internetzugänge werden schneller (DSL) Wachsende Bereitschaft zu Online Transaktionen Leistungsfähige Endgeräte Moderne Browser Multimediale Rechner Höhere Bildschirmauflösung Erfahrene Internetnutzer Heavy User
Vielen Dank für Ihre Aufmerksamkeit Weitere Informationen: