Michael Becker SAP AG Betreuer: Sven Helmer Diplomarbeit Michael Becker SAP AG Betreuer: Sven Helmer
1 2 3 4 5 6 Überblick Einführung Themen der Diplomarbeit Die Suchmaschine der SAP 4 TCL-Algorithmus 5 Testergebnisse 6 Fazit & Ausblick
Ziel: Einführung Titel der Diplomarbeit: Analyse und Auswertung von User-Logs im Umfeld der SAP- Suchmaschine Status: Nutzerverhalten geht nicht in Suchvorgang ein -> Durchführung eines impliziten Relevance Feedback Ziel: Implizite Relevance Feedback zur Verbesserung von Precision & Recall (Query-Expansion) Anpassung des Internetportals (Navigationsanalyse) Leistungsanalyse von der Suchmaschine Verbesserung des Dokumentenkorpus (Info an Administrator)
Themen der Diplomarbeit (1) Navigations-Analyse Ziel: Internet-Portal benutzer-freundlich gestalten Allgemeine Sicht Benutzer-Spezifische Sicht Vorgehensweise: Clusterbildung Aufzeichnung der Suchen Untersuchung der Links zwischen den Clustern Benutzersicht abbilden
Themen der Diplomarbeit (2) Statistische Auswertungen Bestehende Programme Open Source (Loganalyzer 6.00 Komerzielle (WebTrends Log Analyzer Series von netIQ ) (Python-) Skripte Meistbenutzten Queries Meistgelesenen Dokumente Suchen ohne Treffer SAP-BW Data Mining Verfahren
Themen der Diplomarbeit (3) Algorithmen Ziel: Verbesserung der Retrievalperformance Durchführung: Nutzung von Vergangenheitsdaten Annahme: Die betrachteten Dokumente zu einer Suchanfrage sind auch die relevanten Dokumente Methode: Benutze vorherige „gute“ Anfragen Benutze Query-Expansion
Themen der Diplomarbeit - Architektur TREX Webserver (Suchoberfläche) Python Extension Proxy Query Expansion Logs Admin- Oberfläche Preprocessing Analyse SAP BW Statistiken Stores Navigationsanalyse
Die SAP-Suchmaschine TREX (1) Search and Classification (TREX) Einsatz mit dem SAP Enterprise Portal … Besteht aus den Servern: Nameserver Präprozessor Indexserver Queueserver
Die SAP-Suchmaschine TREX (2) Der Indexserver besteht wiederum aus Search Engine Bietet: Exakte-, Boolesche-, Wildcard-, Fuzzy-, Linguistische Suche Text Mining Engine Suche nach ähnlichen Termen Suche nach ähnlichen Dokumenten Bestimmungf von Schlüsselwörtern (Feature Extraktion) Klassifikation von Dokumenten (Erstellen von Taxonomien) Clustern von Dokumenten Attribute Engine Attribut-Suche Guided Navigation
TCL-Algorithmus Term Concept Based Learning –An Approach for Learning Meanings of Queries in Information Retrieval Systems: Ziel: Verlängerung der Such-Begriffe Anpassen der Suchbegriffe an die Terminologie Lern-Phase: Suche zu jedem Query-Term „ähnliche“ Queries Hole alle relevanten Dokumente dieser Queries Bilde die „Konzept-Terme“ Expansion-Phase Erweitere neue Query um die Konzept-Terme
Testergebnisse - Testszenario SAP Help Portal (http://help.sap.com) 6 Indexe ~11 Mio Dokumente ~3,5 Mio Terme in 6 Sprachen ~70 GB Plattenplatz ~200 000 Suchen zu 85 % ein oder zwei Dokumente betrachtet 2/3 aller Suchen haben ein oder zwei Queryterme Benutze „90/10“-Methode Berechnung der mittleren Precision bei Recall =1 Parameter: Feste Anzahl DocFeatures Benutze nur DocFeatures über Schwellwert
Testergebnisse - Auswertung Index: CORE Precision: Standardsuche 57,4 % Anzahl DocFeatures 1 57,9 % 2 60,3 % 3 61,0 % 4 61,2 % 5 59,8 % Threshhold 0,1 57,3 % 0,2 60,8 % 0,3 61,4 % 0,4 60,9 % 0,5 58,2 % 0,9 58,6 %
Fazit & Ausblick Verbesserung der Precision wird erreicht ! Optimierungsmöglichkeiten Auswahl der Suchen Linguistische Methoden kurze Queries verwerfen Bewertung der Suchen Verwendung von Dokumentpassagen „Manuelle“ Bewertung von Fällen Datenbasis „verbessert“ sich Täglich ~15 000 Suchen Rollierender Abgleich
Fragen Fragen???
Copyright 2004 SAP AG. All Rights Reserved No part of this publication may be reproduced or transmitted in any form or for any purpose without the express permission of SAP AG. The information contained herein may be changed without prior notice. Some software products marketed by SAP AG and its distributors contain proprietary software components of other software vendors. Microsoft®, WINDOWS®, NT®, EXCEL®, Word®, PowerPoint® and SQL Server® are registered trademarks of Microsoft Corporation. IBM®, DB2®, DB2 Universal Database, OS/2®, Parallel Sysplex®, MVS/ESA, AIX®, S/390®, AS/400®, OS/390®, OS/400®, iSeries, pSeries, xSeries, zSeries, z/OS, AFP, Intelligent Miner, WebSphere®, Netfinity®, Tivoli®, Informix and Informix® Dynamic ServerTM are trademarks of IBM Corporation in USA and/or other countries. ORACLE® is a registered trademark of ORACLE Corporation. UNIX®, X/Open®, OSF/1®, and Motif® are registered trademarks of the Open Group. Citrix®, the Citrix logo, ICA®, Program Neighborhood®, MetaFrame®, WinFrame®, VideoFrame®, MultiWin® and other Citrix product names referenced herein are trademarks of Citrix Systems, Inc. HTML, DHTML, XML, XHTML are trademarks or registered trademarks of W3C®, World Wide Web Consortium, Massachusetts Institute of Technology. JAVA® is a registered trademark of Sun Microsystems, Inc. JAVASCRIPT® is a registered trademark of Sun Microsystems, Inc., used under license for technology invented and implemented by Netscape. MarketSet and Enterprise Buyer are jointly owned trademarks of SAP AG and Commerce One. SAP, SAP Logo, R/2, R/3, mySAP, mySAP.com, xApps, mySAP Business Suite, and other SAP products and services mentioned herein as well as their respective logos are trademarks or registered trademarks of SAP AG in Germany and in several other countries all over the world. All other product and service names mentioned are the trademarks of their respective companies.
Copyright 2004 SAP AG. Alle Rechte vorbehalten Weitergabe und Vervielfältigung dieser Publikation oder von Teilen daraus sind, zu welchem Zweck und in welcher Form auch immer, ohne die ausdrückliche schriftliche Genehmigung durch SAP AG nicht gestattet. In dieser Publikation enthaltene Informationen können ohne vorherige Ankündigung geändert werden. Die von SAP AG oder deren Vertriebsfirmen angebotenen Softwareprodukte können Softwarekomponenten auch anderer Softwarehersteller enthalten. Microsoft®, WINDOWS®, NT®, EXCEL®, Word®, PowerPoint® und SQL Server® sind eingetragene Marken der Microsoft Corporation. IBM®, DB2®, DB2 Universal Database, OS/2®, Parallel Sysplex®, MVS/ESA, AIX®, S/390®, AS/400®, OS/390®, OS/400®, iSeries, pSeries, xSeries, zSeries, z/OS, AFP, Intelligent Miner, WebSphere®, Netfinity®, Tivoli®, Informix und Informix® Dynamic ServerTM sind Marken der IBM Corporation in den USA und/oder anderen Ländern. ORACLE® ist eine eingetragene Marke der ORACLE Corporation. UNIX®, X/Open®, OSF/1® und Motif® sind eingetragene Marken der Open Group. Citrix®, das Citrix-Logo, ICA®, Program Neighborhood®, MetaFrame®, WinFrame®, VideoFrame®, MultiWin® und andere hier erwähnte Namen von Citrix-Produkten sind Marken von Citrix Systems, Inc. HTML, DHTML, XML, XHTML sind Marken oder eingetragene Marken des W3C®, World Wide Web Consortium, Massachusetts Institute of Technology. JAVA® ist eine eingetragene Marke der Sun Microsystems, Inc. JAVASCRIPT® ist eine eingetragene Marke der Sun Microsystems, Inc., verwendet unter der Lizenz der von Netscape entwickelten und implementierten Technologie. MarketSet und Enterprise Buyer sind gemeinsame Marken von SAP AG und Commerce One. SAP, SAP Logo, R/2, R/3, mySAP, mySAP.com, xApps, mySAP Business Suite und weitere im Text erwähnte SAP-Produkte und –Dienstleistungen sowie die entsprechenden Logos sind Marken oder eingetragene Marken der SAP AG in Deutschland und anderen Ländern weltweit. Alle anderen Namen von Produkten und Dienstleistungen sind Marken der jeweiligen Firmen.