Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Michael Becker SAP AG Betreuer: Sven Helmer

Ähnliche Präsentationen


Präsentation zum Thema: "Michael Becker SAP AG Betreuer: Sven Helmer"—  Präsentation transkript:

1 Michael Becker SAP AG Betreuer: Sven Helmer
Diplomarbeit Michael Becker SAP AG Betreuer: Sven Helmer

2 1 2 3 4 5 6 Überblick Einführung Themen der Diplomarbeit
Die Suchmaschine der SAP 4 TCL-Algorithmus 5 Testergebnisse 6 Fazit & Ausblick

3 Ziel: Einführung Titel der Diplomarbeit:
Analyse und Auswertung von User-Logs im Umfeld der SAP- Suchmaschine Status: Nutzerverhalten geht nicht in Suchvorgang ein -> Durchführung eines impliziten Relevance Feedback Ziel: Implizite Relevance Feedback zur Verbesserung von Precision & Recall (Query-Expansion) Anpassung des Internetportals (Navigationsanalyse) Leistungsanalyse von der Suchmaschine Verbesserung des Dokumentenkorpus (Info an Administrator)

4 Themen der Diplomarbeit (1)
Navigations-Analyse Ziel: Internet-Portal benutzer-freundlich gestalten Allgemeine Sicht Benutzer-Spezifische Sicht Vorgehensweise: Clusterbildung Aufzeichnung der Suchen Untersuchung der Links zwischen den Clustern Benutzersicht abbilden

5 Themen der Diplomarbeit (2)
Statistische Auswertungen Bestehende Programme Open Source (Loganalyzer 6.00 Komerzielle (WebTrends Log Analyzer Series von netIQ ) (Python-) Skripte Meistbenutzten Queries Meistgelesenen Dokumente Suchen ohne Treffer SAP-BW Data Mining Verfahren

6 Themen der Diplomarbeit (3)
Algorithmen Ziel: Verbesserung der Retrievalperformance Durchführung: Nutzung von Vergangenheitsdaten Annahme: Die betrachteten Dokumente zu einer Suchanfrage sind auch die relevanten Dokumente Methode: Benutze vorherige „gute“ Anfragen Benutze Query-Expansion

7 Themen der Diplomarbeit - Architektur
TREX Webserver (Suchoberfläche) Python Extension Proxy Query Expansion Logs Admin- Oberfläche Preprocessing Analyse SAP BW Statistiken Stores Navigationsanalyse

8 Die SAP-Suchmaschine TREX (1)
Search and Classification (TREX) Einsatz mit dem SAP Enterprise Portal … Besteht aus den Servern: Nameserver Präprozessor Indexserver Queueserver

9 Die SAP-Suchmaschine TREX (2)
Der Indexserver besteht wiederum aus Search Engine Bietet: Exakte-, Boolesche-, Wildcard-, Fuzzy-, Linguistische Suche Text Mining Engine Suche nach ähnlichen Termen Suche nach ähnlichen Dokumenten Bestimmungf von Schlüsselwörtern (Feature Extraktion) Klassifikation von Dokumenten (Erstellen von Taxonomien) Clustern von Dokumenten Attribute Engine Attribut-Suche Guided Navigation

10 TCL-Algorithmus Term Concept Based Learning –An Approach for Learning Meanings of Queries in Information Retrieval Systems: Ziel: Verlängerung der Such-Begriffe Anpassen der Suchbegriffe an die Terminologie Lern-Phase: Suche zu jedem Query-Term „ähnliche“ Queries Hole alle relevanten Dokumente dieser Queries Bilde die „Konzept-Terme“ Expansion-Phase Erweitere neue Query um die Konzept-Terme

11 Testergebnisse - Testszenario
SAP Help Portal (http://help.sap.com) 6 Indexe ~11 Mio Dokumente ~3,5 Mio Terme in 6 Sprachen ~70 GB Plattenplatz ~ Suchen zu 85 % ein oder zwei Dokumente betrachtet 2/3 aller Suchen haben ein oder zwei Queryterme Benutze „90/10“-Methode Berechnung der mittleren Precision bei Recall =1 Parameter: Feste Anzahl DocFeatures Benutze nur DocFeatures über Schwellwert

12 Testergebnisse - Auswertung
Index: CORE Precision: Standardsuche 57,4 % Anzahl DocFeatures 1 57,9 % 2 60,3 % 3 61,0 % 4 61,2 % 5 59,8 % Threshhold 0,1 57,3 % 0,2 60,8 % 0,3 61,4 % 0,4 60,9 % 0,5 58,2 % 0,9 58,6 %

13 Fazit & Ausblick Verbesserung der Precision wird erreicht !
Optimierungsmöglichkeiten Auswahl der Suchen Linguistische Methoden kurze Queries verwerfen Bewertung der Suchen Verwendung von Dokumentpassagen „Manuelle“ Bewertung von Fällen Datenbasis „verbessert“ sich Täglich ~ Suchen Rollierender Abgleich

14 Fragen Fragen???

15 Copyright 2004 SAP AG. All Rights Reserved
No part of this publication may be reproduced or transmitted in any form or for any purpose without the express permission of SAP AG. The information contained herein may be changed without prior notice. Some software products marketed by SAP AG and its distributors contain proprietary software components of other software vendors. Microsoft®, WINDOWS®, NT®, EXCEL®, Word®, PowerPoint® and SQL Server® are registered trademarks of Microsoft Corporation. IBM®, DB2®, DB2 Universal Database, OS/2®, Parallel Sysplex®, MVS/ESA, AIX®, S/390®, AS/400®, OS/390®, OS/400®, iSeries, pSeries, xSeries, zSeries, z/OS, AFP, Intelligent Miner, WebSphere®, Netfinity®, Tivoli®, Informix and Informix® Dynamic ServerTM are trademarks of IBM Corporation in USA and/or other countries. ORACLE® is a registered trademark of ORACLE Corporation. UNIX®, X/Open®, OSF/1®, and Motif® are registered trademarks of the Open Group. Citrix®, the Citrix logo, ICA®, Program Neighborhood®, MetaFrame®, WinFrame®, VideoFrame®, MultiWin® and other Citrix product names referenced herein are trademarks of Citrix Systems, Inc. HTML, DHTML, XML, XHTML are trademarks or registered trademarks of W3C®, World Wide Web Consortium, Massachusetts Institute of Technology. JAVA® is a registered trademark of Sun Microsystems, Inc. JAVASCRIPT® is a registered trademark of Sun Microsystems, Inc., used under license for technology invented and implemented by Netscape. MarketSet and Enterprise Buyer are jointly owned trademarks of SAP AG and Commerce One. SAP, SAP Logo, R/2, R/3, mySAP, mySAP.com, xApps, mySAP Business Suite, and other SAP products and services mentioned herein as well as their respective logos are trademarks or registered trademarks of SAP AG in Germany and in several other countries all over the world. All other product and service names mentioned are the trademarks of their respective companies.

16 Copyright 2004 SAP AG. Alle Rechte vorbehalten
Weitergabe und Vervielfältigung dieser Publikation oder von Teilen daraus sind, zu welchem Zweck und in welcher Form auch immer, ohne die aus­drückliche schriftliche Genehmigung durch SAP AG nicht gestattet. In dieser Publikation enthaltene Informationen können ohne vorherige Ankün­digung geändert werden. Die von SAP AG oder deren Vertriebsfirmen angebotenen Softwareprodukte können Softwarekomponenten auch anderer Softwarehersteller enthalten. Microsoft®, WINDOWS®, NT®, EXCEL®, Word®, PowerPoint® und SQL Server® sind eingetragene Marken der Microsoft Corporation. IBM®, DB2®, DB2 Universal Database, OS/2®, Parallel Sysplex®, MVS/ESA, AIX®, S/390®, AS/400®, OS/390®, OS/400®, iSeries, pSeries, xSeries, zSeries, z/OS, AFP, Intelligent Miner, WebSphere®, Netfinity®, Tivoli®, Informix und Informix® Dynamic ServerTM sind Marken der IBM Corporation in den USA und/oder anderen Ländern. ORACLE® ist eine eingetragene Marke der ORACLE Corporation. UNIX®, X/Open®, OSF/1® und Motif® sind eingetragene Marken der Open Group. Citrix®, das Citrix-Logo, ICA®, Program Neighborhood®, MetaFrame®, WinFrame®, VideoFrame®, MultiWin® und andere hier erwähnte Namen von Citrix-Produkten sind Marken von Citrix Systems, Inc. HTML, DHTML, XML, XHTML sind Marken oder eingetragene Marken des W3C®, World Wide Web Consortium, Massachusetts Institute of Technology. JAVA® ist eine eingetragene Marke der Sun Microsystems, Inc. JAVASCRIPT® ist eine eingetragene Marke der Sun Microsystems, Inc., verwendet unter der Lizenz der von Netscape entwickelten und implementierten Technologie. MarketSet und Enterprise Buyer sind gemeinsame Marken von SAP AG und Commerce One. SAP, SAP Logo, R/2, R/3, mySAP, mySAP.com, xApps, mySAP Business Suite und weitere im Text erwähnte SAP-Produkte und –Dienstleistungen sowie die entsprechenden Logos sind Marken oder eingetragene Marken der SAP AG in Deutschland und anderen Ländern weltweit. Alle anderen Namen von Produkten und Dienstleistungen sind Marken der jeweiligen Firmen.


Herunterladen ppt "Michael Becker SAP AG Betreuer: Sven Helmer"

Ähnliche Präsentationen


Google-Anzeigen