Information Retrieval mit Oracle Text Erfahrungsbericht.

Slides:



Advertisements
Ähnliche Präsentationen
Menüstruktur automatisch angepasste Menüstruktur auf der Internetseite = Neue Seite im Content – Management- System ergibt neuen.
Advertisements

Webinar für [Name der Gruppe] [Name des Institutes]
GIS und Google Earth Konkurrenz oder sinnvolle Partnerschaft Teil II
Web Storage System - Einrichten, Verwalten und Anwendungsmöglichkeiten
Studienarbeit Entwurf und Implementierung eines UPnP-Browsers
Zusammenarbeit in Office mit den SharePoint Technologien Michael Carpi
Basis-Architekturen für Web-Anwendungen
Content Management Systems
Erweiterung B2B Usermanagement / LDAP-Anbindung
Fallstudie. 2 Statistik April Dokumente Jan Mio. Dokumente Performance 3 Mio. Queries pro Tag 9. Juni 2000 Most popular search engines.
ATHOS Benutzertreffen 12. November Archivierung Glashütten, 12. November 2008 HighQSoft GmbH, Karst Schaap
Anwendungen. © Prof. T. Kudraß, HTWK Leipzig Historie des WWW Grundlage Internet – Entwickelt Ende der 60er Jahre vom US-Militär (ARPA-Net) – Technische.
Technik Gestaltung Navigation Daten. Übersicht Client Webbrowser InternetServer.
By Monika Krolak & Christian Meschke
Praxis der Metadatenerfassung Markus Enders Goettingen State and University Library
Access 2000 Datenbanken.
© by TMND GmbH TMspeak Automatisierte Vertonung strukturierter Textinformationen TMND GmbH Vortrag von der.
Wizards & Builders GmbH Schulung Visual SourceSafe für Visual FoxPro Norbert Abb W&B.
Praktischer Einstieg in EDMS Thomas A. Badura. Inhalt GSI Praktischer Einstieg IT/EE Palaver T. Badura 27. März 2007 Grundlagen Grundlagen EDMS.
Xindice Datenbanken vs. Markup Prof Dr. Manfred Thaller WS 2009 / 2010 Referent: Seyda Kurt.
IBM Workplace Forms - In Kürze © 2007 IBM Corporation XML basierte elektronische Formulare: Effizienzsteigerung und Kostenreduktion durch Automatisierung.
Typo3 Eine Einführung.
Datenmodelle, Datenbanksprachen und Datenbankmanagementsysteme
Requiline Seminar Bassem Ben Helal. Inhalt Motivation Kernfunktionalitäten Architektur Hierarchie Typen Abhängigkeiten Variabilitätspunkte Produktkonfiguration.
IGEL UMS Universal Management Suite Oktober 2011 Florian Spatz
Datei- übertragungs- Programm
Ein Produkt der blueend web:applications AG Customer Relationship Management - Funktionsumfang -
Sharpdesk Überblick Desktop Composer Suche Imaging      
EIN CMS MACHT SCHULE Tina Gasteiger.
Clustered Neuronal Network A C#.NET project for Compute Cluster Server 2003.
Clustered Neuronal Network A C#.NET project for Compute Cluster Server 2003.
Präsentation von: Tamara Nadine Elisa
Thats IT!. Titelmasterformat durch Klicken bearbeiten Über uns Mit uns bekommen Sie: Beratung – Doing - Betreuung langjährige Erfahrung umfassende Beratung.
Software · Lösungen · Service
Google Text, Tabellen, Präsentation, Zeichnungen Computeria Wallisellen Joachim Vetter.
7th German CDISC User Group Basel, 11. März 2010 Willkommen zum Define.xml Workshop.
Erstellen einer Webseitenstatistik mithilfe eines OLAP-Servers
EasyM Ein Werkzeug zur Dokumentation Ihrer Leistung Ablaufschemata BERGER Analysen und Informationstechnik GmbH A-4048 Puchenau Klingberg 3
Virtuelle Forschungsumgebung Games Professor Thaller WS 2010 HKI Hauptseminar I Referent: Nim-Ron Lan.
ELC goes JAVA - Statistics Präsentation von Bettina Kronreif Programmierpraktikum II / 2001.
Archival and Discovery
Aktuelle Produktstände – TRIBASE
CRM TimeLog… TimeLog … Wie gross ist der Anteil der Lohnkosten in Ihrem Unternehmen?
Vision. 2 Vision der Software Offene, modulare, integrierte, redundanzfreie, skalierbare, primär webbasierte Business-Applikation bestehend aus eigenen.
Dokumentenablage und -Flut im Griff - mit unternehmensweiten Suchmaschinen Fachvortrag auf der I+E Messe Freiburg ©Semantec 2007 Dokumentenablage.
CMS Content-Management-Systeme (CMS), dienen der Verwaltung und Pflege von Dokumenten und Inhalten in Inter- und Intranetanwendungen. Den Entwickler oder.
Untersuchungen zur Erstellung eines
© 2001 Sven Dammann1 Aufbau Integrierter Informationssysteme XML Bearbeitung und relationale Abbildung Sven Dammann Martin-Luther-Universität Halle-Wittenberg.
Die Management-Tools von Z&H COACH beinhalten zentrale Hilfsmittel für ein Management-System. Sorgfältig angewendet führen diese Tools Ihr Unternehmen.
Kaseya Virtual System Administrator Produkt Update 7.0 Rocco van der Zwet Copyright ©2014 Kaseya 1.
Login proIT-Portal Login unterscheidet zwischen Administrator, Mandanten und Benutzern. Anpassung und Aussehen pro Mandant Unterschiedliche Datenräume.
Datenbanken im Web 1.
Oracle Portal think fast. think simple. think smart. Dieter Lorenz, Christian Witt.
1 Wolfgang Wiese, Regionales RechenZentrum Erlangen WCMS 3. August 2000 Wolfgang Wiese RRZE / Lehrstuhl für Informatik VII
Releasworkshop 1.85 Installation & Administration Dipl. Phys. Ralf Wagner Siegen Dezember 2009.
Lise-Meitner-Str Flensburg Germany Tel: +49 (0) Dashboard 1.
E-Archiv Durch die Präsentation führt sie: Jack Kraus ScanView ist ein Produkt der Allgeier IT GmbH (Feb 2010)
Datenbanken Produkte Dienstleistungen Referenzen.
Open Data als Businessgrundlage Andreas Woditschka CFO |
Datenbanken Produkte Dienstleistungen Referenzen.
Opacc, CH-Kriens/LucerneOpaccConnect Extended Enterprise Software.
IT-Dienstleistungen E-Learning Systeme Content Management 1 Fallbeispiel ILIAS: Das Repository-Objekt-Plugin „Centra“
© CSP GmbH & Co. KG 2005 Einleitung HerausforderungenLösung Architektur Demonstration Langzeitarchivierung für Oracle Datenbanken Stefan Brandl, Dipl.-Inf.,
Oracle Text bei sehr großen Datenmengen Referent Martin Augst Senior Project / Account Manager Semantec GmbH Benzstr.
Application Performance Management Udo Brede.  Komplexe Umgebungen  Häufige Änderungen  Hohe Aktivität Database Servers Application Servers Web Servers.
 ====!"§==Systems= M. Scholz, 'Erfahrungen mit Oracle interMedia Text 8.1.7' debis Systemhaus GEI GmbH, GS Berlin , Seite 1. Erfahrungen mit.
Betriebsmittelsuche M.Hoppe
Basiskomponente Bibliothek Informationsveranstaltung
7th German CDISC User Group Basel, 11. März 2010
Präsentation neue Homepage www. fwniederhasli. ch Mi
 Präsentation transkript:

Information Retrieval mit Oracle Text Erfahrungsbericht

Referent Martin Augst Senior Project / Account Manager Semantec GmbH Benzstr. 32, Herrenberg

Firma Semantec Firmensitz in Herrenberg bei Stuttgart Tochterfirma in Sofia / Bulgarien Insgesamt ca. 50 Mitarbeiter Leistungsspektrum Oracle Expert Services Anwendungsentwicklung Beratung

Oracle Text im Einsatz Historie Context Option (7) interMedia Text (8i) Oracle Text (9i) Im Internet Oracle Ask Tom Semantec

Große Datenmengen Mehrere Millionen Dokumente / Datensätze Mehrere GigaBytes bis zu TeraBytes DatenVolumen Größe Index ca. 10%-30% vom Dokumentenvolumen Größe Volltext-Cache mit Kompression ca. 40%-60% vom Dokumentenvolumen

Performance-Faktoren Prozessorgeschwindigkeit Anzahl CPUs Hauptspeichergröße Zugriffsgeschwindigkeit auf Platten Serverauslastung durch andere Anwendungen Netzwerkgeschwindigkeit (Encryption, Firewall) Größe und Typ der Dokumente Datenbank Tuning

Performance Erfahrungswerte Erstindizierung ca Dokumente pro Stunde Reindizierung hängt extrem von der Anzahl der geänderten, gelöschten oder hinzugefügten Dokumente ab Suche im Sekundenbereich auch bei sehr großen Datenmengen

Oracle Text basierte Projekte Services Assekuranz Makler

Services Assekuranz Makler

DirectInfo Documents

Integration von DirectInfo in das DMS-System von IMAGE MASTER

Gemeinsame Kundenwünsche Einfache Browseroberfläche Online Administration Verwaltung der Zugriffsrechte Multi-Sprachen Fähigkeit Dublettensuche Suchmöglichkeiten wie Google und gleichzeitig Windows-Explorer

Vorteile von Oracle Text Index in der Datenbank, SQL-Abfragen Weiterentwicklungen z.B. Oracle 10g Erweiterung des Indexes / Löschen von Einträgen Skalierbarkeit Betriebssystemunabhängigkeit 150 automatisch indizierbare Dokumenten-Formate Optimierung und Performance Tuning

Probleme mit Oracle Text kein eigener Crawler interner INSO Filter problematisch erneuter Netzzugriff auf Dateien nötig Indizierung lässt sich nicht unterbrechen keine automatische Erkennung von Duplikaten Indizieren mit mehreren CPUs nicht unterstützt keine Standard KnowledgeBase in deutsch belegter CPU-Speicher wird nicht freigegeben

Semantec Lösungen eigener Semantec File-Crawler (C und Java) eigener X-Filter: Filter Manager, Timeout-Manager externe Filter nutzbar (z.B. für PDF) eigener Volltext-Caching Mechanismus zeitversetzte Textfragment-Anzeige Dokumenten-Gruppen Standard für Zugriffsrechte und User gruppen automatischer Import von Rechten und Gruppen Indexing in Chunks Erkennung von identischen Dokumenten

DirectInfo Documents Demo

Ausblick Kategorisierung Text-Zusammenfassung (Summarizer) Statistiken für Administratoren und Benutzer Interpretation of Results / Complex Ranking

Fragen und Antworten

Vielen Dank für Ihre Aufmerksamkeit. Martin Augst

DirectInfo Architektur Applikationen Daten- banken File Server File Server File Server Internet Oracle Server (Cluster) DirectInfo Anwender Administration Management