Präsentation herunterladen
Die Präsentation wird geladen. Bitte warten
Veröffentlicht von:Alma Hausler Geändert vor über 8 Jahren
1
Information Retrieval mit Oracle Text Erfahrungsbericht
2
2 15.06.2004 augst@semantec.de Referent Martin Augst Senior Project / Account Manager augst@semantec.de Semantec GmbH Benzstr. 32, 71083 Herrenberg www.semantec.de
3
3 15.06.2004 augst@semantec.de Firma Semantec Firmensitz in Herrenberg bei Stuttgart Tochterfirma in Sofia / Bulgarien Insgesamt ca. 50 Mitarbeiter Leistungsspektrum Oracle Expert Services Anwendungsentwicklung Beratung
4
4 15.06.2004 augst@semantec.de Oracle Text im Einsatz Historie Context Option (7) interMedia Text (8i) Oracle Text (9i) Im Internet Oracle Ask Tom Semantec
5
5 15.06.2004 augst@semantec.de Große Datenmengen Mehrere Millionen Dokumente / Datensätze Mehrere GigaBytes bis zu TeraBytes DatenVolumen Größe Index ca. 10%-30% vom Dokumentenvolumen Größe Volltext-Cache mit Kompression ca. 40%-60% vom Dokumentenvolumen
6
6 15.06.2004 augst@semantec.de Performance-Faktoren Prozessorgeschwindigkeit Anzahl CPUs Hauptspeichergröße Zugriffsgeschwindigkeit auf Platten Serverauslastung durch andere Anwendungen Netzwerkgeschwindigkeit (Encryption, Firewall) Größe und Typ der Dokumente Datenbank Tuning
7
7 15.06.2004 augst@semantec.de Performance Erfahrungswerte Erstindizierung ca. 500 - 5000 Dokumente pro Stunde Reindizierung hängt extrem von der Anzahl der geänderten, gelöschten oder hinzugefügten Dokumente ab Suche im Sekundenbereich auch bei sehr großen Datenmengen
8
8 15.06.2004 augst@semantec.de Oracle Text basierte Projekte Services Assekuranz Makler
9
9 15.06.2004 augst@semantec.de Services Assekuranz Makler
10
10 15.06.2004 augst@semantec.de
11
11 15.06.2004 augst@semantec.de DirectInfo Documents
12
12 15.06.2004 augst@semantec.de
13
13 15.06.2004 augst@semantec.de Integration von DirectInfo in das DMS-System von IMAGE MASTER
14
14 15.06.2004 augst@semantec.de Gemeinsame Kundenwünsche Einfache Browseroberfläche Online Administration Verwaltung der Zugriffsrechte Multi-Sprachen Fähigkeit Dublettensuche Suchmöglichkeiten wie Google und gleichzeitig Windows-Explorer
15
15 15.06.2004 augst@semantec.de Vorteile von Oracle Text Index in der Datenbank, SQL-Abfragen Weiterentwicklungen z.B. Oracle 10g Erweiterung des Indexes / Löschen von Einträgen Skalierbarkeit Betriebssystemunabhängigkeit 150 automatisch indizierbare Dokumenten-Formate Optimierung und Performance Tuning
16
16 15.06.2004 augst@semantec.de Probleme mit Oracle Text kein eigener Crawler interner INSO Filter problematisch erneuter Netzzugriff auf Dateien nötig Indizierung lässt sich nicht unterbrechen keine automatische Erkennung von Duplikaten Indizieren mit mehreren CPUs nicht unterstützt keine Standard KnowledgeBase in deutsch belegter CPU-Speicher wird nicht freigegeben
17
17 15.06.2004 augst@semantec.de Semantec Lösungen eigener Semantec File-Crawler (C und Java) eigener X-Filter: Filter Manager, Timeout-Manager externe Filter nutzbar (z.B. für PDF) eigener Volltext-Caching Mechanismus zeitversetzte Textfragment-Anzeige Dokumenten-Gruppen Standard für Zugriffsrechte und User gruppen automatischer Import von Rechten und Gruppen Indexing in Chunks Erkennung von identischen Dokumenten
18
18 15.06.2004 augst@semantec.de DirectInfo Documents Demo
19
19 15.06.2004 augst@semantec.de Ausblick Kategorisierung Text-Zusammenfassung (Summarizer) Statistiken für Administratoren und Benutzer Interpretation of Results / Complex Ranking
20
20 15.06.2004 augst@semantec.de Fragen und Antworten
21
21 15.06.2004 augst@semantec.de Vielen Dank für Ihre Aufmerksamkeit. Martin Augst augst@semantec.de
22
22 15.06.2004 augst@semantec.de DirectInfo Architektur Applikationen Daten- banken File Server File Server File Server Internet Oracle Server (Cluster) DirectInfo Anwender Administration Management
Ähnliche Präsentationen
© 2024 SlidePlayer.org Inc.
All rights reserved.