Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Information Retrieval mit Oracle Text Erfahrungsbericht.

Ähnliche Präsentationen


Präsentation zum Thema: "Information Retrieval mit Oracle Text Erfahrungsbericht."—  Präsentation transkript:

1 Information Retrieval mit Oracle Text Erfahrungsbericht

2 Referent Martin Augst Senior Project / Account Manager Semantec GmbH Benzstr. 32, Herrenberg

3 Firma Semantec Firmensitz in Herrenberg bei Stuttgart Tochterfirma in Sofia / Bulgarien Insgesamt ca. 50 Mitarbeiter Leistungsspektrum Oracle Expert Services Anwendungsentwicklung Beratung

4 Oracle Text im Einsatz Historie Context Option (7) interMedia Text (8i) Oracle Text (9i) Im Internet Oracle Ask Tom Semantec

5 Große Datenmengen Mehrere Millionen Dokumente / Datensätze Mehrere GigaBytes bis zu TeraBytes DatenVolumen Größe Index ca. 10%-30% vom Dokumentenvolumen Größe Volltext-Cache mit Kompression ca. 40%-60% vom Dokumentenvolumen

6 Performance-Faktoren Prozessorgeschwindigkeit Anzahl CPUs Hauptspeichergröße Zugriffsgeschwindigkeit auf Platten Serverauslastung durch andere Anwendungen Netzwerkgeschwindigkeit (Encryption, Firewall) Größe und Typ der Dokumente Datenbank Tuning

7 Performance Erfahrungswerte Erstindizierung ca Dokumente pro Stunde Reindizierung hängt extrem von der Anzahl der geänderten, gelöschten oder hinzugefügten Dokumente ab Suche im Sekundenbereich auch bei sehr großen Datenmengen

8 Oracle Text basierte Projekte Services Assekuranz Makler

9 Services Assekuranz Makler

10

11 DirectInfo Documents

12

13 Integration von DirectInfo in das DMS-System von IMAGE MASTER

14 Gemeinsame Kundenwünsche Einfache Browseroberfläche Online Administration Verwaltung der Zugriffsrechte Multi-Sprachen Fähigkeit Dublettensuche Suchmöglichkeiten wie Google und gleichzeitig Windows-Explorer

15 Vorteile von Oracle Text Index in der Datenbank, SQL-Abfragen Weiterentwicklungen z.B. Oracle 10g Erweiterung des Indexes / Löschen von Einträgen Skalierbarkeit Betriebssystemunabhängigkeit 150 automatisch indizierbare Dokumenten-Formate Optimierung und Performance Tuning

16 Probleme mit Oracle Text kein eigener Crawler interner INSO Filter problematisch erneuter Netzzugriff auf Dateien nötig Indizierung lässt sich nicht unterbrechen keine automatische Erkennung von Duplikaten Indizieren mit mehreren CPUs nicht unterstützt keine Standard KnowledgeBase in deutsch belegter CPU-Speicher wird nicht freigegeben

17 Semantec Lösungen eigener Semantec File-Crawler (C und Java) eigener X-Filter: Filter Manager, Timeout-Manager externe Filter nutzbar (z.B. für PDF) eigener Volltext-Caching Mechanismus zeitversetzte Textfragment-Anzeige Dokumenten-Gruppen Standard für Zugriffsrechte und User gruppen automatischer Import von Rechten und Gruppen Indexing in Chunks Erkennung von identischen Dokumenten

18 DirectInfo Documents Demo

19 Ausblick Kategorisierung Text-Zusammenfassung (Summarizer) Statistiken für Administratoren und Benutzer Interpretation of Results / Complex Ranking

20 Fragen und Antworten

21 Vielen Dank für Ihre Aufmerksamkeit. Martin Augst

22 DirectInfo Architektur Applikationen Daten- banken File Server File Server File Server Internet Oracle Server (Cluster) DirectInfo Anwender Administration Management


Herunterladen ppt "Information Retrieval mit Oracle Text Erfahrungsbericht."

Ähnliche Präsentationen


Google-Anzeigen