Präsentation herunterladen
Die Präsentation wird geladen. Bitte warten
Veröffentlicht von:Jacob Flater Geändert vor über 9 Jahren
1
Oracle Text bei sehr großen Datenmengen
2
2 03.06.2004 Referent Martin Augst Senior Project / Account Manager augst@semantec.de Semantec GmbH Benzstr. 32, 71083 Herrenberg www.semantec.de
3
3 03.06.2004 Firma Semantec Firmensitz in Herrenberg bei Stuttgart Tochterfirma in Sofia / Bulgarien Insgesamt ca. 50 Mitarbeiter Themen Oracle Expert Services Anwendungsentwicklung Beratung
4
4 03.06.2004 Oracle Text Context Option (7) interMedia Text (8i) Oracle Text (9i) Bekannte Anwendungen UltraSearch Collaboration Suite
5
5 03.06.2004 Im Internet Oracle Ask Tom Metalink
6
6 03.06.2004 Große Datenmengen Mehrere Millionen Dokumente / Datensätze Mehrere GigaBytes bis zu TeraBytes DatenVolumen Beispiel Oracle Intranet mehrere 10.000 User, mehrere terrabyte Daten
7
7 03.06.2004 Erfahrungswerte bei Dokumentenindizierung Größe Index ca. 10% vom Dokumentenvolumen Größe Volltext-Cache mit Kompression ca. 40% vom Dokumentenvolumen
8
8 03.06.2004 Faktoren für Geschwindigkeit Serverauslastung durch andere Anwendungen Prozessorgeschwindigkeit Anzahl CPUs Hauptspeichergröße Zugriffsgeschwindigkeit auf Platten Netzwerkgeschwindigkeit Datenbank Performance Tuning
9
9 03.06.2004 Schritte der Indizierung Crawling der Verzeichnisse und Unterverzeichnisse Vergleichen der Änderungen Datei über Netzwerk einlesen Prüfen ob Text-Filter anwendbar Datei Filtern (Plain Text oder HTML) Speichern der Volltextinformation Text-Token in den Index schreiben Index optimieren
10
10 03.06.2004 Geschwindigkeiten Erstindizierung ca. 3000 Dokumente pro Stunde Reindizierung hängt extrem von der Anzahl der geänderten, gelöschten oder hinzugefügten Dokumente ab Suche im Sekundenbereich auch bei sehr großen Datenmengen Textfragmente werden nachgeliefert
11
11 03.06.2004 Oracle Text basierte Projekte Services Assekuranz Makler
12
12 03.06.2004 Services Assekuranz Makler
13
13 03.06.2004
14
14 03.06.2004 DirectInfo Documents
15
15 03.06.2004
16
16 03.06.2004 Gemeinsame Kundenwünsche Einfache Browseroberfläche Online Administration Verwaltung der Zugriffsrechte Multi-Sprachen Fähigkeit Dublettensuche Suchmöglichkeiten wie Google und Windows-Explorer
17
17 03.06.2004 Vorteile von Oracle Text Index in der Datenbank, SQL-Abfragen Weiterentwicklungen z.B. Oracle 10g Erweiterung des Indexes / Löschen von Einträgen Skalierbarkeit Betriebssystemunabhängigkeit 150 automatisch indizierbare Dokumenten-Formate Optimierung und Performance Tuning
18
18 03.06.2004 Probleme mit Oracle Text kein eigener Crawler interner INSO Filter problematisch erneuter Netzzugriff auf Dateien nötig Indizierung lässt sich nicht unterbrechen keine automatische Erkennung von Duplikaten Indizieren mit mehreren CPUs nicht unterstützt keine Standard KnowledgeBase in deutsch belegter Speicher wird nicht immer freigegeben
19
19 03.06.2004 Semantec Lösungen eigener Semantec File-Crawler (C und Java) eigener X-Filter: Filter Manager, Timeout-Manager externe Filter nutzbar (z.B. für PDF) eigener Volltext-Caching Mechanismus zeitversetztes Textfragment-Anzeigen Dokumenten-Gruppen Standard für Zugriffsrechte und User gruppen automatischer Import von Rechten und Gruppen Indexing in Chunks Erkennung von identischen Dokumenten
20
20 03.06.2004 Ausblick Clustering Zusammenfassung von Dokumenten Statistiken für Administratoren und Benutzer Interpretation Services
21
21 03.06.2004 Fragen und Antworten
22
22 03.06.2004 Vielen Dank für Ihre Aufmerksamkeit. Martin Augst augst@semantec.de
23
23 03.06.2004 DirectInfo Architektur Applikationen Daten- banken File Server File Server File Server Internet Oracle Server (Cluster) DirectInfo Anwender Administration Management
Ähnliche Präsentationen
© 2025 SlidePlayer.org Inc.
All rights reserved.