Oracle Text bei sehr großen Datenmengen. 2 03.06.2004 Referent Martin Augst Senior Project / Account Manager Semantec GmbH Benzstr.

Slides:



Advertisements
Ähnliche Präsentationen
Menüstruktur automatisch angepasste Menüstruktur auf der Internetseite = Neue Seite im Content – Management- System ergibt neuen.
Advertisements

Webinar für [Name der Gruppe] [Name des Institutes]
Web Storage System - Einrichten, Verwalten und Anwendungsmöglichkeiten
Studienarbeit Entwurf und Implementierung eines UPnP-Browsers
Zusammenarbeit in Office mit den SharePoint Technologien Michael Carpi
Basis-Architekturen für Web-Anwendungen
Pflege der Internetdienste
Content Management Systems
Erweiterung B2B Usermanagement / LDAP-Anbindung
SendEplanung Datenbank
ATHOS Benutzertreffen 27.September Report of the Lab Glashütten, 27.September 2007 HighQSoft GmbH, Karst Schaap
ATHOS Benutzertreffen 12. November Archivierung Glashütten, 12. November 2008 HighQSoft GmbH, Karst Schaap
Daten sichern und archivieren
Anwendungen. © Prof. T. Kudraß, HTWK Leipzig Historie des WWW Grundlage Internet – Entwickelt Ende der 60er Jahre vom US-Militär (ARPA-Net) – Technische.
Technik Gestaltung Navigation Daten. Übersicht Client Webbrowser InternetServer.
By Monika Krolak & Christian Meschke
Projekt Web Engineering
ExKurs ImportD 1/10 Dr. Barbara Hoffmann LiteraturKompetenz Import von Dateien aus einer Fachdatenbank Das Transferieren von Daten zwischen.
Wizards & Builders GmbH Schulung Visual SourceSafe für Visual FoxPro Norbert Abb W&B.
Die Bank von morgen - eine neue Welt für IT und Kunden? 23. Oktober 2001.
Xindice Datenbanken vs. Markup Prof Dr. Manfred Thaller WS 2009 / 2010 Referent: Seyda Kurt.
Typo3 Eine Einführung.
Datenmodelle, Datenbanksprachen und Datenbankmanagementsysteme
Datei- übertragungs- Programm
Sharpdesk Überblick Desktop Composer Suche Imaging      
EIN CMS MACHT SCHULE Tina Gasteiger.
Clustered Neuronal Network A C#.NET project for Compute Cluster Server 2003.
Clustered Neuronal Network A C#.NET project for Compute Cluster Server 2003.
Teilprojekt Z2 „Methoden und Werkzeuge zur rechnergestützten medienwissenschaftlichen Analyse“ (Laufzeit: ) Gegenstand: Entwurf des Prototyps.
Präsentation von: Tamara Nadine Elisa
Thats IT!. Titelmasterformat durch Klicken bearbeiten Über uns Mit uns bekommen Sie: Beratung – Doing - Betreuung langjährige Erfahrung umfassende Beratung.
Software · Lösungen · Service
Google Text, Tabellen, Präsentation, Zeichnungen Computeria Wallisellen Joachim Vetter.
7th German CDISC User Group Basel, 11. März 2010 Willkommen zum Define.xml Workshop.
Erstellen einer Webseitenstatistik mithilfe eines OLAP-Servers
Windows Server 2008 Kurzüberblick Dr. Richtmann+Eder AG Olschewskibogen München.
Virtuelle Forschungsumgebung Games Professor Thaller WS 2010 HKI Hauptseminar I Referent: Nim-Ron Lan.
ELC goes JAVA - Statistics Präsentation von Bettina Kronreif Programmierpraktikum II / 2001.
Archival and Discovery
ESRI EUROPEAN USER CONFERENCE
CRM TimeLog… TimeLog … Wie gross ist der Anteil der Lohnkosten in Ihrem Unternehmen?
Liske Informationsmanagementsysteme 2005 Informationen managen Strategisches Kalkül und technische Wirksamkeit.
Vision. 2 Vision der Software Offene, modulare, integrierte, redundanzfreie, skalierbare, primär webbasierte Business-Applikation bestehend aus eigenen.
Dokumentenablage und -Flut im Griff - mit unternehmensweiten Suchmaschinen Fachvortrag auf der I+E Messe Freiburg ©Semantec 2007 Dokumentenablage.
Drucken mit XSL-FO DaimlerChrysler  Drucken von Webseiten
Untersuchungen zur Erstellung eines
Präsentationsversion vom 13. März Bei der Beschaffung von Produkten e-Commerce Lösung ( B2C, B2B ) Preisvergleich bei statischen oder semistatischen.
© 2001 Sven Dammann1 Aufbau Integrierter Informationssysteme XML Bearbeitung und relationale Abbildung Sven Dammann Martin-Luther-Universität Halle-Wittenberg.
Elixier Qualitätsverbesserung Aus Elixier werden Elixier light und Elixier-II.
Login proIT-Portal Login unterscheidet zwischen Administrator, Mandanten und Benutzern. Anpassung und Aussehen pro Mandant Unterschiedliche Datenräume.
Datenbanken im Web 1.
Oracle Portal think fast. think simple. think smart. Dieter Lorenz, Christian Witt.
1 Wolfgang Wiese, Regionales RechenZentrum Erlangen WCMS 3. August 2000 Wolfgang Wiese RRZE / Lehrstuhl für Informatik VII
N ovell Directory Services Bernd Holzmann
Releasworkshop 1.85 Installation & Administration Dipl. Phys. Ralf Wagner Siegen Dezember 2009.
IuK Services Rechenzentrum Universität Stuttgart 13. März 2002, Alexander Dauensteiner RUS-NFL, Rainer Reichel, , V47.05 Seite 1 AK-WWW.
Lise-Meitner-Str Flensburg Germany Tel: +49 (0) Dashboard 1.
E-Archiv Durch die Präsentation führt sie: Jack Kraus ScanView ist ein Produkt der Allgeier IT GmbH (Feb 2010)
Datenbanken Produkte Dienstleistungen Referenzen.
Datenbanken Produkte Dienstleistungen Referenzen.
Mönchengladbach Tchibo Filial-Manager Erste Ideen.
Dr. Klaus Ruhlig Technology & Product Consulting Sun Microsystems, München Skalierbare Rechnerarchitekturen für ein DWH: Eine vergleichende Analyse.
Christoph Wirtz | Seminarvortrag EBC | Lehrstuhl für Gebäude- und Raumklimatechnik Ein Tool zum automatisierten Erstellen von Conversion Scripts.
© CSP GmbH & Co. KG 2005 Einleitung HerausforderungenLösung Architektur Demonstration Langzeitarchivierung für Oracle Datenbanken Stefan Brandl, Dipl.-Inf.,
Information Retrieval mit Oracle Text Erfahrungsbericht.
 ====!"§==Systems= M. Scholz, 'Erfahrungen mit Oracle interMedia Text 8.1.7' debis Systemhaus GEI GmbH, GS Berlin , Seite 1. Erfahrungen mit.
Firmenpräsentation Incite GmbH.
Cloud Computing.
Betriebsmittelsuche M.Hoppe
7th German CDISC User Group Basel, 11. März 2010
 Präsentation transkript:

Oracle Text bei sehr großen Datenmengen

Referent Martin Augst Senior Project / Account Manager Semantec GmbH Benzstr. 32, Herrenberg

Firma Semantec Firmensitz in Herrenberg bei Stuttgart Tochterfirma in Sofia / Bulgarien Insgesamt ca. 50 Mitarbeiter Themen Oracle Expert Services Anwendungsentwicklung Beratung

Oracle Text Context Option (7) interMedia Text (8i) Oracle Text (9i) Bekannte Anwendungen UltraSearch Collaboration Suite

Im Internet Oracle Ask Tom Metalink

Große Datenmengen Mehrere Millionen Dokumente / Datensätze Mehrere GigaBytes bis zu TeraBytes DatenVolumen Beispiel Oracle Intranet mehrere User, mehrere terrabyte Daten

Erfahrungswerte bei Dokumentenindizierung Größe Index ca. 10% vom Dokumentenvolumen Größe Volltext-Cache mit Kompression ca. 40% vom Dokumentenvolumen

Faktoren für Geschwindigkeit Serverauslastung durch andere Anwendungen Prozessorgeschwindigkeit Anzahl CPUs Hauptspeichergröße Zugriffsgeschwindigkeit auf Platten Netzwerkgeschwindigkeit Datenbank Performance Tuning

Schritte der Indizierung Crawling der Verzeichnisse und Unterverzeichnisse Vergleichen der Änderungen Datei über Netzwerk einlesen Prüfen ob Text-Filter anwendbar Datei Filtern (Plain Text oder HTML) Speichern der Volltextinformation Text-Token in den Index schreiben Index optimieren

Geschwindigkeiten Erstindizierung ca Dokumente pro Stunde Reindizierung hängt extrem von der Anzahl der geänderten, gelöschten oder hinzugefügten Dokumente ab Suche im Sekundenbereich auch bei sehr großen Datenmengen Textfragmente werden nachgeliefert

Oracle Text basierte Projekte Services Assekuranz Makler

Services Assekuranz Makler

DirectInfo Documents

Gemeinsame Kundenwünsche Einfache Browseroberfläche Online Administration Verwaltung der Zugriffsrechte Multi-Sprachen Fähigkeit Dublettensuche Suchmöglichkeiten wie Google und Windows-Explorer

Vorteile von Oracle Text Index in der Datenbank, SQL-Abfragen Weiterentwicklungen z.B. Oracle 10g Erweiterung des Indexes / Löschen von Einträgen Skalierbarkeit Betriebssystemunabhängigkeit 150 automatisch indizierbare Dokumenten-Formate Optimierung und Performance Tuning

Probleme mit Oracle Text kein eigener Crawler interner INSO Filter problematisch erneuter Netzzugriff auf Dateien nötig Indizierung lässt sich nicht unterbrechen keine automatische Erkennung von Duplikaten Indizieren mit mehreren CPUs nicht unterstützt keine Standard KnowledgeBase in deutsch belegter Speicher wird nicht immer freigegeben

Semantec Lösungen eigener Semantec File-Crawler (C und Java) eigener X-Filter: Filter Manager, Timeout-Manager externe Filter nutzbar (z.B. für PDF) eigener Volltext-Caching Mechanismus zeitversetztes Textfragment-Anzeigen Dokumenten-Gruppen Standard für Zugriffsrechte und User gruppen automatischer Import von Rechten und Gruppen Indexing in Chunks Erkennung von identischen Dokumenten

Ausblick Clustering Zusammenfassung von Dokumenten Statistiken für Administratoren und Benutzer Interpretation Services

Fragen und Antworten

Vielen Dank für Ihre Aufmerksamkeit. Martin Augst

DirectInfo Architektur Applikationen Daten- banken File Server File Server File Server Internet Oracle Server (Cluster) DirectInfo Anwender Administration Management