Oracle TEXT 10g Release 1 New Features Edwin Balthes Oracle Support Services Oracle Deutschland GmbH
AGENDA Multilingualer Lexer Multipart Mime Filtering Query Log Analyse – neues Package Progressive Relaxation JDeveloper wizards for text search Near Accum Ctx_Report XML Output ALTER INDEX rebuild replace metadata
Text 10g Release 1 Globalisierung Unicode Lexer Erweiterung Japanische Sprachunterstützung Neue Deutsche Rechtschreibung
Text 10g Release 1 Unicode Lexer Neue Lexer Präferenz – World_Lexer Support für jede Unicode 4.0 Sprache
Text 10g Release 1 Japanische Sprachunterstützung Delimiter characters Fuzzy Funktion für das Japanische Japanisches Stemming Japanischer Unicode Japanisches Benutzer Lexikon
Text 10g Release 1 Komposita-Unterstützung
Text 10g Release 1 Neue Deutsche Rechtschreibung Alte Rechtschreibung Neue Rechtschreibung PotentialPotenzial KatarrhKatarr, Katarrh DelphinDelfin ErdgeschoßErdgeschoss SchiffahrtSchifffahrt Weh tun Irgend etwas Soviel Alte Schreibweise Neue Schreibweise
Text 10g Release 1 Query Template - Erweiterungen Query Rewrite Progressive Relaxation Spezifikation - Query Language Alternatives Scoring Alternative Grammatik …..
Text 10g Release 1 Query Rewrite
Text 10g Release 1 Beispiel - Query Rewrite SELECT * FROM purchaseorders WHERE CONTAINS (text,’ Retail Sales transform((TOKENS, "{", "}", " ")) transform((TOKENS, "{", "}", " ; ")) /seq> transform((TOKENS, "{", "}", "AND")) transform((TOKENS, "{", "}", "ACCUM")) ’)>0;
Text 10g Release 1 NEAR_ACCUMulate NEAR_ACCUM((word1, word2,..., wordn) [, max_span [, order]])
Text 10g Release 1 Progressive Relaxation
select * from purchaseorders where CONTAINS (text,' Retail Sales {Retail} {Sales} {Retail} NEAR {Sales} {Retail} AND {Sales} {Retail} ACCUM {Sales} ')>0;
Text 10g Release 1 Query Templates - Erweiterungen Multi_Lexer - Query Language select id from docs where CONTAINS (text, ' bon soir ')>0; Alternatives Scoring select id from docs where CONTAINS (text, ' mustang ')>0 Alternative Grammatik select id from docs where CONTAINS (text, ' San Diego ')>0;
Text 10g Release 1 CTX_REPORT Package CTX_REPORT.DESCRIBE_INDEX CTX_REPORT.DESCRIBE_POLICY CTX_REPORT.CREATE_INDEX_SCRIPT CTX_REPORT.CREATE_POLICY_SCRIPT CTX_REPORT.INDEX_SIZE CTX_REPORT.INDEX_STATS CTX_REPORT.TOKEN_INFO CTX_REPORT.QUERY_LOG_SUMMARY CTX_REPORT.TOKEN_TYPE
Text 10g Release 1 CTX_REPORT - Query Log Analyse Welche Abfragen wurden gemacht ? Welche Abfragen waren erfolgreich ? Welche Abfragen waren nicht erfolgreich ? WAS wurde WIE HÄUFIG angefragt ?
Text 10g Release 1 CTX_REPORT - Query Analyse 1.Start query logging 2.End query logging 3.Query log summary
Text 10g Release 1 XML Output - CTX_REPORT Package SELECT ctx_report.describe_index('DOCS_TEXT','XML') FROM dual; CTX_REPORT.DESCRIBE_INDEX('DOCS_TEXT','XML') "CTXSYS"."DOCS_TEXT" 1392 context …
Text 10g Release 1 Erweiterungen - Dokumenten Services In 9i wurde für highlight, markup, tokens, filter, gist und markup ein Index benötigt. Dies geht nun in 10g auch ohne einen Index
Text 10g Release 1 Dokumenten Services
Text 10g Release 1 Alter Index Rebuild Replace Metadata Ersetzen der existierenden Präferenz-Settings durch neue Präferenz-Settings betrifft auch die SYNC Parameter Kein Neuaufbau des Textindexes ACHTUNG – eigene Verantwortung für einen konsistenten Index
Text 10g Release 1 Erweiterungen - Mail Filtering Konvertieren einer RFC in ein indizierbares Format Behandlung der Message Bodies basierend auf dem Content-Type Text Meldungen werden in den DB Characterset konvertiert Binärer Text wird gefiltert -> INSO Andere nicht binäre Daten werden nicht ausgegeben Benutzerdefinierte Felder sind als Sektionen suchbar
Text 10g Release 1 Erweiterungen bei der Indizierung AUTO und ON COMMIT Synchronisierung für CONTEXT Indizes Transaktionale CONTEXT Indizes Automatische Multi-Language Indizierung Unterstützung für Local Partitioned CONTEXT Indizes in parallel Binäres Filtern für den MULTI_COLUMN_DATASTORE Neue XML Output Option für Index Reports
Text 10g Release 1 Auto und ON COMMIT Synchronisierung DMLCOMMIT DML Pending Queue
Text 10g Release 1 Index Synchronisierung CREATE INDEX ON ( ) INDEXTYPE IS CTXSYS.CONTEXT PARAMETERS('SYNC(MANUAL | ON COMMIT |EVERY "interval_string" MEMORY size PARALLEL degree'); CREATE INDEX index_name ON table_name(column_name) INDEXTYPE IS CTXSYS.CONTEXT LOCAL(PARTITION part_name1 PARAMETERS(' SYNC(MANUAL |ON COMMIT |EVERY "interval_string" MEMORY size PARALLEL degree'), PARTITION part_name2 PARAMETERS('...'),...) PARAMETERS('...'); Global Indexes Local Indexes
Text 10g Release 1 Views - Synchronisierung CTX_USER_INDEXES CTX_INDEXES CTX_INDEX_PARTITIONS CTX_USER_INDEX_PARTITIONS
Text 10g Release 1 Transaktionale CONTEXT Indizes SELECT … CONTAINS( … ) DML
Text 10g Release 1 CTXXPATH - Erweiterungen Indizierung von Number und Unterst ü zung von numerischen Range Searches Attribute Existence Positional Predicate.
Text 10g Release 1 INPATH and HASPATH Erweiterungen Highlighting mit INPATH HASPATH
Text 10g Release 1 Änderung der Rechte für CTXSYS DBA Privilege
Text 10g Release 1 JDeveloper TEXT Wizards Text Wizard Classification Wizard Catalog Wizard
Text 10g Release 1 Text Wizard Demo
Text – Simple Search
Text – Advanced Search
Text – Knowledge Base
Oracle Ultra Search Out-of-the-Box search engine – Basiert auf Oracle Text Suche über intranet/extranet sources – Web, Databases, Files, Mail Servers, Repositories Verfügt über Web style interface und Java API für UserInterface Wird mit 9i Database, 9iAS/Portal, Collab. Suite R2/3 ausgeliefert
Ultra Search
Ultra Search Adv. Search
Collab Suite Search App.
Ultra Search Architecture SQL Engine Oracle Text Web Server Query & Admin Capabilities Web Browser Ultra Search Client Ultra Search Mid-Tier Component Ultra Search Server Crawler Crawler Crawler Crawler
Crawled Search Architecture Mid-tier Ultra Search Search App. Meeting Crawlet Web Crawler Calendar Mail Crawlet Files Crawlet Calendar Crawlet Mail Search Repository Oracle Confidential Client
Caching Documents WK$DOCUMENT
Indexing Documents
Gathering URLs
Federated Search Architecture Mid-tier Search Federator CalendarMeeting Mail Searchlet Files Searchlet Calendar Searchlet Mail UltraSearch Meeting Searchlet Web Searchlet Search App. Google Search Repository Oracle Confidential Client
Integrated Search Architecture Mid-tier CalendarMeetingFilesMail Crawled Search Meeting Searchlet Web Searchlet Google Ultra Search Repository Portal Crawlet Database Crawlet Portal 3 rd -party Sources Search Federator Mail Searchlet Files Searchlet Calendar Searchlet Collab. Suite Search App. Client
Java Query API
New Feature Areas Security Federated Search Neue repositories (Documentum, Lotus/Notes) Classification/Clustering
Advanced Security Authentifizierung mit SSO Ultra Search repository unterstützt ACLs für crawled Dokumente – OID Integration für die group Info. – Benutzereingeschränkte Suche nach was erlaubt ist – Crawlet für (document, ACL) Paare Nur mit Extensible Crawler repositories HTTPS, Digest Authentication support
Federated Search Mid-tier CalendarMeetingFilesMail Crawled Search Meeting Searchlet Web Searchlet Google Ultra Search Repository Portal Crawlet Database Crawlet Portal 3 rd -party Sources Search Federator Mail Searchlet Files Searchlet Calendar Searchlet Client
New 10 g Multimedia Features Standards Support – SQL/MM Still Image New version of Java Advanced Imaging and additional image processing operators Support for additional media formats – Microsoft ASF, MPEG2 & MPEG4 Microsoft Windows Media Server Plugin Real Server Plugin for Helix Server XML DB integration
Standards Support Oracle10 g supports the first edition of the ISO/IEC :2001 SQL/MM Part 5: Still Image Standard. The standard defines object relational types for images and image characteristics. Each object type includes attributes, methods, and associated SQL functions and procedures.
Java Advanced Imaging Support for JAI 1.1.1_01, the newest version of the SUN Open Standard for Image Processing Additional image processing operators – Arbitrary Image Rotate – Flip & Mirror – Page extract from a multi page TIFF file – Contrast Enhancement – Quantize algorithm – Gamma Correction
Microsoft ASF & Windows Media Server Advanced System Format has become a popular streaming media format on the web – Oracle10 g Database can parse ASF file format metadata Windows Media Server – An Oracle developed plugin for the Microsoft Windows Media that enables it to stream ASF audio/video files stored in Oracle10 g Database – Analogous to the existing Oracle9i Database support for Real Networks streaming server Available through OTN
A Q & FRAGEN ???