Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Text-Retrieval mit Oracle Vortrag von Andreas Mück & David Diestel.

Ähnliche Präsentationen


Präsentation zum Thema: "Text-Retrieval mit Oracle Vortrag von Andreas Mück & David Diestel."—  Präsentation transkript:

1 Text-Retrieval mit Oracle Vortrag von Andreas Mück & David Diestel

2 Übersicht

3 Oracle 8i interMedia... a product designed to manage multimedia Web content within Oracle 8i. Das Programmpacket unterteilt in drei Bereiche.

4 Gliederung von Oracle 8i interMedia Oracle 8i interMedia Oracle 8i interMedia Text Oracle 8i interMedia Audio, Image, and Video Oracle 8i interMedia Locator

5 Oracle 8i interMedia Text versteht sich als Werkzeug zur Erstellung von Applikationen zur Anfrage auf Texte bietet Möglichkeiten –zur Suche in –zum Retrieval auf –zur Ansicht von Textdokumenten

6 Oracle 8i interMedia Text(2) zusätzlich für englischsprachige Dokumente –Begriffssuche –Themenanalyse verwendet Standard-SQL und PL/SQL

7 Erstellung einer Querry Application 4 Schritte Laden der Dokumente Indexieren der Dokumente Suchanfragen stellen gefundene Dokumente präsentieren

8 Laden von Dokumenten System erwartet, daß Dokumente in eine Textspalte geladen werden Spaltentypen: –VARCHAR2 –CLOB –BLOB –CHAR –BFILE

9 Laden von Dokumenten (2) LONG & LONG RAW für DB-Upgrade Oracle7 auf Oracle8 auch Speichern von Dokumenten im lokalen Dateisystem oder Inter- /Intranet u.a. möglich –Eintrag von Dateipfaden oder URLs in die Tabelle

10 Laden von Dokumenten (3) Unterstützung fast aller Dokumentformate Laden von Dokumenten unter Verwendung des SQL INSERT Statements

11 Beipiel: CREATE TABLE docs (id number primary key, text varchar2(80)); –erzeugt Tabelle mit 2 Spalten: id und text Tabelle füllen mit INSERT : insert into docs values(1, 'this is the text of the first document'); insert into docs values(12, 'this is the text of the second document');

12 Laden von Dokumenten (4) Laden von Dokumenten aus dem Dateisystem mit –SQL*Loader –ctxload executable –DBMS_LOB.LOADFROMFILE() PL/SQL procedure to load LOBs from BFILEs –Oracle Call Interface

13

14 Indexierung Indexierung erfolgt auf der Dokumentenspalte spezieller Indextyp: ctxsys.context Tabelle muß PK besitzen (Doc-ID!?) Beispiel: create index myindex on docs(text) indextype is ctxsys.context;

15 Indexierung (2) Erzeugen des Index mit CREATE INDEX, Bearbeiten mit ALTER INDEX Definition von Parametern mit –CTX_DDL.CREATE_PREFERENCE –CTX_DDL.SET_ATTRIBUTE –CTX_DDL.CREATE_STOPLIST –CTX_DDL.CREATE_SECTION_GROUP

16 Indexierung (3) Datastore: Wie/Wo sind die Dokumente gespeichert? Filter: Welche(s) Importformat(e)? Lexer: Sprachauswahl für Termextraktion Vielsprachigkeit möglich Wordlist: Einstellungen für Stemming, Fuzzy & Substring-Index

17 Indexierung (4) Storage: Parameter für die Indexspeicherung z.B. tablespace Stop List: Stopwortliste Section Group: Definition von Sektionen bzw. wie diese erkannt werden, benötigt für WITHIN Anfragen

18 Anfragen SQL-, PL/SQL-Anfragen Verwendung des CONTAINS - Operators z.B.: SELECT SCORE(1), title from newsindex WHERE CONTAINS(text, 'oracle', 1) > 0;

19 Anfragen(2) Mögliche Operatoren –Word-Querys –Boolsche Verknüpfung –Near-Operator –beliebige Wildcards –WITHIN –ABOUT -Querys (Themensuche) –Thesaurus

20 Ranking inverse Termfrequenz: Termfrequenz/Dokumentfrequenz Berechnet durch SCORE-Operator

21 Erzeugung der Ausgabe Ausgabe des Dokuments in HTML/Text Highlighting möglich


Herunterladen ppt "Text-Retrieval mit Oracle Vortrag von Andreas Mück & David Diestel."

Ähnliche Präsentationen


Google-Anzeigen