Präsentation herunterladen
Die Präsentation wird geladen. Bitte warten
1
Content Management Systeme
2
Content Management Systeme
Rückblick Content Management Systeme
3
Content Management Systeme
Inhalt Vorlesung CMS Einleitung / Definition / Motivation Web-Content Management Systeme (WCMS) Information Retrieval Dokumentenmanagementsysteme (DMS) Resource Description Framework (RDF) Topic Maps Dokumentenbeschreibungssprachen (XML etc.) Content Management Systeme
4
Content Management Systeme
Inhalt heute Rückblick WCMS Systemarchitektur Datenstrukturen für WCMS (W)CM-Systeme OpenCms (W)CM-Organisation Portale EIP Information Retrieval Content Management Systeme
5
Content Management Systeme
Rückblick CMS Einleitung / Definition / Motivation Abgrenzung zu Datenmanagement Unternehmenssituation Integrationsproblematik Cross Media Publishing (Single Source) Unterschiedliche Dokumentformate Unterschiedliche Dokumenttypen Informationsräume Content Management Systeme
6
Content Management Systeme
Rückblick WCMS Definition Trennung von Struktur / Content / Layout / Funktion Einsatzkriterien Funktionen Content-Lebenszyklus Vergleich von Hypermedia- und Papierdokumenten (Persistenz / sequentiell) Mengensatz / Akzidenzsatz Content Management Systeme
7
Content Management Systeme
(W)CMS Getrennte Aspekte Struktur Layout Inhalt Templates Hierarchie Klassifikation „Daten“ Content Management Systeme
8
Content Management Systeme
Content Lebenzyklus Contentreduzierung Archivierung Löschung Contentgenerierung Identifizieren Sammeln Erzeugen Erfassen Erstellen Content Management Contentorganisation Strukturieren Indexieren Filtern Speichern Verwalten Contentnutzung Interpretieren Anwenden Bewerten Kommentieren Visualisieren Contentdistribution Suchen Wissensfluss Logistik Contentaufbereitung Verdichten / Integration Verfeinerung Erweiterung Kontext Erzeugung Redaktion Content Management Systeme
9
WCMS - Systemarchitektur
Content Management Systeme
10
WCMS Systemarchitektur
Web-Server Medienneutralität Berechtigungsverwaltung Mehrfachverwertung Site-Management Mehrsprachigkeit Terminierung Struktur Templates Content Funktionen CMS- Engine Datei- System Anforderungen Import DB DB- Schema Export Objekttypen DMS Legacy-Systeme Content Management Systeme
11
Content Management Systeme
WCMS Nutzung Endnutzer Browser Web-Server CMS- Engine Datei- System Handy Import DB etc. DB- Schema Export Print Legacy-Systeme Content Management Systeme
12
Content Management Systeme
WCMS Pflege Editor / Administrator Browser Web-Server Editor CMS- Engine Datei- System Client Import ODBC DB DB- Schema Export Legacy-Systeme Content Management Systeme
13
Content Management Systeme
WCMS Pflege Über Browser Mittels Webformularen Richtext-Editoren (eventuell mit Einschränkungen) Workflow Content Management Systeme
14
Content Management Systeme
WCMS Replikation Produktivsystem DB CMS- Engine DB- Schema Web-Server DB CMS- Engine DB- Schema Web-Server Entwicklungs- system Datei- System Import Replikation Export Import Datei- System Legacy-Systeme Content Management Systeme
15
Content Management Systeme
Datenmodell für DB n Benutzer Web-Site von4 n Editor von3 m von n m m n m 1 n von2 von Schlagwort Web-Seite Version n n von5 1 von1 Content m Templates link 1 n t Text Grafiken Video Audio Content Management Systeme
16
Content Management Systeme
(W)CM Organisation Gesamtkoordination Verantwortlicher Internet / Holding Internet / Töchter Verantwortlicher Verantwortlicher Intranet / Holding Intranet / Töchter Verantwortlicher Verantwortlicher Koordination Extranet / Holding Extranet / Töchter Verantwortlicher Verantwortlicher Teamroom Holding Teamrom / Töchter Verantwortlicher DMS Verantwortlicher Content Management Systeme
17
Content Management Systeme
(W)CM Organisation Beispiel Internet Tochter Teamleitung Leitung Fachbereiche Informatik Personal Verantwortlicher / Editoren Marketing Verantwortlicher / Editoren Entwicklung Vertrieb 1 Verantwortlicher / Editoren Koordination Verantwortlicher / Editoren Betrieb Vertrieb 2 Unternehmens- kommunikation Ausbildung Verantwortlicher / Editoren WCMS etc. Content Management Systeme
18
Content Management Systeme
CMS Systeme Vignette Content Management Server Obtree (Obtree Technologies) Bladerunner (Broadvision) VIPContentManager (Gaus Interprise AG) Teamsite (Interwoven) Pirobase (Pironet NDH AG) Hyperwave Information Server (Hyperwave AG) Hyper.Net (Coextant-Systems) (Lotus Notes) Content Management Systeme
19
Content Management Systeme
OpenCms Open Source CMS Voll browserbasiert (Netscape 6.2 (ohne WYSIWYG) / MS IE 5.5 mit WYSIWYG) benötigt einen Servlet Container (z.B.: Tomcat 4.x) Datenbank (MySQL, Oracle) komplett in Java realisiert Templates werden als XML Files gespeichert Content Management Systeme
20
Content Management Systeme
OpenCms Features Templates (strikte Trennung von Content und Layout) Dynamisches und statisches Publishing Galerie für Grafiken und Files Benutzermanagement / Zugriffsrechte Projektbasiertes Publizieren Workflow- und Task-Management Mehrsprachigkeit Content Management Systeme
21
Content Management Systeme
OpenCms Features WYSIWYG-Editor für MS-Internet Explorer Personalisierbarkeit (mit Registrierung / Extranet, Newsletter Mails) Integrationsunterstützung mit Umsystemen Versionierung (alte Versionen werden aufbewahrt, Änderungen sind nachvollziehbar) Synchronisationsmechanismus für ausgelagerte Seiten im File-System. Verfügbares Hilfesystem Content Management Systeme
22
Content Management Systeme
OpenCms Features SSL-Support (https) Import / Export von Content (ZIP-File) Application Server Integration (J2EE/EJB) PDF / WAP Support (mittels spezieller Templates bzw. Java-Libraries) Suchmaschine Load Balancing Wahl zwischen Frame-Layout und nicht Frame-Layout Metainformationen (u.a.: Indexierung für Suchmaschinen) Content Management Systeme
23
Content Management Systeme
Portale Content Management Systeme
24
Content Management Systeme
Portale Funktionen Single Point of Access Zugriff auf alle Daten, Informationen und Applikationen über einen Client und einen Einstiegsbildschirm. Single Sign on Nur einmalige Anmeldung am Portal für alle beteiligten Anwendungssysteme Personalisierungsmöglichkeit der Einstiegsseite und der Navigationsstruktur Content Management Systeme
25
Content Management Systeme
Portale Funktionen Bedienung unterschiedlicher Ausgabegeräte Katalog (Navigation / Hyperlinks) Suchmaschine Kontextualisierung der Suchergebnisse Zugriff auf interne und externe Systeme Aktuelle Nachrichten Push-Funktion Content Management Systeme
26
Content Management Systeme
Portale Horizontale Portale sind für alle Nutzer gleich Suchmaschinen für spezielle Themen Vertikale Portale Sind für durch jeden Nutzer personalisierbar Erfordern Anmeldung / Identifikation des Nutzers Content Management Systeme
27
Content Management Systeme
Personalisierung Technisch (unterschiedliche Ausgabegeräte auch Browser) wirtschaftliche Zielgruppen (Technik: Benutzermodell) unterschiedliche Inhalte unterschiedliches Layout unterschiedliche Struktur unterschiedliche Werbung Personalisierbarkeit (von jedem selbst) Content Management Systeme
28
Content Management Systeme
Portale Ziele Arbeitsqualität verbessern durch Verbesserung der Qualität der Benutzerarbeitsplätze (mehr Transparenz, mehr Interoperabilität)) Informationsversorgung verbessern Informatikkosten einsparen (mittel- bis langfristig) Systembetrieb effizienter gestalten Lizenzkosten einsparen Niedrigere Ausbildungskosten Partnerfähigkeit / Flexibilität erhöhen Content Management Systeme
29
Content Management Systeme
Portale Relevante Aspekte Mehrere Sprachversionen Zugriff von überall (Ortsunabhängigkeit) Zugriff nur für Berechtigte Sicherheitsfunktionen Content Management Systeme
30
Content Management Systeme
EIP Enterprise Information Portals (EIP) bieten Zugriff über eine Startseite eines CLIENT auf alle Dokumente Prozesse Applikationen Daten eines Unternehmens und auf externe Informationen und Anwendungen Content Management Systeme
31
Content Management Systeme
EIP Enterprise Information Portals (EIP) bieten einheitlichen Zugriff auf alle Systeme: ERP-Systeme Workflow-Systeme Transaktionssysteme Datenbanksysteme DMS Groupware DataWarehouse Business Intelligence Content Management Systeme
32
Content Management Systeme
EIP Enterprise Information Portals (EIP) = Intranet bieten: Single Sign on (log on) Personalisierung / Filterung relevanter Informationen Einbindung unterschiedlicher (aller) Anwendungssysteme in eine Oberfläche Felxibilität hinsichtlich der Ausgabegeräte Push-Funktion Content Management Systeme
33
Information Retrieval
Content Management Systeme
34
Content Management Systeme
Themen Einleitung / Definition IR Bewertungskriterien von IR-Systemen IR-Modelle / Konzepte / Methoden Allgemeines Modell Boolesches Retrieval Vektor-Modell (Retrieval mit Ähnlichkeitsmaßen) Dokument-Term-Matrix Methoden IR mit relationalen Datenbanken Indexierung Clustering Informationsmarkt Content Management Systeme
35
Content Management Systeme
Einleitung Content Management Systeme
36
Content Management Systeme
Themen Einleitung / Definition IR Bewertungskriterien IR-Modelle / Konzepte / Methoden Allgemeines Modell Boolesches Retrieval Vektor-Modell (Retrieval mit Ähnlichkeitsmaßen) Dokument-Term-Matrix Methoden IR mit relationalen Datenbanken Indexierung Clustering Informationsmarkt Content Management Systeme
37
Information Retrieval
Definition IR ist ein wissenschaftliches Fachgebiet Information Retrieval (IR) beschäftigt sich mit Repräsentation , Speicherung und dem Zugriff von bzw. auf Dokumente(n) bzw. deren Surrogate to retrieve: wieder bekommen, wieder herstellen Content Management Systeme
38
Information Retrieval
IR beschäftigt sich auch mit: Konzeption, Bewertung von IR-Systemen Betrachtet reale IR-Systeme Entwickelt neue IR-Systeme Informationsmarkt (wirtschaftliche Verwertung / Anwendung von IR-Systemen) Content Management Systeme
39
Information Retrieval
Inhaltserschliessung Vergabe von Metainformationen / Verschlagwortung / Indexierung) Aufbau von Thesauri Klassifikation, Clusterung sind Voraussetzung für das Wiederfinden Suchtechniken (Anfragesprachen) Retrievalsprachen Reihenfolge der Ergebnisse Relevance-Feedback-Verfahren Browsing entlang Hyperlinks Content Management Systeme
40
Information Retrieval
Inhaltserschliessung und Suchtechniken müssen aufeinander abgestimmt sein!!! Content Management Systeme
41
Content Management Systeme
IR- Suche eine Suchanfrage wird mit einer Menge von Dokumenten durch einen Abgleichmechanismus (Matching) abgeglichen, der die relevanten Dokumente selektiert. Um die Suche zu beschleunigen, wird ein Index angelegt, mittels dem auf die Dokumente referenziert wird. Content Management Systeme
42
Content Management Systeme
IR-Systeme Bekannte Beispiele Internet-Portale / Suchmaschinen Bibliothekssysteme (z.B. Web Pac) Online-Datenbanken (häufig Referenzretrieval (z.B. wissenschaftliche Artikel)) Content Management Systeme
43
Information Retrieval
Benutzer Informationsbedürfnis Geordnete Ergebnisliste von Dokumenten Formulierung in natürlicher Sprache Formulierung in formaler Sprache IR-Modell Anfragesprache Index Dokument repräsentation IR-System Dokumentenbehälter Content Management Systeme
44
Information Retrieval
Benutzer Informationsbedürfnis Browsing / Navigation entlang von Hyperlinks Geordnete Ergebnisliste von Dokumenten Formulierung in natürlicher Sprache Formulierung in formaler Sprache Katalog IR-System Dokumentenbehälter Content Management Systeme
45
Informationsbedüfnis
Typen Ich möchte eine Antwort auf folgende Frage ... ( Faktenretrieval (SQL)) Ich suche Informationen zum Thema ... ( Dokumentretrieval) Ich interessiere mich für folgendes Gebiet ... ( Dokumentretrieval) Ich möchte folgendes Problem besser verstehen ... ( Dokumentretrieval / Hypermedia / Browsing / Navigation) Content Management Systeme
46
Content Management Systeme
IR-Systeme System-Funktionen Suche: Suchanfrage z.B. einzelne Suchbegriffe Ergebnis: geordnete Liste von Dokumenten bzw. Verweise auf Dokumente Content Management Systeme
47
Content Management Systeme
IR-Systeme Mögliche Ordnungskriterien für die Anzeige: Relevanz für Suchanfrage Aktualität des Dokumentes wirtschaftliche Vereinbarungen mit Geschäftspartnern Ähnlichkeit mit Profil des Anfragenden Umfang des Dokumentes Content Management Systeme
48
Content Management Systeme
Themen Einleitung / Definition IR Bewertungskriterien IR-Modelle / Konzepte / Methoden Allgemeines Modell Boolesches Retrieval Vektor-Modell (Retrieval mit Ähnlichkeitsmaßen) Dokument-Term-Matrix Methoden IR mit relationalen Datenbanken Indexierung Clustering Informationsmarkt Content Management Systeme
49
IR Bewertungskriterien
Content Management Systeme
50
IR Bewertungskriterien
Recall Precision Aufwand zur Formulierung einer Anfrage Antwortzeit des Retrieval-Systems Präsentation der Ergebnisse Abdeckung der Datenbank Content Management Systeme
51
IR Bewertungskriterien
hoher RECALL möglichst alle relevanten Informationen werden gefunden hohe PRECISION möglichst wenig nicht relevante Informationen werden gefunden Content Management Systeme
52
IR Bewertungskriterien
Recall Recall = GRD / RDD GRD = Anzahl der gefundenen relevanten Dokumente RDD = Anzahl der relevanten Dokumente der Datenbank Content Management Systeme
53
IR Bewertungskriterien
Precision Precision = GRD / GD GRD = Anzahl der gefundenen relevanten Dokumente GD = Anzahl der gefundenen Dokumente Content Management Systeme
54
IR Bewertungskriterien
Fallout Ratio Fallout Ratio = GID / IDD GID = Anzahl der gefundenen irrelevanten Dokumente IDD = Anzahl der irrelevanten Dokumente in der Datenbank Content Management Systeme
55
IR Bewertungskriterien
Beispiel sonstige Dokumente= 100 gefundene Dokumente Relevante Dokumente GD= 10 GRD = 4 GID=6 RDD=12 IDD=106 Recall = 4/12 = 1/3 Precision = 4/10 = 2/5 Fallout-Ratio = 6/106 = 3/53 gefundene relevante Dokumente Content Management Systeme
56
IR Bewertungskriterien
Die drei Bewertungskriterien müssen zusammen betrachtet (optimiert) werden! Ein IR-System ist umso besser je grösser Recall und Precision sind je kleiner die Fall-Out-Ratio ist für alle Anfragen Content Management Systeme
57
Content Management Systeme
Themen Einleitung / Definition IR Bewertungskriterien IR-Modelle / Konzepte / Methoden Allgemeines Modell Boolesches Retrieval Vektor-Modell (Retrieval mit Ähnlichkeitsmaßen) Dokument-Term-Matrix Methoden IR mit relationalen Datenbanken Indexierung Clustering Informationsmarkt Content Management Systeme
58
Content Management Systeme
IR Allgemeines Modell IR Modell = (D, S, V, R) wobei D Menge aller betrachteten Dokumente (gegeben durch spezielle Beschreibungen) S ist die Menge aller möglichen Suchfragen gegeben durch spezielle Beschreibungen in einer Dokumentationssprache (Schlagworte) V ist eine geordnete Menge (Zahlen) R: D x S V ist eine Retrievalfunktion Content Management Systeme
59
Content Management Systeme
IR Allgemeines Modell Jedes d D wird häufig durch eine Menge von Schlagworten beschrieben Jedes s S wird häufig durch eine Menge von Schlagworten definiert (die eventuell noch zusätzlich speziell kombiniert werden). V ist meist eine der folgenden 3 Mengen: {0,1}, [0,1], [0,] R: D x S V ermöglicht nur dann eine an der Relevanz orientierte Ausgabereihenfolge, der Suchergebnisse, wenn V geordnete Menge ist. Content Management Systeme
60
Content Management Systeme
Themen Einleitung / Definition IR Bewertungskriterien IR-Modelle / Konzepte / Methoden Allgemeines Modell Boolesches Retrieval Vektor-Modell (Retrieval mit Ähnlichkeitsmaßen) Dokument-Term-Matrix Methoden IR mit relationalen Datenbanken Indexierung Clustering Informationsmarkt Content Management Systeme
61
Content Management Systeme
Boolesches Retrieval Content Management Systeme
62
Content Management Systeme
Boolesches Retrieval Logische Operatoren (verknüpfen Suchbegriffe) es werden jeweils an Dokumenten gefunden bei: OR alle Dokumente die einen der Suchbegriffe enthalten AND alle Dokumente die beide Suchbegriffe enthalten NOT alle Dokumente, die den Suchbegriff nicht enthalten Content Management Systeme
63
Content Management Systeme
Boolesches Retrieval T sei eine Menge von Termen (Deskriptoren / Schlagworten) Ein Dokument d D wird beschrieben durch eine Menge von Termen: d = {t1, ... , tn} T Content Management Systeme
64
Content Management Systeme
Boolesches Retrieval S wird folgendermassen definiert: a T dann a S a, b S dann (a AND b) S a, b S dann (a OR b) S a S dann (NOT a S) V = {0, 1} Content Management Systeme
65
Content Management Systeme
Boolesches Retrieval Retrievalfunktion R: Für d D und s T, s1, s2 S gilt: R(d,s) = 1, wenn s d R(d,s) = 0, wenn s d R(d,s1 s2) = min( R(d, s1), R(d, s2)) R(d,s1 s2) = max( R(d, s1), R(d, s2)) R(d, s) = 1 – R(d,s) Content Management Systeme
66
Content Management Systeme
Boolesches Retrieval Retrievalfunktion R dabei bedeutet: R(d,s) = 1 Dokument d wird gefunden R(d,s) = 0 Dokument d wird nicht gefunden Content Management Systeme
67
Content Management Systeme
Boolesches Retrieval Beispiel T = {a,b,c,d,e} d‘ = {a,b,e} s = ((a b) (( c) d)) R(d‘,s) = R(d‘, ((a b) (( c) d))) = max(R(d‘, (a b)), R(d‘, (( c) d))) = max(min(R(d‘,a),R(d‘,b)), min(R(d‘,( c)), R(d‘,d))) =max(min(1,1), min(1-R(d‘,c), 0) =max(1, 0) =1 Content Management Systeme
68
Erweiterungsmöglichkeiten des Booleschen Retrievals
Content Management Systeme
69
Content Management Systeme
Suchanfragen Möglichkeiten Felder in Dokumenten berücksichtigen Feldselektion (CT = Zement, Zement/TI) Vergleichsoperatoren (=, <, >, <=, >=) Maskierung/ Trunkierung (Information$) Abstandsoperatoren (ADJ, WITH, SAME, W3) (direkt , im gleichen Satz, im gleichen Paragraph, höchstens 3 Wörter auseinander) Content Management Systeme
70
Content Management Systeme
Feldselektion Beispiele FIND Information/TI FIND CT=Information F Economics (TI; AB) FIND Economics (TI) AND Information/AB Content Management Systeme
71
Content Management Systeme
Boolesche Anfragen Beispiele FIND Information FIND Electronic Mail AND FAX F CT=Biology FIND (Internet OR CompuServe) AND Commerce Content Management Systeme
72
Maskierung/Trunkierung
Beispiele FIND Econom$ FIND $$System$ F Inf$$$$tion Content Management Systeme
73
Content Management Systeme
Abstandsoperatoren Beispiele F Inter$ SAME Commerce (im gleichen Paragraphen) F Internet WITH Information (im gleichen Satz) F Internet ADJ Service (direkt hintereinander) Content Management Systeme
74
Content Management Systeme
Abstandsoperatoren Abstands-Operatoren ADJ (ADJacency-Operator) Suchbegriffe müssen in der angegebenen Reihenfolge direkt aufeinanderfolgen WITH Suchbegriffe müssen in einem Satz auftreten SAME Suchbegriffe müssen in einem Absatz enthalten sein Content Management Systeme
75
Content Management Systeme
Abstandsoperatoren Abstands-Operatoren NEXT Zwischen den Suchbegriffen dürfen maximal 5 Wörter stehen, wobei die Reihenfolge relevant ist NEAR Zwischen den Suchbegriffen dürfen maximal 5 Wörter stehen, wobei die Reihenfolge nicht relevant ist (W3) Zwischen den Suchbegriffen darf ein Abstand von höchstens 3 Wörtern bestehen Content Management Systeme
76
Content Management Systeme
Themen Einleitung / Definition IR Bewertungskriterien IR-Modelle / Konzepte / Methoden Allgemeines Modell Boolesches Retrieval Vektor-Modell (Retrieval mit Ähnlichkeitsmaßen) Dokument-Term-Matrix Methoden IR mit relationalen Datenbanken Indexierung Clustering Informationsmarkt Content Management Systeme
77
Content Management Systeme
Vektor-Modell Content Management Systeme
78
Content Management Systeme
Vektor-Modell Mit dem Vektor-Modell kann man das Retrieval mit gewichteten oder nicht gewichteten Termzuordnungen zu Dokumenten und zu Suchanfragen beschreiben. Ferner lassen sich damit die Dokumente bezüglich jeder Suchanfrage in eine Reihenfolge hinsichtlich ihrer Relevanz für die Suchanfrage bringen. Content Management Systeme
79
Content Management Systeme
Vektor-Modell Jedes Dokument wird durch einen Dokumentvektor beschrieben. m = Anzahl der Terme / Schlagwörter T = {t1, ..., tm} die Menge der Terme D = {D1, ... Dn} die Menge der Dokumente 0 < aij = Gewicht von Schlagwort tj in Dokument Di Im Booleschen Retrieval gilt: aij = 0 oder aij = 1 Di = (ai1 , ..., ajm ) ist Dokumentvektor Content Management Systeme
80
Content Management Systeme
Suchanfrage Suchanfragen s sind ähnlich aufgebaut wie Dokumentvektoren S = {(t1, ... , tm) | ti = 0 oder ti = 1, i = 1,...,m} sei s S M • s = (l1, ... , ln) (Matrix M • Vektor s) li = aij • ti (j=1...m) (M = (aij) ist heisst Dokument-Term-Matrix) Content Management Systeme
81
IR mit Ähnlichkeitsmaßen
S wird wie die Dokumentenmenge definiert d.h.: S = D. V = [0,] R (Retrievalfunktion) wird mit Hilfe von Ähnlichkeitsmaßen definiert. Content Management Systeme
82
IR mit Ähnlichkeitsmaßen
R wird mit Hilfe von Ähnlichkeitsmaßen definiert: sei d = (a1, ... , am) eine Dokumentbeschreibung s = (s1, ... , sm) eine Suchfragenbeschreibung Ähnlichkeitsmaße Innere Produktmaß = ak • sk (k = 1,... m) Tanimotomaß Cosinusmaß Content Management Systeme
83
Content Management Systeme
Themen Einleitung / Definition IR Bewertungskriterien IR-Modelle / Konzepte / Methoden Allgemeines Modell Boolesches Retrieval Vektor-Modell (Retrieval mit Ähnlichkeitsmaßen) Dokument-Term-Matrix Methoden IR mit relationalen Datenbanken Indexierung Clustering Informationsmarkt Content Management Systeme
84
Dokument-Term-Matrix
Content Management Systeme
85
Dokument-Term-Matrix
ermöglicht: einheitliche Behandlung vieler Retrievalmodelle (Matching von Anfragen und Dokumenten) Anwendung von automatischen Cluster- und Klassifikationsverfahren auf die Menge der Dokumente auf die Menge der Terme (Schlagworte) Content Management Systeme
86
Klassifikation / Clustering
Abgrenzung / Definition Klassifikation Sinnvolle Einordnung von Objekten in vorgegebene Klassen Clustering Aufbau von Klassen aus einer Grundgesamtheit von Objekten, zwischen denen eine Ähnlichkeitsbeziehung besteht Content Management Systeme
87
Dokument-Term-Matrix
Mit 0/1 Werten Dokumente: D = {D1, ..., Dn} Terme: T = {t1, ...,tm} Martix (aij) i = 1, ..., n, j = 1, ..., m aij = 1 Term j ist Schlagwort für Di aij = 0 Term j ist nicht Schlagwort für Di Dokumentvektor Di = (ai1, ...,aim) Termvektor tj = (a1j, ...,anj) Content Management Systeme
88
Dokument-Term-Matrix
Mit Ähnlichkeitsmassen Dokumente: D = {D1, ..., Dn} Terme: T = {t1, ...,tm} Martix (aij) i = 1, ..., n, j = 1, ..., m aij [0,) Term tj ist Schlagwort für Di mit Gewichtung aij Dokumentvektor Di = (ai1, ...,aim) Termvektor tj = (a1j, ...,anj) Content Management Systeme
89
Content Management Systeme
Dokument-Term-Matrix Terme 1 j m 1 aij Dokumente M = i n Mit 0/1-Werten Content Management Systeme
90
Dokument-Term-Matrix
Terme 1 j m 1 aij Dokumente M = i n Mit Ähnlichkeitsmaßen Content Management Systeme
91
Content Management Systeme
Themen Einleitung / Definition IR Bewertungskriterien IR-Modelle / Konzepte / Methoden Allgemeines Modell Boolesches Retrieval Vektor-Modell (Retrieval mit Ähnlichkeitsmaßen) Dokument-Term-Matrix Methoden IR mit relationalen Datenbanken Indexierung Clustering Informationsmarkt Content Management Systeme
92
Content Management Systeme
IR Methoden Inhaltserschliessung manuelle Inhaltserschliessung automatische Inhaltserschliessung reines Volltextretrieval (Automatisches) Indexing (Automatisches) Abstracting (Automatisches) Klassifikation (Automatisches) Clustering mit manuell erzeugtem kontrolliertem Vokabular mit automatisch erzeugtem kontrolliertem Vokabular mit Abstandsoperatoren / Trunkierung mit Gewichten oder nur {0,1} als Werte Content Management Systeme
93
Content Management Systeme
IR Methoden Suchtechniken Browsing Boolesche Suche mit Trunkierung mit Feldeinschränkung mit Vergleichsoperatoren mit Abstandsopertoren Suche mit gewichteten Suchtermen Relevance-Feedback-Verfahren Content Management Systeme
94
Content Management Systeme
Themen Einleitung / Definition IR Bewertungskriterien IR-Modelle / Konzepte / Methoden Allgemeines Modell Boolesches Retrieval Vektor-Modell (Retrieval mit Ähnlichkeitsmaßen) Dokument-Term-Matrix Methoden IR mit relationalen Datenbanken Indexierung Clustering Informationsmarkt Content Management Systeme
95
IR mit relationalen Datenbanken
Content Management Systeme
96
IR mit relationalen DBen
Volltext Retrieval Dokumente Wörter in n m Doc_ID Dokument W_ID Wort Content Management Systeme
97
IR mit relationalen DBen
Volltext Retrieval mit Stoppwortliste W_ID Wort Doc_ID Dokument n in m Wörter Dokumente Stoppwörter Content Management Systeme
98
IR mit relationalen DBen
Volltext Retrieval mit Stoppwortliste und Häufigkeit W_ID Wort Doc_ID Dokument n in m Wörter Dokumente Häufigkeit Stoppwörter Content Management Systeme
99
IR mit relationalen DBen
Volltext Retrieval mit Stoppwortliste, Häufigkeit und Stelle Stelle Stelle W_ID Wort Doc_ID Document n m in Wörter Dokumente n m Häufigkeit Stoppwörter Content Management Systeme
100
IR mit relationalen DBen
Retrieval mit kontolliertem Vokabular (Thesaurus), Synonymen, Häufigkeit und Stelle Stelle Stelle W_ID Wort Doc_ID Document n m charak terisiert Schlagwörter Dokumente n m 1 gehört zu Häufigkeit n Synonyme Content Management Systeme
101
IR mit relationalen DBen
Retrieval mit Thesaurus, Häufigkeit, Stelle Synonymen und Abstandsoperatoren Doc_ID Document Stellen Dokumente Stelle m W_ID Wort Kapitel n charakteri siert Absatz Schlagwörter n 1 1 gehört zu2 gehört zu Häufigkeit n n m Satz Synonyme Content Management Systeme
102
IR mit relationalen DBen
Retrieval mit Thesaurus, Gewicht, Stelle Synonymen und Abstandsoperatoren Doc_ID Document Stellen Dokumente Stelle m W_ID Wort Kapitel n charakteri siert Absatz Schlagwörter n 1 1 gehört zu2 gehört zu Gewicht n n m Satz Synonyme Content Management Systeme
103
Content Management Systeme
Themen Einleitung / Definition IR Bewertungskriterien IR-Modelle / Konzepte / Methoden Allgemeines Modell Boolesches Retrieval Vektor-Modell (Retrieval mit Ähnlichkeitsmaßen) Dokument-Term-Matrix Methoden IR mit relationalen Datenbanken Indexierung Clustering Informationsmarkt Content Management Systeme
104
Content Management Systeme
Indexierung Content Management Systeme
105
Content Management Systeme
Manuelle Indexierung Content Management Systeme
106
Content Management Systeme
Manuelle Indexierung erfolgt durch Menschen (Bibliothekare etc.) Zuordnung von Schlagworten (Deskriptoren / Termen) zu einem Dokument, um ein Dokument thematisch zu beschreiben, damit es später darüber gefunden werden kann. Erfolgt häufig auf der Basis eines kontrollierten Vokabulars (Thesaurus) häufig erfolgt zusätzlich eine Klassifikation auf der Basis eines vorgegebenen Klassifikationsschemas Content Management Systeme
107
Content Management Systeme
Schlagworte Ein Schlagwort ist ein Wort, das den Dokumentinhalt thematisch charakterisiert Schlagwörter sollten meist Substantive im Nominativ und im Singular sein Sie dienen dazu Dokumente zu selektieren Schlagworte, die alle Dokumente charakterisieren sind deshalb nutzlos Die Relevanz von Schlagworten zur Beschreibung von Dokumenten kann unterschiedlich gross sein Content Management Systeme
108
Content Management Systeme
Thesaurus einfaches semantisches Netz Relationen Oberbegriff (BT Broader Term) Unterbegriff (NT Narrower term) Synonyme / Homonyme (durch Kontextangabe) RT Related Terms häufig ohne Hyperlinks für manuelle Nutzung, nicht für automatische Nutzung realisiert Beispiele: Content Management Systeme
109
Content Management Systeme
Signifikanzfaktoren zur Selektion relevanter Deskriptoren: Manuelle Bestimmung einer Stoppwortliste: (der, die, das, ein, etc.) Nur Substantive (Nominativ, Singular) Automatisches Verfahren bezüglich Häufigkeit von Deskriptoren in Dokumentkollektionen. Content Management Systeme
110
Content Management Systeme
Signifikanzfaktoren FREQi,k Häufigkeit von Term tk in Dokument Di TOTFREQk Häufigkeit von Term tk in allen Dokumenten Di (i= 1... n) (Summe der FREQi,k über alle i) Verwende alle Terme tk mit Untergrenze < TOTFREQk < Obergrenze als Deskriptoren Content Management Systeme
111
Automatische Indexierung
Content Management Systeme
112
Automatische Indexierung
Ziel Automatische Ermittlung der besten Schlagworte für jedes Dokument einer betrachteten Dokumentkollektion Automatische Ermittlung von Gewichten (WEIGHTs) , mit denen die vorkommenden Schlagworte den einzelnen Dokumenten zugeordnet werden Content Management Systeme
113
Automatische Indexierung
Ermittlung aller vorkommender Wörter einer Dokumentkollektion (Titel und Abstract zusammen liefern schon gute Ergebnisse (Volltextanalyse ist nicht unbedingt notwendig)) Eliminierung der Stoppwörter (ca. 250) Identifikation guter Deskriptoren Stammformenreduktion Bestimmung von Synonymen (manuell / Thesaurus) Content Management Systeme
114
Automatische Indexierung
Berechnung der Dokument-Term-Matrix z.B. gemäss (Weighti,k ) Zuweisung von Deskriptoren zu den Dokumenten erfolgt ab einem definierten Termgewicht (binär oder statistisch) Bei binärem Modell wird der Term zugewiesen, wenn er mindestens einmal im Dokument vorkommt Content Management Systeme
115
Automatische Indexierung
Zunächst: Bestimmung der (besten) Deskriptoren (Terme) für eine Dokumentkollektion als ganzer Annahme: Die besten Terme in einer Dokument-kollektion sind jene Terme, die in der Dokumentkollektion insgesamt nicht zu oft und nicht zu selten vorkommen. Content Management Systeme
116
Automatische Indexierung
DOCFREQk (Dokumentenhäufigkeit) Anzahl der Dokumente, in denen tk vorkommt. Ein sinnvolles Mass für die inverse Dokumentenhäufigkeit ist: INV-DOCFREQk = Log2 (n / DOCFREQk) + 1 Dabei ist „n“ die Anzahl der betrachteten Dokumente Content Management Systeme
117
Automatische Indexierung
sinnvolle Gewichtsfunktionen für die Indexierung eines Dokumentes Di mit dem Term tk ist: Weighti,k = FREQi,k • INV-DOCFREQk Content Management Systeme
118
Content Management Systeme
Themen Einleitung / Definition IR Bewertungskriterien IR-Modelle / Konzepte / Methoden Allgemeines Modell Boolesches Retrieval Vektor-Modell (Retrieval mit Ähnlichkeitsmaßen) Dokument-Term-Matrix Methoden IR mit relationalen Datenbanken Indexierung Clustering Informationsmarkt Content Management Systeme
119
Automatisches Clustering
Content Management Systeme
120
Ähnlichkeiten zwischen Vektoren
Ähnlichkeit zwischen Dokumenten und Deskriptoren können mittels der Term-Dokument-Matrix ermittelt werden. SIMILAR(Di, Dj) = Di • Dj (innere Vektorprodukt) i,j = 1, ..., n SIMILAR(ti, tj) = ti • tj (innere Vektorprodukt) i,j = 1, ..., m Content Management Systeme
121
Ähnlichkeiten zwischen Vektoren
Dies führt zu Term-Term-Ähnlichkeitsmatrizen SIMILAR(ti,tj) i,j = 1, ..., m und Dokument-Dokument-Ähnlichkeitsmatrizen SIMILAR(Di,Dj) i,j = 1, ..., n Content Management Systeme
122
Content Management Systeme
Clustering Klassen von ähnlichen Termen Klassen von ähnlichen Dokumenten basieren auf den zugehörigen Ähnlichkeitsmatrizen Kriterium Dokumente bzw. Terme werden in Abhängigkeit von den bestehenden Ähnlichkeiten zu Klassen zusammen gefasst. Content Management Systeme
123
Content Management Systeme
Clustering Es gibt mehrere Verfahren Viele Verfahren starten mit Ausgangsklassen, die unterschiedlich bestimmt werden können z.B. Termmengen in einem Dokument oder einer Dokumentmenge Termmengen in Dokumenten, die auf eine Suchfrage hin gefunden wurden Content Management Systeme
124
Content Management Systeme
Clustering Für jede so bestimmte Klasse wird ein Term-Centroid (bzw. Dokument-Centroid) als „Durchschnittsvektor“ der Klassen bestimmt Für eine Klassen K mit m Termvektoren t1, ..., tm Centroid(K) = 1/m Summe tk Dann werden alle Ähnlichkeiten zwischen allen Centroiden und allen Termen berechnet, die keine Centroide sind Content Management Systeme
125
Content Management Systeme
Clustering 4. Jeder Term wird der Klasse zugeordnet, zu dessen Centroid er die höchste Ähnlichkeit hat. 5. Falls ein Term die Klasse wechselt, wird der Prozess erneut durchlaufen Content Management Systeme
126
Content Management Systeme
Clustering Auf den Klassen lässt sich eine Hierarchie definieren, indem man Centroide zu Klassen zusammenfasst. Hierarchische Klassen auf Termen können so zum automatischen Aufbau von hierarchischen Katalogen verwendet werden. Die Cluster können auch als Basis einer grafischen Retrievalsprache verwendet werden, indem die Cluster mit den enthalten Termen und den Ähnlichkeitsmaßen zwischen den Termen grafisch dargestellt und durch Klickoperationen Navigations- bzw. Anfragen ausgelöst werden können. Content Management Systeme
127
Content Management Systeme
Relevance Feedback Beim Relevance Feedback Verfahren werden vom Benutzer als sehr relevant gekennzeichnete Ergebnisdokumente einer Recherche, zur Verbesserung der Suche als neuerliche Suchfragen (als Termvektor), verwendet. Content Management Systeme
128
Content Management Systeme
Themen Einleitung / Definition IR Bewertungskriterien IR-Modelle / Konzepte / Methoden Allgemeines Modell Boolesches Retrieval Vektor-Modell (Retrieval mit Ähnlichkeitsmaßen) Dokument-Term-Matrix Methoden IR mit relationalen Datenbanken Indexierung Clustering Informationsmarkt Content Management Systeme
129
Content Management Systeme
Informationsmarkt Content Management Systeme
130
Content Management Systeme
Informationsmarkt Online-Datenbanken Datenbasisproduzenten (produzieren Datenbasen) Datenbankanbieter/Hosts (betreiben Online-Datenbanken mit verschiedenen Datenbasen) Jeder Datenbankanbieter hat möglicherweise eigene Retrievalsprache Content Management Systeme
131
Content Management Systeme
CCL Common Command Language (CCL) for Online Interactive Information Retrieval Ist eine Standardisierung im Bereich Retrievalsprache für Online-Datenbanken (NISO). Content Management Systeme
132
Content Management Systeme
Informationsmarkt Online-Datenbanken - Datenbanktypen Textdatenbanken Referenzdatenbanken bibliographische Datenbanken (Autor, Titel, Zeitschrift, Heft, Seiten) sonstige Referenzdatenbanken (Patente, Projekte, Firmen, Experten) Volltextdatenbanken Content Management Systeme
133
Content Management Systeme
Informationsmarkt Online-Datenbanken - Datenbanktypen Faktendatenbanken numerische Datenbanken (Außenhandels- Statistiken, Börsendaten) Formeldatenbanken(Physik, Chemie, Technik) integrierte Datenbanken Multimedia-Datenbanken Content Management Systeme
134
Information Retrieval
Wichtige Datenbankanbieter DIALOG (450 DBen, allround) DATASTAR (350 DBen, allround) STN International (200 DBen, Technik, Naturw.) LEXIS-NEXIS (Volltexte: Presse, Wirtschaft, Recht) GENIOS (500 DBen,Wirtschaft,Firmen,Branchen) GBI (160 DBen, Betriebswirtschaftliche Infos FIZ Technik (110 DBen, Technikm Naturw., Patente) DIMDI (100 DBen, Medizin, Agrar,Psychologie) Questel Orbit (120 DBen, Patente, Technik, Naturw.) Content Management Systeme
135
Information Retrieval
WWW-Adressen Datenbankanbieter DIALOG DATASTAR STN International LEXIS-NEXIS GENIOS GBI FIZ Technik DIMDI Questel Orbit Content Management Systeme
136
Science Citation Index
ermöglicht die Suche nach allen wissenschaftlichen Dokumenten, in denen ein spezielles wissenschaftliches Dokument zitiert wird (d.h. im Literaturverzeichnis auftaucht). Content Management Systeme
137
Datenbankverzeichnisse
Gale Directory of Databases 0.html provides detailed information on publicly available databases and database products accessible through an online vendor, Internet, or batch processor, or available for direct lease, license, or purchase as a CD-ROM, diskette, magnetic tape, or handheld product. Content Management Systeme
138
Content Management Systeme
IR Vorgehen Formulierung des Informationsproblems Auswahl der Datenbank Studieren der Datenbankstruktur Studieren der Retrievalsprache Formulierung spezifischer Suchanfrage Suchanfrage stellen Suchergebnis bewerten Dokumente entsprechend abrufen bzw. Suchanfrage umformulieren Content Management Systeme
Ähnliche Präsentationen
© 2024 SlidePlayer.org Inc.
All rights reserved.