Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Content Management Systeme1 Content Management Systeme.

Ähnliche Präsentationen


Präsentation zum Thema: "Content Management Systeme1 Content Management Systeme."—  Präsentation transkript:

1 Content Management Systeme1 Content Management Systeme

2 Content Management Systeme2 Rückblick

3 Content Management Systeme3 Inhalt Vorlesung CMS Einleitung / Definition / Motivation Web-Content Management Systeme (WCMS) Information Retrieval Dokumentenmanagementsysteme (DMS) Resource Description Framework (RDF) Topic Maps Dokumentenbeschreibungssprachen (XML etc.)

4 Content Management Systeme4 Inhalt heute Rückblick WCMS Systemarchitektur Datenstrukturen für WCMS (W)CM-Systeme OpenCms (W)CM-Organisation Portale EIP Information Retrieval

5 Content Management Systeme5 Rückblick CMS Einleitung / Definition / Motivation Abgrenzung zu Datenmanagement Unternehmenssituation Integrationsproblematik –Cross Media Publishing (Single Source) –Unterschiedliche Dokumentformate –Unterschiedliche Dokumenttypen –Informationsräume

6 Content Management Systeme6 Rückblick WCMS –Definition –Trennung von Struktur / Content / Layout / Funktion –Einsatzkriterien –Funktionen Content-Lebenszyklus Vergleich von Hypermedia- und Papierdokumenten (Persistenz / sequentiell) Mengensatz / Akzidenzsatz

7 Content Management Systeme7 (W)CMS Struktur Layout Inhalt Templates Hierarchie Klassifikation Daten Getrennte Aspekte

8 Content Management Systeme8 Content Lebenzyklus Content Management Contentgenerierung Identifizieren Sammeln Erzeugen Erfassen Erstellen Contentorganisation Strukturieren Indexieren Filtern Speichern Verwalten Contentaufbereitung Verdichten / Integration Verfeinerung Erweiterung Kontext Erzeugung Redaktion Contentdistribution Suchen Wissensfluss Logistik Contentnutzung Interpretieren Anwenden Bewerten Kommentieren Visualisieren Contentreduzierung Archivierung Löschung

9 Content Management Systeme9 WCMS - Systemarchitektur

10 Content Management Systeme10 WCMS Systemarchitektur DB Legacy-Systeme CMS- Engine Datei- System DB- Schema Web-Server Export Medienneutralität Berechtigungsverwaltung Mehrfachverwertung Site-Management Mehrsprachigkeit Terminierung Struktur Templates Content Funktionen Import Anforderungen Objekttypen DMS

11 Content Management Systeme11 WCMS Nutzung DB Legacy-Systeme CMS- Engine Datei- System DB- Schema Web-Server Export Import Browser Handy Endnutzer etc. Print

12 Content Management Systeme12 WCMS Pflege DB Legacy-Systeme CMS- Engine Datei- System DB- Schema Web-Server Export Import Browser Client Editor / Administrator ODBC Editor

13 Content Management Systeme13 WCMS Pflege Über Browser Mittels Webformularen Richtext-Editoren (eventuell mit Einschränkungen) Workflow

14 Content Management Systeme14 WCMS Replikation Legacy-Systeme Datei- System Export DB CMS- Engine DB- Schema Web-Server Import DB CMS- Engine DB- Schema Web-Server Replikation Produktivsystem Entwicklungs- system Datei- System Import

15 Content Management Systeme15 Datenmodell für DB Web-Seite Templates Web-Site Content TextGrafiken Schlagwort Editor Benutzer Version von von1 von2 von3 von4 von von5 t 1n n 1 n m n m n m n m n m VideoAudio link n 1

16 Content Management Systeme16 (W)CM Organisation Gesamtkoordination Internet / Holding Intranet / Holding Internet / Töchter Intranet / Töchter Extranet / Holding Extranet / Töchter Teamroom Holding Teamrom / Töchter Verantwortlicher Koordination DMS

17 Content Management Systeme17 (W)CM Organisation Beispiel Internet Tochter Personal Marketing Vertrieb 1 Vertrieb 2 Unternehmens- kommunikation Fachbereiche Verantwortlicher / Editoren etc. Informatik Entwicklung Betrieb Ausbildung Leitung Koordination Teamleitung WCMS

18 Content Management Systeme18 CMS Systeme Vignette Content Management Server Obtree (Obtree Technologies) Bladerunner (Broadvision) VIPContentManager (Gaus Interprise AG) Teamsite (Interwoven) Pirobase (Pironet NDH AG) Hyperwave Information Server (Hyperwave AG) Hyper.Net (Coextant-Systems) (Lotus Notes)

19 Content Management Systeme19 OpenCms Open Source CMS Voll browserbasiert (Netscape 6.2 (ohne WYSIWYG) / MS IE 5.5 mit WYSIWYG) benötigt –einen Servlet Container (z.B.: Tomcat 4.x) –Datenbank (MySQL, Oracle) komplett in Java realisiert Templates werden als XML Files gespeichert

20 Content Management Systeme20 OpenCms Features Templates (strikte Trennung von Content und Layout) Dynamisches und statisches Publishing Galerie für Grafiken und Files Benutzermanagement / Zugriffsrechte Projektbasiertes Publizieren Workflow- und Task-Management Mehrsprachigkeit

21 Content Management Systeme21 OpenCms Features WYSIWYG-Editor für MS-Internet Explorer Personalisierbarkeit (mit Registrierung / Extranet, Newsletter Mails) Integrationsunterstützung mit Umsystemen Versionierung (alte Versionen werden aufbewahrt, Änderungen sind nachvollziehbar) Synchronisationsmechanismus für ausgelagerte Seiten im File-System. Verfügbares Hilfesystem

22 Content Management Systeme22 OpenCms Features SSL-Support (https) Import / Export von Content (ZIP-File) Application Server Integration (J2EE/EJB) PDF / WAP Support (mittels spezieller Templates bzw. Java-Libraries) Suchmaschine Load Balancing Wahl zwischen Frame-Layout und nicht Frame- Layout Metainformationen (u.a.: Indexierung für Suchmaschinen)

23 Content Management Systeme23 Portale

24 Content Management Systeme24 Portale Funktionen Single Point of Access Zugriff auf alle Daten, Informationen und Applikationen über einen Client und einen Einstiegsbildschirm. Single Sign on Nur einmalige Anmeldung am Portal für alle beteiligten Anwendungssysteme Personalisierungsmöglichkeit der Einstiegsseite und der Navigationsstruktur

25 Content Management Systeme25 Portale Funktionen Bedienung unterschiedlicher Ausgabegeräte Katalog (Navigation / Hyperlinks) Suchmaschine Kontextualisierung der Suchergebnisse Zugriff auf interne und externe Systeme Aktuelle Nachrichten Push-Funktion

26 Content Management Systeme26 Portale Horizontale Portale sind für alle Nutzer gleich Suchmaschinen für spezielle Themen Vertikale Portale Sind für durch jeden Nutzer personalisierbar Erfordern Anmeldung / Identifikation des Nutzers

27 Content Management Systeme27 Personalisierung Technisch (unterschiedliche Ausgabegeräte auch Browser) wirtschaftliche Zielgruppen (Technik: Benutzermodell) –unterschiedliche Inhalte –unterschiedliches Layout –unterschiedliche Struktur –unterschiedliche Werbung Personalisierbarkeit (von jedem selbst)

28 Content Management Systeme28 Portale Ziele Arbeitsqualität verbessern durch Verbesserung der Qualität der Benutzerarbeitsplätze (mehr Transparenz, mehr Interoperabilität)) Informationsversorgung verbessern Informatikkosten einsparen (mittel- bis langfristig) –Systembetrieb effizienter gestalten –Lizenzkosten einsparen –Niedrigere Ausbildungskosten Partnerfähigkeit / Flexibilität erhöhen

29 Content Management Systeme29 Portale Relevante Aspekte Mehrere Sprachversionen Zugriff von überall (Ortsunabhängigkeit) Zugriff nur für Berechtigte Sicherheitsfunktionen

30 Content Management Systeme30 EIP Enterprise Information Portals (EIP) bieten Zugriff über eine Startseite eines CLIENT auf alle Dokumente Prozesse Applikationen Daten eines Unternehmens und auf externe Informationen und Anwendungen

31 Content Management Systeme31 EIP Enterprise Information Portals (EIP) bieten einheitlichen Zugriff auf alle Systeme: ERP-Systeme Workflow-Systeme Transaktionssysteme Datenbanksysteme DMS Groupware DataWarehouse Business Intelligence

32 Content Management Systeme32 EIP Enterprise Information Portals (EIP) = Intranet bieten: Single Sign on (log on) Personalisierung / Filterung relevanter Informationen Einbindung unterschiedlicher (aller) Anwendungssysteme in eine Oberfläche Felxibilität hinsichtlich der Ausgabegeräte Push-Funktion

33 Content Management Systeme33 Information Retrieval

34 Content Management Systeme34 Themen Einleitung / Definition IR Bewertungskriterien von IR-Systemen IR-Modelle / Konzepte / Methoden –Allgemeines Modell –Boolesches Retrieval –Vektor-Modell (Retrieval mit Ähnlichkeitsmaßen) –Dokument-Term-Matrix –Methoden –IR mit relationalen Datenbanken –Indexierung –Clustering Informationsmarkt

35 Content Management Systeme35 Einleitung

36 Content Management Systeme36 Themen Einleitung / Definition IR Bewertungskriterien IR-Modelle / Konzepte / Methoden –Allgemeines Modell –Boolesches Retrieval –Vektor-Modell (Retrieval mit Ähnlichkeitsmaßen) –Dokument-Term-Matrix –Methoden –IR mit relationalen Datenbanken –Indexierung –Clustering Informationsmarkt

37 Content Management Systeme37 Information Retrieval Definition IR ist ein wissenschaftliches Fachgebiet Information Retrieval (IR) beschäftigt sich mit Repräsentation, Speicherung und dem Zugriff von bzw. auf Dokumente(n) bzw. deren Surrogate to retrieve: wieder bekommen, wieder herstellen

38 Content Management Systeme38 Information Retrieval IR beschäftigt sich auch mit: Konzeption, Bewertung von IR- Systemen Betrachtet reale IR-Systeme Entwickelt neue IR-Systeme Informationsmarkt (wirtschaftliche Verwertung / Anwendung von IR- Systemen)

39 Content Management Systeme39 Information Retrieval Inhaltserschliessung –Vergabe von Metainformationen / Verschlagwortung / Indexierung) –Aufbau von Thesauri –Klassifikation, Clusterung sind Voraussetzung für das Wiederfinden Suchtechniken (Anfragesprachen) –Retrievalsprachen –Reihenfolge der Ergebnisse –Relevance-Feedback-Verfahren –Browsing entlang Hyperlinks

40 Content Management Systeme40 Information Retrieval Inhaltserschliessung und Suchtechniken müssen aufeinander abgestimmt sein!!!

41 Content Management Systeme41 IR- Suche eine Suchanfrage wird mit einer Menge von Dokumenten durch einen Abgleichmechanismus (Matching) abgeglichen, der die relevanten Dokumente selektiert. Um die Suche zu beschleunigen, wird ein Index angelegt, mittels dem auf die Dokumente referenziert wird.

42 Content Management Systeme42 IR-Systeme Bekannte Beispiele Internet-Portale / Suchmaschinen Bibliothekssysteme (z.B. Web Pac) –http://www.ba-loerrach.de/bal_bibli.html –http://www.ub.uni-konstanz.de/ Online-Datenbanken (häufig Referenzretrieval (z.B. wissenschaftliche Artikel))

43 Content Management Systeme43 Information Retrieval Informationsbedürfnis Formulierung in natürlicher Sprache Formulierung in formaler Sprache Dokumentenbehälter Geordnete Ergebnisliste von Dokumenten IR-System Benutzer IR-Modell Anfragesprache Index Dokument repräsentation

44 Content Management Systeme44 Information Retrieval Informationsbedürfnis Formulierung in natürlicher Sprache Formulierung in formaler Sprache Dokumentenbehälter Geordnete Ergebnisliste von Dokumenten IR-System Benutzer Katalog Browsing / Navigation entlang von Hyperlinks

45 Content Management Systeme45 Informationsbedüfnis Typen Ich möchte eine Antwort auf folgende Frage... ( Faktenretrieval (SQL)) Ich suche Informationen zum Thema... ( Dokumentretrieval) Ich interessiere mich für folgendes Gebiet... ( Dokumentretrieval) Ich möchte folgendes Problem besser verstehen... ( Dokumentretrieval / Hypermedia / Browsing / Navigation)

46 Content Management Systeme46 IR-Systeme System-Funktionen Suche: Suchanfrage z.B. einzelne Suchbegriffe Ergebnis: geordnete Liste von Dokumenten bzw. Verweise auf Dokumente

47 Content Management Systeme47 IR-Systeme Mögliche Ordnungskriterien für die Anzeige: Relevanz für Suchanfrage Aktualität des Dokumentes wirtschaftliche Vereinbarungen mit Geschäftspartnern Ähnlichkeit mit Profil des Anfragenden Umfang des Dokumentes

48 Content Management Systeme48 Themen Einleitung / Definition IR Bewertungskriterien IR-Modelle / Konzepte / Methoden –Allgemeines Modell –Boolesches Retrieval –Vektor-Modell (Retrieval mit Ähnlichkeitsmaßen) –Dokument-Term-Matrix –Methoden –IR mit relationalen Datenbanken –Indexierung –Clustering Informationsmarkt

49 Content Management Systeme49 IR Bewertungskriterien

50 Content Management Systeme50 IR Bewertungskriterien Recall Precision Aufwand zur Formulierung einer Anfrage Antwortzeit des Retrieval-Systems Präsentation der Ergebnisse Abdeckung der Datenbank

51 Content Management Systeme51 IR Bewertungskriterien hoher RECALL möglichst alle relevanten Informationen werden gefunden hohe PRECISION möglichst wenig nicht relevante Informationen werden gefunden

52 Content Management Systeme52 IR Bewertungskriterien Recall Recall = GRD / RDD GRD = Anzahl der gefundenen relevanten Dokumente RDD = Anzahl der relevanten Dokumente der Datenbank

53 Content Management Systeme53 IR Bewertungskriterien Precision Precision = GRD / GD GRD = Anzahl der gefundenen relevanten Dokumente GD = Anzahl der gefundenen Dokumente

54 Content Management Systeme54 IR Bewertungskriterien Fallout Ratio Fallout Ratio = GID / IDD GID = Anzahl der gefundenen irrelevanten Dokumente IDD = Anzahl der irrelevanten Dokumente in der Datenbank

55 Content Management Systeme55 IR Bewertungskriterien sonstige Dokumente= 100 IDD=106 GID=6 GD= 10 GRD = 4 RDD=12 Recall = 4/12 = 1/3 Precision = 4/10 = 2/5 Fallout-Ratio = 6/106 = 3/53 Beispiel Relevante Dokumente gefundene Dokumente gefundene relevante Dokumente

56 Content Management Systeme56 IR Bewertungskriterien Die drei Bewertungskriterien müssen zusammen betrachtet (optimiert) werden! Ein IR-System ist umso besser je grösser Recall und Precision sind je kleiner die Fall-Out-Ratio ist für alle Anfragen

57 Content Management Systeme57 Themen Einleitung / Definition IR Bewertungskriterien IR-Modelle / Konzepte / Methoden –Allgemeines Modell –Boolesches Retrieval –Vektor-Modell (Retrieval mit Ähnlichkeitsmaßen) –Dokument-Term-Matrix –Methoden –IR mit relationalen Datenbanken –Indexierung –Clustering Informationsmarkt

58 Content Management Systeme58 IR Allgemeines Modell IR Modell = (D, S, V, R) wobei D Menge aller betrachteten Dokumente (gegeben durch spezielle Beschreibungen) S ist die Menge aller möglichen Suchfragen gegeben durch spezielle Beschreibungen in einer Dokumentationssprache (Schlagworte) V ist eine geordnete Menge (Zahlen) R: D x S V ist eine Retrievalfunktion

59 Content Management Systeme59 IR Allgemeines Modell Jedes d D wird häufig durch eine Menge von Schlagworten beschrieben Jedes s S wird häufig durch eine Menge von Schlagworten definiert (die eventuell noch zusätzlich speziell kombiniert werden). V ist meist eine der folgenden 3 Mengen: {0,1}, [0,1], [0, ] R: D x S V ermöglicht nur dann eine an der Relevanz orientierte Ausgabereihenfolge, der Suchergebnisse, wenn V geordnete Menge ist.

60 Content Management Systeme60 Themen Einleitung / Definition IR Bewertungskriterien IR-Modelle / Konzepte / Methoden –Allgemeines Modell –Boolesches Retrieval –Vektor-Modell (Retrieval mit Ähnlichkeitsmaßen) –Dokument-Term-Matrix –Methoden –IR mit relationalen Datenbanken –Indexierung –Clustering Informationsmarkt

61 Content Management Systeme61 Boolesches Retrieval

62 Content Management Systeme62 Boolesches Retrieval Logische Operatoren (verknüpfen Suchbegriffe) es werden jeweils an Dokumenten gefunden bei: OR alle Dokumente die einen der Suchbegriffe enthalten AND alle Dokumente die beide Suchbegriffe enthalten NOT alle Dokumente, die den Suchbegriff nicht enthalten

63 Content Management Systeme63 Boolesches Retrieval T sei eine Menge von Termen (Deskriptoren / Schlagworten) Ein Dokument d D wird beschrieben durch eine Menge von Termen: d = {t 1,..., t n } T

64 Content Management Systeme64 Boolesches Retrieval S wird folgendermassen definiert: a Tdann a S a, b Sdann(a AND b) S a, b Sdann(a OR b) S a Sdann (NOT a S) V = {0, 1}

65 Content Management Systeme65 Boolesches Retrieval Retrievalfunktion R: Für d D und s T, s 1, s 2 S gilt: –R(d,s) = 1, wenn s d –R(d,s) = 0, wenn s d R(d,s 1 s 2 ) = min( R(d, s 1 ), R(d, s 2 )) R(d,s 1 s 2 ) = max( R(d, s 1 ), R(d, s 2 )) R(d, s) = 1 – R(d,s)

66 Content Management Systeme66 Boolesches Retrieval Retrievalfunktion R dabei bedeutet: R(d,s) = 1 Dokument d wird gefunden R(d,s) = 0 Dokument d wird nicht gefunden

67 Content Management Systeme67 Boolesches Retrieval Beispiel T = {a,b,c,d,e} d = {a,b,e} s = ((a b) (( c) d)) R(d,s) = R(d, ((a b) (( c) d))) = max(R(d, (a b)), R(d, (( c) d))) = max(min(R(d,a),R(d,b)), min(R(d,( c)), R(d,d))) =max(min(1,1), min(1-R(d,c), 0) =max(1, 0) =1

68 Content Management Systeme68 Erweiterungsmöglichkeiten des Booleschen Retrievals

69 Content Management Systeme69 Suchanfragen Möglichkeiten Felder in Dokumenten berücksichtigen Feldselektion(CT = Zement, Zement/TI) Vergleichsoperatoren (=,, =) Maskierung/ Trunkierung (Information$) Abstandsoperatoren (ADJ, WITH, SAME, W3) (direkt, im gleichen Satz, im gleichen Paragraph, höchstens 3 Wörter auseinander)

70 Content Management Systeme70 Feldselektion Beispiele FIND Information/TI FIND CT=Information F Economics (TI; AB) FIND Economics (TI) AND Information/AB

71 Content Management Systeme71 Boolesche Anfragen Beispiele FIND Information FIND Electronic Mail AND FAX F CT=Biology FIND (Internet OR CompuServe) AND Commerce

72 Content Management Systeme72 Maskierung/Trunkierung Beispiele FIND Econom$ FIND $$System$ F Inf$$$$tion

73 Content Management Systeme73 Abstandsoperatoren Beispiele F Inter$ SAME Commerce (im gleichen Paragraphen) F Internet WITH Information (im gleichen Satz) F Internet ADJ Service (direkt hintereinander)

74 Content Management Systeme74 Abstandsoperatoren Abstands-Operatoren ADJ (ADJacency-Operator) Suchbegriffe müssen in der angegebenen Reihenfolge direkt aufeinanderfolgen WITH Suchbegriffe müssen in einem Satz auftreten SAME Suchbegriffe müssen in einem Absatz enthalten sein

75 Content Management Systeme75 Abstandsoperatoren Abstands-Operatoren NEXT Zwischen den Suchbegriffen dürfen maximal 5 Wörter stehen, wobei die Reihenfolge relevant ist NEAR Zwischen den Suchbegriffen dürfen maximal 5 Wörter stehen, wobei die Reihenfolge nicht relevant ist (W3) Zwischen den Suchbegriffen darf ein Abstand von höchstens 3 Wörtern bestehen

76 Content Management Systeme76 Themen Einleitung / Definition IR Bewertungskriterien IR-Modelle / Konzepte / Methoden –Allgemeines Modell –Boolesches Retrieval –Vektor-Modell (Retrieval mit Ähnlichkeitsmaßen) –Dokument-Term-Matrix –Methoden –IR mit relationalen Datenbanken –Indexierung –Clustering Informationsmarkt

77 Content Management Systeme77 Vektor-Modell

78 Content Management Systeme78 Vektor-Modell Mit dem Vektor-Modell kann man das Retrieval mit gewichteten oder nicht gewichteten Termzuordnungen zu Dokumenten und zu Suchanfragen beschreiben. Ferner lassen sich damit die Dokumente bezüglich jeder Suchanfrage in eine Reihenfolge hinsichtlich ihrer Relevanz für die Suchanfrage bringen.

79 Content Management Systeme79 Vektor-Modell Jedes Dokument wird durch einen Dokumentvektor beschrieben. m = Anzahl der Terme / Schlagwörter T = {t 1,..., t m } die Menge der Terme D = {D 1,... D n } die Menge der Dokumente 0 < a ij = Gewicht von Schlagwort t j in Dokument D i Im Booleschen Retrieval gilt: a ij = 0 oder a ij = 1 D i = (a i1,..., a jm ) ist Dokumentvektor

80 Content Management Systeme80 Suchanfrage Suchanfragen s sind ähnlich aufgebaut wie Dokumentvektoren S = {(t 1,..., t m ) | t i = 0 oder t i = 1, i = 1,...,m} sei s S M s = (l 1,..., l n ) (Matrix M Vektor s) l i = a ij t i (j=1...m) (M = (a ij ) ist heisst Dokument-Term-Matrix)

81 Content Management Systeme81 IR mit Ähnlichkeitsmaßen S wird wie die Dokumentenmenge definiert d.h.: S = D. V = [0, ] R (Retrievalfunktion) wird mit Hilfe von Ähnlichkeitsmaßen definiert.

82 Content Management Systeme82 IR mit Ähnlichkeitsmaßen R wird mit Hilfe von Ähnlichkeitsmaßen definiert: sei d = (a 1,..., a m ) eine Dokumentbeschreibung s = (s 1,..., s m ) eine Suchfragenbeschreibung Ähnlichkeitsmaße Innere Produktmaß = a k s k (k = 1,... m) Tanimotomaß Cosinusmaß

83 Content Management Systeme83 Themen Einleitung / Definition IR Bewertungskriterien IR-Modelle / Konzepte / Methoden –Allgemeines Modell –Boolesches Retrieval –Vektor-Modell (Retrieval mit Ähnlichkeitsmaßen) –Dokument-Term-Matrix –Methoden –IR mit relationalen Datenbanken –Indexierung –Clustering Informationsmarkt

84 Content Management Systeme84 Dokument-Term-Matrix

85 Content Management Systeme85 Dokument-Term-Matrix ermöglicht: einheitliche Behandlung vieler Retrievalmodelle (Matching von Anfragen und Dokumenten) Anwendung von automatischen Cluster- und Klassifikationsverfahren –auf die Menge der Dokumente –auf die Menge der Terme (Schlagworte)

86 Content Management Systeme86 Klassifikation / Clustering Abgrenzung / Definition Klassifikation Sinnvolle Einordnung von Objekten in vorgegebene Klassen Clustering Aufbau von Klassen aus einer Grundgesamtheit von Objekten, zwischen denen eine Ähnlichkeitsbeziehung besteht

87 Content Management Systeme87 Dokument-Term-Matrix Mit 0/1 Werten Dokumente: D = {D 1,..., D n } Terme: T = {t 1,...,t m } Martix (a ij )i = 1,..., n, j = 1,..., m a ij = 1 Term j ist Schlagwort für D i a ij = 0 Term j ist nicht Schlagwort für D i Dokumentvektor D i = (a i1,...,a im ) Termvektor t j = (a 1j,...,a nj )

88 Content Management Systeme88 Dokument-Term-Matrix Mit Ähnlichkeitsmassen Dokumente: D = {D 1,..., D n } Terme: T = {t 1,...,t m } Martix (a ij )i = 1,..., n, j = 1,..., m a ij [0, ) Term t j ist Schlagwort für D i mit Gewichtung a ij Dokumentvektor D i = (a i1,...,a im ) Termvektor t j = (a 1j,...,a nj )

89 Content Management Systeme89 a ij Terme Dokumente Dokument-Term-Matrix 1m 1 n i j M = Mit 0/1-Werten

90 Content Management Systeme90 a ij Terme Dokumente Dokument-Term-Matrix 1m 1 n i j M = Mit Ähnlichkeitsmaßen

91 Content Management Systeme91 Themen Einleitung / Definition IR Bewertungskriterien IR-Modelle / Konzepte / Methoden –Allgemeines Modell –Boolesches Retrieval –Vektor-Modell (Retrieval mit Ähnlichkeitsmaßen) –Dokument-Term-Matrix –Methoden –IR mit relationalen Datenbanken –Indexierung –Clustering Informationsmarkt

92 Content Management Systeme92 IR Methoden Inhaltserschliessung manuelle Inhaltserschliessung automatische Inhaltserschliessung –reines Volltextretrieval –(Automatisches) Indexing –(Automatisches) Abstracting –(Automatisches) Klassifikation –(Automatisches) Clustering –mit manuell erzeugtem kontrolliertem Vokabular –mit automatisch erzeugtem kontrolliertem Vokabular –mit Abstandsoperatoren / Trunkierung –mit Gewichten oder nur {0,1} als Werte

93 Content Management Systeme93 IR Methoden Suchtechniken Browsing Boolesche Suche mit Trunkierung mit Feldeinschränkung mit Vergleichsoperatoren mit Abstandsopertoren Suche mit gewichteten Suchtermen Relevance-Feedback-Verfahren

94 Content Management Systeme94 Themen Einleitung / Definition IR Bewertungskriterien IR-Modelle / Konzepte / Methoden –Allgemeines Modell –Boolesches Retrieval –Vektor-Modell (Retrieval mit Ähnlichkeitsmaßen) –Dokument-Term-Matrix –Methoden –IR mit relationalen Datenbanken –Indexierung –Clustering Informationsmarkt

95 Content Management Systeme95 IR mit relationalen Datenbanken

96 Content Management Systeme96 IR mit relationalen DBen DokumenteWörter in n m Doc_ID Dokument W_IDWort Volltext Retrieval

97 Content Management Systeme97 IR mit relationalen DBen DokumenteWörter in n m Doc_ID Dokument W_IDWort Volltext Retrieval mit Stoppwortliste Stoppwörter

98 Content Management Systeme98 IR mit relationalen DBen DokumenteWörter in n m Doc_ID Dokument W_IDWort Volltext Retrieval mit Stoppwortliste und Häufigkeit Stoppwörter Häufigkeit

99 Content Management Systeme99 IR mit relationalen DBen DokumenteWörter in nm Doc_ID Document W_IDWort Volltext Retrieval mit Stoppwortliste, Häufigkeit und Stelle Stoppwörter Häufigkeit Stelle nm

100 Content Management Systeme100 IR mit relationalen DBen DokumenteSchlagwörter charak terisiert nm Doc_ID Document W_IDWort Retrieval mit kontolliertem Vokabular (Thesaurus), Synonymen, Häufigkeit und Stelle Häufigkeit Stelle nm Synonyme gehört zu n 1

101 Content Management Systeme101 IR mit relationalen DBen Dokumente Schlagwörter charakteri siert n m Doc_ID Document W_IDWort Retrieval mit Thesaurus, Häufigkeit, Stelle Synonymen und Abstandsoperatoren Häufigkeit Stelle Stellen n m Synonyme gehört zu n 1 Kapitel Satz Absatz gehört zu2 1 n

102 Content Management Systeme102 IR mit relationalen DBen Dokumente Schlagwörter charakteri siert n m Doc_ID Document W_IDWort Retrieval mit Thesaurus, Gewicht, Stelle Synonymen und Abstandsoperatoren Gewicht Stelle Stellen n m Synonyme gehört zu n 1 Kapitel Satz Absatz gehört zu2 1 n

103 Content Management Systeme103 Themen Einleitung / Definition IR Bewertungskriterien IR-Modelle / Konzepte / Methoden –Allgemeines Modell –Boolesches Retrieval –Vektor-Modell (Retrieval mit Ähnlichkeitsmaßen) –Dokument-Term-Matrix –Methoden –IR mit relationalen Datenbanken –Indexierung –Clustering Informationsmarkt

104 Content Management Systeme104 Indexierung

105 Content Management Systeme105 Manuelle Indexierung

106 Content Management Systeme106 Manuelle Indexierung erfolgt durch Menschen (Bibliothekare etc.) Zuordnung von Schlagworten (Deskriptoren / Termen) zu einem Dokument, um ein Dokument thematisch zu beschreiben, damit es später darüber gefunden werden kann. Erfolgt häufig auf der Basis eines kontrollierten Vokabulars (Thesaurus) häufig erfolgt zusätzlich eine Klassifikation auf der Basis eines vorgegebenen Klassifikationsschemas

107 Content Management Systeme107 Schlagworte Ein Schlagwort ist ein Wort, das den Dokumentinhalt thematisch charakterisiert Schlagwörter sollten meist Substantive im Nominativ und im Singular sein Sie dienen dazu Dokumente zu selektieren Schlagworte, die alle Dokumente charakterisieren sind deshalb nutzlos Die Relevanz von Schlagworten zur Beschreibung von Dokumenten kann unterschiedlich gross sein

108 Content Management Systeme108 Thesaurus einfaches semantisches Netz Relationen –Oberbegriff (BT Broader Term) –Unterbegriff (NT Narrower term) –Synonyme / Homonyme (durch Kontextangabe) –RT Related Terms häufig ohne Hyperlinks für manuelle Nutzung, nicht für automatische Nutzung realisiert Beispiele:

109 Content Management Systeme109 Signifikanzfaktoren zur Selektion relevanter Deskriptoren: Manuelle Bestimmung einer Stoppwortliste: (der, die, das, ein, etc.) Nur Substantive (Nominativ, Singular) Automatisches Verfahren bezüglich Häufigkeit von Deskriptoren in Dokumentkollektionen.

110 Content Management Systeme110 Signifikanzfaktoren FREQ i,k Häufigkeit von Term t k in Dokument D i TOTFREQ k Häufigkeit von Term t k in allen Dokumenten Di (i= 1... n) (Summe der FREQ i,k über alle i) Verwende alle Terme t k mit Untergrenze < TOTFREQ k < Obergrenze als Deskriptoren

111 Content Management Systeme111 Automatische Indexierung

112 Content Management Systeme112 Automatische Indexierung Ziel Automatische Ermittlung der besten Schlagworte für jedes Dokument einer betrachteten Dokumentkollektion Automatische Ermittlung von Gewichten (WEIGHTs), mit denen die vorkommenden Schlagworte den einzelnen Dokumenten zugeordnet werden

113 Content Management Systeme113 Automatische Indexierung Ermittlung aller vorkommender Wörter einer Dokumentkollektion (Titel und Abstract zusammen liefern schon gute Ergebnisse (Volltextanalyse ist nicht unbedingt notwendig)) Eliminierung der Stoppwörter (ca. 250) Identifikation guter Deskriptoren –Stammformenreduktion –Bestimmung von Synonymen (manuell / Thesaurus)

114 Content Management Systeme114 Automatische Indexierung Berechnung der Dokument-Term-Matrix z.B. gemäss (Weight i,k ) Zuweisung von Deskriptoren zu den Dokumenten erfolgt ab einem definierten Termgewicht (binär oder statistisch) Bei binärem Modell wird der Term zugewiesen, wenn er mindestens einmal im Dokument vorkommt

115 Content Management Systeme115 Automatische Indexierung Zunächst: Bestimmung der (besten) Deskriptoren (Terme) für eine Dokumentkollektion als ganzer Annahme: Die besten Terme in einer Dokument- kollektion sind jene Terme, die in der Dokumentkollektion insgesamt nicht zu oft und nicht zu selten vorkommen.

116 Content Management Systeme116 Automatische Indexierung DOCFREQ k (Dokumentenhäufigkeit) Anzahl der Dokumente, in denen t k vorkommt. Ein sinnvolles Mass für die inverse Dokumentenhäufigkeit ist: INV-DOCFREQ k = Log 2 (n / DOCFREQ k ) + 1 Dabei ist n die Anzahl der betrachteten Dokumente

117 Content Management Systeme117 Automatische Indexierung sinnvolle Gewichtsfunktionen für die Indexierung eines Dokumentes D i mit dem Term t k ist: Weight i,k = FREQ i,k INV-DOCFREQ k

118 Content Management Systeme118 Themen Einleitung / Definition IR Bewertungskriterien IR-Modelle / Konzepte / Methoden –Allgemeines Modell –Boolesches Retrieval –Vektor-Modell (Retrieval mit Ähnlichkeitsmaßen) –Dokument-Term-Matrix –Methoden –IR mit relationalen Datenbanken –Indexierung –Clustering Informationsmarkt

119 Content Management Systeme119 Automatisches Clustering

120 Content Management Systeme120 Ähnlichkeiten zwischen Vektoren Ähnlichkeit zwischen Dokumenten und Deskriptoren können mittels der Term- Dokument-Matrix ermittelt werden. SIMILAR(D i, D j ) = D i D j (innere Vektorprodukt) i,j = 1,..., n SIMILAR(t i, t j ) = t i t j (innere Vektorprodukt) i,j = 1,..., m

121 Content Management Systeme121 Ähnlichkeiten zwischen Vektoren Dies führt zu Term-Term-Ähnlichkeitsmatrizen SIMILAR(t i,t j ) i,j = 1,..., m und Dokument-Dokument-Ähnlichkeitsmatrizen SIMILAR(D i,D j ) i,j = 1,..., n

122 Content Management Systeme122 Clustering Klassen von ähnlichen Termen Klassen von ähnlichen Dokumenten basieren auf den zugehörigen Ähnlichkeitsmatrizen Kriterium Dokumente bzw. Terme werden in Abhängigkeit von den bestehenden Ähnlichkeiten zu Klassen zusammen gefasst.

123 Content Management Systeme123 Clustering Es gibt mehrere Verfahren Viele Verfahren starten mit Ausgangsklassen, die unterschiedlich bestimmt werden können z.B. Termmengen in einem Dokument oder einer Dokumentmenge Termmengen in Dokumenten, die auf eine Suchfrage hin gefunden wurden

124 Content Management Systeme124 Clustering 1.Für jede so bestimmte Klasse wird ein Term-Centroid (bzw. Dokument-Centroid) als Durchschnittsvektor der Klassen bestimmt 2.Für eine Klassen K mit m Termvektoren t 1,..., t m Centroid(K) = 1/m Summe t k 3.Dann werden alle Ähnlichkeiten zwischen allen Centroiden und allen Termen berechnet, die keine Centroide sind

125 Content Management Systeme125 Clustering 4.Jeder Term wird der Klasse zugeordnet, zu dessen Centroid er die höchste Ähnlichkeit hat. 5.Falls ein Term die Klasse wechselt, wird der Prozess erneut durchlaufen

126 Content Management Systeme126 Clustering Auf den Klassen lässt sich eine Hierarchie definieren, indem man Centroide zu Klassen zusammenfasst. Hierarchische Klassen auf Termen können so zum automatischen Aufbau von hierarchischen Katalogen verwendet werden. Die Cluster können auch als Basis einer grafischen Retrievalsprache verwendet werden, indem die Cluster mit den enthalten Termen und den Ähnlichkeitsmaßen zwischen den Termen grafisch dargestellt und durch Klickoperationen Navigations- bzw. Anfragen ausgelöst werden können.

127 Content Management Systeme127 Relevance Feedback Beim Relevance Feedback Verfahren werden vom Benutzer als sehr relevant gekennzeichnete Ergebnisdokumente einer Recherche, zur Verbesserung der Suche als neuerliche Suchfragen (als Termvektor), verwendet.

128 Content Management Systeme128 Themen Einleitung / Definition IR Bewertungskriterien IR-Modelle / Konzepte / Methoden –Allgemeines Modell –Boolesches Retrieval –Vektor-Modell (Retrieval mit Ähnlichkeitsmaßen) –Dokument-Term-Matrix –Methoden –IR mit relationalen Datenbanken –Indexierung –Clustering Informationsmarkt

129 Content Management Systeme129 Informationsmarkt

130 Content Management Systeme130 Informationsmarkt Online-Datenbanken Datenbasisproduzenten (produzieren Datenbasen) Datenbankanbieter/Hosts (betreiben Online-Datenbanken mit verschiedenen Datenbasen) Jeder Datenbankanbieter hat möglicherweise eigene Retrievalsprache

131 Content Management Systeme131 CCL Common Command Language (CCL) for Online Interactive Information Retrieval Ist eine Standardisierung im Bereich Retrievalsprache für Online- Datenbanken (NISO). _detail.cfm?std_id=563

132 Content Management Systeme132 Informationsmarkt Online-Datenbanken - Datenbanktypen Textdatenbanken –Referenzdatenbanken bibliographische Datenbanken (Autor, Titel, Zeitschrift, Heft, Seiten) sonstige Referenzdatenbanken (Patente, Projekte, Firmen, Experten) –Volltextdatenbanken

133 Content Management Systeme133 Informationsmarkt Online-Datenbanken - Datenbanktypen Faktendatenbanken –numerische Datenbanken (Außenhandels- Statistiken, Börsendaten) –Formeldatenbanken(Physik, Chemie, Technik) integrierte Datenbanken Multimedia-Datenbanken

134 Content Management Systeme134 Information Retrieval Wichtige Datenbankanbieter DIALOG(450 DBen, allround) DATASTAR(350 DBen, allround) STN International(200 DBen, Technik, Naturw.) LEXIS-NEXIS(Volltexte: Presse, Wirtschaft, Recht) GENIOS(500 DBen,Wirtschaft,Firmen,Branchen) GBI(160 DBen, Betriebswirtschaftliche Infos FIZ Technik(110 DBen, Technikm Naturw., Patente) DIMDI(100 DBen, Medizin, Agrar,Psychologie) Questel Orbit(120 DBen, Patente, Technik, Naturw.)

135 Content Management Systeme135 Information Retrieval WWW-Adressen Datenbankanbieter DIALOG DATASTAR STN International LEXIS-NEXIS GENIOS GBI FIZ Technik DIMDI Questel Orbit

136 Content Management Systeme136 Science Citation Index n/sci/index.html#crhttp://www.isinet.com/isi/products/citatio n/sci/index.html#cr ermöglicht die Suche nach allen wissenschaftlichen Dokumenten, in denen ein spezielles wissenschaftliches Dokument zitiert wird (d.h. im Literaturverzeichnis auftaucht).

137 Content Management Systeme137 Datenbankverzeichnisse Gale Directory of Databases 30.htmlhttp://library.dialog.com/bluesheets/html/bl02 30.html provides detailed information on publicly available databases and database products accessible through an online vendor, Internet, or batch processor, or available for direct lease, license, or purchase as a CD-ROM, diskette, magnetic tape, or handheld product.

138 Content Management Systeme138 IR Vorgehen Formulierung des Informationsproblems Auswahl der Datenbank Studieren der Datenbankstruktur Studieren der Retrievalsprache Formulierung spezifischer Suchanfrage Suchanfrage stellen Suchergebnis bewerten Dokumente entsprechend abrufen bzw. Suchanfrage umformulieren


Herunterladen ppt "Content Management Systeme1 Content Management Systeme."

Ähnliche Präsentationen


Google-Anzeigen