Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Content Management Systeme

Ähnliche Präsentationen


Präsentation zum Thema: "Content Management Systeme"—  Präsentation transkript:

1 Content Management Systeme

2 Content Management Systeme
Rückblick Content Management Systeme

3 Content Management Systeme
Inhalt Vorlesung CMS Einleitung / Definition / Motivation Web-Content Management Systeme (WCMS) Information Retrieval Dokumentenmanagementsysteme (DMS) Resource Description Framework (RDF) Topic Maps Dokumentenbeschreibungssprachen (XML etc.) Content Management Systeme

4 Content Management Systeme
Inhalt heute Rückblick WCMS Systemarchitektur Datenstrukturen für WCMS (W)CM-Systeme OpenCms (W)CM-Organisation Portale EIP Information Retrieval Content Management Systeme

5 Content Management Systeme
Rückblick CMS Einleitung / Definition / Motivation Abgrenzung zu Datenmanagement Unternehmenssituation Integrationsproblematik Cross Media Publishing (Single Source) Unterschiedliche Dokumentformate Unterschiedliche Dokumenttypen Informationsräume Content Management Systeme

6 Content Management Systeme
Rückblick WCMS Definition Trennung von Struktur / Content / Layout / Funktion Einsatzkriterien Funktionen Content-Lebenszyklus Vergleich von Hypermedia- und Papierdokumenten (Persistenz / sequentiell) Mengensatz / Akzidenzsatz Content Management Systeme

7 Content Management Systeme
(W)CMS Getrennte Aspekte Struktur Layout Inhalt Templates Hierarchie Klassifikation „Daten“ Content Management Systeme

8 Content Management Systeme
Content Lebenzyklus Contentreduzierung Archivierung Löschung Contentgenerierung Identifizieren Sammeln Erzeugen Erfassen Erstellen Content Management Contentorganisation Strukturieren Indexieren Filtern Speichern Verwalten Contentnutzung Interpretieren Anwenden Bewerten Kommentieren Visualisieren Contentdistribution Suchen Wissensfluss Logistik Contentaufbereitung Verdichten / Integration Verfeinerung Erweiterung Kontext Erzeugung Redaktion Content Management Systeme

9 WCMS - Systemarchitektur
Content Management Systeme

10 WCMS Systemarchitektur
Web-Server Medienneutralität Berechtigungsverwaltung Mehrfachverwertung Site-Management Mehrsprachigkeit Terminierung Struktur Templates Content Funktionen CMS- Engine Datei- System Anforderungen Import DB DB- Schema Export Objekttypen DMS Legacy-Systeme Content Management Systeme

11 Content Management Systeme
WCMS Nutzung Endnutzer Browser Web-Server CMS- Engine Datei- System Handy Import DB etc. DB- Schema Export Print Legacy-Systeme Content Management Systeme

12 Content Management Systeme
WCMS Pflege Editor / Administrator Browser Web-Server Editor CMS- Engine Datei- System Client Import ODBC DB DB- Schema Export Legacy-Systeme Content Management Systeme

13 Content Management Systeme
WCMS Pflege Über Browser Mittels Webformularen Richtext-Editoren (eventuell mit Einschränkungen) Workflow Content Management Systeme

14 Content Management Systeme
WCMS Replikation Produktivsystem DB CMS- Engine DB- Schema Web-Server DB CMS- Engine DB- Schema Web-Server Entwicklungs- system Datei- System Import Replikation Export Import Datei- System Legacy-Systeme Content Management Systeme

15 Content Management Systeme
Datenmodell für DB n Benutzer Web-Site von4 n Editor von3 m von n m m n m 1 n von2 von Schlagwort Web-Seite Version n n von5 1 von1 Content m Templates link 1 n t Text Grafiken Video Audio Content Management Systeme

16 Content Management Systeme
(W)CM Organisation Gesamtkoordination Verantwortlicher Internet / Holding Internet / Töchter Verantwortlicher Verantwortlicher Intranet / Holding Intranet / Töchter Verantwortlicher Verantwortlicher Koordination Extranet / Holding Extranet / Töchter Verantwortlicher Verantwortlicher Teamroom Holding Teamrom / Töchter Verantwortlicher DMS Verantwortlicher Content Management Systeme

17 Content Management Systeme
(W)CM Organisation Beispiel Internet Tochter Teamleitung Leitung Fachbereiche Informatik Personal Verantwortlicher / Editoren Marketing Verantwortlicher / Editoren Entwicklung Vertrieb 1 Verantwortlicher / Editoren Koordination Verantwortlicher / Editoren Betrieb Vertrieb 2 Unternehmens- kommunikation Ausbildung Verantwortlicher / Editoren WCMS etc. Content Management Systeme

18 Content Management Systeme
CMS Systeme Vignette Content Management Server Obtree (Obtree Technologies) Bladerunner (Broadvision) VIPContentManager (Gaus Interprise AG) Teamsite (Interwoven) Pirobase (Pironet NDH AG) Hyperwave Information Server (Hyperwave AG) Hyper.Net (Coextant-Systems) (Lotus Notes) Content Management Systeme

19 Content Management Systeme
OpenCms Open Source CMS Voll browserbasiert (Netscape 6.2 (ohne WYSIWYG) / MS IE 5.5 mit WYSIWYG) benötigt einen Servlet Container (z.B.: Tomcat 4.x) Datenbank (MySQL, Oracle) komplett in Java realisiert Templates werden als XML Files gespeichert Content Management Systeme

20 Content Management Systeme
OpenCms Features Templates (strikte Trennung von Content und Layout) Dynamisches und statisches Publishing Galerie für Grafiken und Files Benutzermanagement / Zugriffsrechte Projektbasiertes Publizieren Workflow- und Task-Management Mehrsprachigkeit Content Management Systeme

21 Content Management Systeme
OpenCms Features WYSIWYG-Editor für MS-Internet Explorer Personalisierbarkeit (mit Registrierung / Extranet, Newsletter Mails) Integrationsunterstützung mit Umsystemen Versionierung (alte Versionen werden aufbewahrt, Änderungen sind nachvollziehbar) Synchronisationsmechanismus für ausgelagerte Seiten im File-System. Verfügbares Hilfesystem Content Management Systeme

22 Content Management Systeme
OpenCms Features SSL-Support (https) Import / Export von Content (ZIP-File) Application Server Integration (J2EE/EJB) PDF / WAP Support (mittels spezieller Templates bzw. Java-Libraries) Suchmaschine Load Balancing Wahl zwischen Frame-Layout und nicht Frame-Layout Metainformationen (u.a.: Indexierung für Suchmaschinen) Content Management Systeme

23 Content Management Systeme
Portale Content Management Systeme

24 Content Management Systeme
Portale Funktionen Single Point of Access Zugriff auf alle Daten, Informationen und Applikationen über einen Client und einen Einstiegsbildschirm. Single Sign on Nur einmalige Anmeldung am Portal für alle beteiligten Anwendungssysteme Personalisierungsmöglichkeit der Einstiegsseite und der Navigationsstruktur Content Management Systeme

25 Content Management Systeme
Portale Funktionen Bedienung unterschiedlicher Ausgabegeräte Katalog (Navigation / Hyperlinks) Suchmaschine Kontextualisierung der Suchergebnisse Zugriff auf interne und externe Systeme Aktuelle Nachrichten Push-Funktion Content Management Systeme

26 Content Management Systeme
Portale Horizontale Portale sind für alle Nutzer gleich Suchmaschinen für spezielle Themen Vertikale Portale Sind für durch jeden Nutzer personalisierbar Erfordern Anmeldung / Identifikation des Nutzers Content Management Systeme

27 Content Management Systeme
Personalisierung Technisch (unterschiedliche Ausgabegeräte auch Browser) wirtschaftliche Zielgruppen (Technik: Benutzermodell) unterschiedliche Inhalte unterschiedliches Layout unterschiedliche Struktur unterschiedliche Werbung Personalisierbarkeit (von jedem selbst) Content Management Systeme

28 Content Management Systeme
Portale Ziele Arbeitsqualität verbessern durch Verbesserung der Qualität der Benutzerarbeitsplätze (mehr Transparenz, mehr Interoperabilität)) Informationsversorgung verbessern Informatikkosten einsparen (mittel- bis langfristig) Systembetrieb effizienter gestalten Lizenzkosten einsparen Niedrigere Ausbildungskosten Partnerfähigkeit / Flexibilität erhöhen Content Management Systeme

29 Content Management Systeme
Portale Relevante Aspekte Mehrere Sprachversionen Zugriff von überall (Ortsunabhängigkeit) Zugriff nur für Berechtigte Sicherheitsfunktionen Content Management Systeme

30 Content Management Systeme
EIP Enterprise Information Portals (EIP) bieten Zugriff über eine Startseite eines CLIENT auf alle Dokumente Prozesse Applikationen Daten eines Unternehmens und auf externe Informationen und Anwendungen Content Management Systeme

31 Content Management Systeme
EIP Enterprise Information Portals (EIP) bieten einheitlichen Zugriff auf alle Systeme: ERP-Systeme Workflow-Systeme Transaktionssysteme Datenbanksysteme DMS Groupware DataWarehouse Business Intelligence Content Management Systeme

32 Content Management Systeme
EIP Enterprise Information Portals (EIP) = Intranet bieten: Single Sign on (log on) Personalisierung / Filterung relevanter Informationen Einbindung unterschiedlicher (aller) Anwendungssysteme in eine Oberfläche Felxibilität hinsichtlich der Ausgabegeräte Push-Funktion Content Management Systeme

33 Information Retrieval
Content Management Systeme

34 Content Management Systeme
Themen Einleitung / Definition IR Bewertungskriterien von IR-Systemen IR-Modelle / Konzepte / Methoden Allgemeines Modell Boolesches Retrieval Vektor-Modell (Retrieval mit Ähnlichkeitsmaßen) Dokument-Term-Matrix Methoden IR mit relationalen Datenbanken Indexierung Clustering Informationsmarkt Content Management Systeme

35 Content Management Systeme
Einleitung Content Management Systeme

36 Content Management Systeme
Themen Einleitung / Definition IR Bewertungskriterien IR-Modelle / Konzepte / Methoden Allgemeines Modell Boolesches Retrieval Vektor-Modell (Retrieval mit Ähnlichkeitsmaßen) Dokument-Term-Matrix Methoden IR mit relationalen Datenbanken Indexierung Clustering Informationsmarkt Content Management Systeme

37 Information Retrieval
Definition IR ist ein wissenschaftliches Fachgebiet Information Retrieval (IR) beschäftigt sich mit Repräsentation , Speicherung und dem Zugriff von bzw. auf Dokumente(n) bzw. deren Surrogate to retrieve: wieder bekommen, wieder herstellen Content Management Systeme

38 Information Retrieval
IR beschäftigt sich auch mit: Konzeption, Bewertung von IR-Systemen Betrachtet reale IR-Systeme Entwickelt neue IR-Systeme Informationsmarkt (wirtschaftliche Verwertung / Anwendung von IR-Systemen) Content Management Systeme

39 Information Retrieval
Inhaltserschliessung Vergabe von Metainformationen / Verschlagwortung / Indexierung) Aufbau von Thesauri Klassifikation, Clusterung sind Voraussetzung für das Wiederfinden Suchtechniken (Anfragesprachen) Retrievalsprachen Reihenfolge der Ergebnisse Relevance-Feedback-Verfahren Browsing entlang Hyperlinks Content Management Systeme

40 Information Retrieval
Inhaltserschliessung und Suchtechniken müssen aufeinander abgestimmt sein!!! Content Management Systeme

41 Content Management Systeme
IR- Suche eine Suchanfrage wird mit einer Menge von Dokumenten durch einen Abgleichmechanismus (Matching) abgeglichen, der die relevanten Dokumente selektiert. Um die Suche zu beschleunigen, wird ein Index angelegt, mittels dem auf die Dokumente referenziert wird. Content Management Systeme

42 Content Management Systeme
IR-Systeme Bekannte Beispiele Internet-Portale / Suchmaschinen Bibliothekssysteme (z.B. Web Pac) Online-Datenbanken (häufig Referenzretrieval (z.B. wissenschaftliche Artikel)) Content Management Systeme

43 Information Retrieval
Benutzer Informationsbedürfnis Geordnete Ergebnisliste von Dokumenten Formulierung in natürlicher Sprache Formulierung in formaler Sprache IR-Modell Anfragesprache Index Dokument repräsentation IR-System Dokumentenbehälter Content Management Systeme

44 Information Retrieval
Benutzer Informationsbedürfnis Browsing / Navigation entlang von Hyperlinks Geordnete Ergebnisliste von Dokumenten Formulierung in natürlicher Sprache Formulierung in formaler Sprache Katalog IR-System Dokumentenbehälter Content Management Systeme

45 Informationsbedüfnis
Typen Ich möchte eine Antwort auf folgende Frage ... ( Faktenretrieval (SQL)) Ich suche Informationen zum Thema ... ( Dokumentretrieval) Ich interessiere mich für folgendes Gebiet ... ( Dokumentretrieval) Ich möchte folgendes Problem besser verstehen ... ( Dokumentretrieval / Hypermedia / Browsing / Navigation) Content Management Systeme

46 Content Management Systeme
IR-Systeme System-Funktionen Suche: Suchanfrage z.B. einzelne Suchbegriffe Ergebnis: geordnete Liste von Dokumenten bzw. Verweise auf Dokumente Content Management Systeme

47 Content Management Systeme
IR-Systeme Mögliche Ordnungskriterien für die Anzeige: Relevanz für Suchanfrage Aktualität des Dokumentes wirtschaftliche Vereinbarungen mit Geschäftspartnern Ähnlichkeit mit Profil des Anfragenden Umfang des Dokumentes Content Management Systeme

48 Content Management Systeme
Themen Einleitung / Definition IR Bewertungskriterien IR-Modelle / Konzepte / Methoden Allgemeines Modell Boolesches Retrieval Vektor-Modell (Retrieval mit Ähnlichkeitsmaßen) Dokument-Term-Matrix Methoden IR mit relationalen Datenbanken Indexierung Clustering Informationsmarkt Content Management Systeme

49 IR Bewertungskriterien
Content Management Systeme

50 IR Bewertungskriterien
Recall Precision Aufwand zur Formulierung einer Anfrage Antwortzeit des Retrieval-Systems Präsentation der Ergebnisse Abdeckung der Datenbank Content Management Systeme

51 IR Bewertungskriterien
hoher RECALL möglichst alle relevanten Informationen werden gefunden hohe PRECISION möglichst wenig nicht relevante Informationen werden gefunden Content Management Systeme

52 IR Bewertungskriterien
Recall Recall = GRD / RDD GRD = Anzahl der gefundenen relevanten Dokumente RDD = Anzahl der relevanten Dokumente der Datenbank Content Management Systeme

53 IR Bewertungskriterien
Precision Precision = GRD / GD GRD = Anzahl der gefundenen relevanten Dokumente GD = Anzahl der gefundenen Dokumente Content Management Systeme

54 IR Bewertungskriterien
Fallout Ratio Fallout Ratio = GID / IDD GID = Anzahl der gefundenen irrelevanten Dokumente IDD = Anzahl der irrelevanten Dokumente in der Datenbank Content Management Systeme

55 IR Bewertungskriterien
Beispiel sonstige Dokumente= 100 gefundene Dokumente Relevante Dokumente GD= 10 GRD = 4 GID=6 RDD=12 IDD=106 Recall = 4/12 = 1/3 Precision = 4/10 = 2/5 Fallout-Ratio = 6/106 = 3/53 gefundene relevante Dokumente Content Management Systeme

56 IR Bewertungskriterien
Die drei Bewertungskriterien müssen zusammen betrachtet (optimiert) werden! Ein IR-System ist umso besser je grösser Recall und Precision sind je kleiner die Fall-Out-Ratio ist für alle Anfragen Content Management Systeme

57 Content Management Systeme
Themen Einleitung / Definition IR Bewertungskriterien IR-Modelle / Konzepte / Methoden Allgemeines Modell Boolesches Retrieval Vektor-Modell (Retrieval mit Ähnlichkeitsmaßen) Dokument-Term-Matrix Methoden IR mit relationalen Datenbanken Indexierung Clustering Informationsmarkt Content Management Systeme

58 Content Management Systeme
IR Allgemeines Modell IR Modell = (D, S, V, R) wobei D Menge aller betrachteten Dokumente (gegeben durch spezielle Beschreibungen) S ist die Menge aller möglichen Suchfragen gegeben durch spezielle Beschreibungen in einer Dokumentationssprache (Schlagworte) V ist eine geordnete Menge (Zahlen) R: D x S  V ist eine Retrievalfunktion Content Management Systeme

59 Content Management Systeme
IR Allgemeines Modell Jedes d  D wird häufig durch eine Menge von Schlagworten beschrieben Jedes s  S wird häufig durch eine Menge von Schlagworten definiert (die eventuell noch zusätzlich speziell kombiniert werden). V ist meist eine der folgenden 3 Mengen: {0,1}, [0,1], [0,] R: D x S  V ermöglicht nur dann eine an der Relevanz orientierte Ausgabereihenfolge, der Suchergebnisse, wenn V geordnete Menge ist. Content Management Systeme

60 Content Management Systeme
Themen Einleitung / Definition IR Bewertungskriterien IR-Modelle / Konzepte / Methoden Allgemeines Modell Boolesches Retrieval Vektor-Modell (Retrieval mit Ähnlichkeitsmaßen) Dokument-Term-Matrix Methoden IR mit relationalen Datenbanken Indexierung Clustering Informationsmarkt Content Management Systeme

61 Content Management Systeme
Boolesches Retrieval Content Management Systeme

62 Content Management Systeme
Boolesches Retrieval Logische Operatoren (verknüpfen Suchbegriffe) es werden jeweils an Dokumenten gefunden bei: OR alle Dokumente die einen der Suchbegriffe enthalten AND alle Dokumente die beide Suchbegriffe enthalten NOT alle Dokumente, die den Suchbegriff nicht enthalten Content Management Systeme

63 Content Management Systeme
Boolesches Retrieval T sei eine Menge von Termen (Deskriptoren / Schlagworten) Ein Dokument d  D wird beschrieben durch eine Menge von Termen: d = {t1, ... , tn}  T Content Management Systeme

64 Content Management Systeme
Boolesches Retrieval S wird folgendermassen definiert: a  T dann a  S a, b  S dann (a AND b)  S a, b  S dann (a OR b)  S a  S dann (NOT a  S) V = {0, 1} Content Management Systeme

65 Content Management Systeme
Boolesches Retrieval Retrievalfunktion R: Für d  D und s  T, s1, s2  S gilt: R(d,s) = 1, wenn s  d R(d,s) = 0, wenn s  d R(d,s1  s2) = min( R(d, s1), R(d, s2)) R(d,s1  s2) = max( R(d, s1), R(d, s2)) R(d, s) = 1 – R(d,s) Content Management Systeme

66 Content Management Systeme
Boolesches Retrieval Retrievalfunktion R dabei bedeutet: R(d,s) = 1 Dokument d wird gefunden R(d,s) = 0 Dokument d wird nicht gefunden Content Management Systeme

67 Content Management Systeme
Boolesches Retrieval Beispiel T = {a,b,c,d,e} d‘ = {a,b,e} s = ((a  b)  (( c)  d)) R(d‘,s) = R(d‘, ((a  b)  (( c)  d))) = max(R(d‘, (a  b)), R(d‘, (( c)  d))) = max(min(R(d‘,a),R(d‘,b)), min(R(d‘,( c)), R(d‘,d))) =max(min(1,1), min(1-R(d‘,c), 0) =max(1, 0) =1 Content Management Systeme

68 Erweiterungsmöglichkeiten des Booleschen Retrievals
Content Management Systeme

69 Content Management Systeme
Suchanfragen Möglichkeiten Felder in Dokumenten berücksichtigen Feldselektion (CT = Zement, Zement/TI) Vergleichsoperatoren (=, <, >, <=, >=) Maskierung/ Trunkierung (Information$) Abstandsoperatoren (ADJ, WITH, SAME, W3) (direkt , im gleichen Satz, im gleichen Paragraph, höchstens 3 Wörter auseinander) Content Management Systeme

70 Content Management Systeme
Feldselektion Beispiele FIND Information/TI FIND CT=Information F Economics (TI; AB) FIND Economics (TI) AND Information/AB Content Management Systeme

71 Content Management Systeme
Boolesche Anfragen Beispiele FIND Information FIND Electronic Mail AND FAX F CT=Biology FIND (Internet OR CompuServe) AND Commerce Content Management Systeme

72 Maskierung/Trunkierung
Beispiele FIND Econom$ FIND $$System$ F Inf$$$$tion Content Management Systeme

73 Content Management Systeme
Abstandsoperatoren Beispiele F Inter$ SAME Commerce (im gleichen Paragraphen) F Internet WITH Information (im gleichen Satz) F Internet ADJ Service (direkt hintereinander) Content Management Systeme

74 Content Management Systeme
Abstandsoperatoren Abstands-Operatoren ADJ (ADJacency-Operator) Suchbegriffe müssen in der angegebenen Reihenfolge direkt aufeinanderfolgen WITH Suchbegriffe müssen in einem Satz auftreten SAME Suchbegriffe müssen in einem Absatz enthalten sein Content Management Systeme

75 Content Management Systeme
Abstandsoperatoren Abstands-Operatoren NEXT Zwischen den Suchbegriffen dürfen maximal 5 Wörter stehen, wobei die Reihenfolge relevant ist NEAR Zwischen den Suchbegriffen dürfen maximal 5 Wörter stehen, wobei die Reihenfolge nicht relevant ist (W3) Zwischen den Suchbegriffen darf ein Abstand von höchstens 3 Wörtern bestehen Content Management Systeme

76 Content Management Systeme
Themen Einleitung / Definition IR Bewertungskriterien IR-Modelle / Konzepte / Methoden Allgemeines Modell Boolesches Retrieval Vektor-Modell (Retrieval mit Ähnlichkeitsmaßen) Dokument-Term-Matrix Methoden IR mit relationalen Datenbanken Indexierung Clustering Informationsmarkt Content Management Systeme

77 Content Management Systeme
Vektor-Modell Content Management Systeme

78 Content Management Systeme
Vektor-Modell Mit dem Vektor-Modell kann man das Retrieval mit gewichteten oder nicht gewichteten Termzuordnungen zu Dokumenten und zu Suchanfragen beschreiben. Ferner lassen sich damit die Dokumente bezüglich jeder Suchanfrage in eine Reihenfolge hinsichtlich ihrer Relevanz für die Suchanfrage bringen. Content Management Systeme

79 Content Management Systeme
Vektor-Modell Jedes Dokument wird durch einen Dokumentvektor beschrieben. m = Anzahl der Terme / Schlagwörter T = {t1, ..., tm} die Menge der Terme D = {D1, ... Dn} die Menge der Dokumente 0 < aij = Gewicht von Schlagwort tj in Dokument Di Im Booleschen Retrieval gilt: aij = 0 oder aij = 1 Di = (ai1 , ..., ajm ) ist Dokumentvektor Content Management Systeme

80 Content Management Systeme
Suchanfrage Suchanfragen s sind ähnlich aufgebaut wie Dokumentvektoren S = {(t1, ... , tm) | ti = 0 oder ti = 1, i = 1,...,m} sei s  S M • s = (l1, ... , ln) (Matrix M • Vektor s) li =  aij • ti (j=1...m) (M = (aij) ist heisst Dokument-Term-Matrix) Content Management Systeme

81 IR mit Ähnlichkeitsmaßen
S wird wie die Dokumentenmenge definiert d.h.: S = D. V = [0,] R (Retrievalfunktion) wird mit Hilfe von Ähnlichkeitsmaßen definiert. Content Management Systeme

82 IR mit Ähnlichkeitsmaßen
R wird mit Hilfe von Ähnlichkeitsmaßen definiert: sei d = (a1, ... , am) eine Dokumentbeschreibung s = (s1, ... , sm) eine Suchfragenbeschreibung Ähnlichkeitsmaße Innere Produktmaß =  ak • sk (k = 1,... m) Tanimotomaß Cosinusmaß Content Management Systeme

83 Content Management Systeme
Themen Einleitung / Definition IR Bewertungskriterien IR-Modelle / Konzepte / Methoden Allgemeines Modell Boolesches Retrieval Vektor-Modell (Retrieval mit Ähnlichkeitsmaßen) Dokument-Term-Matrix Methoden IR mit relationalen Datenbanken Indexierung Clustering Informationsmarkt Content Management Systeme

84 Dokument-Term-Matrix
Content Management Systeme

85 Dokument-Term-Matrix
ermöglicht: einheitliche Behandlung vieler Retrievalmodelle (Matching von Anfragen und Dokumenten) Anwendung von automatischen Cluster- und Klassifikationsverfahren auf die Menge der Dokumente auf die Menge der Terme (Schlagworte) Content Management Systeme

86 Klassifikation / Clustering
Abgrenzung / Definition Klassifikation Sinnvolle Einordnung von Objekten in vorgegebene Klassen Clustering Aufbau von Klassen aus einer Grundgesamtheit von Objekten, zwischen denen eine Ähnlichkeitsbeziehung besteht Content Management Systeme

87 Dokument-Term-Matrix
Mit 0/1 Werten Dokumente: D = {D1, ..., Dn} Terme: T = {t1, ...,tm} Martix (aij) i = 1, ..., n, j = 1, ..., m aij = 1  Term j ist Schlagwort für Di aij = 0  Term j ist nicht Schlagwort für Di Dokumentvektor Di = (ai1, ...,aim) Termvektor tj = (a1j, ...,anj) Content Management Systeme

88 Dokument-Term-Matrix
Mit Ähnlichkeitsmassen Dokumente: D = {D1, ..., Dn} Terme: T = {t1, ...,tm} Martix (aij) i = 1, ..., n, j = 1, ..., m aij  [0,)  Term tj ist Schlagwort für Di mit Gewichtung aij Dokumentvektor Di = (ai1, ...,aim) Termvektor tj = (a1j, ...,anj) Content Management Systeme

89 Content Management Systeme
Dokument-Term-Matrix Terme 1 j m 1 aij Dokumente M = i n Mit 0/1-Werten Content Management Systeme

90 Dokument-Term-Matrix
Terme 1 j m 1 aij Dokumente M = i n Mit Ähnlichkeitsmaßen Content Management Systeme

91 Content Management Systeme
Themen Einleitung / Definition IR Bewertungskriterien IR-Modelle / Konzepte / Methoden Allgemeines Modell Boolesches Retrieval Vektor-Modell (Retrieval mit Ähnlichkeitsmaßen) Dokument-Term-Matrix Methoden IR mit relationalen Datenbanken Indexierung Clustering Informationsmarkt Content Management Systeme

92 Content Management Systeme
IR Methoden Inhaltserschliessung manuelle Inhaltserschliessung automatische Inhaltserschliessung reines Volltextretrieval (Automatisches) Indexing (Automatisches) Abstracting (Automatisches) Klassifikation (Automatisches) Clustering mit manuell erzeugtem kontrolliertem Vokabular mit automatisch erzeugtem kontrolliertem Vokabular mit Abstandsoperatoren / Trunkierung mit Gewichten oder nur {0,1} als Werte Content Management Systeme

93 Content Management Systeme
IR Methoden Suchtechniken Browsing Boolesche Suche mit Trunkierung mit Feldeinschränkung mit Vergleichsoperatoren mit Abstandsopertoren Suche mit gewichteten Suchtermen Relevance-Feedback-Verfahren Content Management Systeme

94 Content Management Systeme
Themen Einleitung / Definition IR Bewertungskriterien IR-Modelle / Konzepte / Methoden Allgemeines Modell Boolesches Retrieval Vektor-Modell (Retrieval mit Ähnlichkeitsmaßen) Dokument-Term-Matrix Methoden IR mit relationalen Datenbanken Indexierung Clustering Informationsmarkt Content Management Systeme

95 IR mit relationalen Datenbanken
Content Management Systeme

96 IR mit relationalen DBen
Volltext Retrieval Dokumente Wörter in n m Doc_ID Dokument W_ID Wort Content Management Systeme

97 IR mit relationalen DBen
Volltext Retrieval mit Stoppwortliste W_ID Wort Doc_ID Dokument n in m Wörter Dokumente Stoppwörter Content Management Systeme

98 IR mit relationalen DBen
Volltext Retrieval mit Stoppwortliste und Häufigkeit W_ID Wort Doc_ID Dokument n in m Wörter Dokumente Häufigkeit Stoppwörter Content Management Systeme

99 IR mit relationalen DBen
Volltext Retrieval mit Stoppwortliste, Häufigkeit und Stelle Stelle Stelle W_ID Wort Doc_ID Document n m in Wörter Dokumente n m Häufigkeit Stoppwörter Content Management Systeme

100 IR mit relationalen DBen
Retrieval mit kontolliertem Vokabular (Thesaurus), Synonymen, Häufigkeit und Stelle Stelle Stelle W_ID Wort Doc_ID Document n m charak terisiert Schlagwörter Dokumente n m 1 gehört zu Häufigkeit n Synonyme Content Management Systeme

101 IR mit relationalen DBen
Retrieval mit Thesaurus, Häufigkeit, Stelle Synonymen und Abstandsoperatoren Doc_ID Document Stellen Dokumente Stelle m W_ID Wort Kapitel n charakteri siert Absatz Schlagwörter n 1 1 gehört zu2 gehört zu Häufigkeit n n m Satz Synonyme Content Management Systeme

102 IR mit relationalen DBen
Retrieval mit Thesaurus, Gewicht, Stelle Synonymen und Abstandsoperatoren Doc_ID Document Stellen Dokumente Stelle m W_ID Wort Kapitel n charakteri siert Absatz Schlagwörter n 1 1 gehört zu2 gehört zu Gewicht n n m Satz Synonyme Content Management Systeme

103 Content Management Systeme
Themen Einleitung / Definition IR Bewertungskriterien IR-Modelle / Konzepte / Methoden Allgemeines Modell Boolesches Retrieval Vektor-Modell (Retrieval mit Ähnlichkeitsmaßen) Dokument-Term-Matrix Methoden IR mit relationalen Datenbanken Indexierung Clustering Informationsmarkt Content Management Systeme

104 Content Management Systeme
Indexierung Content Management Systeme

105 Content Management Systeme
Manuelle Indexierung Content Management Systeme

106 Content Management Systeme
Manuelle Indexierung erfolgt durch Menschen (Bibliothekare etc.) Zuordnung von Schlagworten (Deskriptoren / Termen) zu einem Dokument, um ein Dokument thematisch zu beschreiben, damit es später darüber gefunden werden kann. Erfolgt häufig auf der Basis eines kontrollierten Vokabulars (Thesaurus) häufig erfolgt zusätzlich eine Klassifikation auf der Basis eines vorgegebenen Klassifikationsschemas Content Management Systeme

107 Content Management Systeme
Schlagworte Ein Schlagwort ist ein Wort, das den Dokumentinhalt thematisch charakterisiert Schlagwörter sollten meist Substantive im Nominativ und im Singular sein Sie dienen dazu Dokumente zu selektieren Schlagworte, die alle Dokumente charakterisieren sind deshalb nutzlos Die Relevanz von Schlagworten zur Beschreibung von Dokumenten kann unterschiedlich gross sein Content Management Systeme

108 Content Management Systeme
Thesaurus einfaches semantisches Netz Relationen Oberbegriff (BT Broader Term) Unterbegriff (NT Narrower term) Synonyme / Homonyme (durch Kontextangabe) RT Related Terms häufig ohne Hyperlinks für manuelle Nutzung, nicht für automatische Nutzung realisiert Beispiele: Content Management Systeme

109 Content Management Systeme
Signifikanzfaktoren zur Selektion relevanter Deskriptoren: Manuelle Bestimmung einer Stoppwortliste: (der, die, das, ein, etc.) Nur Substantive (Nominativ, Singular) Automatisches Verfahren bezüglich Häufigkeit von Deskriptoren in Dokumentkollektionen. Content Management Systeme

110 Content Management Systeme
Signifikanzfaktoren FREQi,k Häufigkeit von Term tk in Dokument Di TOTFREQk Häufigkeit von Term tk in allen Dokumenten Di (i= 1... n) (Summe der FREQi,k über alle i) Verwende alle Terme tk mit Untergrenze < TOTFREQk < Obergrenze als Deskriptoren Content Management Systeme

111 Automatische Indexierung
Content Management Systeme

112 Automatische Indexierung
Ziel Automatische Ermittlung der besten Schlagworte für jedes Dokument einer betrachteten Dokumentkollektion Automatische Ermittlung von Gewichten (WEIGHTs) , mit denen die vorkommenden Schlagworte den einzelnen Dokumenten zugeordnet werden Content Management Systeme

113 Automatische Indexierung
Ermittlung aller vorkommender Wörter einer Dokumentkollektion (Titel und Abstract zusammen liefern schon gute Ergebnisse (Volltextanalyse ist nicht unbedingt notwendig)) Eliminierung der Stoppwörter (ca. 250) Identifikation guter Deskriptoren Stammformenreduktion Bestimmung von Synonymen (manuell / Thesaurus) Content Management Systeme

114 Automatische Indexierung
Berechnung der Dokument-Term-Matrix z.B. gemäss (Weighti,k ) Zuweisung von Deskriptoren zu den Dokumenten erfolgt ab einem definierten Termgewicht (binär oder statistisch) Bei binärem Modell wird der Term zugewiesen, wenn er mindestens einmal im Dokument vorkommt Content Management Systeme

115 Automatische Indexierung
Zunächst: Bestimmung der (besten) Deskriptoren (Terme) für eine Dokumentkollektion als ganzer Annahme: Die besten Terme in einer Dokument-kollektion sind jene Terme, die in der Dokumentkollektion insgesamt nicht zu oft und nicht zu selten vorkommen. Content Management Systeme

116 Automatische Indexierung
DOCFREQk (Dokumentenhäufigkeit) Anzahl der Dokumente, in denen tk vorkommt. Ein sinnvolles Mass für die inverse Dokumentenhäufigkeit ist: INV-DOCFREQk = Log2 (n / DOCFREQk) + 1 Dabei ist „n“ die Anzahl der betrachteten Dokumente Content Management Systeme

117 Automatische Indexierung
sinnvolle Gewichtsfunktionen für die Indexierung eines Dokumentes Di mit dem Term tk ist: Weighti,k = FREQi,k • INV-DOCFREQk Content Management Systeme

118 Content Management Systeme
Themen Einleitung / Definition IR Bewertungskriterien IR-Modelle / Konzepte / Methoden Allgemeines Modell Boolesches Retrieval Vektor-Modell (Retrieval mit Ähnlichkeitsmaßen) Dokument-Term-Matrix Methoden IR mit relationalen Datenbanken Indexierung Clustering Informationsmarkt Content Management Systeme

119 Automatisches Clustering
Content Management Systeme

120 Ähnlichkeiten zwischen Vektoren
Ähnlichkeit zwischen Dokumenten und Deskriptoren können mittels der Term-Dokument-Matrix ermittelt werden. SIMILAR(Di, Dj) = Di • Dj (innere Vektorprodukt) i,j = 1, ..., n SIMILAR(ti, tj) = ti • tj (innere Vektorprodukt) i,j = 1, ..., m Content Management Systeme

121 Ähnlichkeiten zwischen Vektoren
Dies führt zu Term-Term-Ähnlichkeitsmatrizen SIMILAR(ti,tj) i,j = 1, ..., m und Dokument-Dokument-Ähnlichkeitsmatrizen SIMILAR(Di,Dj) i,j = 1, ..., n Content Management Systeme

122 Content Management Systeme
Clustering Klassen von ähnlichen Termen Klassen von ähnlichen Dokumenten basieren auf den zugehörigen Ähnlichkeitsmatrizen Kriterium Dokumente bzw. Terme werden in Abhängigkeit von den bestehenden Ähnlichkeiten zu Klassen zusammen gefasst. Content Management Systeme

123 Content Management Systeme
Clustering Es gibt mehrere Verfahren Viele Verfahren starten mit Ausgangsklassen, die unterschiedlich bestimmt werden können z.B. Termmengen in einem Dokument oder einer Dokumentmenge Termmengen in Dokumenten, die auf eine Suchfrage hin gefunden wurden Content Management Systeme

124 Content Management Systeme
Clustering Für jede so bestimmte Klasse wird ein Term-Centroid (bzw. Dokument-Centroid) als „Durchschnittsvektor“ der Klassen bestimmt Für eine Klassen K mit m Termvektoren t1, ..., tm Centroid(K) = 1/m Summe tk Dann werden alle Ähnlichkeiten zwischen allen Centroiden und allen Termen berechnet, die keine Centroide sind Content Management Systeme

125 Content Management Systeme
Clustering 4. Jeder Term wird der Klasse zugeordnet, zu dessen Centroid er die höchste Ähnlichkeit hat. 5. Falls ein Term die Klasse wechselt, wird der Prozess erneut durchlaufen Content Management Systeme

126 Content Management Systeme
Clustering Auf den Klassen lässt sich eine Hierarchie definieren, indem man Centroide zu Klassen zusammenfasst. Hierarchische Klassen auf Termen können so zum automatischen Aufbau von hierarchischen Katalogen verwendet werden. Die Cluster können auch als Basis einer grafischen Retrievalsprache verwendet werden, indem die Cluster mit den enthalten Termen und den Ähnlichkeitsmaßen zwischen den Termen grafisch dargestellt und durch Klickoperationen Navigations- bzw. Anfragen ausgelöst werden können. Content Management Systeme

127 Content Management Systeme
Relevance Feedback Beim Relevance Feedback Verfahren werden vom Benutzer als sehr relevant gekennzeichnete Ergebnisdokumente einer Recherche, zur Verbesserung der Suche als neuerliche Suchfragen (als Termvektor), verwendet. Content Management Systeme

128 Content Management Systeme
Themen Einleitung / Definition IR Bewertungskriterien IR-Modelle / Konzepte / Methoden Allgemeines Modell Boolesches Retrieval Vektor-Modell (Retrieval mit Ähnlichkeitsmaßen) Dokument-Term-Matrix Methoden IR mit relationalen Datenbanken Indexierung Clustering Informationsmarkt Content Management Systeme

129 Content Management Systeme
Informationsmarkt Content Management Systeme

130 Content Management Systeme
Informationsmarkt Online-Datenbanken Datenbasisproduzenten (produzieren Datenbasen) Datenbankanbieter/Hosts (betreiben Online-Datenbanken mit verschiedenen Datenbasen) Jeder Datenbankanbieter hat möglicherweise eigene Retrievalsprache Content Management Systeme

131 Content Management Systeme
CCL Common Command Language (CCL) for Online Interactive Information Retrieval Ist eine Standardisierung im Bereich Retrievalsprache für Online-Datenbanken (NISO). Content Management Systeme

132 Content Management Systeme
Informationsmarkt Online-Datenbanken - Datenbanktypen Textdatenbanken Referenzdatenbanken bibliographische Datenbanken (Autor, Titel, Zeitschrift, Heft, Seiten) sonstige Referenzdatenbanken (Patente, Projekte, Firmen, Experten) Volltextdatenbanken Content Management Systeme

133 Content Management Systeme
Informationsmarkt Online-Datenbanken - Datenbanktypen Faktendatenbanken numerische Datenbanken (Außenhandels- Statistiken, Börsendaten) Formeldatenbanken(Physik, Chemie, Technik) integrierte Datenbanken Multimedia-Datenbanken Content Management Systeme

134 Information Retrieval
Wichtige Datenbankanbieter DIALOG (450 DBen, allround) DATASTAR (350 DBen, allround) STN International (200 DBen, Technik, Naturw.) LEXIS-NEXIS (Volltexte: Presse, Wirtschaft, Recht) GENIOS (500 DBen,Wirtschaft,Firmen,Branchen) GBI (160 DBen, Betriebswirtschaftliche Infos FIZ Technik (110 DBen, Technikm Naturw., Patente) DIMDI (100 DBen, Medizin, Agrar,Psychologie) Questel Orbit (120 DBen, Patente, Technik, Naturw.) Content Management Systeme

135 Information Retrieval
WWW-Adressen Datenbankanbieter DIALOG DATASTAR STN International LEXIS-NEXIS GENIOS GBI FIZ Technik DIMDI Questel Orbit Content Management Systeme

136 Science Citation Index
ermöglicht die Suche nach allen wissenschaftlichen Dokumenten, in denen ein spezielles wissenschaftliches Dokument zitiert wird (d.h. im Literaturverzeichnis auftaucht). Content Management Systeme

137 Datenbankverzeichnisse
Gale Directory of Databases 0.html provides detailed information on publicly available databases and database products accessible through an online vendor, Internet, or batch processor, or available for direct lease, license, or purchase as a CD-ROM, diskette, magnetic tape, or handheld product. Content Management Systeme

138 Content Management Systeme
IR Vorgehen Formulierung des Informationsproblems Auswahl der Datenbank Studieren der Datenbankstruktur Studieren der Retrievalsprache Formulierung spezifischer Suchanfrage Suchanfrage stellen Suchergebnis bewerten Dokumente entsprechend abrufen bzw. Suchanfrage umformulieren Content Management Systeme


Herunterladen ppt "Content Management Systeme"

Ähnliche Präsentationen


Google-Anzeigen