Content Management Systeme

Slides:



Advertisements
Ähnliche Präsentationen
Be.as WEB Technologie
Advertisements

Web-Content-Management-Systeme
Menüstruktur automatisch angepasste Menüstruktur auf der Internetseite = Neue Seite im Content – Management- System ergibt neuen.
Stefan Lohrum Konrad-Zuse-Zentrum für Informationstechnik Berlin (ZIB)
Kohonennetze für Information Retrieval mit User Feedback
Basis-Architekturen für Web-Anwendungen
Inhaltlich orientierter Zugriff auf unstrukturierte Daten
Content Management Systeme
Datenbankzugriff im WWW (Kommerzielle Systeme)
Erweiterung B2B Usermanagement / LDAP-Anbindung
Support.ebsco.com Business Source-Suche in EBSCOhost Lernprogramm.
Literaturverwaltung und Wissensorganisation
Erschließen von semantischen Referenzen mit Ontology-Reasoning-Werkzeugen Das Ziel dieser Masterarbeit war die Erweiterung des ORBI Systems um ein Inferenz-System.
Fallstudie. 2 Statistik April Dokumente Jan Mio. Dokumente Performance 3 Mio. Queries pro Tag 9. Juni 2000 Most popular search engines.
XML eXtensible Markup Language
Content Management Systeme
HTML - Einführung Richard Göbel.
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/7 Information Retrieval auf Texten An ihre Grenzen stoßen relationale Datenbanken bei der.
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/8 Thesauren In gewisser Weise bilden Thesauren (Singular Thesaurus, Plural auch Thesauri)
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/5 Grundtechniken des Information Retrieval Deskribierung Hierunter versteht man eine manuelle.
Internetstruktur Das Internet besteht aus vielen Computern, die weltweit untereinander vernetzt sind.
XINDICE The Apache XML Project Name: Jacqueline Langhorst
Information Retrieval Modelle: Vektor-Modell
Information und Technik Nordrhein-Westfalen Das personalisierte Portal Düsseldorf, Das personalisierte Portal.
1 KM-Modul: Knowledge Wizard Personalisierte Verknüpfung von Wissensprozessen und Geschäftsprozessen auf Basis von Metainformationen Dr. Marc Diefenbruch.
Text-Retrieval mit Oracle Vortrag von Andreas Mück & David Diestel.
Support.ebsco.com Lernprogramm zur einfachen Suche in wissenschaftlichen Bibliotheken.
Technik Gestaltung Navigation Daten. Übersicht Client Webbrowser InternetServer.
Praxis der Metadatenerfassung Markus Enders Goettingen State and University Library
Access 2000 Datenbanken.
Indexierung - Verschlagwortung
Online Recherche 1.Vorbereitung der Recherche (bevor Sie sich in einen Host, bzw. Eine Datenbank einwählen) Erster Schritt: Ermittlung des Informationsbedarfs.
Fortgeschrittene Methoden der Wissensorganisation
Concurrent Versions System
Intelligentes Crawling im WWW mit Hilfe intuitiver Suchbedingungen
ProQuest Business Databases
Citavi im Prozess der wissenschaftlichen Arbeit
Entwurf und Realisierung einer digitalen Bibliothek zur Verwaltung von Notenhandschriften Dipl.-Ing. Temenushka Ignatova Datenbank- und Informationssysteme,
XML-Archivierung betriebswirtschaftlicher Datenbank-Objekte*
Gegenstand EDV Thema: Informative Webseiten
Web-HMI einbinden SPS-Technik mit Video, Multimedia und Entertainmentsystemen kombinieren I Peter Steib.
die DREHSCHEIBE für Informationen, Dokumente und Vorgänge
Warum brauche ich ein CMS – Content Management System?
SharePoint 2010 for Information Architects
Sesame Florian Mayrhuber
CGI (Common Gateway Interface)
Ausgabe vom Seite 1, XML Eine Einführung XML - Eine Einführung.
Marktübersicht für Content Management Systeme
CRM TimeLog… TimeLog … Wie gross ist der Anteil der Lohnkosten in Ihrem Unternehmen?
Suchen und Finden. Vielfältig vorgehen Kompetenzen aufbauen Recherche als Prozess Ziel: Ergebnismengen minimieren, Qualität maximieren.
XML (Extensible Markup Language)
Jahrestagung der ASpB - München
Webhosting an der Universität Zürich
Using latent semantic analysis to find different names for the same entity in free text Präsentation und Diskussion des Papers Im Rahmen des PS Web-Information.
Content Management System
CMS Content-Management-Systeme (CMS), dienen der Verwaltung und Pflege von Dokumenten und Inhalten in Inter- und Intranetanwendungen. Den Entwickler oder.
Information Retrieval, Vektorraummodell
© 2001 Sven Dammann1 Aufbau Integrierter Informationssysteme XML Bearbeitung und relationale Abbildung Sven Dammann Martin-Luther-Universität Halle-Wittenberg.
Die Management-Tools von Z&H COACH beinhalten zentrale Hilfsmittel für ein Management-System. Sorgfältig angewendet führen diese Tools Ihr Unternehmen.
Willkommen zum Brückensemester
Datenbanken im Web 1.
Oracle Portal think fast. think simple. think smart. Dieter Lorenz, Christian Witt.
1 Wolfgang Wiese, Regionales RechenZentrum Erlangen WCMS 3. August 2000 Wolfgang Wiese RRZE / Lehrstuhl für Informatik VII
Topic Maps: Personal Brain
Webserver Apache & Xampp Referenten: Elena, Luziano und Sükran
Portal Content Personalisierung Benutzerverwaltung.
Dreamteam: Web 2.0 und der Katalog Anne Christensen und Thomas Hapke GBV-Verbundkonferenz
Internet - Grundbegriffe Unterlagen zum Kurs "Wie erstelle ich eine Homepage?"
IT-Dienstleistungen E-Learning Systeme Content Management 1 Fallbeispiel ILIAS: Das Repository-Objekt-Plugin „Centra“
Campus Bern Patrick Mäschli, Software Architect
 Präsentation transkript:

Content Management Systeme

Content Management Systeme Rückblick Content Management Systeme

Content Management Systeme Inhalt Vorlesung CMS Einleitung / Definition / Motivation Web-Content Management Systeme (WCMS) Information Retrieval Dokumentenmanagementsysteme (DMS) Resource Description Framework (RDF) Topic Maps Dokumentenbeschreibungssprachen (XML etc.) Content Management Systeme

Content Management Systeme Inhalt heute Rückblick WCMS Systemarchitektur Datenstrukturen für WCMS (W)CM-Systeme OpenCms (W)CM-Organisation Portale EIP Information Retrieval Content Management Systeme

Content Management Systeme Rückblick CMS Einleitung / Definition / Motivation Abgrenzung zu Datenmanagement Unternehmenssituation Integrationsproblematik Cross Media Publishing (Single Source) Unterschiedliche Dokumentformate Unterschiedliche Dokumenttypen Informationsräume Content Management Systeme

Content Management Systeme Rückblick WCMS Definition Trennung von Struktur / Content / Layout / Funktion Einsatzkriterien Funktionen Content-Lebenszyklus Vergleich von Hypermedia- und Papierdokumenten (Persistenz / sequentiell) Mengensatz / Akzidenzsatz Content Management Systeme

Content Management Systeme (W)CMS Getrennte Aspekte Struktur Layout Inhalt Templates Hierarchie Klassifikation „Daten“ Content Management Systeme

Content Management Systeme Content Lebenzyklus Contentreduzierung Archivierung Löschung Contentgenerierung Identifizieren Sammeln Erzeugen Erfassen Erstellen Content Management Contentorganisation Strukturieren Indexieren Filtern Speichern Verwalten Contentnutzung Interpretieren Anwenden Bewerten Kommentieren Visualisieren Contentdistribution Suchen Wissensfluss Logistik Contentaufbereitung Verdichten / Integration Verfeinerung Erweiterung Kontext Erzeugung Redaktion Content Management Systeme

WCMS - Systemarchitektur Content Management Systeme

WCMS Systemarchitektur Web-Server Medienneutralität Berechtigungsverwaltung Mehrfachverwertung Site-Management Mehrsprachigkeit Terminierung Struktur Templates Content Funktionen CMS- Engine Datei- System Anforderungen Import DB DB- Schema Export Objekttypen DMS Legacy-Systeme Content Management Systeme

Content Management Systeme WCMS Nutzung Endnutzer Browser Web-Server CMS- Engine Datei- System Handy Import DB etc. DB- Schema Export Print Legacy-Systeme Content Management Systeme

Content Management Systeme WCMS Pflege Editor / Administrator Browser Web-Server Editor CMS- Engine Datei- System Client Import ODBC DB DB- Schema Export Legacy-Systeme Content Management Systeme

Content Management Systeme WCMS Pflege Über Browser Mittels Webformularen Richtext-Editoren (eventuell mit Einschränkungen) Workflow Content Management Systeme

Content Management Systeme WCMS Replikation Produktivsystem DB CMS- Engine DB- Schema Web-Server DB CMS- Engine DB- Schema Web-Server Entwicklungs- system Datei- System Import Replikation Export Import Datei- System Legacy-Systeme Content Management Systeme

Content Management Systeme Datenmodell für DB n Benutzer Web-Site von4 n Editor von3 m von n m m n m 1 n von2 von Schlagwort Web-Seite Version n n von5 1 von1 Content m Templates link 1 n t Text Grafiken Video Audio Content Management Systeme

Content Management Systeme (W)CM Organisation Gesamtkoordination Verantwortlicher Internet / Holding Internet / Töchter Verantwortlicher Verantwortlicher Intranet / Holding Intranet / Töchter Verantwortlicher Verantwortlicher Koordination Extranet / Holding Extranet / Töchter Verantwortlicher Verantwortlicher Teamroom Holding Teamrom / Töchter Verantwortlicher DMS Verantwortlicher Content Management Systeme

Content Management Systeme (W)CM Organisation Beispiel Internet Tochter Teamleitung Leitung Fachbereiche Informatik Personal Verantwortlicher / Editoren Marketing Verantwortlicher / Editoren Entwicklung Vertrieb 1 Verantwortlicher / Editoren Koordination Verantwortlicher / Editoren Betrieb Vertrieb 2 Unternehmens- kommunikation Ausbildung Verantwortlicher / Editoren WCMS etc. Content Management Systeme

Content Management Systeme CMS Systeme Vignette Content Management Server Obtree (Obtree Technologies) Bladerunner (Broadvision) VIPContentManager (Gaus Interprise AG) Teamsite (Interwoven) Pirobase (Pironet NDH AG) Hyperwave Information Server (Hyperwave AG) Hyper.Net (Coextant-Systems) (Lotus Notes) Content Management Systeme

Content Management Systeme OpenCms Open Source CMS http://www.opencms.com Voll browserbasiert (Netscape 6.2 (ohne WYSIWYG) / MS IE 5.5 mit WYSIWYG) benötigt einen Servlet Container (z.B.: Tomcat 4.x) Datenbank (MySQL, Oracle) komplett in Java realisiert Templates werden als XML Files gespeichert Content Management Systeme

Content Management Systeme OpenCms Features Templates (strikte Trennung von Content und Layout) Dynamisches und statisches Publishing Galerie für Grafiken und Files Benutzermanagement / Zugriffsrechte Projektbasiertes Publizieren Workflow- und Task-Management Mehrsprachigkeit Content Management Systeme

Content Management Systeme OpenCms Features WYSIWYG-Editor für MS-Internet Explorer Personalisierbarkeit (mit Registrierung / Extranet, Newsletter Mails) Integrationsunterstützung mit Umsystemen Versionierung (alte Versionen werden aufbewahrt, Änderungen sind nachvollziehbar) Synchronisationsmechanismus für ausgelagerte Seiten im File-System. Verfügbares Hilfesystem Content Management Systeme

Content Management Systeme OpenCms Features SSL-Support (https) Import / Export von Content (ZIP-File) Application Server Integration (J2EE/EJB) PDF / WAP Support (mittels spezieller Templates bzw. Java-Libraries) Suchmaschine Load Balancing Wahl zwischen Frame-Layout und nicht Frame-Layout Metainformationen (u.a.: Indexierung für Suchmaschinen) Content Management Systeme

Content Management Systeme Portale Content Management Systeme

Content Management Systeme Portale Funktionen Single Point of Access Zugriff auf alle Daten, Informationen und Applikationen über einen Client und einen Einstiegsbildschirm. Single Sign on Nur einmalige Anmeldung am Portal für alle beteiligten Anwendungssysteme Personalisierungsmöglichkeit der Einstiegsseite und der Navigationsstruktur Content Management Systeme

Content Management Systeme Portale Funktionen Bedienung unterschiedlicher Ausgabegeräte Katalog (Navigation / Hyperlinks) Suchmaschine Kontextualisierung der Suchergebnisse Zugriff auf interne und externe Systeme Aktuelle Nachrichten Push-Funktion Content Management Systeme

Content Management Systeme Portale Horizontale Portale sind für alle Nutzer gleich Suchmaschinen für spezielle Themen Vertikale Portale Sind für durch jeden Nutzer personalisierbar Erfordern Anmeldung / Identifikation des Nutzers Content Management Systeme

Content Management Systeme Personalisierung Technisch (unterschiedliche Ausgabegeräte auch Browser) wirtschaftliche Zielgruppen (Technik: Benutzermodell) unterschiedliche Inhalte unterschiedliches Layout unterschiedliche Struktur unterschiedliche Werbung Personalisierbarkeit (von jedem selbst) Content Management Systeme

Content Management Systeme Portale Ziele Arbeitsqualität verbessern durch Verbesserung der Qualität der Benutzerarbeitsplätze (mehr Transparenz, mehr Interoperabilität)) Informationsversorgung verbessern Informatikkosten einsparen (mittel- bis langfristig) Systembetrieb effizienter gestalten Lizenzkosten einsparen Niedrigere Ausbildungskosten Partnerfähigkeit / Flexibilität erhöhen Content Management Systeme

Content Management Systeme Portale Relevante Aspekte Mehrere Sprachversionen Zugriff von überall (Ortsunabhängigkeit) Zugriff nur für Berechtigte Sicherheitsfunktionen Content Management Systeme

Content Management Systeme EIP Enterprise Information Portals (EIP) bieten Zugriff über eine Startseite eines CLIENT auf alle Dokumente Prozesse Applikationen Daten eines Unternehmens und auf externe Informationen und Anwendungen Content Management Systeme

Content Management Systeme EIP Enterprise Information Portals (EIP) bieten einheitlichen Zugriff auf alle Systeme: ERP-Systeme Workflow-Systeme Transaktionssysteme Datenbanksysteme DMS Groupware DataWarehouse Business Intelligence Content Management Systeme

Content Management Systeme EIP Enterprise Information Portals (EIP) = Intranet bieten: Single Sign on (log on) Personalisierung / Filterung relevanter Informationen Einbindung unterschiedlicher (aller) Anwendungssysteme in eine Oberfläche Felxibilität hinsichtlich der Ausgabegeräte Push-Funktion Content Management Systeme

Information Retrieval Content Management Systeme

Content Management Systeme Themen Einleitung / Definition IR Bewertungskriterien von IR-Systemen IR-Modelle / Konzepte / Methoden Allgemeines Modell Boolesches Retrieval Vektor-Modell (Retrieval mit Ähnlichkeitsmaßen) Dokument-Term-Matrix Methoden IR mit relationalen Datenbanken Indexierung Clustering Informationsmarkt Content Management Systeme

Content Management Systeme Einleitung Content Management Systeme

Content Management Systeme Themen Einleitung / Definition IR Bewertungskriterien IR-Modelle / Konzepte / Methoden Allgemeines Modell Boolesches Retrieval Vektor-Modell (Retrieval mit Ähnlichkeitsmaßen) Dokument-Term-Matrix Methoden IR mit relationalen Datenbanken Indexierung Clustering Informationsmarkt Content Management Systeme

Information Retrieval Definition IR ist ein wissenschaftliches Fachgebiet Information Retrieval (IR) beschäftigt sich mit Repräsentation , Speicherung und dem Zugriff von bzw. auf Dokumente(n) bzw. deren Surrogate to retrieve: wieder bekommen, wieder herstellen Content Management Systeme

Information Retrieval IR beschäftigt sich auch mit: Konzeption, Bewertung von IR-Systemen Betrachtet reale IR-Systeme Entwickelt neue IR-Systeme Informationsmarkt (wirtschaftliche Verwertung / Anwendung von IR-Systemen) Content Management Systeme

Information Retrieval Inhaltserschliessung Vergabe von Metainformationen / Verschlagwortung / Indexierung) Aufbau von Thesauri Klassifikation, Clusterung sind Voraussetzung für das Wiederfinden Suchtechniken (Anfragesprachen) Retrievalsprachen Reihenfolge der Ergebnisse Relevance-Feedback-Verfahren Browsing entlang Hyperlinks Content Management Systeme

Information Retrieval Inhaltserschliessung und Suchtechniken müssen aufeinander abgestimmt sein!!! Content Management Systeme

Content Management Systeme IR- Suche eine Suchanfrage wird mit einer Menge von Dokumenten durch einen Abgleichmechanismus (Matching) abgeglichen, der die relevanten Dokumente selektiert. Um die Suche zu beschleunigen, wird ein Index angelegt, mittels dem auf die Dokumente referenziert wird. Content Management Systeme

Content Management Systeme IR-Systeme Bekannte Beispiele Internet-Portale / Suchmaschinen Bibliothekssysteme (z.B. Web Pac) http://www.ba-loerrach.de/bal_bibli.html http://www.ub.uni-konstanz.de/ Online-Datenbanken (häufig Referenzretrieval (z.B. wissenschaftliche Artikel)) Content Management Systeme

Information Retrieval Benutzer Informationsbedürfnis Geordnete Ergebnisliste von Dokumenten Formulierung in natürlicher Sprache Formulierung in formaler Sprache IR-Modell Anfragesprache Index Dokument repräsentation IR-System Dokumentenbehälter Content Management Systeme

Information Retrieval Benutzer Informationsbedürfnis Browsing / Navigation entlang von Hyperlinks Geordnete Ergebnisliste von Dokumenten Formulierung in natürlicher Sprache Formulierung in formaler Sprache Katalog IR-System Dokumentenbehälter Content Management Systeme

Informationsbedüfnis Typen Ich möchte eine Antwort auf folgende Frage ... ( Faktenretrieval (SQL)) Ich suche Informationen zum Thema ... ( Dokumentretrieval) Ich interessiere mich für folgendes Gebiet ... ( Dokumentretrieval) Ich möchte folgendes Problem besser verstehen ... ( Dokumentretrieval / Hypermedia / Browsing / Navigation) Content Management Systeme

Content Management Systeme IR-Systeme System-Funktionen Suche: Suchanfrage z.B. einzelne Suchbegriffe Ergebnis: geordnete Liste von Dokumenten bzw. Verweise auf Dokumente Content Management Systeme

Content Management Systeme IR-Systeme Mögliche Ordnungskriterien für die Anzeige: Relevanz für Suchanfrage Aktualität des Dokumentes wirtschaftliche Vereinbarungen mit Geschäftspartnern Ähnlichkeit mit Profil des Anfragenden Umfang des Dokumentes Content Management Systeme

Content Management Systeme Themen Einleitung / Definition IR Bewertungskriterien IR-Modelle / Konzepte / Methoden Allgemeines Modell Boolesches Retrieval Vektor-Modell (Retrieval mit Ähnlichkeitsmaßen) Dokument-Term-Matrix Methoden IR mit relationalen Datenbanken Indexierung Clustering Informationsmarkt Content Management Systeme

IR Bewertungskriterien Content Management Systeme

IR Bewertungskriterien Recall Precision Aufwand zur Formulierung einer Anfrage Antwortzeit des Retrieval-Systems Präsentation der Ergebnisse Abdeckung der Datenbank Content Management Systeme

IR Bewertungskriterien hoher RECALL möglichst alle relevanten Informationen werden gefunden hohe PRECISION möglichst wenig nicht relevante Informationen werden gefunden Content Management Systeme

IR Bewertungskriterien Recall Recall = GRD / RDD GRD = Anzahl der gefundenen relevanten Dokumente RDD = Anzahl der relevanten Dokumente der Datenbank Content Management Systeme

IR Bewertungskriterien Precision Precision = GRD / GD GRD = Anzahl der gefundenen relevanten Dokumente GD = Anzahl der gefundenen Dokumente Content Management Systeme

IR Bewertungskriterien Fallout Ratio Fallout Ratio = GID / IDD GID = Anzahl der gefundenen irrelevanten Dokumente IDD = Anzahl der irrelevanten Dokumente in der Datenbank Content Management Systeme

IR Bewertungskriterien Beispiel sonstige Dokumente= 100 gefundene Dokumente Relevante Dokumente GD= 10 GRD = 4 GID=6 RDD=12 IDD=106 Recall = 4/12 = 1/3 Precision = 4/10 = 2/5 Fallout-Ratio = 6/106 = 3/53 gefundene relevante Dokumente Content Management Systeme

IR Bewertungskriterien Die drei Bewertungskriterien müssen zusammen betrachtet (optimiert) werden! Ein IR-System ist umso besser je grösser Recall und Precision sind je kleiner die Fall-Out-Ratio ist für alle Anfragen Content Management Systeme

Content Management Systeme Themen Einleitung / Definition IR Bewertungskriterien IR-Modelle / Konzepte / Methoden Allgemeines Modell Boolesches Retrieval Vektor-Modell (Retrieval mit Ähnlichkeitsmaßen) Dokument-Term-Matrix Methoden IR mit relationalen Datenbanken Indexierung Clustering Informationsmarkt Content Management Systeme

Content Management Systeme IR Allgemeines Modell IR Modell = (D, S, V, R) wobei D Menge aller betrachteten Dokumente (gegeben durch spezielle Beschreibungen) S ist die Menge aller möglichen Suchfragen gegeben durch spezielle Beschreibungen in einer Dokumentationssprache (Schlagworte) V ist eine geordnete Menge (Zahlen) R: D x S  V ist eine Retrievalfunktion Content Management Systeme

Content Management Systeme IR Allgemeines Modell Jedes d  D wird häufig durch eine Menge von Schlagworten beschrieben Jedes s  S wird häufig durch eine Menge von Schlagworten definiert (die eventuell noch zusätzlich speziell kombiniert werden). V ist meist eine der folgenden 3 Mengen: {0,1}, [0,1], [0,] R: D x S  V ermöglicht nur dann eine an der Relevanz orientierte Ausgabereihenfolge, der Suchergebnisse, wenn V geordnete Menge ist. Content Management Systeme

Content Management Systeme Themen Einleitung / Definition IR Bewertungskriterien IR-Modelle / Konzepte / Methoden Allgemeines Modell Boolesches Retrieval Vektor-Modell (Retrieval mit Ähnlichkeitsmaßen) Dokument-Term-Matrix Methoden IR mit relationalen Datenbanken Indexierung Clustering Informationsmarkt Content Management Systeme

Content Management Systeme Boolesches Retrieval Content Management Systeme

Content Management Systeme Boolesches Retrieval Logische Operatoren (verknüpfen Suchbegriffe) es werden jeweils an Dokumenten gefunden bei: OR alle Dokumente die einen der Suchbegriffe enthalten AND alle Dokumente die beide Suchbegriffe enthalten NOT alle Dokumente, die den Suchbegriff nicht enthalten Content Management Systeme

Content Management Systeme Boolesches Retrieval T sei eine Menge von Termen (Deskriptoren / Schlagworten) Ein Dokument d  D wird beschrieben durch eine Menge von Termen: d = {t1, ... , tn}  T Content Management Systeme

Content Management Systeme Boolesches Retrieval S wird folgendermassen definiert: a  T dann a  S a, b  S dann (a AND b)  S a, b  S dann (a OR b)  S a  S dann (NOT a  S) V = {0, 1} Content Management Systeme

Content Management Systeme Boolesches Retrieval Retrievalfunktion R: Für d  D und s  T, s1, s2  S gilt: R(d,s) = 1, wenn s  d R(d,s) = 0, wenn s  d R(d,s1  s2) = min( R(d, s1), R(d, s2)) R(d,s1  s2) = max( R(d, s1), R(d, s2)) R(d, s) = 1 – R(d,s) Content Management Systeme

Content Management Systeme Boolesches Retrieval Retrievalfunktion R dabei bedeutet: R(d,s) = 1 Dokument d wird gefunden R(d,s) = 0 Dokument d wird nicht gefunden Content Management Systeme

Content Management Systeme Boolesches Retrieval Beispiel T = {a,b,c,d,e} d‘ = {a,b,e} s = ((a  b)  (( c)  d)) R(d‘,s) = R(d‘, ((a  b)  (( c)  d))) = max(R(d‘, (a  b)), R(d‘, (( c)  d))) = max(min(R(d‘,a),R(d‘,b)), min(R(d‘,( c)), R(d‘,d))) =max(min(1,1), min(1-R(d‘,c), 0) =max(1, 0) =1 Content Management Systeme

Erweiterungsmöglichkeiten des Booleschen Retrievals Content Management Systeme

Content Management Systeme Suchanfragen Möglichkeiten Felder in Dokumenten berücksichtigen Feldselektion (CT = Zement, Zement/TI) Vergleichsoperatoren (=, <, >, <=, >=) Maskierung/ Trunkierung (Information$) Abstandsoperatoren (ADJ, WITH, SAME, W3) (direkt , im gleichen Satz, im gleichen Paragraph, höchstens 3 Wörter auseinander) Content Management Systeme

Content Management Systeme Feldselektion Beispiele FIND Information/TI FIND CT=Information F Economics (TI; AB) FIND Economics (TI) AND Information/AB Content Management Systeme

Content Management Systeme Boolesche Anfragen Beispiele FIND Information FIND Electronic Mail AND FAX F CT=Biology FIND (Internet OR CompuServe) AND Commerce Content Management Systeme

Maskierung/Trunkierung Beispiele FIND Econom$ FIND $$System$ F Inf$$$$tion Content Management Systeme

Content Management Systeme Abstandsoperatoren Beispiele F Inter$ SAME Commerce (im gleichen Paragraphen) F Internet WITH Information (im gleichen Satz) F Internet ADJ Service (direkt hintereinander) Content Management Systeme

Content Management Systeme Abstandsoperatoren Abstands-Operatoren ADJ (ADJacency-Operator) Suchbegriffe müssen in der angegebenen Reihenfolge direkt aufeinanderfolgen WITH Suchbegriffe müssen in einem Satz auftreten SAME Suchbegriffe müssen in einem Absatz enthalten sein Content Management Systeme

Content Management Systeme Abstandsoperatoren Abstands-Operatoren NEXT Zwischen den Suchbegriffen dürfen maximal 5 Wörter stehen, wobei die Reihenfolge relevant ist NEAR Zwischen den Suchbegriffen dürfen maximal 5 Wörter stehen, wobei die Reihenfolge nicht relevant ist (W3) Zwischen den Suchbegriffen darf ein Abstand von höchstens 3 Wörtern bestehen Content Management Systeme

Content Management Systeme Themen Einleitung / Definition IR Bewertungskriterien IR-Modelle / Konzepte / Methoden Allgemeines Modell Boolesches Retrieval Vektor-Modell (Retrieval mit Ähnlichkeitsmaßen) Dokument-Term-Matrix Methoden IR mit relationalen Datenbanken Indexierung Clustering Informationsmarkt Content Management Systeme

Content Management Systeme Vektor-Modell Content Management Systeme

Content Management Systeme Vektor-Modell Mit dem Vektor-Modell kann man das Retrieval mit gewichteten oder nicht gewichteten Termzuordnungen zu Dokumenten und zu Suchanfragen beschreiben. Ferner lassen sich damit die Dokumente bezüglich jeder Suchanfrage in eine Reihenfolge hinsichtlich ihrer Relevanz für die Suchanfrage bringen. Content Management Systeme

Content Management Systeme Vektor-Modell Jedes Dokument wird durch einen Dokumentvektor beschrieben. m = Anzahl der Terme / Schlagwörter T = {t1, ..., tm} die Menge der Terme D = {D1, ... Dn} die Menge der Dokumente 0 < aij = Gewicht von Schlagwort tj in Dokument Di Im Booleschen Retrieval gilt: aij = 0 oder aij = 1 Di = (ai1 , ..., ajm ) ist Dokumentvektor Content Management Systeme

Content Management Systeme Suchanfrage Suchanfragen s sind ähnlich aufgebaut wie Dokumentvektoren S = {(t1, ... , tm) | ti = 0 oder ti = 1, i = 1,...,m} sei s  S M • s = (l1, ... , ln) (Matrix M • Vektor s) li =  aij • ti (j=1...m) (M = (aij) ist heisst Dokument-Term-Matrix) Content Management Systeme

IR mit Ähnlichkeitsmaßen S wird wie die Dokumentenmenge definiert d.h.: S = D. V = [0,] R (Retrievalfunktion) wird mit Hilfe von Ähnlichkeitsmaßen definiert. Content Management Systeme

IR mit Ähnlichkeitsmaßen R wird mit Hilfe von Ähnlichkeitsmaßen definiert: sei d = (a1, ... , am) eine Dokumentbeschreibung s = (s1, ... , sm) eine Suchfragenbeschreibung Ähnlichkeitsmaße Innere Produktmaß =  ak • sk (k = 1,... m) Tanimotomaß Cosinusmaß Content Management Systeme

Content Management Systeme Themen Einleitung / Definition IR Bewertungskriterien IR-Modelle / Konzepte / Methoden Allgemeines Modell Boolesches Retrieval Vektor-Modell (Retrieval mit Ähnlichkeitsmaßen) Dokument-Term-Matrix Methoden IR mit relationalen Datenbanken Indexierung Clustering Informationsmarkt Content Management Systeme

Dokument-Term-Matrix Content Management Systeme

Dokument-Term-Matrix ermöglicht: einheitliche Behandlung vieler Retrievalmodelle (Matching von Anfragen und Dokumenten) Anwendung von automatischen Cluster- und Klassifikationsverfahren auf die Menge der Dokumente auf die Menge der Terme (Schlagworte) Content Management Systeme

Klassifikation / Clustering Abgrenzung / Definition Klassifikation Sinnvolle Einordnung von Objekten in vorgegebene Klassen Clustering Aufbau von Klassen aus einer Grundgesamtheit von Objekten, zwischen denen eine Ähnlichkeitsbeziehung besteht Content Management Systeme

Dokument-Term-Matrix Mit 0/1 Werten Dokumente: D = {D1, ..., Dn} Terme: T = {t1, ...,tm} Martix (aij) i = 1, ..., n, j = 1, ..., m aij = 1  Term j ist Schlagwort für Di aij = 0  Term j ist nicht Schlagwort für Di Dokumentvektor Di = (ai1, ...,aim) Termvektor tj = (a1j, ...,anj) Content Management Systeme

Dokument-Term-Matrix Mit Ähnlichkeitsmassen Dokumente: D = {D1, ..., Dn} Terme: T = {t1, ...,tm} Martix (aij) i = 1, ..., n, j = 1, ..., m aij  [0,)  Term tj ist Schlagwort für Di mit Gewichtung aij Dokumentvektor Di = (ai1, ...,aim) Termvektor tj = (a1j, ...,anj) Content Management Systeme

Content Management Systeme Dokument-Term-Matrix Terme 1 j m 1 aij 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 1 1 1 1 0 1 0 1 Dokumente 1 1 1 0 1 0 0 0 0 0 0 0 0 1 0 0 0 0 1 0 0 0 1 0 M = i n Mit 0/1-Werten Content Management Systeme

Dokument-Term-Matrix Terme 1 j m 1 aij 0 6 0 0 0 0 8 0 0 0 0 0 0 0 0 0 7 3 2 1 0 3 0 5 Dokumente 4 16 0 6 0 0 0 0 0 0 0 0 2 0 0 0 0 1 0 0 0 9 0 M = i n Mit Ähnlichkeitsmaßen Content Management Systeme

Content Management Systeme Themen Einleitung / Definition IR Bewertungskriterien IR-Modelle / Konzepte / Methoden Allgemeines Modell Boolesches Retrieval Vektor-Modell (Retrieval mit Ähnlichkeitsmaßen) Dokument-Term-Matrix Methoden IR mit relationalen Datenbanken Indexierung Clustering Informationsmarkt Content Management Systeme

Content Management Systeme IR Methoden Inhaltserschliessung manuelle Inhaltserschliessung automatische Inhaltserschliessung reines Volltextretrieval (Automatisches) Indexing (Automatisches) Abstracting (Automatisches) Klassifikation (Automatisches) Clustering mit manuell erzeugtem kontrolliertem Vokabular mit automatisch erzeugtem kontrolliertem Vokabular mit Abstandsoperatoren / Trunkierung mit Gewichten oder nur {0,1} als Werte Content Management Systeme

Content Management Systeme IR Methoden Suchtechniken Browsing Boolesche Suche mit Trunkierung mit Feldeinschränkung mit Vergleichsoperatoren mit Abstandsopertoren Suche mit gewichteten Suchtermen Relevance-Feedback-Verfahren Content Management Systeme

Content Management Systeme Themen Einleitung / Definition IR Bewertungskriterien IR-Modelle / Konzepte / Methoden Allgemeines Modell Boolesches Retrieval Vektor-Modell (Retrieval mit Ähnlichkeitsmaßen) Dokument-Term-Matrix Methoden IR mit relationalen Datenbanken Indexierung Clustering Informationsmarkt Content Management Systeme

IR mit relationalen Datenbanken Content Management Systeme

IR mit relationalen DBen Volltext Retrieval Dokumente Wörter in n m Doc_ID Dokument W_ID Wort Content Management Systeme

IR mit relationalen DBen Volltext Retrieval mit Stoppwortliste W_ID Wort Doc_ID Dokument n in m Wörter Dokumente Stoppwörter Content Management Systeme

IR mit relationalen DBen Volltext Retrieval mit Stoppwortliste und Häufigkeit W_ID Wort Doc_ID Dokument n in m Wörter Dokumente Häufigkeit Stoppwörter Content Management Systeme

IR mit relationalen DBen Volltext Retrieval mit Stoppwortliste, Häufigkeit und Stelle Stelle Stelle W_ID Wort Doc_ID Document n m in Wörter Dokumente n m Häufigkeit Stoppwörter Content Management Systeme

IR mit relationalen DBen Retrieval mit kontolliertem Vokabular (Thesaurus), Synonymen, Häufigkeit und Stelle Stelle Stelle W_ID Wort Doc_ID Document n m charak terisiert Schlagwörter Dokumente n m 1 gehört zu Häufigkeit n Synonyme Content Management Systeme

IR mit relationalen DBen Retrieval mit Thesaurus, Häufigkeit, Stelle Synonymen und Abstandsoperatoren Doc_ID Document Stellen Dokumente Stelle m W_ID Wort Kapitel n charakteri siert Absatz Schlagwörter n 1 1 gehört zu2 gehört zu Häufigkeit n n m Satz Synonyme Content Management Systeme

IR mit relationalen DBen Retrieval mit Thesaurus, Gewicht, Stelle Synonymen und Abstandsoperatoren Doc_ID Document Stellen Dokumente Stelle m W_ID Wort Kapitel n charakteri siert Absatz Schlagwörter n 1 1 gehört zu2 gehört zu Gewicht n n m Satz Synonyme Content Management Systeme

Content Management Systeme Themen Einleitung / Definition IR Bewertungskriterien IR-Modelle / Konzepte / Methoden Allgemeines Modell Boolesches Retrieval Vektor-Modell (Retrieval mit Ähnlichkeitsmaßen) Dokument-Term-Matrix Methoden IR mit relationalen Datenbanken Indexierung Clustering Informationsmarkt Content Management Systeme

Content Management Systeme Indexierung Content Management Systeme

Content Management Systeme Manuelle Indexierung Content Management Systeme

Content Management Systeme Manuelle Indexierung erfolgt durch Menschen (Bibliothekare etc.) Zuordnung von Schlagworten (Deskriptoren / Termen) zu einem Dokument, um ein Dokument thematisch zu beschreiben, damit es später darüber gefunden werden kann. Erfolgt häufig auf der Basis eines kontrollierten Vokabulars (Thesaurus) häufig erfolgt zusätzlich eine Klassifikation auf der Basis eines vorgegebenen Klassifikationsschemas Content Management Systeme

Content Management Systeme Schlagworte Ein Schlagwort ist ein Wort, das den Dokumentinhalt thematisch charakterisiert Schlagwörter sollten meist Substantive im Nominativ und im Singular sein Sie dienen dazu Dokumente zu selektieren Schlagworte, die alle Dokumente charakterisieren sind deshalb nutzlos Die Relevanz von Schlagworten zur Beschreibung von Dokumenten kann unterschiedlich gross sein Content Management Systeme

Content Management Systeme Thesaurus einfaches semantisches Netz Relationen Oberbegriff (BT Broader Term) Unterbegriff (NT Narrower term) Synonyme / Homonyme (durch Kontextangabe) RT Related Terms häufig ohne Hyperlinks für manuelle Nutzung, nicht für automatische Nutzung realisiert Beispiele: http://de.dir.yahoo.com/Nachschlagewerke/thesauri/ Content Management Systeme

Content Management Systeme Signifikanzfaktoren zur Selektion relevanter Deskriptoren: Manuelle Bestimmung einer Stoppwortliste: (der, die, das, ein, etc.) Nur Substantive (Nominativ, Singular) Automatisches Verfahren bezüglich Häufigkeit von Deskriptoren in Dokumentkollektionen. Content Management Systeme

Content Management Systeme Signifikanzfaktoren FREQi,k Häufigkeit von Term tk in Dokument Di TOTFREQk Häufigkeit von Term tk in allen Dokumenten Di (i= 1... n) (Summe der FREQi,k über alle i) Verwende alle Terme tk mit Untergrenze < TOTFREQk < Obergrenze als Deskriptoren Content Management Systeme

Automatische Indexierung Content Management Systeme

Automatische Indexierung Ziel Automatische Ermittlung der besten Schlagworte für jedes Dokument einer betrachteten Dokumentkollektion Automatische Ermittlung von Gewichten (WEIGHTs) , mit denen die vorkommenden Schlagworte den einzelnen Dokumenten zugeordnet werden Content Management Systeme

Automatische Indexierung Ermittlung aller vorkommender Wörter einer Dokumentkollektion (Titel und Abstract zusammen liefern schon gute Ergebnisse (Volltextanalyse ist nicht unbedingt notwendig)) Eliminierung der Stoppwörter (ca. 250) Identifikation guter Deskriptoren Stammformenreduktion Bestimmung von Synonymen (manuell / Thesaurus) Content Management Systeme

Automatische Indexierung Berechnung der Dokument-Term-Matrix z.B. gemäss (Weighti,k ) Zuweisung von Deskriptoren zu den Dokumenten erfolgt ab einem definierten Termgewicht (binär oder statistisch) Bei binärem Modell wird der Term zugewiesen, wenn er mindestens einmal im Dokument vorkommt Content Management Systeme

Automatische Indexierung Zunächst: Bestimmung der (besten) Deskriptoren (Terme) für eine Dokumentkollektion als ganzer Annahme: Die besten Terme in einer Dokument-kollektion sind jene Terme, die in der Dokumentkollektion insgesamt nicht zu oft und nicht zu selten vorkommen. Content Management Systeme

Automatische Indexierung DOCFREQk (Dokumentenhäufigkeit) Anzahl der Dokumente, in denen tk vorkommt. Ein sinnvolles Mass für die inverse Dokumentenhäufigkeit ist: INV-DOCFREQk = Log2 (n / DOCFREQk) + 1 Dabei ist „n“ die Anzahl der betrachteten Dokumente Content Management Systeme

Automatische Indexierung sinnvolle Gewichtsfunktionen für die Indexierung eines Dokumentes Di mit dem Term tk ist: Weighti,k = FREQi,k • INV-DOCFREQk Content Management Systeme

Content Management Systeme Themen Einleitung / Definition IR Bewertungskriterien IR-Modelle / Konzepte / Methoden Allgemeines Modell Boolesches Retrieval Vektor-Modell (Retrieval mit Ähnlichkeitsmaßen) Dokument-Term-Matrix Methoden IR mit relationalen Datenbanken Indexierung Clustering Informationsmarkt Content Management Systeme

Automatisches Clustering Content Management Systeme

Ähnlichkeiten zwischen Vektoren Ähnlichkeit zwischen Dokumenten und Deskriptoren können mittels der Term-Dokument-Matrix ermittelt werden. SIMILAR(Di, Dj) = Di • Dj (innere Vektorprodukt) i,j = 1, ..., n SIMILAR(ti, tj) = ti • tj (innere Vektorprodukt) i,j = 1, ..., m Content Management Systeme

Ähnlichkeiten zwischen Vektoren Dies führt zu Term-Term-Ähnlichkeitsmatrizen SIMILAR(ti,tj) i,j = 1, ..., m und Dokument-Dokument-Ähnlichkeitsmatrizen SIMILAR(Di,Dj) i,j = 1, ..., n Content Management Systeme

Content Management Systeme Clustering Klassen von ähnlichen Termen Klassen von ähnlichen Dokumenten basieren auf den zugehörigen Ähnlichkeitsmatrizen Kriterium Dokumente bzw. Terme werden in Abhängigkeit von den bestehenden Ähnlichkeiten zu Klassen zusammen gefasst. Content Management Systeme

Content Management Systeme Clustering Es gibt mehrere Verfahren Viele Verfahren starten mit Ausgangsklassen, die unterschiedlich bestimmt werden können z.B. Termmengen in einem Dokument oder einer Dokumentmenge Termmengen in Dokumenten, die auf eine Suchfrage hin gefunden wurden Content Management Systeme

Content Management Systeme Clustering Für jede so bestimmte Klasse wird ein Term-Centroid (bzw. Dokument-Centroid) als „Durchschnittsvektor“ der Klassen bestimmt Für eine Klassen K mit m Termvektoren t1, ..., tm Centroid(K) = 1/m Summe tk Dann werden alle Ähnlichkeiten zwischen allen Centroiden und allen Termen berechnet, die keine Centroide sind Content Management Systeme

Content Management Systeme Clustering 4. Jeder Term wird der Klasse zugeordnet, zu dessen Centroid er die höchste Ähnlichkeit hat. 5. Falls ein Term die Klasse wechselt, wird der Prozess erneut durchlaufen Content Management Systeme

Content Management Systeme Clustering Auf den Klassen lässt sich eine Hierarchie definieren, indem man Centroide zu Klassen zusammenfasst. Hierarchische Klassen auf Termen können so zum automatischen Aufbau von hierarchischen Katalogen verwendet werden. Die Cluster können auch als Basis einer grafischen Retrievalsprache verwendet werden, indem die Cluster mit den enthalten Termen und den Ähnlichkeitsmaßen zwischen den Termen grafisch dargestellt und durch Klickoperationen Navigations- bzw. Anfragen ausgelöst werden können. Content Management Systeme

Content Management Systeme Relevance Feedback Beim Relevance Feedback Verfahren werden vom Benutzer als sehr relevant gekennzeichnete Ergebnisdokumente einer Recherche, zur Verbesserung der Suche als neuerliche Suchfragen (als Termvektor), verwendet. Content Management Systeme

Content Management Systeme Themen Einleitung / Definition IR Bewertungskriterien IR-Modelle / Konzepte / Methoden Allgemeines Modell Boolesches Retrieval Vektor-Modell (Retrieval mit Ähnlichkeitsmaßen) Dokument-Term-Matrix Methoden IR mit relationalen Datenbanken Indexierung Clustering Informationsmarkt Content Management Systeme

Content Management Systeme Informationsmarkt Content Management Systeme

Content Management Systeme Informationsmarkt Online-Datenbanken Datenbasisproduzenten (produzieren Datenbasen) Datenbankanbieter/Hosts (betreiben Online-Datenbanken mit verschiedenen Datenbasen) Jeder Datenbankanbieter hat möglicherweise eigene Retrievalsprache Content Management Systeme

Content Management Systeme CCL Common Command Language (CCL) for Online Interactive Information Retrieval Ist eine Standardisierung im Bereich Retrievalsprache für Online-Datenbanken (NISO). http://www.niso.org/standards/standard_detail.cfm?std_id=563 Content Management Systeme

Content Management Systeme Informationsmarkt Online-Datenbanken - Datenbanktypen Textdatenbanken Referenzdatenbanken bibliographische Datenbanken (Autor, Titel, Zeitschrift, Heft, Seiten) sonstige Referenzdatenbanken (Patente, Projekte, Firmen, Experten) Volltextdatenbanken Content Management Systeme

Content Management Systeme Informationsmarkt Online-Datenbanken - Datenbanktypen Faktendatenbanken numerische Datenbanken (Außenhandels- Statistiken, Börsendaten) Formeldatenbanken(Physik, Chemie, Technik) integrierte Datenbanken Multimedia-Datenbanken Content Management Systeme

Information Retrieval Wichtige Datenbankanbieter DIALOG (450 DBen, allround) DATASTAR (350 DBen, allround) STN International (200 DBen, Technik, Naturw.) LEXIS-NEXIS (Volltexte: Presse, Wirtschaft, Recht) GENIOS (500 DBen,Wirtschaft,Firmen,Branchen) GBI (160 DBen, Betriebswirtschaftliche Infos FIZ Technik (110 DBen, Technikm Naturw., Patente) DIMDI (100 DBen, Medizin, Agrar,Psychologie) Questel Orbit (120 DBen, Patente, Technik, Naturw.) Content Management Systeme

Information Retrieval WWW-Adressen Datenbankanbieter DIALOG http://www.dialog.com DATASTAR http://www.datastarweb.com STN International http://www.fiz-karlsruhe.de LEXIS-NEXIS http://www.lexis-nexis.com GENIOS http://www.genios.de GBI http://www.gbi.de FIZ Technik http://www.fiz-technik.de DIMDI http://www.dimdi.de Questel Orbit http://www.questel-orbit.de Content Management Systeme

Science Citation Index http://www.isinet.com/isi/products/citation/sci/index.html#cr ermöglicht die Suche nach allen wissenschaftlichen Dokumenten, in denen ein spezielles wissenschaftliches Dokument zitiert wird (d.h. im Literaturverzeichnis auftaucht). Content Management Systeme

Datenbankverzeichnisse Gale Directory of Databases http://library.dialog.com/bluesheets/html/bl023 0.html provides detailed information on publicly available databases and database products accessible through an online vendor, Internet, or batch processor, or available for direct lease, license, or purchase as a CD-ROM, diskette, magnetic tape, or handheld product. Content Management Systeme

Content Management Systeme IR Vorgehen Formulierung des Informationsproblems Auswahl der Datenbank Studieren der Datenbankstruktur Studieren der Retrievalsprache Formulierung spezifischer Suchanfrage Suchanfrage stellen Suchergebnis bewerten Dokumente entsprechend abrufen bzw. Suchanfrage umformulieren Content Management Systeme