1 Web-basierte Informationssysteme Skizzen zur VL WS 2000/1 H. Schweppe FUB.

Slides:



Advertisements
Ähnliche Präsentationen
Be.as WEB Technologie
Advertisements

Stefan Lohrum Konrad-Zuse-Zentrum für Informationstechnik Berlin (ZIB)
Kohonennetze für Information Retrieval mit User Feedback
Übung Datenbanksysteme WS 2003/ Übung Datenbanksysteme Entwurf eines Bibliothekssystems
Datenbanken Einführung.
Indizierung von Graphen durch häufige Subgraphen (2)
MySQL.
Aufbau des Internets Überblick Prof. Dr. T. Hildebrandt
Basis-Architekturen für Web-Anwendungen
Inhaltlich orientierter Zugriff auf unstrukturierte Daten
Fallstudie. 2 Statistik April Dokumente Jan Mio. Dokumente Performance 3 Mio. Queries pro Tag 9. Juni 2000 Most popular search engines.
FH-Hof Effizienz - Grundlagen Richard Göbel. FH-Hof Inhalt Einführung Aufwand für Anfragen ohne Indexierung Indexstrukturen für Anfragen an eine Tabelle.
Java: Grundlagen der Sprache
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/7 Information Retrieval auf Texten An ihre Grenzen stoßen relationale Datenbanken bei der.
DOM (Document Object Model)
IS: Datenbanken, © Till Hänisch 2000 CREATE TABLE Syntax: CREATE TABLE name ( coldef [, coldef] [, tableconstraints] ) coldef := name type [länge], [[NOT]NULL],
Datenbankanbindung mit ASP Wilhelm-Schickard-Schule Tübingen
Spezielle Aspekte der Anbindung von Datenbanken im Web.
SQL/XML. © Prof. T. Kudraß, HTWK Leipzig 2 2 Motivation Speicherung von XML in allen großen kommerziellen DBMS vorhanden proprietäre Lösungen für die.
Anwendungen. © Prof. T. Kudraß, HTWK Leipzig Historie des WWW Grundlage Internet – Entwickelt Ende der 60er Jahre vom US-Militär (ARPA-Net) – Technische.
Technik Gestaltung Navigation Daten. Übersicht Client Webbrowser InternetServer.
Access 2000 Datenbanken.
Projekt Web Engineering
Wie funktionieren Suchmaschinen?
Schulen ans Netz Oberhausener Moderatoren
Einführung in die Technik des Internets
JDBC EDV JDBC.
Überlegungen zur Architektur eines Fachinformations-Netzwerkes am Beispiel des CeGIM Mehrwert ist es nicht nur, Daten von ihren Quellen zu den Nutzern.
Intelligentes Crawling im WWW mit Hilfe intuitiver Suchbedingungen
Netzwerke Peer-to-Peer-Netz Client-Server Alleinstehende Server
von Julia Pfander und Katja Holzapfel E 12/2
Gegenstand EDV Thema: Informative Webseiten
Im Internet geht alles schneller, aber es dauert länger
Best Practices in der Datenbank-programmierung
Grundlagen: Client-Server-Modell
Julia Grabsch Florian Hillnhütter Fabian Riebschläger
Client Server Modell Universität zu Köln
Proseminar: „Webtechnologien für Ecommerce“
CGI (Common Gateway Interface)
Vom Kontext zum Projekt V Carina Berning Sabrina Gursch Pierre Streicher Intelligente Dateisysteme.
Liske Informationsmanagementsysteme 2005 Informationen managen Strategisches Kalkül und technische Wirksamkeit.
verstehen planen bearbeiten
Quellen: Internet INTRANET Ausarbeitung von Sven Strasser und Sascha Aufderheide im Modul Netzwerktechnik, Klasse INBS Mai 2003.
Information Retrieval, Vektorraummodell
Client-Server-Modell
Die Ganze Welt im Computer? Informationsbeschaffung im Internet
Eike Schallehn, Martin Endig
->Prinzip ->Systeme ->Peer – to – Peer
Datenbanken im Web 1.
11 Zugriffskontrolle (Access Control) Ziele Privilegien Rollen GRANT und REVOKE Befehl Privilegien Rollen GRANT und REVOKE Befehl.
Topic Maps: Personal Brain
Kirsten Kropmanns Allgemeine Technologien II 9. März 2009
Datenbank System (DBS) - Warum?
Java Server Pages Technologie zur Erzeugung dynamischer Webseiten basierend auf Java-Servlets Blockseminar Wintersemester 2001/2002Jochen Pfeiffer Seite.
Das World Wide Web Stephan Becker TIT05BGR SS06. Das World Wide Web Übersicht Hypertext & Hypermedia HTML Dokumentenidentifikation Dokumententransport.
5.1 5 Retrieval auf Bildern (.... in a nutshell)  Bedeutung.... ... im Zusammenhang mit Information Retrieval ... für Anwendungen Medizin: "Finde ähnliche.
WINLearn Technische Umsetzung. Basistechnologie Oberfläche in HTML JSP (JavaServerPages) zur Datenauswertung Datenhaltung: Datenbank oder Filesystem JDBC.
Das Internet Ein Netzwerk, das viele Rechner miteinander verbindet
Herzlich Willkommen! Es freut uns, dass Sie da sind!
Lisa Huber DHBW Mannheim
© 2003, Rudolf Jansen Einsatz der XML-Features der Oracle 9i DB zur Systemintegration Rudolf Jansen Freiberuflicher Entwickler und Autor
DOAG SID Data Warehouse
Wie verwende ich Suchmaschinen richtig?
Systeme II 6. Die Anwendungsschicht
Create Table, Rechte und Rollen
Routing … … die Suche nach dem Weg..
Von Wietlisbach, Lenzin und Winter
Abschlussvortrag Diplomarbeit Daniel Weber
Von Wietlisbach, Lenzin und Winter
 Präsentation transkript:

1 Web-basierte Informationssysteme Skizzen zur VL WS 2000/1 H. Schweppe FUB

1.2 Einführung / Umfeld  Informationsangebot  1000 Patentanmeldungen / Tag  2000 neue Bücher / Tag  fachwiss. Beiträge in der Chemie / Jahr  Ca Webseiten (1997), jährliche Verdopplung  ~ hydraulische Übertragungselement von 4000 Herstellern  Zentrales Problem: Benötigte ("passende") Information finden  Technisch: Suchmaschine  Nichttechnische Faktoren wichtig: u.a.vertrauenswürdig?

1.3 Einführung / Umfeld  Technisches Umfeld  Speichermedien (Kosten, Volumen) Kosten für Speicherung einer DIN A4 Seite 20 GB kosten ca. 400 DM 1 Seite entspricht etwa 5 K Zeichen ~ 5 KB im pdf-Format Seiten pro GB ~ 2000 Pfg Kosten pro Seite 1/100 Pf + Infrastrukturkosten (Controller, Netz Server) grob Faktor 5 1 Blatt DIN A 4 Papier ~ 1,5 Pfg Papier / elektronischer Speicherung ~ 1 : 30 (!) Datenrate weit unterproportional gestiegen: 50 MB / sec : 10 Gb sequentiell lesen ca. 3 Minuten Wahlfreier Zugriff: 10 msec 10 GB wahlfrei in Blöcken à 50 KB: ca. eine Stunde

1.4 Einführung / Umfeld  Rechnertechnologie Durchsuchen sehr großer Bestände wird möglich CPU, große Halbleiterspeicher  Rechnernetze Unabhängigkeit vom Ort Dokumente neuer Art Bilder, virtuelle Dokumente, verteilte Dokumente  Ökonomisch  Aufbereitung, Bewertung und Verbreitung von Information hat sich zu neuem Dienstleistungszweig entwickelt ("Wissensgesellschaft")

1.5 Einführung: DB / IR / Web  Datenbank  Modell: Informationsrepräsentation Menge von Tabellen  Alle Werte statisch getypt (DB-Schema !)  Externsemantik dadurch festgelegt, einheitliche Interpretation der Daten  Zugriff über normierte Schnittstelle,  Frage – Antwort – Paradigma: A q = {x | Q(x) mit Q ist Qualifikationsprädikat von q} Auswertung von Prädikaten in zweiwertiger Logik q AqAq DB

1.6 Einführung: DB / IR / Web  Fallstudie "Bibliothek"  Schlagworttabelle, um nach "Inhalten" suchen zu können. CREATE TABLE keyword (kw varchar(...), bookid:... REFERENCES book); /* weitere Tabellen book, user,..... Hier unwesentlich */ SELECT book.title from book b, keyword k WHERE k.kw = "NETWORKS" AND k.bookid = b.id; Eindeutige Anwortmenge, jeder Treffer "passt" in gleicher Weise zu Anfrage (zweiwertige Logik!)

1.7 Einführung: DB / IR / Web  Kritik Wie gewinnt man Stichwörter? Wortformen ("networks", "networking") Mehrsprachigkeit ("Netze") Verwandte Begriffe ("Rechnernetze") Ober- / Unterbegriffe (LAN)  Nur wenig davon in SQL ausdrückbar  Ziel: Gewichtung der Antwortmenge hinsichtlich Relevanz des Objekts bezüglich Anfrage -> Information Retrieval Beachte: subjektiv!

1.8 Einführung: DB / IR / Web  Information Retrieval  Modell (in erster Näherung): Menge von Wortfolgen (Texte)  D Datenmenge. q Anfrage, Q Menge aller Anfragen A q = {x | x "passend" zu q}  Was ist "passend" oder "ähnlich"? Formal z.B. s :: D x Q -> [0,1] (normiert auf [0,1]) mit der Eigenschaft s(x,x) = 1 s(x,y) = s(y,x) eventuell zusätzlich: s(x,y) <= s(x,z) + s(z,y) (Dreiecksungleichung, macht aus Ähnlichkeitsmaß ein Abstandsmaß, wobei s(x,x) = 0)  Ähnlichkeit von Objekt und Anfrage definiert Rangfolge, A q kann vermöge s geordnet werden: Rangfolgebestimmung

1.9 Einführung: DB / IR / Web  Aufgaben des Information Retrieval  Modelle finden, die Ähnlichkeit auszudrücken gestatten (elementar: Boolesche Auswertung von Anfragen, die nur aus Schlagwörtern bestehen)  Geeignete Ähnlichkeitsmaße s definieren  Bewertung von s (relativ zu Nutzer)  Effiziente Verfahren zur Auswertung von s auf sehr großen Datenmengen, z.B. durch Indexierung  Erweiterte Aufgaben im Web  Zusammenführen von Ergebnissen Rangfolge? Duplikate  Strukturierte Dokumente (nicht nur Zeichenketten) (Wie) kann Markup helfen, die passenden Dokumente zu finden?

1.10 Einführung: DB / IR / Web  Web-Technologie  Als Web bezeichnen wir alle weltweit miteinander verbundenen Rechnersysteme  Web im engeren Sinne: Web-Server (HTTP) und Klienten ClientServer GET /document.html cache TCP

1.11 Web Statistik, Juni 1999, Quelle: OCLC Number of IP addresses in 32-bit address space: 4,294,967,296 Number of IP addresses in the 0.1% random sample: 4,294,967 Web Size Number of Web Sites: 4,882,000 (+/- 3%) Number of Unique Web Sites:3,649,000 (+/- 3%) Web Site Categorization (Unique Sites) Number of Public Web Sites: 2,229,000 (+/- 4%) Number of Private Web Sites: 389,000 (+/- 10%) Number of Provisional Web Sites: 1,031,000 (+/- 6%)

1.12 Web-Statistik Public Web Sites (Unique Only) Number of Web Pages: 288,221,000 (+/- 35%) Number of Files: 500,491,000 Number of Adult Sites: 42,000 (+/- 30%) Web Growth Web Sites: 1,570,000 2, ,882,000 Unique Sites: 1,230,000 2,035,000 3,649,000 Unique Public Sites: 800,000 1,457,000 2,229,000 % Change: '97 to '98 '98 to '99 '97 to '99 Web Sites:

1.13 Web Statistik: Multilingualität Incidence of Languages in Public Sites English 84% 80% German88 Japanese33 French33 Portuguese22 Spanish23 Chinese < 12 Italian12 Dutch11 ALL OTHERS< 1< 1 Anzahl Sprachen insgesamt: 1998: : 29

1.14 Datenbankanwendungen im Netz  Klassischer Client-Server-Betrieb: Nicht notwendig mit über HTTP Client DB- Server proprietär z.B. Terminal z.B. SQL

1.15 Datenbankanwendung im Netz Client HTTP Server TCP GET URI mit kodiertem Query-Sting HTML-Dokument mit Ergebnissen der DB-Abfrage DB Server Anwendungsprogramm, über CGI-Schnittstelle gestartet Zugriff über Web-Browser / HTTP-Server

1.16 Datenbankanwendung im Netz  Mehrschichtarchitektur TCP z.B. Java DB Server Client Applica- tion- Server Enthält die "Business-Logik" Kommunikation meist über Fernaufrufe