Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

1 Web-basierte Informationssysteme Skizzen zur VL WS 2000/1 H. Schweppe FUB.

Ähnliche Präsentationen


Präsentation zum Thema: "1 Web-basierte Informationssysteme Skizzen zur VL WS 2000/1 H. Schweppe FUB."—  Präsentation transkript:

1 1 Web-basierte Informationssysteme Skizzen zur VL WS 2000/1 H. Schweppe FUB

2 1.2 Einführung / Umfeld  Informationsangebot  1000 Patentanmeldungen / Tag  2000 neue Bücher / Tag  500 000 fachwiss. Beiträge in der Chemie / Jahr  Ca 150.000.000 Webseiten (1997), jährliche Verdopplung  ~ 50.000 hydraulische Übertragungselement von 4000 Herstellern  Zentrales Problem: Benötigte ("passende") Information finden  Technisch: Suchmaschine  Nichttechnische Faktoren wichtig: u.a.vertrauenswürdig?

3 1.3 Einführung / Umfeld  Technisches Umfeld  Speichermedien (Kosten, Volumen) Kosten für Speicherung einer DIN A4 Seite 20 GB kosten ca. 400 DM 1 Seite entspricht etwa 5 K Zeichen ~ 5 KB im pdf-Format 200.000 Seiten pro GB ~ 2000 Pfg Kosten pro Seite 1/100 Pf + Infrastrukturkosten (Controller, Netz Server) grob Faktor 5 1 Blatt DIN A 4 Papier ~ 1,5 Pfg Papier / elektronischer Speicherung ~ 1 : 30 (!) Datenrate weit unterproportional gestiegen: 50 MB / sec : 10 Gb sequentiell lesen ca. 3 Minuten Wahlfreier Zugriff: 10 msec 10 GB wahlfrei in Blöcken à 50 KB: ca. eine Stunde

4 1.4 Einführung / Umfeld  Rechnertechnologie Durchsuchen sehr großer Bestände wird möglich CPU, große Halbleiterspeicher  Rechnernetze Unabhängigkeit vom Ort Dokumente neuer Art Bilder, virtuelle Dokumente, verteilte Dokumente  Ökonomisch  Aufbereitung, Bewertung und Verbreitung von Information hat sich zu neuem Dienstleistungszweig entwickelt ("Wissensgesellschaft")

5 1.5 Einführung: DB / IR / Web  Datenbank  Modell: Informationsrepräsentation Menge von Tabellen  Alle Werte statisch getypt (DB-Schema !)  Externsemantik dadurch festgelegt, einheitliche Interpretation der Daten  Zugriff über normierte Schnittstelle,  Frage – Antwort – Paradigma: A q = {x | Q(x) mit Q ist Qualifikationsprädikat von q} Auswertung von Prädikaten in zweiwertiger Logik q AqAq DB

6 1.6 Einführung: DB / IR / Web  Fallstudie "Bibliothek"  Schlagworttabelle, um nach "Inhalten" suchen zu können. CREATE TABLE keyword (kw varchar(...), bookid:... REFERENCES book); /* weitere Tabellen book, user,..... Hier unwesentlich */ SELECT book.title from book b, keyword k WHERE k.kw = "NETWORKS" AND k.bookid = b.id; Eindeutige Anwortmenge, jeder Treffer "passt" in gleicher Weise zu Anfrage (zweiwertige Logik!)

7 1.7 Einführung: DB / IR / Web  Kritik Wie gewinnt man Stichwörter? Wortformen ("networks", "networking") Mehrsprachigkeit ("Netze") Verwandte Begriffe ("Rechnernetze") Ober- / Unterbegriffe (LAN)  Nur wenig davon in SQL ausdrückbar  Ziel: Gewichtung der Antwortmenge hinsichtlich Relevanz des Objekts bezüglich Anfrage -> Information Retrieval Beachte: subjektiv!

8 1.8 Einführung: DB / IR / Web  Information Retrieval  Modell (in erster Näherung): Menge von Wortfolgen (Texte)  D Datenmenge. q Anfrage, Q Menge aller Anfragen A q = {x | x "passend" zu q}  Was ist "passend" oder "ähnlich"? Formal z.B. s :: D x Q -> [0,1] (normiert auf [0,1]) mit der Eigenschaft s(x,x) = 1 s(x,y) = s(y,x) eventuell zusätzlich: s(x,y) <= s(x,z) + s(z,y) (Dreiecksungleichung, macht aus Ähnlichkeitsmaß ein Abstandsmaß, wobei s(x,x) = 0)  Ähnlichkeit von Objekt und Anfrage definiert Rangfolge, A q kann vermöge s geordnet werden: Rangfolgebestimmung

9 1.9 Einführung: DB / IR / Web  Aufgaben des Information Retrieval  Modelle finden, die Ähnlichkeit auszudrücken gestatten (elementar: Boolesche Auswertung von Anfragen, die nur aus Schlagwörtern bestehen)  Geeignete Ähnlichkeitsmaße s definieren  Bewertung von s (relativ zu Nutzer)  Effiziente Verfahren zur Auswertung von s auf sehr großen Datenmengen, z.B. durch Indexierung  Erweiterte Aufgaben im Web  Zusammenführen von Ergebnissen Rangfolge? Duplikate  Strukturierte Dokumente (nicht nur Zeichenketten) (Wie) kann Markup helfen, die passenden Dokumente zu finden?

10 1.10 Einführung: DB / IR / Web  Web-Technologie  Als Web bezeichnen wir alle weltweit miteinander verbundenen Rechnersysteme  Web im engeren Sinne: Web-Server (HTTP) und Klienten ClientServer GET /document.html cache TCP

11 1.11 Web Statistik, Juni 1999, Quelle: OCLC Number of IP addresses in 32-bit address space: 4,294,967,296 Number of IP addresses in the 0.1% random sample: 4,294,967 Web Size Number of Web Sites: 4,882,000 (+/- 3%) Number of Unique Web Sites:3,649,000 (+/- 3%) Web Site Categorization (Unique Sites) Number of Public Web Sites: 2,229,000 (+/- 4%) Number of Private Web Sites: 389,000 (+/- 10%) Number of Provisional Web Sites: 1,031,000 (+/- 6%)

12 1.12 Web-Statistik Public Web Sites (Unique Only) Number of Web Pages: 288,221,000 (+/- 35%) Number of Files: 500,491,000 Number of Adult Sites: 42,000 (+/- 30%) Web Growth 1997 1998 1999 Web Sites: 1,570,000 2,851000 4,882,000 Unique Sites: 1,230,000 2,035,000 3,649,000 Unique Public Sites: 800,000 1,457,000 2,229,000 % Change: '97 to '98 '98 to '99 '97 to '99 Web Sites: 82 71 211

13 1.13 Web Statistik: Multilingualität Incidence of Languages in Public Sites 19981999 English 84% 80% German88 Japanese33 French33 Portuguese22 Spanish23 Chinese < 12 Italian12 Dutch11 ALL OTHERS< 1< 1 Anzahl Sprachen insgesamt: 1998: 28 1999: 29

14 1.14 Datenbankanwendungen im Netz  Klassischer Client-Server-Betrieb: Nicht notwendig mit über HTTP Client DB- Server proprietär z.B. Terminal z.B. SQL

15 1.15 Datenbankanwendung im Netz Client HTTP Server TCP GET URI mit kodiertem Query-Sting HTML-Dokument mit Ergebnissen der DB-Abfrage DB Server Anwendungsprogramm, über CGI-Schnittstelle gestartet Zugriff über Web-Browser / HTTP-Server

16 1.16 Datenbankanwendung im Netz  Mehrschichtarchitektur TCP z.B. Java DB Server Client Applica- tion- Server Enthält die "Business-Logik" Kommunikation meist über Fernaufrufe


Herunterladen ppt "1 Web-basierte Informationssysteme Skizzen zur VL WS 2000/1 H. Schweppe FUB."

Ähnliche Präsentationen


Google-Anzeigen