Präsentation herunterladen
Die Präsentation wird geladen. Bitte warten
Veröffentlicht von:David Boer Geändert vor über 9 Jahren
1
1 Web-basierte Informationssysteme Skizzen zur VL WS 2000/1 H. Schweppe FUB
2
1.2 Einführung / Umfeld Informationsangebot 1000 Patentanmeldungen / Tag 2000 neue Bücher / Tag 500 000 fachwiss. Beiträge in der Chemie / Jahr Ca 150.000.000 Webseiten (1997), jährliche Verdopplung ~ 50.000 hydraulische Übertragungselement von 4000 Herstellern Zentrales Problem: Benötigte ("passende") Information finden Technisch: Suchmaschine Nichttechnische Faktoren wichtig: u.a.vertrauenswürdig?
3
1.3 Einführung / Umfeld Technisches Umfeld Speichermedien (Kosten, Volumen) Kosten für Speicherung einer DIN A4 Seite 20 GB kosten ca. 400 DM 1 Seite entspricht etwa 5 K Zeichen ~ 5 KB im pdf-Format 200.000 Seiten pro GB ~ 2000 Pfg Kosten pro Seite 1/100 Pf + Infrastrukturkosten (Controller, Netz Server) grob Faktor 5 1 Blatt DIN A 4 Papier ~ 1,5 Pfg Papier / elektronischer Speicherung ~ 1 : 30 (!) Datenrate weit unterproportional gestiegen: 50 MB / sec : 10 Gb sequentiell lesen ca. 3 Minuten Wahlfreier Zugriff: 10 msec 10 GB wahlfrei in Blöcken à 50 KB: ca. eine Stunde
4
1.4 Einführung / Umfeld Rechnertechnologie Durchsuchen sehr großer Bestände wird möglich CPU, große Halbleiterspeicher Rechnernetze Unabhängigkeit vom Ort Dokumente neuer Art Bilder, virtuelle Dokumente, verteilte Dokumente Ökonomisch Aufbereitung, Bewertung und Verbreitung von Information hat sich zu neuem Dienstleistungszweig entwickelt ("Wissensgesellschaft")
5
1.5 Einführung: DB / IR / Web Datenbank Modell: Informationsrepräsentation Menge von Tabellen Alle Werte statisch getypt (DB-Schema !) Externsemantik dadurch festgelegt, einheitliche Interpretation der Daten Zugriff über normierte Schnittstelle, Frage – Antwort – Paradigma: A q = {x | Q(x) mit Q ist Qualifikationsprädikat von q} Auswertung von Prädikaten in zweiwertiger Logik q AqAq DB
6
1.6 Einführung: DB / IR / Web Fallstudie "Bibliothek" Schlagworttabelle, um nach "Inhalten" suchen zu können. CREATE TABLE keyword (kw varchar(...), bookid:... REFERENCES book); /* weitere Tabellen book, user,..... Hier unwesentlich */ SELECT book.title from book b, keyword k WHERE k.kw = "NETWORKS" AND k.bookid = b.id; Eindeutige Anwortmenge, jeder Treffer "passt" in gleicher Weise zu Anfrage (zweiwertige Logik!)
7
1.7 Einführung: DB / IR / Web Kritik Wie gewinnt man Stichwörter? Wortformen ("networks", "networking") Mehrsprachigkeit ("Netze") Verwandte Begriffe ("Rechnernetze") Ober- / Unterbegriffe (LAN) Nur wenig davon in SQL ausdrückbar Ziel: Gewichtung der Antwortmenge hinsichtlich Relevanz des Objekts bezüglich Anfrage -> Information Retrieval Beachte: subjektiv!
8
1.8 Einführung: DB / IR / Web Information Retrieval Modell (in erster Näherung): Menge von Wortfolgen (Texte) D Datenmenge. q Anfrage, Q Menge aller Anfragen A q = {x | x "passend" zu q} Was ist "passend" oder "ähnlich"? Formal z.B. s :: D x Q -> [0,1] (normiert auf [0,1]) mit der Eigenschaft s(x,x) = 1 s(x,y) = s(y,x) eventuell zusätzlich: s(x,y) <= s(x,z) + s(z,y) (Dreiecksungleichung, macht aus Ähnlichkeitsmaß ein Abstandsmaß, wobei s(x,x) = 0) Ähnlichkeit von Objekt und Anfrage definiert Rangfolge, A q kann vermöge s geordnet werden: Rangfolgebestimmung
9
1.9 Einführung: DB / IR / Web Aufgaben des Information Retrieval Modelle finden, die Ähnlichkeit auszudrücken gestatten (elementar: Boolesche Auswertung von Anfragen, die nur aus Schlagwörtern bestehen) Geeignete Ähnlichkeitsmaße s definieren Bewertung von s (relativ zu Nutzer) Effiziente Verfahren zur Auswertung von s auf sehr großen Datenmengen, z.B. durch Indexierung Erweiterte Aufgaben im Web Zusammenführen von Ergebnissen Rangfolge? Duplikate Strukturierte Dokumente (nicht nur Zeichenketten) (Wie) kann Markup helfen, die passenden Dokumente zu finden?
10
1.10 Einführung: DB / IR / Web Web-Technologie Als Web bezeichnen wir alle weltweit miteinander verbundenen Rechnersysteme Web im engeren Sinne: Web-Server (HTTP) und Klienten ClientServer GET /document.html cache TCP
11
1.11 Web Statistik, Juni 1999, Quelle: OCLC Number of IP addresses in 32-bit address space: 4,294,967,296 Number of IP addresses in the 0.1% random sample: 4,294,967 Web Size Number of Web Sites: 4,882,000 (+/- 3%) Number of Unique Web Sites:3,649,000 (+/- 3%) Web Site Categorization (Unique Sites) Number of Public Web Sites: 2,229,000 (+/- 4%) Number of Private Web Sites: 389,000 (+/- 10%) Number of Provisional Web Sites: 1,031,000 (+/- 6%)
12
1.12 Web-Statistik Public Web Sites (Unique Only) Number of Web Pages: 288,221,000 (+/- 35%) Number of Files: 500,491,000 Number of Adult Sites: 42,000 (+/- 30%) Web Growth 1997 1998 1999 Web Sites: 1,570,000 2,851000 4,882,000 Unique Sites: 1,230,000 2,035,000 3,649,000 Unique Public Sites: 800,000 1,457,000 2,229,000 % Change: '97 to '98 '98 to '99 '97 to '99 Web Sites: 82 71 211
13
1.13 Web Statistik: Multilingualität Incidence of Languages in Public Sites 19981999 English 84% 80% German88 Japanese33 French33 Portuguese22 Spanish23 Chinese < 12 Italian12 Dutch11 ALL OTHERS< 1< 1 Anzahl Sprachen insgesamt: 1998: 28 1999: 29
14
1.14 Datenbankanwendungen im Netz Klassischer Client-Server-Betrieb: Nicht notwendig mit über HTTP Client DB- Server proprietär z.B. Terminal z.B. SQL
15
1.15 Datenbankanwendung im Netz Client HTTP Server TCP GET URI mit kodiertem Query-Sting HTML-Dokument mit Ergebnissen der DB-Abfrage DB Server Anwendungsprogramm, über CGI-Schnittstelle gestartet Zugriff über Web-Browser / HTTP-Server
16
1.16 Datenbankanwendung im Netz Mehrschichtarchitektur TCP z.B. Java DB Server Client Applica- tion- Server Enthält die "Business-Logik" Kommunikation meist über Fernaufrufe
Ähnliche Präsentationen
© 2024 SlidePlayer.org Inc.
All rights reserved.