Medizinische Statistik und Informationsverarbeitung Quade Institut für Medizinische Statistik, Dokumentation und Datenverarbeitung Quade
Netzwerke Netzwerke verbinden Computer untereinander. Vereinbarungen für den Informationstransport und -Austausch nennt man Protokolle. Netzwerke werden nach dem OSI Referenzmodell in 7 Schichten eingeteilt. Dabei nimmt die unterste Schicht großen Einfluß auf die Leistungsdaten eines Netzwerkes. Quade
Quade
Netzwerke In einem lokalen physikalischen Netzwerk erkennen sich die Teilnehmer mittels der MAC-Adresse (Media Access Control (Schicht 2 des OSI Referenz Modells)) der Netzwerk Karte (arp –a unter Windows). Die Abbildung in die uns bekannte IP-Adresse geschieht mittels des Adress Resolution Protokolls (ARP)
IP-Netzwerkadressen Eine IP-Adresse besteht aus 4 Zahlen zwischen 0 und 255. Die Netzwerkmaske (z.B. 255.255.x.x) bestimmt den Netzwerkteil und den Knotenteil. Die höchste und die niedrigste Knotenadresse ist jeweils für Broadcasts reserviert. Alle Rechner im Netzwerk lauschen auf den Broadcast-Adressen.
IP-Netzwerke Ip-Netz 131.220.23.0 Broadcast 0 & 255 Maske 255.255.255.0 oder /24 131.220. 23 . 0 IP-Binär 131.220. 0001 0111 . 0000 0000 Maske 255.255. 1111 1111 . 0000 0000 255.255. 255 . 0 Daher können sich Rechner mit den IP-Adressen 131.220.23.1 bis 131.220.23.254 in einem lokalen Netzwerk „sehen“.
Befehle um die Netzwerkkonfiguration zu sehen ipconfig Windows-IP-Konfiguration Ethernetadapter Drahtlose Netzwerkverbindung: Medienstatus. . . . . . . . . . . : Es besteht keine Verbindung Ethernetadapter LAN-Verbindung: Verbindungsspezifisches DNS-Suffix: meb.uni-bonn.de IP-Adresse. . . . . . . . . . . . : 172.30.1.70 Subnetzmaske. . . . . . . . . . . : 255.255.255.0 Standardgateway . . . . . . . . . : 172.30.1.254
Befehle um die Netzwerkkonfiguration zu sehen netstat -a Aktive Verbindungen Proto Lokale Adresse Remoteadresse Status TCP Quade-T60:epmap Quade-T60:0 ABHÖREN TCP Quade-T60:microsoft-ds Quade-T60:0 ABHÖREN TCP Quade-T60:2869 Quade-T60:0 ABHÖREN TCP Quade-T60:5800 Quade-T60:0 ABHÖREN TCP Quade-T60:5900 Quade-T60:0 ABHÖREN TCP Quade-T60:6060 Quade-T60:0 ABHÖREN TCP Quade-T60:10243 Quade-T60:0 ABHÖREN TCP Quade-T60:31038 Quade-T60:0 ABHÖREN TCP Quade-T60:1036 Quade-T60:0 ABHÖREN TCP Quade-T60:1090 localhost:27015 HERGESTELLT TCP Quade-T60:1168 localhost:1169 HERGESTELLT TCP Quade-T60:1169 localhost:1168 HERGESTELLT
Befehle um die Netzwerkkonfiguration zu sehen netstat -b Aktive Verbindungen Proto Lokale Adresse Remoteadresse Status PID TCP Quade-T60:1090 localhost:27015 HERGESTELLT 6020 [iTunesHelper.exe] TCP Quade-T60:3289 localhost:3290 HERGESTELLT 6108 [Netscp.exe] TCP Quade-T60:3290 localhost:3289 HERGESTELLT 6108 [Netscp.exe] TCP Quade-T60:4844 localhost:4845 HERGESTELLT 5016 [firefox.exe] TCP Quade-T60:4845 localhost:4844 HERGESTELLT 5016 [firefox.exe] TCP Quade-T60:4847 localhost:4848 HERGESTELLT 5016 [firefox.exe] TCP Quade-T60:4848 localhost:4847 HERGESTELLT 5016 [firefox.exe] TCP Quade-T60:27015 localhost:1090 HERGESTELLT 712 [AppleMobileDeviceService.exe] TCP Quade-T60:5152 localhost:1088 SCHLIESSEN_WARTEN 3004 [jqs.exe]
Befehle um die Netzwerkkonfiguration zu sehen netstat -ano Aktive Verbindungen Proto Lokale Adresse Remoteadresse Status PID TCP 0.0.0.0:80 0.0.0.0:0 ABHÖREN 7128 TCP 0.0.0.0:135 0.0.0.0:0 ABHÖREN 552 TCP 0.0.0.0:445 0.0.0.0:0 ABHÖREN 4 TCP 0.0.0.0:2869 0.0.0.0:0 ABHÖREN 1076 TCP 0.0.0.0:5800 0.0.0.0:0 ABHÖREN 2808 TCP 0.0.0.0:5900 0.0.0.0:0 ABHÖREN 2808 TCP 0.0.0.0:6060 0.0.0.0:0 ABHÖREN 684 TCP 0.0.0.0:10243 0.0.0.0:0 ABHÖREN 2632 TCP 0.0.0.0:31038 0.0.0.0:0 ABHÖREN 2024 TCP 127.0.0.1:1036 0.0.0.0:0 ABHÖREN 1912
Befehle um die Netzwerkkonfiguration zu sehen arp -a Address HWtype HWaddress Flags Mask iface www.dsmrsvpaed.de ether 00:16:3e:57:90:23 C br0 www.oncopaednki.de ether 00:16:3e:57:90:23 C br0 linkdb.meb.uni-bonn.de ether 00:16:3e:35:c1:5e C br0 famhap.meb.uni-bonn.de ether 00:16:3e:35:c1:5e C br0 www-dom0.meb.uni-bonn.d ether 00:15:17:ab:ae:fe C br0 nmap 131.220.23.0/24 Interesting ports on Jumbo-dom0.meb.uni-bonn.de (131.220.23.181): Not shown: 998 closed ports PORT STATE SERVICE 22/tcp open ssh 111/tcp open rpcbind MAC Address: 00:30:48:20:0C:D4 (Supermicro Computer)
IP-Netzwerkklassen Eine IP-Adresse ist zweigeteilt und zwar in einen Netzwerkteil und einen Knotenteil. Der Netzwerkteil ist innerhalb eines Netzwerksegments überall gleich, während jeder Rechner oder jedes andere Gerät seine eigene Knotennummer bekommt. 10.10.10.10 Maske 255.0.0.0
IP-Netzwerkklassen Über die Netzwerknummer erfolgt auch die Einteilung in sogenannte Netzwerk-Klassen in A-, B- oder C-Klasse Netzwerke. Das Prinzip ist, dass große Netzwerke mit vielen Knoten möglichst eine Klasse A oder wenigstens eine Klasse B Nummer bekommen und kleine Netze eine Klasse C Nummer http://www.instrumentation.de/5106003d.htm
IP-Netzwerkklassen Klasse A (1.0.0.0 bis 127.255.255.255): Das erste Bit der Adresse ist auf Null gesetzt. Die ersten acht Bit identifizieren das Netzwerk, die restlichen 24 Bit den Host. Insgesamt sind 127 Class-A-Netze möglich. Reserviert: 127.x.x.x (loopback/localhost) Privat: 10.0.0.0 - 10.255.255.255 Maske: 255.0.0.0 oder /8
IP-Netzwerkklassen Das Klasse B (128.0.0.0 bis 191.255.255.255): Bei Klasse-B-Netzen ist das erste Bit auf Null, das zweite Bit auf eins gesetzt. Die ersten 16 Bit beschreiben das Netzwerk, die anderen 16 Bit sind die Hostadresse. Netze: 16.384 mit maximal 65.534 angeschlossenen Computern. Privat: 172.16.0.0 - 172.31.255.255 Maske 255.255.0.0 oder /16
IP-Netzwerkklassen Klasse C (192.0.0.0 bis 223.255.255.255) : Diese Netzwerkart erlaubt nur 255 Hosts in einem Netz. Die ersten drei Bit einer Class-C-Adresse bilden dabei die Folge "110". Die ersten 24 Bit identifizieren das Netzwerk, nur acht Bit den Host. 2.097.152 Netze mit jeweils 254 Rechnern Privat: 192.168.0.0 - 192.168.255.255 Mask 255.255.255.0 oder /24
IP-Netzwerkklassen Klasse D: 224.0.0.0 - 239.255.255.255 für spezielle Dienste z.B. Multicast
Ports Jede IP-Adresse hat 65536 Ports festgelegte privilegierte Ports 0 bis 1023. festgelegte Ports von 1024 bis 49151 dynamische oder private von 49152 bis 65535 http://www.iana.org/assignments/port-numbers
Firewall Die Firewall legt fest, ob eine Verbindung erlaubt ist. Die Firewall kontrolliert eingehende, weitergeleitete und ausgehende Pakete. Die Firewall kann berücksichtigen, ob Pakete zu einer bereits bestehenden Verbindung gehören.
Firewall iptables -A INPUT -i eth0 -p ICMP -j ACCEPT iptables -A OUTPUT -o eth0 -p ICMP -j DROP
Router Ein router leitet Pakete aktiv von einem Netzwerk in ein anderes. Dabei können die Pakete (z.B. IP-Adresse) auch verändert werden.
Switch Ein switch verbindet Netzwerksegmente oder Rechner miteinander. Dabei können auch mehrere Rechner in virtuellen Netzwerken (vlan) zusammengefasst werden.
Historie Einzelne Inseln Jeder vertaut Jedem (frühes Internet) Company B Company A Router
Weitere Entwicklung Filtern & Firewalls demilitarisierte Zonen Internet Company A Firewall Router Internet Firewall Router Company A DMZ Internal Network WWW Server DNS Server SMTP Relay
Sichere Architektur Virtuelle Gemeinschaft (Extranets & B2B VPNs) Site-to-site VPN tunnel Vernetzung mit Praxen Internet Firewall Router Company B DMZ Internal Network Extranet Company A
und weiter … Virtuell mobile Arbeitsweise (C2B VPNs) Zunehmend schneller Internetzugang Firewalls mit VPN-Funktionalität Dedizierte VPN-Konzentratoren machen den Zugang für mobile Arbeitsplätze von der Firewall unabhängig Firewall w/ Tunnel Internet Router Company A DMZ Internal Network Mobiler Arbeitsplatz Telearbeit
Begriffe html: Hypertext Markup Language http: Hypertext Transfer Protocol Quade
HTML Bearbeitung Quade
Logfiles & Cookies LogFormat "%h %l %u %t \"%r\" %s %b %T %{Cookie}n \ \"%{Referer}i\" \"%{User-Agent}i\" \"%{UNIQUE_ID}e\"" Quade
Statistiken CancerNet Statistiken zentral Statistiken CancerNet Quade
Recherchesysteme Recall Anteil der gefundenen Daten an den gesuchten Daten Precision Anteil der gefundenen Daten der von Interesse ist A A+C A A+B vorhandene Daten relevant irrelevant A B C D gefunden nicht gefunden Ergebnis der Suche
Recherchesysteme MEDLINE Schlagworte, Autoren (3000 journals) http://www.ncbi.nlm.nih.gov/PubMed/ CURRENT wöchentlich erstelltes lnhaltsverzeichnis CONTENTS wichtiger Journals SCIENCE wie häufig wurde eine Publikation zitiert CITATION INDEX Quade
Zwei Verfahren der Indexierung Einfacher Index über alle Worte z.B. WAIS Alle Worte werden in den Index aufgenommen Auch Worte wie Ich, Du, Er, Sie, Es, Das, und, aber, wie, ... Keine Bestimmung von Häufigkeit und Wichtigkeit Index mit Thesaurus z.B. Xindex mit UMLS-Metathesaurus Es werden nur relevante Begriffe in den Index aufgenommen Was Relevant ist wird an Hand von UMLS bestimmt Berechnung der Häufigkeiten von Worten und Wortgruppen Berechnung der Dichte dieser Worte und Wortgruppen
Funktion von Xindex mit UMLS-Metathesaurus Dokument Primäre Wortliste (Konzepte) Wortliste Ranking Rank = Wörter pro Begriff * Anzahl * 1/Doclen * 1/Anz. Häufigster Begriff Index für das Dokument mit Preffered Terms
Vorteile von Xindex gegenüber dem Standard Erkennen von Wortkombinationen z.B. Breast Cancer Gleiches Suchergebnis bei unterschielicher Schreibweise z.B. hpv und HPV z.B. MTX und Methotrexat Sinnvolles Suchergebnis bei trivialen Begriffen z.B. love --> HPV, Cervixcarzinom, Brustkrebs Es werden Dokumente in verschiedenen Sprachen gefunden z.B. Englisch, Deutsch und Spanisch
Vorteile von Xindex gegenüber WAIS Beispiel Melanom
Vorteile von Xindex Es werden seltene Entitäten gefunden: Suche nach „Melanom“ liefert Informationen zum „Wilms Tumor“ Dieser steht in Verbindung zum „clearcellsarcoma“ einer seltenen Form des Melanoms Erkennen von Synonymen z.B. Mumps, Parotitis epidemica
Der UMLS-Metathesaurus Integration vorhandener Thesaurie: ICD 10, MESH, Cancerlit, HL7-Zusatz Mehrsprachig: z.B. Englisch, Deutsch, Spanisch, Russisch, Französisch, Finnisch, Italienisch, ... Konzeptorientierung: Jedes Konzept bekommt eine Nummer (CUI) Jedes Synonym jedes Konzeptes bekommt eine eigene Nummer in verschiedenen Sprachen sowohl normalisiert (SUI) als auch nicht normalisiert (LUI) Kennzeichnung des „Preffered Terms“
Nutzerprobleme Wie finde ich als Laie eine Information? Wie kann ich die Seriosität einer Information erkennen (weit mehr fragliche Informationen denn gute) ? Wie finde ich beim Anbieter eine Information trotz bildorientierter Oberfläche?
Was man wissen sollte! Suchmaschinen lesen über „Spider“ Dokumente ein und erstellen einen Volltext-Index (nicht bei Datenbanken, Graphiken, Java). Metatags werden nur bedingt ausgewertet. (Anbieter manipulieren „auf Teufel komm raus“) Ranking ist nicht intelligent und bevorzugt kurze Dokumente. Für Geld wird das Ranking manipuliert!
Universität Bonn Vermittlung zu CancerNet Host=Lycos a2z Katalog wurde am 28. März aus dem Angebot genommen 30 25 20 15 10 5 0 Januar März Mai 1997
Meta-Tags <META NAME="keywords" CONTENT="Breast cancer, oncology, Cancer, medicine, Medizin, Krebs, CancerNet, PDQ, Tumor"> <META HTTP-EQUIV="RESOURCE-TYPE" content="document"> <META name="description" content="Breast cancer">
Qualitätssiegel Geschütztes Logo einer anerkannten Organisation (NCI) HON Code of Conduct Link von einer anerkannten Organisation (WHO) MedCERTAIN
Evaluation kommerzieller Anbieter Kriterien für Focus Recherche Nutzen für den User Kostensenkung durch weniger Arztbesuche Richtigkeit und Ausgewogenheit Vollständigkeit Online-Arzt vorhanden
Ergebnis der Recherche für Focus Der User kann einen Arzt finden. Ein Hausarzt-Buch ist auf mehrere Tausend Pages aufgeteilt. Der User verbringt viel Zeit für wenig Information im Netz. Seiten werden aus Datenbank generiert. Viele Wege führen zur gleichen Seite. Bachblüten und Standardtherapie gleichwertig im Angebot. Nur Infos vom eigenen Server. Suche extrem schwierig (Stunden) da Information versteckt. Online-Arzt ist nicht hilfreich für eigene Fragen (Show).
Was will der Nutzer? Informationen zu Krankheiten Informationen zu eigenen Werten Zugriff auf die eigene Patientenakte Informationen zu Arzt, Krankenhaus oder Versicherung Sprechstunden, Besuchszeiten, Parkplatz Benchmarking im Qualitätsbereich Link Versicherungsvergleich
Aufbau von Suchmaschinen Spider / Crawler (robot.txt) Indexer Broker (Schnittstelle zum Benutzer)
Spider / Crawler Nur ein Teil des WWW-Bereichs wird von einem Crawler erfaßt. Häufig werden Links nicht weiterverfolgt bei: dynamisch gestalteten Webseiten, Frames, Java und Bildern.
robots.txt User-agent: * Disallow: /usage/ Disallow: /dimdi/ Disallow: /standard/ Disallow: /standards/HL7/ Disallow: /niedergel/ Disallow: /epileptologie/epi_info/physicians/
Benutzerschnittstelle Basic Search: +,- Groß/klein Schreibung Wildcards: * Phrasen in Hochkommata Advanced Search: Boolsche Algebra: AND, OR, XOR, NOT, NEAR
Beispiel: AltaVista 2943 Dokumente gmds: GMDS: 1418 Dokumente gmds konferenz: +gmds konferenz: +gmds +konferenz: „gmds konferenz“:
Ranking Schlüsselwortdichte (Benachteiligung ausführlicher Dokumente) Meta-Tags (oft manipuliert) Link Popularity (science citation index) Verkauf von Ranking-Prioritäten statt Werbung Neuere Ansätze
Aktualität Anzahl der Dokumente überschreitet die Kapazität der Suchmaschinen Scannen der Dokumente in mehrmonatlichen Abständen Zulassen mehrerer „no connection„ für bereits indexierte Dokumente Keine Strafen für tote Links in Dokumenten
Verzeichnisse Qualität der Bewertung liegt allein bei dem Redaktionsteam Nur wenige Dokumente können erfaßt werden Großer finanzieller Anreiz zur Manipulation
Benutzerschnittstelle