Google & Google-Labs Adrian Schuster
Übersicht Google n Geschichtliches n Arbeitsweise/Technik n Funktionen –Suchmaschine Google.com vs. Google.de –Bilder, Newsgroups, Nachrichten, Katalog, Directory, Expertenrat, Toolbar, Compute
Übersicht Google Labs n Funktionen –VoiceSearch –Keys –Glossary –Sets n Rund um Google –Google Weblog, Googlefight
n Googol ~ Google – – – Milton Sirotta (Neffe von Edward Kasner) n Gründerväter –Sergey Brin –Lawrence Page Geschichtliches
n Suchmaschinenprojekt an der Stanford University n BackRub mit Fähigkeit, die Links zur indizierten Seite zu erfassen. n Nutzung von gewöhnlicher Hardware n Suche nach Investoren Geschichtliches
n 7. September 1998: Google Inc. Menlo Park, California –Garagenfirma – Anfragen n 1999: Suchmaschine von AOL/Netscape mit 3 Mill. Anfragen n 2001: Aufkauf von Deja.com Geschichtliches
n heute: – >500 Angestellte – >150 Millionen Anfragen – >54 Millionen Benutzer (50% non-US) – >3 Milliarden Webseiten – >800 Millionen usenet-Posts – >330 Millionen Bilder – 36 Länderdomains Geschichtliches
n heute: – >100 Millionen Dollar jährlicher Umsatz – ca. 100% jährliches Wachstum Geschichtliches
n Browserhäufigkeit n Nutzersprachen n Mai Oktober 2002
Technik n The Anatomy of a Large-Scale Hypertextual Web Search Engine 1998 n The PageRank Citation Ranking: Bringing Order to the Web 1998
Technik n größter kommerzieller Linux-Cluster n > Maschinen n 5 verteilte Datacenter n Google Search Appliances –Linux-Server
n Suchmaschine –simpel –leichtgewichtig –beständig n einfach –AND-Verknüpfung –keine Wildcards Funktionen
n Filetypen –12 Haupttypen Portable Document Format (pdf), PostScript (ps), Lotus (wk1, wk2, wk3, wk4, wk5, wki, wks, wku), * Lotus WordPro (lwp), MacWrite (mw), Excel (xls), PowerPoint (ppt), Word (doc), Works (wks, wps, wdb), Write (wri), Rich Text Format (rtf), Text (ans, txt) –[filetype:rtf] n ähnliche Seiten (GoogleScout) Suchmaschine
n Übersetzungen –Englisch übersetzt in Deutsch Französisch Spanisch Portugiesich Italienisch –Erkennung von 36 Sprachen n I´m feeling lucky Suchmaschine
n erweitert n Syntax –[_-ausgeschlossen] –[_+eingeschlossen] –keine Wildcards (aber Paltzhalter * ) –keine Groß-/Kleinschreibung Suchmaschine
n Syntax –["genauer Wortlaut"] –OR oder | –[site: –[link: –[related: –[info: –[stocks: amd shr] Suchmaschine
n Syntax –[allintitle:arthur dent] –[intitle:beeblebrox ] –[allinurl:online/public] –[inurl:public_html] –z. B. inurl:fu-berlin site:fu-berlin.de –cache: –date: ? Suchmaschine
.com vs..de n Filtermechanismus, der Suchergebnisse des deutschen Ablegers zensiert –auch Frankreich, Schweiz –keine offiziellen Informationen erhältlich n gleicher Datenbstand wie google.com n Filterung der URLs vor Anzeige der Suchergebnisse n Seiten im Cache vorhanden
.com vs..de n z.B. Stormfront.org n nicht sichtbar: –www2.stromfront.org –www3.stromfront.org –www4.stromfront.org –women.stromfront.org n sichtbar: –irc.stormfront.org:8000
Bilder images.google.com n 390 Millionen Bilder
Bilder images.google.com n Beurteilung/Indizierung – -Tag –Bildbeschreibung –Seiteninhalt –Bildanalyse –Duplikatentfernung n alle Suchtags möglich
Bilder images.google.com
n SafeSearch –Filterung von pornography and explicit sexual content
Newsgroups groups.google.com n usenet
Newsgroups groups.google.com n > Gruppen n >700 Millionen Postings n usenet-Start in 1979
Newsgroups groups.google.com n Übersicht einer Newsgroup
Newsgroups groups.google.com n ältestes Posting in Net.general From: sdcarl!rusty Mon May 11 09:00: To: ucbvax^mark Subject: newsgroup fa, net, etc. Won't we need to change the.ngfile also? Also is ALL an acceptable newsgroup on the left side of the dot such that ALL.ALL will catch everything? Rusty is right (or is that "Rusty is Wright"?) - we have ALL in our.ngfile so I tend to forget this. ALL.ALL may or may not work, but ALL certainly does. Mark I plan to make the change on Tuesday unless something horrible happens.
Newsgroups groups.google.com n archiviert von Henry Spencer (Department of Zoology Toronto) – –141 Bänder á 120 MB
Nachrichten news.google.com
n 4000 Nachrichtenquellen n mehrmals tägliche Aktualisierung n Gruppierung nach Themen ausschließlich mittels Algorithmen n Artikel der letzten 30 Tage
Directory directory.google.com
n Webinterface für Open Directory Project (dmoz.org) n >1,5 Millionen Einträge n Verknüpfung mit Webindex zur besseren Sortierung
Kataloge catalogs.google.com
n 5400 Rubriken n mailorder-Kataloge verschiedenster Anbieter
Kataloge catalogs.google.com n Ergebnisanzeige
Expertenrat answers.google.com
n 500 freiwillige Experten für verschiedenste Fachgebiete bzw. Informationssuche n $ Kosten für Expertenantwort entsprechend der selbst eingeschätzten Schwierigkeit n 0,50$ Gebühr für Google
Toolbar toolbar.google.com n Button-Leiste zur Integration in Browser –nur Windows ab M$IE 5.x n Eingabefeld für Suche n PageRank-Anzeige n integrierte Update-Funktion n mit integriertem
Compute toolbar.google.com/dc n Distributed Computing –Berechnung der dreidimensionalen Faltung von Proteinen mit bekannter Aminosäurenstruktur –ca. 20 MB pro Monat n unauffällig mit Toolbar installiert n zufällige Aktivierung durch Google- Server
labs.google.com n Spielwiese für Google-Entwickler n erste Stufe im Entwicklungsprozeß n keine direkte Unterstützung der Funktionen n möglicherweise zukünftige Bestandteile der Google Services
Google Labs Technologien n VoiceSearch (labs.google.com/gvs.html) –Suchanfrage via Telefon –Spracherkennung und Darstellung des Ergebnisses auf spezieller Seite n Keyboard Shortcuts (labs.google.com/keys) –Navigation innerhalb der Suchergebnisse mittels Tastatur
Glossary labs.google.com/glossary n Finden von Wörtern, Phrasen und Akronymen
Glossary labs.google.com/glossary n z. B. Benzodiazepine
Sets labs.google.com/sets n generierte Wortlisten anhand von eigenen Beispielen
labs.google.com/sets
Rund um Google n Google Weblog (google.blogspace.com) –Sammlung von Links bezüglich Google
Rund um Google n Googlefight ( –Vergleich der Ergebnisanzahl zweier Suchbegriffe