Guten Morgen, meine Name ist…

Slides:



Advertisements
Ähnliche Präsentationen
Die neue Sulzer Website Internet Core Team | Juli 2012.
Advertisements

Powerpoint-Präsentation
Chancen im Netz sinnvoll nutzen!!!!
Ein einführendes Tutorial
Dr. Brigitte Mathiak Kapitel 10 Physische Datenorganisation.
Webseiten, die gefunden werden Dr. Eduard Heindl, Heindl Internet AG Tübingen.
Auswertung der Interviews
„Philosopher‘s Index“ by OvidSP
Fallstudie. 2 Statistik April Dokumente Jan Mio. Dokumente Performance 3 Mio. Queries pro Tag 9. Juni 2000 Most popular search engines.
Etikettierungsebenen Jonathan Harrington. Das Ziel Etikettierungen verschiedener Ebenen aufzubauen, und miteinander zu verlinken.
DER SPEZIALIST FÜR IHRE INFORMATIONSARCHITEKTUR neofonie neofonie Forschung und Entwicklung: Innovative Suchmethoden Präsentiert von Ronald.
Support.ebsco.com Lernprogramm zur einfachen Suche in wissenschaftlichen Bibliotheken.
(Ron Rivest, Adi Shamit, Leonard Adleman , 1977)
Relevanz Ranking Bisher: Sind wir davon ausgegangen, dass das Ergebnis des Rankings des statistischen Verfahrens in den Index geschrieben wird und dem.
Relevanz Ranking Bisher:
Intelligentes Crawling im WWW mit Hilfe intuitiver Suchbedingungen
Steigern Sie den Umsatz Ihres Unternehmens! Instore-Marketing.
Kakuro Regeln und Strategien
DÄMONEN Dämonen existieren nicht! Sie entstehen in unserem Kopf!
Seniorkom.at vernetzt Jung & Alt Das Internet ist reif
Eine Produktion von der Firma Presentations GmbH
Suchmaschinen Das "Surfen" im Internet ist eine gewisse Zeit lang interes-sant, aber auf Dauer ist dies ineffektiv und teuer, wenn man bestimmte Informationen.
Gedanken an Kinder ohne Namen
Straßenausbaubeiträge von A bis Z
Beste Beziehungen zu Banken
Liebe Marla,   es hat lange Zeit gedauert, Dir diesen Brief zu schreiben, so wie es oft lange dauert, sich für etwas zu entscheiden.Als mir Antje die Frage.
W w w. s a f e r i n t e r n e t. a t Die Welt zu Hause Informationen suchen und finden.
Tipps für die Einfache Suche. Setzt du deine zusammengehörigen Suchbegriffe in Anführungszeichen, erhältst du dann nur jene Ergebnisse die genau die eingegebene.
Die beklopptesten Windows Fehlermeldungen.... Schön, wenn man gleich zu Beginn auf die wichtigsten Merkmale einer Software hingewiesen wird. Wie würde.
Suchmaschinen am Theo Groß und Bernhard Meyer.
Willkommen bei Sycarus – dem Mathematikprogramm, das neue Wege geht.
„Was steht eigentlich hinter dem Roten Kreuz?“
Gegenstand EDV Thema: Informative Webseiten
StudienStudien Märkte/Trends Konkurrenz Adhoc-Service Newsletter Schulungen Linklisten DownloadsMärkte/TrendsKonkurrenzAdhoc-ServiceNewsletter SchulungenLinklistenDownloads.
Offsite –Optimierung bzw. wo Sie noch gefunden werden
Sie gehen gerne auf Reisen und besuchen gerne andere Städte? Wir tun das auch! Sie gehen gerne auf Reisen und besuchen gerne andere Städte? Wir tun das.
Klatsch von Margitta /2 popcorn-fun.de.
Übungsaufgaben für Microsoft Excel
Der etwas andere Verbraucherclub
Der Neue Ein Fotoroman des Kurses 7b von Herrn Kunert (2007)
Computational Thinking Online Algorithmen [Was ist es wert, die Zukunft zu kennen?] Kurt Mehlhorn Konstantinos Panagiotou.
Limited Local Search And Restart Nähere Betrachtungen.
TOBIAS GONSCHOREK   Der weg zum Erfolg.
Bereit ???? Nimm dir 10 Minuten Zeit. Ich versuche es dir zu erklären.
Wahrscheinlichkeitsrechnung
Google ist nicht allein …
CRM TimeLog… TimeLog … Wie gross ist der Anteil der Lohnkosten in Ihrem Unternehmen?
worüber du sicher noch nicht weißst oder nicht denkst:
Ein kleiner Text, der zu denken gibt - das dauert nur 2 Minuten!
OpenStreetMap.org Einleitung und Erläuterung von OSM 1Created by: Rudolf Kremsner.
Using latent semantic analysis to find different names for the same entity in free text Präsentation und Diskussion des Papers Im Rahmen des PS Web-Information.
1 Medienfachberatung Berner Straße Würzburg Tel.: / Fax: /
Semantische Suchmaschinen
Die Ganze Welt im Computer? Informationsbeschaffung im Internet
Proseminar: Technologien des Internets
praktika.m3l.de „Unternehmen“
Grammatikalische Begriffe im Unterricht
Merkwürdiges aus der Welt der Computer und Programmierer...
Google (Web-Suchmaschine) Google Books Google Scholar
Live Search Die Suchmaschine von Microsoft. Was ist Live Search? Live Search gehört zur Microsoft Windows Live Familie (Windows Live Messenger, Windows.
Er: "Ich bestell‘ Pizza. Willst du auch was?" Sie: "Nein." Er: "Okay."
Topic Maps: Personal Brain
- Für die meisten bedeutet Internetrecherche das Eintippen eines Suchbegriffs in eine Suchmaschine. - Wenn das Gesuchte aber schwieriger ist, muss man.
Dreamteam: Web 2.0 und der Katalog Anne Christensen und Thomas Hapke GBV-Verbundkonferenz
Bevölkerung in der 3. Welt
1 Suchprofile erstellen und verwalten. 2 Suchprofile bei Registrierung Hier können Sie bis zu drei Suchprofile einrichten. Diese finden Sie später unter.
Spärliche Kodierung von Videos natürlicher Szenen Vortragender: Christian Fischer.
Wie verwende ich Suchmaschinen richtig?
Suchen und Finden Wie verwende ich Suchmaschinen richtig?
 Präsentation transkript:

Guten Morgen, meine Name ist… Wer: Matthias Schneider, 34 Jahre, verheiratet. Minilebenslauf: Geburt – Schule - Studium ;-) Um mein Studium finanzieren zu können, arbeitete ich eigenverantwortlich als Webdesigner und Programmierer, sowie als Administrator für kleinere Betriebe. Dem folgte eine zweieinhalbjährige Karriere als Angestellter in einer Würzburger IT-Firma zunächst als Webdesigner und Webmaster, später als Service Manager für Großkunden. Zu meinen Aufgaben dort zählten das Erfüllen von Serviceverträgen, Projektsteuerung, Dokumentation, etc. Irgendwann erfasste dann auch uns die geplatzte dot.Com Blase und ich wurde wegrationalisiert. Also startete ich in die Selbstständigkeit und beschäftige mich seitdem mit Online Marketing, SEO, PHP, Ajax, Blogs, Wikis … und seit 2 Jahren mit der Entwicklung von Semager.

Warum noch eine Suchmaschine? Was: Suchmaschinen gibt es viele. Warum noch eine und was könnte den Reiz einer neuen Suchmaschine ausmachen? Meine Daten sind mir heilig, ich mag es nun mal nicht, wenn meine Suchanfragen und private Daten auf „irgendwelchen“ Servern rumliegen. Und was damit gemacht wird, weiß ich auch nicht (lesen Sie doch mal sorgfältig die AGBs von bekannten Suchmaschinen durch). Deutschland hinkt in der Suchmaschinenbranche stark hinterher (schade eigentlich, gibt es doch genügend schlaue Köpfe und Ideen in unserem Land). Das Wissen der Welt gehört der Menschheit + Sind Sie nicht im Index, existieren Sie auch nicht = Der Filter von Suchmaschinen entscheidet (kann entscheidend sein) über unser Existenz. Neue Filter braucht das Land. Filter bei denen Sie auch gefunden werden, wenn Sie nicht gerade eine hochoptimierte Internetseite haben. Suchmaschinen, die eine Alternative zu dem stark amerikanisch diktierten Markt sind und vielleicht hier und dort sogar noch etwas bessere Suchergebnisse liefern können. Das ist sicherlich nicht ganz einfach, aber es ist machbar (z.B. mit semantischer Suche).

Problem und Lösung der Volltextsuche Es werden Internetseiten gefunden in denen die eingegebenen Suchbegriffe (relativ) exakt vorkommen (Volltextsuche). Seiten die Inhaltlich dem gesuchten entsprechen, aber die Suchbegriffe nicht enthalten, werden gefiltert. Lösung Es werden Internetseiten gefunden, in denen nicht unbedingt die Suchbegriffe vorkommen müssen, aber doch deren semantische Schnittpunkte. Idealerweise beides in einem ausgewogenem Mischverhältnis. Dazu notwendig: Berechnung einer Semantik (bei Semager als Verwandtschaftsgrad zwischen Wörtern) Erstellung einer „semantischen Landkarte“, dem Beziehungsgeflecht aller Wörter Berechnung der „gemeinsamen Nenner“ der Suchbegriffe durch a) der kürzesten Verbindung zwischen den Suchwörtern (ähnlich Routenplaner) oder b) der stärkste Assoziation (neuronales Netz) und/oder c) durch Berechnung einer Taxonomie (Vater/Sohn Gruppierung)

Bestehende Ansätze zu semantischen Suche Thesaurus Anbindung/Import einer bestehenden Thesaurus Datenbank und vergleich der Suchanfragen mit dieser + Einfach und schnell + Bei einzelnen Wörter gute Ergebnisse - Nur relativ wenig Wörter bekannt - Keine Komplexen berechnung Clustern Indem man z.B. die Wörter in den Titeln der ersten 100 Treffern einfach mathematisch gruppiert. + rel. schnell - Ungenau (da nicht semantisch, sondern eben nur geclustert)

Bestehende Ansätze zu semantischen Suche Folksonomy Eine durch Benutzer erzeugte Stichwortsammlung zu einer Internetseite, Bild oder Artikel. + Sehr genau, da menschlich generiert - Kein Algorithmus und somit nicht überall anwendbar Auswertung der Suchanfragen Man speichere die Suchanfragen von Benutzern einer Suchmaschine. Bei einer genügend hohen Anzahl von Anfragen kann man ein gehäuftes Vorkommen mit gleichen Wörtern messen und Beziehungen darüber herstellen. + Funktioniert gut bei Namen (z.B. „Georg Bush“) - Wird stark von aktuellen Ereignissen beeinflusst - Manchmal semantisch, manchmal nicht

Bestehende Ansätze zu semantischen Suche LSI (Latent Semantic Indexing) Man kann feststellen, das in den meisten Dokumenten bei denen es um iPods geht, auch oft MP3 und Player genannt wird. Andere Dokumente in denen diese Begriffe ebenfalls genannt werden sind somit Latent Semantisch Nahe. + Semantisch Nähe - Längere Such- und Analysezeiten im Index, Rechenintensiv - Eben doch nur Latent PLSI (Probabilistic Latent Semantic Indexing) Im Vergleich zu LSI welches auf einer Matrixzerlegung basiert (Singular Value Decomposition), hat die the probabilistische Variante statistische Grundlagen.. + Exakter als LSI - Rechenintensiv

Bestehende Ansätze zu semantischen Suche HAL (Hyperspace Analogue to Language) Jedes Wort wird durch die Gesamtheit seiner Nachbarschaften im Kontext repräsentiert, oder einfacher ausgedrückt, Wörter mit ähnlicher Bedeutung erscheinen in ähnlichen Sätzen. + Semantische Nähe = Ergebnisse ähnlich LSI

Wie grenzt sich Semager ab? Nennen wir es einmal Neuronales routing durch PI-LSI erzeugtem Sprachraum oder kurz Neuronales routing oder lang Neuronales routing via vorsortiert indexierte und inkrementel berechnete HAL & LSI erzeugte Sprachdatenbank PI-LSI = Predefined and Incremental LSI Predefined = vorsortiert Indexiert Im Gegensatz zur zufälligen Indexierung benutze ich zur Berechnung nur Dokumente von denen ich weiß, um was Sie handeln. Incremental = in Addition zu bestehenden Ergebnissen Neue Ergebnisse werden zu bestehenden hinzugefügt und festigen die Semantik.

Wie soll das funktionieren? Lösungsansatz: 1) Berechnung von Wortverwandtschaften durch Analyse von (unbegrenzt) vorhandenen und verlinkten Internetseiten. Besonderheit: Zeitliche und/oder regionale Eingrenzung der Quellen Die Ergebnisse können durch aktuelle Ereignisse (weit verbreitete Nachrichten) beeinflusst werden, aber nicht gezielt manipuliert. 2) Wird eine Wort-Wort Beziehung wiederholt erkannt, erhöht sich die Glaubwürdigkeit dieser Beziehung. Aktuelle Ereignisse können eine Beziehung immer noch Beeinflussen, aber mit jeder wiederholten Berechnung etwas weniger. Eine Beziehung wird „sicherer“. Erkennung von „One-Hit-Wonder“

Wie soll das funktionieren? Lösungsansatz: 3) Es wird die Stärke einer Beziehung in Prozent berechnet. Dies ermöglicht eine Aussage über die Nähe zwischen Worten, welches sowohl für „den kürzesten Weg“ (Routing) als auch für ein neuronale Netz Grundlage ist. Wörtern und Beziehungen aus Lexikas oder importierten Datenbanken wird eine höhere Festigkeit eingeräumt, als selbst gelerntem. 4) Es wird unterschieden zwischen abgehenden und eingehenden Beziehung - vergleichbar mit eingehenden und ausgehenden Internetlinks. Eine Wort-zu-Wort Beziehung kann auch wechselseitig sein (was natürlich auch häufig der Fall ist), hat aber dann in den allermeisten Fällen zumindest unterschiedlich starke „Links“. Besonderheit: „Einbahnstraßen“ und asynchrone Wege Ähnlich einem Netzwerkrouting (siehe auch BGP, OSPF und Metrik)

Routing-Berechnung des gesuchten Berechnung: der kürzeste Weg Mit den bekannten Wortverwandschaften lässt sich eine „Landkarte“ erstellen (mit den Wörtern als Städte, der Stärke der Beziehung als Autobahn oder Landstraße, der Richtung als Einbahnstraße oder beidseitig befahrbar). Es werden die kürzesten/schnellsten/synchronsten Wege zwischen den Suchbegriffen berechnet (ähnlich einer GPS Navigation, A*-Algorithmus) Die Wörter welche in der Mitte des Weges sind, werden als größte Gemeinsamkeit angenommen. Bild: Wikipedia

Beispiel: Landkarte/Netzwerk von „Voip“ Die ersten 25 Beziehungen (Nachbarn) von „Voip“ sowie deren Beziehungen untereinander. Je dunkler ein Linie, je stärker die Beziehung. Keine Linie, keine Beziehung. Eine solche lokale „Landkarte“ lässt sich für jedes Wort berechnen. Es entsteht eine „Weltkarte“. Besonderheit: Erkennung von nahe gelegenen Wörtern die jedoch keine Beziehung untereinander haben.

Beispiel: Verknüpfungen von „Voip“

Neuronale Berechnung Berechnung: die stärkste Assoziation Mit den bekannten Wortverwandschaften lässt sich ein Neuronales-Netz erstellen (Wörter als Neuronen, Stärke der Beziehung als Synapsen, Richtung als Dendrit oder Axon). Ausgehenden von den Suchbegriffen „feuern“ die Neuronen und kaskadieren weiter. Die Wörter welche am meisten feuern, werden als stärkste Assoziation angenommen. Besonderheit: Schwellenwert eines „Neurons“ variable „Konzentrationsenergie“ Bild: Wikipedia

Neuronale Berechnung „Blumen“

Suche des gesuchten Stichwort: Automatic Query Refinement Wir schreiben die Suchanfrage des Benutzers einfach um. Volltext Wir schreiben die Suchanfrage doch nicht um. Der Benutzer bekommt nur Seiten angezeigt, in denen seine Suchwörter genau so (nämlich 100% genau so) enthalten sind. Wortstamm Wir schreiben die Suchanfrage so um, das der Benutzer auch Seiten findet, in denen die Suchwörter auch in ähnlicher Schreibweise geschrieben sein können. Semantisch Wir schreiben die Suchanfrage so um, das der Benutzer auch Seiten findet, in denen die Suchwörter noch nicht einmal in ähnlich Schreibweise stehen müssen, sondern Wörter enthalten die im Grunde genommen das gleiche meinen. Bild: Wikipedia

Statistik vom 31.7.2007 zum semantischen Index Deutsch: Wörter und Wortkombinationen: 1.611.907 Beziehungen untereinander: 100.614.760 Englisch: Wörter und Wortkombinationen: 249.440 Beziehungen untereinander: 8.131.394 Pro Tag werden ca. 250.000 Beziehung berechnet.

Schlusswort Danke für Ihre Aufmerksamkeit. Ich hoffe ich konnte Ihnen die Idee einer semantischen Suchmaschine Näher bringen. Ich nur noch ein kleines Problem ;-) Nicht genügend Mittel, um die Suchmaschine mit mehr Rechenkapazität auszustatten, Mitarbeiter einzustellen und Werbung zu machen. Bei Interesse bitte melden! NG-Marketing / Semager Matthias Schneider Sedanstraße 27 97082 Würzburg Tel 0931 . 207 41 07 Mobil 0179 . 273 68 68 Email info@semager.de