Guten Morgen, meine Name ist…

Guten Morgen, meine Name ist…
Wer: Matthias Schneider, 34 Jahre, verheiratet. Minilebenslauf: Geburt – Schule - Studium ;-) Um mein Studium finanzieren zu können, arbeitete ich eigenverantwortlich als Webdesigner und Programmierer, sowie als Administrator für kleinere Betriebe. Dem folgte eine zweieinhalbjährige Karriere als Angestellter in einer Würzburger IT-Firma zunächst als Webdesigner und Webmaster, später als Service Manager für Großkunden. Zu meinen Aufgaben dort zählten das Erfüllen von Serviceverträgen, Projektsteuerung, Dokumentation, etc. Irgendwann erfasste dann auch uns die geplatzte dot.Com Blase und ich wurde wegrationalisiert. Also startete ich in die Selbstständigkeit und beschäftige mich seitdem mit Online Marketing, SEO, PHP, Ajax, Blogs, Wikis … und seit 2 Jahren mit der Entwicklung von Semager.

Warum noch eine Suchmaschine?
Was: Suchmaschinen gibt es viele. Warum noch eine und was könnte den Reiz einer neuen Suchmaschine ausmachen? Meine Daten sind mir heilig, ich mag es nun mal nicht, wenn meine Suchanfragen und private Daten auf „irgendwelchen“ Servern rumliegen. Und was damit gemacht wird, weiß ich auch nicht (lesen Sie doch mal sorgfältig die AGBs von bekannten Suchmaschinen durch). Deutschland hinkt in der Suchmaschinenbranche stark hinterher (schade eigentlich, gibt es doch genügend schlaue Köpfe und Ideen in unserem Land). Das Wissen der Welt gehört der Menschheit + Sind Sie nicht im Index, existieren Sie auch nicht = Der Filter von Suchmaschinen entscheidet (kann entscheidend sein) über unser Existenz. Neue Filter braucht das Land. Filter bei denen Sie auch gefunden werden, wenn Sie nicht gerade eine hochoptimierte Internetseite haben. Suchmaschinen, die eine Alternative zu dem stark amerikanisch diktierten Markt sind und vielleicht hier und dort sogar noch etwas bessere Suchergebnisse liefern können. Das ist sicherlich nicht ganz einfach, aber es ist machbar (z.B. mit semantischer Suche).

Problem und Lösung der Volltextsuche
Es werden Internetseiten gefunden in denen die eingegebenen Suchbegriffe (relativ) exakt vorkommen (Volltextsuche). Seiten die Inhaltlich dem gesuchten entsprechen, aber die Suchbegriffe nicht enthalten, werden gefiltert. Lösung Es werden Internetseiten gefunden, in denen nicht unbedingt die Suchbegriffe vorkommen müssen, aber doch deren semantische Schnittpunkte. Idealerweise beides in einem ausgewogenem Mischverhältnis. Dazu notwendig: Berechnung einer Semantik (bei Semager als Verwandtschaftsgrad zwischen Wörtern) Erstellung einer „semantischen Landkarte“, dem Beziehungsgeflecht aller Wörter Berechnung der „gemeinsamen Nenner“ der Suchbegriffe durch a) der kürzesten Verbindung zwischen den Suchwörtern (ähnlich Routenplaner) oder b) der stärkste Assoziation (neuronales Netz) und/oder c) durch Berechnung einer Taxonomie (Vater/Sohn Gruppierung)

Bestehende Ansätze zu semantischen Suche
Thesaurus Anbindung/Import einer bestehenden Thesaurus Datenbank und vergleich der Suchanfragen mit dieser + Einfach und schnell + Bei einzelnen Wörter gute Ergebnisse - Nur relativ wenig Wörter bekannt - Keine Komplexen berechnung Clustern Indem man z.B. die Wörter in den Titeln der ersten 100 Treffern einfach mathematisch gruppiert. + rel. schnell - Ungenau (da nicht semantisch, sondern eben nur geclustert)

Folksonomy Eine durch Benutzer erzeugte Stichwortsammlung zu einer Internetseite, Bild oder Artikel. + Sehr genau, da menschlich generiert - Kein Algorithmus und somit nicht überall anwendbar Auswertung der Suchanfragen Man speichere die Suchanfragen von Benutzern einer Suchmaschine. Bei einer genügend hohen Anzahl von Anfragen kann man ein gehäuftes Vorkommen mit gleichen Wörtern messen und Beziehungen darüber herstellen. + Funktioniert gut bei Namen (z.B. „Georg Bush“) - Wird stark von aktuellen Ereignissen beeinflusst - Manchmal semantisch, manchmal nicht

LSI (Latent Semantic Indexing) Man kann feststellen, das in den meisten Dokumenten bei denen es um iPods geht, auch oft MP3 und Player genannt wird. Andere Dokumente in denen diese Begriffe ebenfalls genannt werden sind somit Latent Semantisch Nahe. + Semantisch Nähe - Längere Such- und Analysezeiten im Index, Rechenintensiv - Eben doch nur Latent PLSI (Probabilistic Latent Semantic Indexing) Im Vergleich zu LSI welches auf einer Matrixzerlegung basiert (Singular Value Decomposition), hat die the probabilistische Variante statistische Grundlagen.. + Exakter als LSI - Rechenintensiv

HAL (Hyperspace Analogue to Language) Jedes Wort wird durch die Gesamtheit seiner Nachbarschaften im Kontext repräsentiert, oder einfacher ausgedrückt, Wörter mit ähnlicher Bedeutung erscheinen in ähnlichen Sätzen. + Semantische Nähe = Ergebnisse ähnlich LSI

Wie grenzt sich Semager ab?
Nennen wir es einmal Neuronales routing durch PI-LSI erzeugtem Sprachraum oder kurz Neuronales routing oder lang Neuronales routing via vorsortiert indexierte und inkrementel berechnete HAL & LSI erzeugte Sprachdatenbank PI-LSI = Predefined and Incremental LSI Predefined = vorsortiert Indexiert Im Gegensatz zur zufälligen Indexierung benutze ich zur Berechnung nur Dokumente von denen ich weiß, um was Sie handeln. Incremental = in Addition zu bestehenden Ergebnissen Neue Ergebnisse werden zu bestehenden hinzugefügt und festigen die Semantik.

Wie soll das funktionieren?
Lösungsansatz: 1) Berechnung von Wortverwandtschaften durch Analyse von (unbegrenzt) vorhandenen und verlinkten Internetseiten. Besonderheit: Zeitliche und/oder regionale Eingrenzung der Quellen Die Ergebnisse können durch aktuelle Ereignisse (weit verbreitete Nachrichten) beeinflusst werden, aber nicht gezielt manipuliert. 2) Wird eine Wort-Wort Beziehung wiederholt erkannt, erhöht sich die Glaubwürdigkeit dieser Beziehung. Aktuelle Ereignisse können eine Beziehung immer noch Beeinflussen, aber mit jeder wiederholten Berechnung etwas weniger. Eine Beziehung wird „sicherer“. Erkennung von „One-Hit-Wonder“

Wie soll das funktionieren?
Lösungsansatz: 3) Es wird die Stärke einer Beziehung in Prozent berechnet. Dies ermöglicht eine Aussage über die Nähe zwischen Worten, welches sowohl für „den kürzesten Weg“ (Routing) als auch für ein neuronale Netz Grundlage ist. Wörtern und Beziehungen aus Lexikas oder importierten Datenbanken wird eine höhere Festigkeit eingeräumt, als selbst gelerntem. 4) Es wird unterschieden zwischen abgehenden und eingehenden Beziehung - vergleichbar mit eingehenden und ausgehenden Internetlinks. Eine Wort-zu-Wort Beziehung kann auch wechselseitig sein (was natürlich auch häufig der Fall ist), hat aber dann in den allermeisten Fällen zumindest unterschiedlich starke „Links“. Besonderheit: „Einbahnstraßen“ und asynchrone Wege Ähnlich einem Netzwerkrouting (siehe auch BGP, OSPF und Metrik)

Routing-Berechnung des gesuchten
Berechnung: der kürzeste Weg Mit den bekannten Wortverwandschaften lässt sich eine „Landkarte“ erstellen (mit den Wörtern als Städte, der Stärke der Beziehung als Autobahn oder Landstraße, der Richtung als Einbahnstraße oder beidseitig befahrbar). Es werden die kürzesten/schnellsten/synchronsten Wege zwischen den Suchbegriffen berechnet (ähnlich einer GPS Navigation, A*-Algorithmus) Die Wörter welche in der Mitte des Weges sind, werden als größte Gemeinsamkeit angenommen. Bild: Wikipedia

Beispiel: Landkarte/Netzwerk von „Voip“
Die ersten 25 Beziehungen (Nachbarn) von „Voip“ sowie deren Beziehungen untereinander. Je dunkler ein Linie, je stärker die Beziehung. Keine Linie, keine Beziehung. Eine solche lokale „Landkarte“ lässt sich für jedes Wort berechnen. Es entsteht eine „Weltkarte“. Besonderheit: Erkennung von nahe gelegenen Wörtern die jedoch keine Beziehung untereinander haben.

Beispiel: Verknüpfungen von „Voip“

Neuronale Berechnung Berechnung: die stärkste Assoziation
Mit den bekannten Wortverwandschaften lässt sich ein Neuronales-Netz erstellen (Wörter als Neuronen, Stärke der Beziehung als Synapsen, Richtung als Dendrit oder Axon). Ausgehenden von den Suchbegriffen „feuern“ die Neuronen und kaskadieren weiter. Die Wörter welche am meisten feuern, werden als stärkste Assoziation angenommen. Besonderheit: Schwellenwert eines „Neurons“ variable „Konzentrationsenergie“ Bild: Wikipedia

Neuronale Berechnung „Blumen“

Suche des gesuchten Stichwort: Automatic Query Refinement
Wir schreiben die Suchanfrage des Benutzers einfach um. Volltext Wir schreiben die Suchanfrage doch nicht um. Der Benutzer bekommt nur Seiten angezeigt, in denen seine Suchwörter genau so (nämlich 100% genau so) enthalten sind. Wortstamm Wir schreiben die Suchanfrage so um, das der Benutzer auch Seiten findet, in denen die Suchwörter auch in ähnlicher Schreibweise geschrieben sein können. Semantisch Wir schreiben die Suchanfrage so um, das der Benutzer auch Seiten findet, in denen die Suchwörter noch nicht einmal in ähnlich Schreibweise stehen müssen, sondern Wörter enthalten die im Grunde genommen das gleiche meinen. Bild: Wikipedia

Statistik vom 31.7.2007 zum semantischen Index
Deutsch: Wörter und Wortkombinationen: Beziehungen untereinander: Englisch: Wörter und Wortkombinationen: Beziehungen untereinander: Pro Tag werden ca Beziehung berechnet.

Schlusswort Danke für Ihre Aufmerksamkeit.
Ich hoffe ich konnte Ihnen die Idee einer semantischen Suchmaschine Näher bringen. Ich nur noch ein kleines Problem ;-) Nicht genügend Mittel, um die Suchmaschine mit mehr Rechenkapazität auszustatten, Mitarbeiter einzustellen und Werbung zu machen. Bei Interesse bitte melden! NG-Marketing / Semager Matthias Schneider Sedanstraße 27 97082 Würzburg Tel Mobil

Guten Morgen, meine Name ist…

Ähnliche Präsentationen

Präsentation zum Thema: "Guten Morgen, meine Name ist…"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback

Anmelden

Anmeldung über soziales Netzwerk:

Guten Morgen, meine Name ist…

Ähnliche Präsentationen

Präsentation zum Thema: "Guten Morgen, meine Name ist…"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback