Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/7 Information Retrieval auf Texten An ihre Grenzen stoßen relationale Datenbanken bei der.

Ähnliche Präsentationen


Präsentation zum Thema: "Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/7 Information Retrieval auf Texten An ihre Grenzen stoßen relationale Datenbanken bei der."—  Präsentation transkript:

1 Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/7 Information Retrieval auf Texten An ihre Grenzen stoßen relationale Datenbanken bei der Behandlung spezieller Datentypen, die üblicherweise groß sind, bzw. einen großen, strukturierten Inhalt haben, wie Texte, Bilder, Videos, Audiodaten oder auch geographische (räumliche) Informationen. Informations-Retrieval-Systeme für Texte oder unstrukturierte Daten sind bereits länger verfügbar als relationale Datenbanksysteme. Grundtechniken sind schon über 30 Jahre bekannt und auch in Systemen eingesetzt worden. Relationale Datenbanken liefen in ihren Anfängen unter dem Namen Fakten- Nachweissysteme. Techniken, wie in den Siemens-System GOLEM2 benutzt wurden, werden in zunehmendem Maße für Web-Suchmaschinen neu erfunden. In relationalen Datenbanken wurden diese Techniken vernachlässigt, da Datenbankdaten in erster Normalform zerlegt gespeichert wurden und man kein Bedarf am Speichern und Durchsuchen langer umstrukturierter Texte hatte.

2 ___________ Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg2/7 Wird die Menge der gefundenen Dokumente mit RET (für retrieved), die Gesamtmenge aller Dokumente mit ALL und die Menge der relevanten Dokumente mit RL (für relevant) bezeichnet, werden die Werte wie folgt genauer definiert: Recall = | Rel Ret | ___________ | Rel | Pecision = | Rel Ret | ___________ | Ret | Fallout = | Rel - Ret | | All - Rel | Ein gutes Verfahren sollte möglichst so justiert werden können, dass die Werte für Recall und Precision nahe an 1 liegen. Der Wert für Fallout sollte gegen 0 gehen.

3 Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg3/7 Retrieval Ergebnis Dokumentenmenge Relevante Dokumente Precision Recall möglichst klein möglichst groß möglichst groß möglichst klein

4 Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg4/7 Grundprinzip Im Gegensatz zu den klassischen Datenbankanfragen sind Anfragen an Texte in der Regel keine scharfen Anfragen. Das Ergebnis der Anfrage ist nicht eindeutig ja oder nein. Statt dessen erfolgt ein Ranking der Dokumente auf Grund des Grades der Übereinstimmung mit dem Suchkriterium. Die Begriffe Recall und Precision sind Konzepte mit zentraler Bedeutung bei der Bewertung der Güte von Anfragemethoden in Volltextdatenbanken. Bei Anfragemethoden, die allein auf dem Ranking-Prinzip beruhen, kommt es leicht zu Anfragefehlern: Relevante Objekte werden mit einem zu geringen Gewicht bewertet und werden nicht gefunden, während irrelevante Objekte durch ein zu hohes Gewicht in die Ergebnismenge aufgenommen werden.

5 Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg5/7 Mit Recall wird die Anzahl relevanter Objekte im Ergebnis im Verhältnis zur Anzahl aller relevanten Objekte gemessen. Recall = Anzahl gefundener relevanter Dokumente Gesamtanzahl relevanter Dokumente ____________________________________ Anzahl gefundener relevanter Dokumente Gesamtanzahl relevanter Dokumente ____________________________________ Precision = Ein hoher Recall beschreibt eine Suchmethode, die eine große Anzahl der gemäß Suchkriterium qualifizierten Dokumente findet. Die Precision (Präzision) beschreibt die Anzahl relevanter Objekte im Ergebnis und im Verhältnis zur Anzahl aller Objekte im Ereignis. Eine hohe Präzision bedeutet, dass wenig Datenmüll gefunden wird, also Dokumente, die irrtümlich als Treffer qualifiziert wurden.

6 ____________________________________ Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg6/7 Ein weiteres Maß ist das Fallout – Maß, das den Anteil der gefundenen, aber irrelevanten Dokumente an den gesamten irrelevanten Dokumenten beschreibt. Anzahl gefundener irrelevanter Dokumente Gesamtanzahl irrelevanter Dokumente Fallout = Das Fallout – Maß beschreibt sozusagen die Güte eines Verfahrens im Herausfiltern irrelevanter Dokumente.

7 Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg7/7 Kommunikation mit grafischen Mitteln Unsere Kommunikation verschiebt sich in den Medien vom verbalen zum visuellen Ausdruck. Dazu sind hochwertiges Bildmaterial und Multimedia – Elemente notwendig. Im Internet geht es gar nicht mehr ohne Grafiken. Die illustrativen Aufbereitungen erfolgen mit Bildmaterial, dadurch werden Homepages so richtig ansehnlich und ziehen die Besucher auf die Webseite an. Nicht nur das World Wide Web, auch professionelle Präsentationen, Lehrmittel, Marketing-Prospekte, Zeitungen, Magazine sowie die gesamte Werbebranche kommunizieren über grafische Elemente. Botschaften in Grafik- und Multimedia- orientierter Form erreichen den Empfänger schneller und beeindruckender. Die Umsetzung von Geschäftsprozessen für die Bildverarbeitung unterschiedlichster Branchen kann durch die Internet-Technologie stark vereinfacht und beschleunigt werden.


Herunterladen ppt "Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/7 Information Retrieval auf Texten An ihre Grenzen stoßen relationale Datenbanken bei der."

Ähnliche Präsentationen


Google-Anzeigen