Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/7 Information Retrieval auf Texten An ihre Grenzen stoßen relationale Datenbanken bei der.

Slides:



Advertisements
Ähnliche Präsentationen
8. Termin Teil B: Wiederholung Begriffe Baum
Advertisements

Der elektronische Handel über das Internet
Private Netze Neben öffentlichen GSM-Netzen etabliert sich für die europäischen Eisenbahnen eine neue digitale Zugfunkgeneration, die auf dem GSM-Standard.
Einer der Dienste im Internet
Datenbankdesign mit ACCESS.
Modellierung sozio-technischer Systeme SeeMe - Semi-strukturierte, sozio-technische Modellierungsmethode.
Vom graphischen Differenzieren
Inhaltlich orientierter Zugriff auf unstrukturierte Daten
Kapitel 4 Datenstrukturen
HTML - Einführung Richard Göbel.
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/12 Informationsretrieval Suche mit und nach Attributen und Merkmalen, die bedeutend für die.
Lernen als Informationsverarbeitung
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/10 Grafische Anfragesprachen Geeignet sind grafische Anfragesprachen für Nutzer, die keine.
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/7 Datenbanken werden als Anhäufung von Werten eines Wertebereiches aufgefasst und Datenbankabfragen.
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/9 Data Mining Ist die Wissensgewinnung aus Datensammlungen (Knowledge Discovery in Database).
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/8 Klassifikationen Klassifikationen dienen dazu, Themen oder Objekte systematisch zu ordnen.
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg 1/10
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/8 Thesauren In gewisser Weise bilden Thesauren (Singular Thesaurus, Plural auch Thesauri)
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg 1/7
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/5 Grundtechniken des Information Retrieval Deskribierung Hierunter versteht man eine manuelle.
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/4 Machine Learning (ML) Der erste Teil dieser Definition ist auch eine Beschreibung von Machine.
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/4 Manuelle Verfahren Klassifizierung Hier werden Dokumente in ein fest vorgegebenes System.
QBE in MS Access formulieren
Abhängigkeitsbeziehung
UML im Überblick – Dipl. Ing. Ulrich Borchert / FH Merseburg 1/22
Schritte zu Datenmodellierung
HTML - Eine erste Annäherung
Datenbankentwurf mit Hilfe des ER-Modells entwickeln
Technik Gestaltung Navigation Daten. Übersicht Client Webbrowser InternetServer.
Grundlegende Analysen & Zwischendarstellungen
Access 2000 Datenbanken.
Was sind Histogramme? (1)
Qualitätskriterien zur Beurteilung von Dokumentationen
IndexierungsqualitätEinstieg
Qualität einer Dokumentation Relevanz- und Vollständigkeitsrate
Schulen ans Netz Oberhausener Moderatoren
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek 3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung.
Datenmodellierung - Aufbau einer Datenbank -
Qualität von Web-Suchmaschinen Search Engine Stragies Munich 2005 Dirk Lewandowski Heinrich-Heine-Universität Düsseldorf, Abt. Informationswissenschaft.
Strategische Kommunikation bedeutet effiziente Kommunikation in:
Seniorkom.at vernetzt Jung & Alt Das Internet ist reif
Zur Arbeit mit Suchmaschinen
Martin Kravec 4.A Pavol-Horov-Gymnasium 2005/2006
Offsite –Optimierung bzw. wo Sie noch gefunden werden
§3 Allgemeine lineare Gleichungssysteme
Überblick über die Datenbankproblematik
TOBIAS GONSCHOREK   Der weg zum Erfolg.
Wahrscheinlichkeitsrechnung
(D.h. „Hallo MausFans!“ auf Japanisch).
Vom Geschäftsprozess zum Quellcode
verstehen planen bearbeiten
Medienneutrale Datenbanken
ENDLICHE KÖRPER RSA – VERFAHREN.
Die Computertradition. Die ersten Anfänge von Informationsorganisation liegen bereits Jahrhunderte zurück: Philosophie: Übersicht über das Weltwissen.
Ortung mit GSM Dipl. Ing. Ulrich Borchert Fach: Mobile Computing HS Merseburg (FH)
Information Retrieval, Vektorraummodell
Informatik Technische Informatik Praktische Informatik Theoretische
Vom graphischen Differenzieren
Corporate Identity.
Semantic Web.
Datenbanken im Web 1.
Niko Zenker1 Besondere Aspekte in Multimedia-Datenbanken Methoden zur iterativen Anfrageverfeinerung (Relevanz Feedback)
Maya Kindler 5c. SEO- URL = Suchmaschinenoptimierung Alles was auf der Website steht wird von einer Suchmaschine gefunden und angezeigt. Alle Daten sind.
Komponenten des Computers
BHAK/BHAS 1 Salzburg KIDM 2ASBS Schuljahr 2004/05
Recherche-Workshop der Stadtbücherei Metzingen Schritte zur erfolgreichen Recherche.
Von Wietlisbach, Lenzin und Winter
Von Wietlisbach, Lenzin und Winter
Einführung: Statistische Verfahren der automatischen Indexierung
 Präsentation transkript:

Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/7 Information Retrieval auf Texten An ihre Grenzen stoßen relationale Datenbanken bei der Behandlung spezieller Datentypen, die üblicherweise groß sind, bzw. einen großen, strukturierten Inhalt haben, wie Texte, Bilder, Videos, Audiodaten oder auch geographische (räumliche) Informationen. Informations-Retrieval-Systeme für Texte oder unstrukturierte Daten sind bereits länger verfügbar als relationale Datenbanksysteme. Grundtechniken sind schon über 30 Jahre bekannt und auch in Systemen eingesetzt worden. Relationale Datenbanken liefen in ihren Anfängen unter dem Namen Fakten- Nachweissysteme. Techniken, wie in den Siemens-System GOLEM2 benutzt wurden, werden in zunehmendem Maße für Web-Suchmaschinen neu erfunden. In relationalen Datenbanken wurden diese Techniken vernachlässigt, da Datenbankdaten in erster Normalform zerlegt gespeichert wurden und man kein Bedarf am Speichern und Durchsuchen langer umstrukturierter Texte hatte.

___________ Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg2/7 Wird die Menge der gefundenen Dokumente mit RET (für retrieved), die Gesamtmenge aller Dokumente mit ALL und die Menge der relevanten Dokumente mit RL (für relevant) bezeichnet, werden die Werte wie folgt genauer definiert: Recall = | Rel Ret | ___________ | Rel | Pecision = | Rel Ret | ___________ | Ret | Fallout = | Rel - Ret | | All - Rel | Ein gutes Verfahren sollte möglichst so justiert werden können, dass die Werte für Recall und Precision nahe an 1 liegen. Der Wert für Fallout sollte gegen 0 gehen.

Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg3/7 Retrieval Ergebnis Dokumentenmenge Relevante Dokumente Precision Recall möglichst klein möglichst groß möglichst groß möglichst klein

Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg4/7 Grundprinzip Im Gegensatz zu den klassischen Datenbankanfragen sind Anfragen an Texte in der Regel keine scharfen Anfragen. Das Ergebnis der Anfrage ist nicht eindeutig ja oder nein. Statt dessen erfolgt ein Ranking der Dokumente auf Grund des Grades der Übereinstimmung mit dem Suchkriterium. Die Begriffe Recall und Precision sind Konzepte mit zentraler Bedeutung bei der Bewertung der Güte von Anfragemethoden in Volltextdatenbanken. Bei Anfragemethoden, die allein auf dem Ranking-Prinzip beruhen, kommt es leicht zu Anfragefehlern: Relevante Objekte werden mit einem zu geringen Gewicht bewertet und werden nicht gefunden, während irrelevante Objekte durch ein zu hohes Gewicht in die Ergebnismenge aufgenommen werden.

Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg5/7 Mit Recall wird die Anzahl relevanter Objekte im Ergebnis im Verhältnis zur Anzahl aller relevanten Objekte gemessen. Recall = Anzahl gefundener relevanter Dokumente Gesamtanzahl relevanter Dokumente ____________________________________ Anzahl gefundener relevanter Dokumente Gesamtanzahl relevanter Dokumente ____________________________________ Precision = Ein hoher Recall beschreibt eine Suchmethode, die eine große Anzahl der gemäß Suchkriterium qualifizierten Dokumente findet. Die Precision (Präzision) beschreibt die Anzahl relevanter Objekte im Ergebnis und im Verhältnis zur Anzahl aller Objekte im Ereignis. Eine hohe Präzision bedeutet, dass wenig Datenmüll gefunden wird, also Dokumente, die irrtümlich als Treffer qualifiziert wurden.

____________________________________ Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg6/7 Ein weiteres Maß ist das Fallout – Maß, das den Anteil der gefundenen, aber irrelevanten Dokumente an den gesamten irrelevanten Dokumenten beschreibt. Anzahl gefundener irrelevanter Dokumente Gesamtanzahl irrelevanter Dokumente Fallout = Das Fallout – Maß beschreibt sozusagen die Güte eines Verfahrens im Herausfiltern irrelevanter Dokumente.

Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg7/7 Kommunikation mit grafischen Mitteln Unsere Kommunikation verschiebt sich in den Medien vom verbalen zum visuellen Ausdruck. Dazu sind hochwertiges Bildmaterial und Multimedia – Elemente notwendig. Im Internet geht es gar nicht mehr ohne Grafiken. Die illustrativen Aufbereitungen erfolgen mit Bildmaterial, dadurch werden Homepages so richtig ansehnlich und ziehen die Besucher auf die Webseite an. Nicht nur das World Wide Web, auch professionelle Präsentationen, Lehrmittel, Marketing-Prospekte, Zeitungen, Magazine sowie die gesamte Werbebranche kommunizieren über grafische Elemente. Botschaften in Grafik- und Multimedia- orientierter Form erreichen den Empfänger schneller und beeindruckender. Die Umsetzung von Geschäftsprozessen für die Bildverarbeitung unterschiedlichster Branchen kann durch die Internet-Technologie stark vereinfacht und beschleunigt werden.