, , , (1: ) Retrieval und Ranking von Dokumenten Kursfolien Karin Haenelt
, , , (1: ) Die einzelnen Schritte (1) Texte auswählen Boolesches Modell Erzeugung der Dokumentvektoren Erzeugung der disjunktiven Normalform der Anfrage Vergleich von Dokument- und Anfragevektoren Vektormodell Erzeugung der Dokumentvektoren (Termfrequenz, normalisierte Termfrequenz, Termgewichtung) Berechnung der Ähnlichkeit zwischen Dokument und Anfragevektor nach der Cosinusformel
, , , (1: ) Die einzelnen Schritte (2) Probabilistisches Modell Auswahl eines Trainingscorpus Ermittlung der Beobachtungswerte rel (Anzahl relevanter Dokumente) nrel (Anzahl nicht-relevanter Dokumente) rel i (Anzahl rel. Dok. mit Term i ) nrel i (Anzahl nicht rel. Dok. mit Term i ) Berechnung der Termstatuswerte Berechnung der Retrievalstatuswerte für neue Dokumente
, , , (1: ) Texte (1) :48 MEZ 1) Weiter Stabilisierung an der Weichsel Warschau (dpa) - An den Hochwassergebieten entlang der Deichsel hat sich die Lage weiter beruhigt. In Ostpolen ist der Wasserstand teilweise bereits unter den Alarmpegel gesunken, berichtet der polnische Rundfunk. Die Flutwelle der Weichsel zieht nun durch Pommern Richtung Ostsee. Unterdessen steigt der Wasserstand der Oder in Westpolen weiter an. Im Glogow wurde der Alarmpegel mittlerweile um 124 Zentimeter überschritten. In Dutzenden von Ortschaften stehen Straßen und Ackerland unter Wasser :07 MEZ 2) Russische Behörden melden Cholera-Erkrankungen im Wolga-Gebiet Moskau (dpa) - Im russischen Wolgagebiet sind fast 50 Menschen an Cholera erkrankt. Die Opfer, unter ihnen 26 Kinder, hätten in einem mit den lebensgefährlichen Viren verseuchten Gewässer gebadet. Das teilte die Gesundheitsbehörde der Stadt Kasan mit. Nach vorläufigen Angaben gab es keine Todesopfer. Angehörige der Opfer seien vorsorglich in Quarantänestationen gebracht worden, meldete die Agentur Interfax. Zudem werden Bahn-Reisende aus Kasan auf Cholera- Symptome untersucht, berichtete ein Radiosender.
, , , (1: ) Texte (2) :57 MEZ 3) «Feuerpause» am Ätna Catania (dpa) - Der sizilianische Vulkan Ätna hat eine «Feuerpause» eingelegt. «Er brummt, als würde er schnarchen», beschrieb ein Fernsehreporter das Szenario. Im Touristenzentrum Sapienza knallten die Sektkorken. Ein Betreiber sagte, das Zentrum werde im September wieder geöffnet. Nach Tagen des Bangens war eine Lavafront nur 200 Meter vor der Station mit Seilbahn, Souvenirläden und Büros zum Stillstand gekommen. Der größte Vulkan Europas tobt seit mehr als zwei Wochen. Menschen kamen bislang nicht zu Schaden :46 MEZ 4) Ätna auf Sizilien speit Wasser Catania (dpa) - Der Vulkan Ätna auf Sizilien speit auch Wasser. Ein solches Phänomen ist laut italienischen Fernsehberichten seit Jahren nicht mehr vorgekommen. Forscher erklären das Ereignis damit, dass in einer Lavaflut das Mineral Amphibol vorkommt. Dieses enthalte Wasser in seiner kristallinen Struktur und erwärme sich, sobald das Magma Gas absondern könne. Unterdessen scheint gut zwei Wochen nach dem Ausbruch des Vulkans die größte Gefahr gebannt. Trotz spektakulärer Lavafluten kamen bislang Menschen nicht zu Schaden.
, , , (1: ) Texte (3) :23 MEZ 5) Weiterer Deichabschnitt gesprengt Warschau (dpa) - Im Osten Polens haben Pioniere der Armee einen weiteren Deichabschnitt gesprengt. Damit soll ein rascher Abfluss des Hochwassers ermöglicht werden. Außerdem kommen heute auch Hubschrauber zum Einsatz. Sie sollen Betonplatten auf den Deich werfen, um Risse zu schaffen und den Abfluss des Wassers zu beschleunigen, meldet die Agentur IAR. Bereits gestern war eine 50 Meter breite Lücke in den so genannten Sommerdeich der Weichsel südlich von Kazimierz Dolny gesprengt worden :29 MEZ 6) Millionen-Schaden durch Feuer in Wyoming Jackson (dpa) - Das vor 10 Tagen ausgebrochene Buschfeuer nahe Jackson im USBundesstaat Wyoming ist weitgehend unter Kontrolle. Bei kühlerem, regnerischem Wetter gelang es der Feuerwehr, den Brand einzudämmen. Das Feuer, das vermutlich durch menschliches Verschulden auf einem Campingplatz entstand, vernichtete 1800 Hektar Land. Menschen kamen nicht zu Schaden. Im benachbarten Yellowstone National Park sind weiterhin mehr als 60 Feuerwehrleute im Einsatz. Dort hat ein Feuer rund 400 Hektar Wald verbrannt.
, , , (1: ) Texte (4) :01 MEZ 7) Angriff von Computerwurm «Code Red» offenbar abgewehrt Washington (dpa) - Der Angriff des weltweit mit Sorge erwarteten Computerwurms «Code Red» ist offenbar abgewehrt worden. Nach ersten Angaben des FBI hat er kaum Schaden angerichtet. Es werde aber noch einige Zeit dauern, bis eine genaue Schadensanalyse fertig sei, hieß es. Vermutlich hätten die Schutzmaßnahmen gegen die Attacke gewirkt. Der Angriff hatte nach Berechnungen der Experten um 2 Uhr deutscher Zeit begonnen. Bei seinem ersten Auftauchen Mitte Juli hatte «Code Red» unter anderem die Webseiten des Weißen Hauses angegriffen :31 MEZ 8) Polnische Pioniere beginnen kontrollierten Deichbruch Warschau (dpa) - Polnische Pioniere haben im Osten des Landes mit einem kontrollierten Deichbruch begonnen. Damit soll das Hochwasser der Weichsel in ein unbewohntes Gebiet umgelenkt werden. Die Soldaten begannen am frühen Morgen damit, einen Teil des Deichs der Weichsel abzutragen, berichtet der polnische Rundfunk. Die Gefahr gehe nicht von der Höhe der Flutwelle aus, sondern von der ungewöhnlich langen Verweildauer, sagte ein Feuerwehrsprecher. Das Hochwasser an der Weichsel erstreckt sich mittlerweile über 350 Kilometer.
, , , (1: ) Texte (5) :52 MEZ 9) Immer mehr Deiche in Polen undicht Warschau (dpa) - In den polnischen Hochwassergebieten ist in der Nähe der ostpolnischen Ortschaft Kamien ein weiterer Deich gebrochen. Das berichtet der polnische Rundfunk. Damit sind an Weichsel und San nun schon fünf Deiche geborsten. Allein südlich von Sandomierz steht ein 52 Quadratkilometer großes Gebiet mit vier Dörfern und hunderten Bauernhöfen unter Wasser. An vielen Stellen sind die durchweichten Deiche nach Angaben der Krisenstäbe mittlerweile löchrig und undicht. Bisher wurden rund Menschen in Sicherheit gebracht :49 MEZ 10) Neue Überschwemmungen in Zentralpolen Warschau (dpa) - Mit neuen Überschwemmungen in Zentralpolen und im Südosten ist die Flutwelle des Hochwassers weiter ins Landesinnere vorgedrungen. Die Rettungskräfte sind pausenlos im Einsatz. Uferbefestigungen wurden mit Sandsäcken verstärkt. Die polnische Regierung hofft auf internationale Hilfe. Es habe erste Kontakte mit der Weltbank gegeben, berichtete der Rundfunksender «Radio RMF» unter Berufung auf die Regierung. Die Zahl der Todesopfer stieg inzwischen auf elf. Im Süden stabilisierte sich die Lage dagegen allmählich.
, , , (1: ) Texte (6) :41 MEZ 11) Lage in Südpolen bleibt weiter dramatisch Warschau - Die Lage in den Hochwassergebieten im Süden und Südosten Polens bleibt dramatisch. Bisher hat die Katastrophe 11 Todesopfer gefordert. Tausende Häuser stehen unter Wasser, mehrere hundert Bauernhöfe sind überflutet. Straßen und Brücken wurden durch die Wassermassen der Weichsel und ihrer Zuflüsse zerstört oder schwer beschädigt. Auch an der Oder in Oberschlesien stiegen die Wasserstände wieder.
, , , (1: ) Retrievalaufgabe Welche Dokumente benennen einen Schaden, der durch Feuer oder Wasser entstanden ist?
, , , (1: ) Gewünschtes Ergebnis Relevanz- begriff?
, , , (1: ) Lösungsansatz hilfsweise Ansatz des Queryvektors: Feuer, Opfer, Schaden, Wasser
, , , (1: ) Boolesches Modell Anfrage (Feuer | Wasser) & (Opfer | Schaden)
, , , (1: ) Vektormodell: Termfrequenz
, , , (1: ) Vektormodell: normalisierte Termfrequenz: max l
, , , (1: ) Vektormodell: normalisierte Termfrequenz
, , , (1: ) Vektormodell: Termgewichtung
, , , (1: ) Vektormodell: Ähnlichkeit von Dokument und Query
, , , (1: ) Vektormodell: Ergebnisse
, , , (1: ) Vektormodell: Ergebnisse tf.idf
, , , (1: ) Vektormodell: Ergebnisse - Analyse
, , , (1: ) Probabilistisches Modell Trainingscorpus
, , , (1: ) Probabilistisches Modell: Termstatuswerte Korrekturfaktoren: rel i + 0.5, nrel i + 0.5, rel + 1, nrel +1
, , , (1: ) Probabilistisches Modell: Neue Dok.: Retrievalstatuswert
, , , (1: ) Vergleich der Ergebnisse
, , , (1: ) Literatur und Danksagung Karin Haenelt (2002) Retrieval und Ranking von Dokumenten. Ein Übungsbeispiel. Kursskript (letzte Änderung ) 15 S. kontext.fraunhofer.de/haenelt/kurs/folien/Ranking- Uebung.pdf kontext.fraunhofer.de/haenelt/kurs/folien/Ranking- Uebung.pdf Vielen Dank für das Aufspüren von Fehlern in früheren Versionen und für Verbesserungsvorschläge danke ich Olena Beck