Multilinguales Information Retrieval Ruprecht-Karls-Universität Heidelberg HS Information Retrieval WS 01/02 Ana Kovatcheva.

Slides:

Advertisements

Ähnliche Präsentationen

Algorithmen und Datenstrukturen

Advertisements

Cluster- Projekt Präsentiert von Dominik Henn & Torben Pastuch

Developing your Business to Success We are looking for business partners. Enterprise Content Management with OS|ECM Version 6.

Fast Fourier Transformation

Kohonennetze für Information Retrieval mit User Feedback

Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil3.

Übung Datenbanksysteme WS 2003/ Übung Datenbanksysteme Entwurf eines Bibliothekssystems

What do you get marks for?

Seminar Textmining WS 06/07 Themen Übung 11 unsupervised vs. supervised Symbolfolgen, Kunstsprachen Page Rank.

Seminar Textmining WS 06/07 Aufgaben II 1.Dokumente im VSM 2.Ranking 3.Term-Term-Korrelation 4.Relevance Feedback 5.Termgewichtung.

Seminar Textmining WS 06/07

Seminar Textmining WS 06/07 Themen Übung 9 Multilingualität Weitere Termine: 13.7.Symbolfolgen und PageRank Findlinks mitstreiter gesucht!

Inhaltlich orientierter Zugriff auf unstrukturierte Daten

Modelle und Methoden der Linearen und Nichtlinearen Optimierung (Ausgewählte Methoden und Fallstudien) U N I V E R S I T Ä T H A M B U R G November 2011.

Modelle und Methoden der Linearen und Nichtlinearen Optimierung (Ausgewählte Methoden und Fallstudien) U N I V E R S I T Ä T H A M B U R G November 2011.

Ontologien- Query 1 Teil2

Fallstudie. 2 Statistik April Dokumente Jan Mio. Dokumente Performance 3 Mio. Queries pro Tag 9. Juni 2000 Most popular search engines.

Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/8 Thesauren In gewisser Weise bilden Thesauren (Singular Thesaurus, Plural auch Thesauri)

Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/5 Grundtechniken des Information Retrieval Deskribierung Hierunter versteht man eine manuelle.

Informationsgewinnung mit Agenten

© 2006 W. Oberschelp, G. Vossen Rechneraufbau & Rechnerstrukturen, Folie 2.1.

Information Retrieval Modelle: Vektor-Modell

© Karin Haenelt 2006, Operationen auf Akzeptoren und Transduktoren, ( ) 1 Operationen auf endlichen Akzeptoren und Transduktoren.

Erweiterte Fassung Karin Haenelt, IR-Evaluierung Evaluierung von Information Retrieval Systemen Kursfolien Karin Haenelt.

S.I.N.N. Suchmaschinennetzwerk im Internationalen Naturwissenschaftlichen Netz Ein Vortrag von Fabian A. Stehn

Internet facts 2006-I Graphiken zu dem Berichtsband AGOF e.V. September 2006.

Internet facts 2006-III Graphiken zum Berichtsband AGOF e.V. März 2007.

Internet facts 2008-II Graphiken zu dem Berichtsband AGOF e.V. September 2008.

Internet facts 2006-II Graphiken zu dem Berichtsband AGOF e.V. November 2006.

Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil2.

Produktform der Inversen 1

Indexierung - Verschlagwortung

Informationsarchitektur Beschreiben und Benennen

Beispielrelation Buchbestellungen H = Menge der bedeutenden Ziele = {a, d} Schwelle T = 4 Stichprobe S = {a, b, a, a, a, a} mit s = |S| = 6 N = Anzahl.

1 Grundlagen und Anwendung der Extensible Markup Language (XML ) Peter Buxmann Institut für Wirtschaftsinformatik Johann Wolfgang Goethe-Universität Frankfurt.

Rechneraufbau & Rechnerstrukturen, Folie 12.1 © W. Oberschelp, G. Vossen W. Oberschelp G. Vossen Kapitel 12.

Entitäten Extraktion Einführung

1. 2 Schreibprojekt Zeitung 3 Überblick 1. Vorstellung ComputerLernWerkstatt 2. Schreibprojekt: Zeitung 2.1 Konzeption des Kurses 2.2 Projektverlauf.

Bild 1.1 Copyright © Alfred Mertins | Signaltheorie, 2. Auflage Vieweg+Teubner PLUS Zusatzmaterialien Vieweg+Teubner Verlag | Wiesbaden.

GBI Genios Wiso wiso bietet Ihnen das umfassendste Angebot deutsch- und englischsprachiger Literatur für die Wirtschafts- und Sozialwissenschaften. Wir.

Syntaxanalyse Bottom-Up und LR(0)

Polynome und schnelle Fourier-Transformation

Analyse von Ablaufdiagrammen

Erfindervon Fuzzy Logic

Publikation auf Knopfdruck Judith Riegelnig Michael Grüebler 19. Oktober 2010 / Statistiktage Neuenburg.

Generalisiertes Vektorraummodell (Generalized Vector Space Model, GSVM) Karin Haenelt

Vorlesung Mai 2000 Konstruktion des Voronoi-Diagramms II

Symmetrische Blockchiffren DES – der Data Encryption Standard

PARTENARIAT ÉDUCATIF GRUNDTVIG PARTENARIAT ÉDUCATIF GRUNDTVIG REPERES KULTURELLER ZUSAMMENHALT UND AUSDEHNUNG DER IDEEN AUF EUROPÄISCHEM.

Das IT - Informationssystem

Zahlentheorie und Zahlenspiele Hartmut Menzer, Ingo Althöfer ISBN: © 2014 Oldenbourg Wissenschaftsverlag GmbH Abbildungsübersicht / List.

MINDREADER Ein magisch - interaktives Erlebnis mit ENZO PAOLO

SQL - Structured Query Language AIFB SS (1/9) Join-Operationen in SQL-92(1/9) Syntax einer Join-Operation: join-op := CROSS JOIN | [NATURAL]

1 (C)2006, Hermann Knoll, HTW Chur, FHO Quadratische Reste Definitionen: Quadratischer Rest Quadratwurzel Anwendungen.

Analyseprodukte numerischer Modelle

Using latent semantic analysis to find different names for the same entity in free text Präsentation und Diskussion des Papers Im Rahmen des PS Web-Information.

Schutzvermerk nach DIN 34 beachten 20/05/14 Seite 1 Grundlagen XSoft Lösung :Logische Grundschaltung IEC-Grundlagen und logische Verknüpfungen.

1 Albert-Ludwigs-Universität Freiburg Rechnernetze und Telematik Prof. Dr. Christian Schindelhauer Informatik III Christian Schindelhauer Wintersemester.

Ertragsteuern, 5. Auflage Christiana Djanani, Gernot Brähler, Christian Lösel, Andreas Krenzin © UVK Verlagsgesellschaft mbH, Konstanz und München 2012.

Information Retrieval, Vektorraummodell

Kompetenztraining Jura Martin Zwickel / Eva Julia Lohse / Matthias Schmid ISBN: © 2014 Walter de Gruyter GmbH, Berlin/Boston Abbildungsübersicht.

1 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt Wie.

Das IT - Informationssystem

1 Medienpädagogischer Forschungsverbund Südwest KIM-Studie 2014 Landesanstalt für Kommunikation Baden-Württemberg (LFK) Landeszentrale für Medien und Kommunikation.

Monatsbericht Ausgleichsenergiemarkt Gas – Oktober

ULG Library and Information Studies 2010/11, I2 Johanna Dusek.

5.1 5 Retrieval auf Bildern (.... in a nutshell)  Bedeutung.... ... im Zusammenhang mit Information Retrieval ... für Anwendungen Medizin: "Finde ähnliche.

Niko Zenker1 Besondere Aspekte in Multimedia-Datenbanken Methoden zur iterativen Anfrageverfeinerung (Relevanz Feedback)

Präsentation transkript:

Multilinguales Information Retrieval Ruprecht-Karls-Universität Heidelberg HS Information Retrieval WS 01/02 Ana Kovatcheva

14. Januar 2002 Ana Kovatcheva Multilinguales Information Retrieval 2 Inhalt Was versteht man unter MLIR Einige Abkürzungen und Definitionen Anwendungsgebiete und –Szenarien Der Anfang Die Basis-Konzepte Einige wichtige Projekte Resümee Literaturangaben

14. Januar 2002 Ana Kovatcheva Multilinguales Information Retrieval 3 Was versteht man unter MLIR ? Retrieval von Dokumenten, bei dem sich die Sprache der Anfrage (Query) von der Sprache der Dokumenten unterscheidet. Dabei geht es immer um natürliche Sprachen und um die ursprüngliche Form der Texte im Dokumentenpool.

14. Januar 2002 Ana Kovatcheva Multilinguales Information Retrieval 4 Was ist MLIR nicht ? Multilinguales Information Retrieval darf man nicht mit Suchmaschinen verwechseln, die eine mehrsprachige Eingabe erlauben und nur Texte in der Suchanfragesprache liefern. Dabei handelt es sich um monolinguale Systeme, die mit verschiedenen Dokumenten- Pools arbeiten.

14. Januar 2002 Ana Kovatcheva Multilinguales Information Retrieval 5 Abkürzungen & Definitionen MLIR – MultiLingual Information Retrieval = CLIR – Cross-Language Information Retrieval = TIR – Translingual Information Retrieval MT – Machine Translation ML – Machine Learning HMM – Hidden Markov Modelling

14. Januar 2002 Ana Kovatcheva Multilinguales Information Retrieval 6 Abkürzungen & Definitionen (II) VSM – Vector Space Model GVSM - Generalized Vector Space Model PRF – Pseudo Relevance Feedback EBT – Example-Based Term Substitution LSI – Latent Semantic Indexing SVD – Singular Value Decomposition TREC – Text Retrieval Conference

14. Januar 2002 Ana Kovatcheva Multilinguales Information Retrieval 7 Anwendungsgebiete Dokumentenpool mit verschiedenen Dokumenten in verschiedenen Sprachen Pool mit identischen Dokumenten in mehreren Sprachen Beispiele für Variationen Technische Dokumentation, in der oft englischer Jargon verwendet wird Wissenschaftliche Arbeiten mit Beispielen in anderen Sprachen

14. Januar 2002 Ana Kovatcheva Multilinguales Information Retrieval 8 Anwendungsszenarien Der Benutzer besitzt nur Lesekenntnisse – beherrscht die Sprache nur passiv, ist aber im Stande Gebrauch von den Texten zu machen Der User beherrscht die Sprache nicht: Recherche in Bilder- oder Musik-Datenpools Recherche nach Personen, Institutionen, Forschungsgebiete Vorauswahl von Dokumenten, die an einem Übersetzer weitergeleitet werden

14. Januar 2002 Ana Kovatcheva Multilinguales Information Retrieval 9 Der Anfang 1964 IRRD (International Road Research Documentation) 1969 SMART – Gerhard Salton at Cornell Vector Space Ranked Text Retrieval System Übersetzung von einem Teil der Wörter in einer existierenden Konzept-Liste ins Deutsche Salton stellt fest: Die CLIR-Effektivität variiert in verschiedenen Dokumentenpools CLIR ist fast so effektiv, wie monolinguales IR Es ist wichtig, vollständigere Thesauri zu entwickeln

14. Januar 2002 Ana Kovatcheva Multilinguales Information Retrieval 10 Der Anfang (II) 1970 Pevzner – das russische System PNP-2 exact match controlled vacabulary text retrieval system 1971 Verlangen nach einem Standart für Entwicklung von multilingualen Thesauri 1971 Beginn der Entwicklung im Auftrag von UNESCO Spezifikation bei ISO 1978 ISO 5964 in USA 1982 GOST in Russland

14. Januar 2002 Ana Kovatcheva Multilinguales Information Retrieval 11 Der Anfang (III) Beispiel für IS0 5964: EUROVOC – Thesaurus in allen neun Sprachen der EU plus einige andere Sehr kostenintensiv, deckt nur einige Domänen 1975 Bollmann und Konrad die ersten Techniken zum Generieren von multilingualen Thesauri von monolingualen 1988 Kitano (NEC) – generiert einen Japanisch-Deutsch Thesaurus mit einem dafür entwickelten Prozessor ISSP – Intelligent String Search Processor

14. Januar 2002 Ana Kovatcheva Multilinguales Information Retrieval 12 Schlüsselfaktoren bei der Entwicklung Bei den Evaluierungen der ersten CLIR- Systemen, spielte folgendes eine große Rolle: Kosten - Thesauri-Entwicklung ist teuer; domäneabhängige Theasari sind nicht skalierbar Der Nutzenfaktor bei unerfahrenen Benutzern ist sehr gering - paraphrase problem Daher ist Die Effektivität auch gering Eins, der größten Probleme: einzelne Terme in einer Sprache entsprechen komplexen booleschen Ausdrücken in einer anderen.

14. Januar 2002 Ana Kovatcheva Multilinguales Information Retrieval 13 Die Basiskonzepte Grobe Unterteilung zwischen: MT-orientierte CLIR Systemen Übersetzt werden entweder die Queries, oder Die Dokumente CLIR Systemen, die multilinguale Thesauri verwenden Systeme, die auf gesteuerten Vokabularen basieren (controlled vocabulary) Konzeptbasiertes CLIR Korpus-orientierte CLIR Systemen VSM, ML, HMM, LSI

14. Januar 2002 Ana Kovatcheva Multilinguales Information Retrieval 14 MT-Methoden in CLIR Gebraucht wird ein vollautomatisches MT- System, das entweder das Query (q) oder das Dokument (d) in einen einsprachigen Repräsentationsraum (D) liefert. Wissenschaftlicher Streit: manche Forscher behaupten, dass MT-basiertes CLIR eigentlich auf monolinguales IR reduziert ist.

14. Januar 2002 Ana Kovatcheva Multilinguales Information Retrieval 15 MT – Pro- und Contraargumente Genauigkeit der Übersetzung Queries sind oft einzelne Wörter ohne Kontext: d.h sie können nie richtig übersetzt werden Maschinelle Übersetzung von Dokumenten ist akkurater angesichts der Menge der Information Genauigkeit des Retrieval MT von Dokumenten > MT von Queries In der Praxis ist MT unmöglich für offene Domänen MT ist ressourcenhungrig Das Reindizieren ist sehr aufwändig

14. Januar 2002 Ana Kovatcheva Multilinguales Information Retrieval 16 Multilinguale Thesauri Ein multilinguales Thesaurus ist in dem Sinne ein Werkzeug, was organisiertes Wissen beinhaltet – eine spezialisierte Ontologie, die mehrsprachige Terminologie organisiert. Zum Beispiel: Computerlinguistische Lexika mit syntaktischer und semantischer Information, aber auch Simple bilinguale Listen, die exakte Übersetzungen von Termen enthalten

14. Januar 2002 Ana Kovatcheva Multilinguales Information Retrieval 17 Multilinguale Thesauri (II) Zwei Arten der Benutzung: Manuell: bei s.g gesteuerten Vokabulare wird jedes Konzept mit einer eindeutigen Beschreibung versehen Automatisch: wenn, die im Thesaurus kodierten Relationen, voll automatisch benutzt werden, wird die Technik Concept Retrieval genannt

14. Januar 2002 Ana Kovatcheva Multilinguales Information Retrieval 18 Gesteuerte Vokabulare Nachteile: Sehr teuer, da in so einem System jedem Dokument händisch die zugehörigen Konzepte zugewiesen werden müssen. Controlled Vocabulary Systems werden nur in beschränkten Domänen benutzt. Schwer skalierbar Schwer zu bedienen für unerfahrene Benutzer Vorteile: Sehr produktiv z.B in Bibliotheken, bei sich gut auskennenden Usern

14. Januar 2002 Ana Kovatcheva Multilinguales Information Retrieval 19 Konzept Retrieval Einfache Möglichkeit: Concept Substitution: Mit Hilfe einer Konzeptliste ersetzt man die einzelnen Terme mit den zugehörigen Konzeptklassen Komplizierter und effektiver Query Expansion: man benutzt die Konzeptrelationen im Thesaurus. Um den Query zu erweitern

14. Januar 2002 Ana Kovatcheva Multilinguales Information Retrieval 20 Korpusbasierte Techniken Die Alternative zu der Benutzung von Thesauri ist, dass man direkt statistische Information über die Terme gewinnt, indem man parallele Korpora benutzt. Zur Erinnerung: Inverse Dokument-Frequenz Term-Frequenz und inverse Dokument-Frequenz

14. Januar 2002 Ana Kovatcheva Multilinguales Information Retrieval 21 Korpusbasierte Techniken (II) Zwei Techniken für Automatisches Generieren von Korpora Lin and Chen an der University of Arizona Benutzen ML für die Konstruktion eines Chinesisch-Englischen Thesaurus mit Hilfe von Neuronalen Netzen Entwickelt von van der Eijk von DEC 1000 dänisch-englische Satzpaare Identifizierung von Nominalphrasen mit Hilfe von einem einfachen Parser und einen POS-Tagger Ausrechnen von Wahrscheinlichkeiten für jedes Term und seinen potentiellen Übersetzungen

14. Januar 2002 Ana Kovatcheva Multilinguales Information Retrieval 22 Term Vector Translation Es geht im wesentlichen um Techniken, die Sätze von tfidf Termgewichtungen vergleichen Relevance Feedback (RF) Pseudo Relevance Feedback (PRF) Vector Space Model (VSM) Generalized Vector Space Model (GVSM) Latent Semantic Indexing (LSI) All diese Techniken sind Varianten von dem VSM von Salton

14. Januar 2002 Ana Kovatcheva Multilinguales Information Retrieval 23 Pseudo Relevance Feedback RF ist im wesentlichen Query Expansion Der User spielt Juror; bei ihm liegt die Entscheidung, ob ein Dokument relevant ist oder nicht. Die Entscheidungen werden für die Query Expansion benutzt und dienen der weiteren Suche. Pseudo Relevance Feedback Ein Teil der (best-rangierten)Dokumente, wird als relevant vorbestimmt und automatisch (ohne Nachfrage beim Benutzer) für das weitere Suchen benutzt.

14. Januar 2002 Ana Kovatcheva Multilinguales Information Retrieval 24 PRF für CLIR Die Adaption von PRF für MLIR ist relativ einfach, wenn ein bilinguales Korpus vorhanden ist Die einzelnen Schritte: Finden der top-ranking Dokumente für eine Anfrage in der Ausgangssprache Substituieren der entsprechenden Dokumente in der Zielsprache Benutzen dieser Dokumente, um das entsprechende Query in der Zielsprache zu formulieren

14. Januar 2002 Ana Kovatcheva Multilinguales Information Retrieval 25 Generalized Vector Space Model GVSM vs. VSM Kritik an VSM: Benutzung von Termen als orthogonale Basis für den Vektorraum – Terme sind nicht immer semantisch unabhängig. Die Grundidee bei GVSM ist die Benutzung von Dokumenten, anstatt Terme, als Basis für die Repräsentation der Terme.

14. Januar 2002 Ana Kovatcheva Multilinguales Information Retrieval 26 GVSM monolingual Die Dokumentenmatrix m - Größe des K. ist das Trainingkorpus n - Zahl der Dok. Die Dokumente sind die Spalten Die Terme sind die Zeilen Jeder Zeilen-Vektor repräsentiert die Häufigkeit mit der ein Term im Korpus auftaucht Das Retrieval für GVSM ist definiert als:

14. Januar 2002 Ana Kovatcheva Multilinguales Information Retrieval 27 GVSM multilingual Bilinguales Training-Korpus - zwei Matrizen: A ist die Matrix für die Ausgangssprache B ist die Matrix für die Zielsprache Die aufeinanderzeigende Kolumnen in den Matrizen bilden die Dokumentpaare A wird für Query-Transformation und B für die Zielsprache-Dokument-Transformation Das Retrieval für MLGVSM ist definiert als:

14. Januar 2002 Ana Kovatcheva Multilinguales Information Retrieval 28 Latent Semantic Indexing Motivation weder Terme noch Dokumente sind optimal für die Bildung des semantischen Raums Standartmethoden scheitern bei relevanten Dokumenten, die keine, in die Query eingegebene Wörter enthalten, auch wenn der Kontext relevant ist Wörter werden nicht voneinander unabhängig und zufällig verwendet: sie stehen in impliziten Abhängigkeiten (latent semantics) zueinander

14. Januar 2002 Ana Kovatcheva Multilinguales Information Retrieval 29 LSI (II) Behauptung: Term-zu-Term Relationen können automatisch modelliert werden Sehr sinnvoll für CLIR, da bei verschieden Sprachen direktes term matching nicht möglich ist LSI untersucht die Ähnlichkeit der Kontexte und kreiert eine Repräsentation, in der Wörter, die im selben Kontext auftauchen, nahe beieinander liegen. (ein sinnvoll reduzierter Vektorraum)

14. Januar 2002 Ana Kovatcheva Multilinguales Information Retrieval 30 LSI (II) LSI funktioniert rein numerisch Es werden keine Externe Thesauri Dictionaries, oder Wissen gebraucht Verwendet wird ein Verfahren der linearen Algebra Singular-Value-Decomposition (SVD)

14. Januar 2002 Ana Kovatcheva Multilinguales Information Retrieval 31 Kurzer Ausflug in SVD Die Methode der SVD kommt aus der linearen Algebra und ist mit der Eigenvektor Decomposition verwandt SVD wird in der digitalen Signalverarbeitung eingesetzt um signifikante, oft sinusförmige Signalanteile, in einem verrauschten Eingangssignal zu finden, oder um die komplexität digitaler Filter zu reduzieren. Bei LSI trifft beides zu

14. Januar 2002 Ana Kovatcheva Multilinguales Information Retrieval 32 Translingual LSI ist die Matrix der bilingualen Dokumentenpaare A und B sind definiert wie bei GVSM sind die Matrizen des SVD Das Retrieval für LSI ist definiert als:

14. Januar 2002 Ana Kovatcheva Multilinguales Information Retrieval 33 Vor- und Nachteile von LSI Vorteile: Berücksichtigung von Kontext und Bedeutung Anfragen in jeder Länge (auch ein ganzes Dokument) möglich Multilingualität ohne Übersetzung Nachteile: Probleme mit Mehrdeutigkeiten (Polysemen) Zu aufwendig für grössere Dokumentenpools, daher nur für eingeschrenkte Domänen (Mengen) anwendbar

14. Januar 2002 Ana Kovatcheva Multilinguales Information Retrieval 34 Evaluierung Die Evaluierungsdaten sind von dem Paper Translingual Information Retrieval: A Comparative Evaluation, s. Literaturhinweise UN Multilingual Corpus von dem Linguistic Data Consortium 2255 Dokumentenpaare (UNICEF Reports): englische Dokumente und deren spanischen Übersetzungen Training- und Testdaten in beiden Sprachen betragen insgesamt 2 Millionen Wörter

14. Januar 2002 Ana Kovatcheva Multilinguales Information Retrieval 35 Evaluierung (II) 30 Queries auf Englisch Jede Methode wird trainiert Alle Tests werden getrennt multilingual und monolingual durchgeführt Alle Systeme wurden manuell optimiert 11-Pt. Precision (TREC-Standards)

14. Januar 2002 Ana Kovatcheva Multilinguales Information Retrieval 36 Evaluierungsergebnisse SiteMethodMonolingual IRTIRTIR/MIR CMUDict Q-tran.4721 SMART % CMUEBT Q-tran.4721 SMART % CMUPRF Q-exp % CMUGVSM QD-tran % CMULSI QD-tran % UMASSCorpus-Phrase % ETHLSI thes Q-exp % (LSI thes +RF)??(68%) XEROXDict Q-tran % NMSUDict Q-tran??40-50%

14. Januar 2002 Ana Kovatcheva Multilinguales Information Retrieval 37 Einige wichtige Projekte in CLIR MULINEX – DFKI Eine Suchmaschine fürs WWW Deutsch, Englisch, FranzösischMULINEX ERIC - The Educational Resources Information CenterERIC Spanische und deutsche Q für englische Texte; die Texte werden nach dem Retrieval übersetzt LIRIX - Xerox Research Center Europe (XRCE)LIRIX Französische und englische D mit englischen Q IS-Russia – controlled vocabulary SystemIS-Russia Russische Dokumente mit englischen Queries MTIR – chinesische Q und englische D (werden ins Chinesische übersetzt)MTIR MUNDIAL – Queries in Englisch und SpanischMUNDIAL MuST-Multilingual Summarization and TranslationMuST Englische Queries zum Suchen von indonesische, spanischen, arabischen und japanischen Dokumente

14. Januar 2002 Ana Kovatcheva Multilinguales Information Retrieval 38 Literatur Douglas W. Oard, Bonnie J. Dorr A Survey of Multilingual Text Retrieval. University of Maryland. Christian Fluhr Multilingual Information Retrieval. In Survey of the State of Natural Language Processing, pages Carbonell, Jaime G.;Yang, Yiming; Frederking, Robert E.; Brown, Ralf D.; Geng, Yibing; Lee, Danny. Translingual Information Retrieval: A Comparative Evaluation. Language Technologies Institute, Carnegie Mellon University. Gregor Erbach, Günter Neumann, Hans Uskoreit. MULINEX, Multilingual Indexing, Navigation and Editing Extensions for the World-Wide-Web. Project Note. DFKI GmbH Michael L. Littman, Susan T. Dumais, Thomas K. Landauer Automatic Cross-Language Information Retrieval usin Latent Semantic Indexing

14. Januar 2002 Ana Kovatcheva Multilinguales Information Retrieval 39 Literatur (II) Evans, D.A., Handerson, S.K., Monarch, I.A., Pereiro, J., Delon, L., Hersch, W.R Mapping Vocabularies Using Latenet Semantic Indexing. In: Grefenstette G. – Cross-language Information Retrieval, Kluwer Academic Publishers, Boston, Dordrecht, London, pp Ralf D. Brown. Automatically-Extracted Thesauri for Croll-Language IR: When Better is Worse. Language Technology Institute. Carnegie Mellon University. Frederic C. Gey and Hailing Jiang. Englich-German Cross-Language Retrieval for the GIRT Collection – Exploiting a Multilingual Thesaurus. (UC DATA), University of California, Berkley. Martin Franz, J Scott McCarley, Salim Roukos Ad hoc and Multilingual Information Retrieval at IBM. IBM T. J. Watson Research Center. Jinxi Xu and Ralph Weischedel TREC-9 Cross-lingual Retrieval at BBN. BBN Technologies. Douglas W. Oard Serving Users in Many Languages – Cross-Language Information Retrieval for Digital Libraries. D-Lib Magazine. ISSN

14. Januar 2002 Ana Kovatcheva Multilinguales Information Retrieval 40 Literatur (III) Martin Braschler, Carol Peters, Peter Schäuble. CLIR Track Overview. Eurospider Information Tech AG, Zürich; Instituto Elaborazione Informazione (CNR):Piza Atsushi Fujii and Tetsuya Ishikawa. Cross-Language Information Retrieval for Technica Documents. University of Library and Information Science, Tsukuba, Japan. Frederic Gay and Atio Chen. TREC-9 Cross-Language Information Retrieval (Englich-Chinese) Overview. University of California, Berkley

14. Januar 2002 Ana Kovatcheva Multilinguales Information Retrieval 41 Online Highlights Research Ressources in CLIR (Douglas Oard) NEC Research Index in Language Processing (die beste Quelle für CLIR-Papers) Die Webseiten der einzelnen Projekte (verlinkt auf Folie 35)

14. Januar 2002 Ana Kovatcheva Multilinguales Information Retrieval the end... ENDE Ana Kovatcheva Department of Computational Linguistics University of Heidelberg January 2002