KOKS - Präsentation Korpusbasierte Kollokationssuche Studienprojekt: KOKS WS2000-SS2001 Britta Koch KOKS - Präsentation Korpusbasierte Kollokationssuche
Studienprojekt KOKS Computerlinguistik und Künstliche Intelligenz Studienprojekt: KOKS WS2000-SS2001 Britta Koch 1/3 Studienprojekt KOKS im Rahmen des Studiengangs Computerlinguistik und Künstliche Intelligenz Dauer: ein Jahr
Studienprojekt KOKS Teilnehmer: beratend beteiligt: Arno Erpenbeck Studienprojekt: KOKS WS2000-SS2001 Britta Koch 2/3 Studienprojekt KOKS Teilnehmer: Arno Erpenbeck Britta Koch Norman Kummer Philip Reuter Patrick Tschorn Joachim Wagner beratend beteiligt: Helmar Gust Petra Ludewig
Programm der Präsentation Studienprojekt: KOKS WS2000-SS2001 Britta Koch 3/3 Programm der Präsentation 1. Motivation 2. Inhaltliche Grundlagen 3. Funktionalität 4. Demo-Applikation Pause 5. Architektur 6. Arbeitsplan 7. Ausblick 8. Diskussion
Studienprojekt: KOKS WS2000-SS2001 Patrick Tschorn 1. Motivation
Motivation Eine verbreitete Annahme: Studienprojekt: KOKS WS2000-SS2001 Patrick Tschorn 1/7 Motivation Eine verbreitete Annahme: Die Bedeutung von Sätzen läßt sich kompositionell aus den Bedeutungen der einzelnen Wörter ablesen. Ich habe einen Bekannten besucht und bin nach Hause gefahren.
Studienprojekt: KOKS WS2000-SS2001 Patrick Tschorn 2/7 Motivation Aber: Der Hund meines Bekannten hat ins Gras gebissen. Das kompositionelle Vorgehen scheitert. Trotzdem ist jedem die Bedeutung klar. Halt! Nicht-Muttersprachlern kann dieser Satz erhebliche Verständnisprobleme bereiten.
Motivation Beispiele: Studienprojekt: KOKS WS2000-SS2001 Patrick Tschorn 3/7 Motivation Beispiele: The man who used to clean the walls at the factory kicked the bucket last week. I screwed things up. She got her feet wet. Mabel has a bun in the oven. Brian was pie eyed when we got to the party.
Motivation Das Projektziel: Erstellung eines Tools, das: Studienprojekt: KOKS WS2000-SS2001 Patrick Tschorn 4/7 Motivation Das Projektziel: Erstellung eines Tools, das: nicht kompositionell erschließbare Sätze erkennt z.B. passende Verständnishilfen anbietet
Motivation Probleme: Weltwissen tiefe linguistische Analyse Semantik Studienprojekt: KOKS WS2000-SS2001 Patrick Tschorn 5/7 Motivation Probleme: Weltwissen tiefe linguistische Analyse Semantik
Motivation Unser Ansatz stützt sich auf: vorhandene Wörterbücher Studienprojekt: KOKS WS2000-SS2001 Patrick Tschorn 6/7 Motivation Unser Ansatz stützt sich auf: vorhandene Wörterbücher in mehreren Sprachen vorliegende Texte Die Übersetzungen einer Phrase spielen dabei die Rolle der Semantik.
Studienprojekt: KOKS WS2000-SS2001 Patrick Tschorn 7/7 Motivation Beispiel:
2. Inhaltliche Grundlagen Studienprojekt: KOKS WS2000-SS2001 Philip Reuter 2. Inhaltliche Grundlagen
Inhaltliche Grundlagen Studienprojekt: KOKS WS2000-SS2001 Philip Reuter 1/10 Inhaltliche Grundlagen Kollokation Paralleler Korpus Alignment
Inhaltliche Grundlagen Studienprojekt: KOKS WS2000-SS2001 Philip Reuter 2/10 Inhaltliche Grundlagen Beispiele (1) Leider ist die Party ins Wasser gefallen. Hans hat an Maria einen Narren gefressen. Du gehst mir ganz schön auf den Wecker! Peter ist ein starker Raucher. Hans ist ein guter Esser.
Inhaltliche Grundlagen Studienprojekt: KOKS WS2000-SS2001 Philip Reuter 3/10 Inhaltliche Grundlagen Beispiele (2) Der Kanzler hielt auf dem Gewerkschaftertreffen neine bemerkenswerte Rede. Wir warten lieber, bis sein Zorn verraucht ist. Du solltest mal deine Schuhe zumachen. Hast Du schon Deine Zähne geputzt?
Inhaltliche Grundlagen Studienprojekt: KOKS WS2000-SS2001 Philip Reuter 4/10 Inhaltliche Grundlagen Das Phänomen "Kollokation“ Kombinationen von zwei oder mehr Wörtern betrachten irgendwo zwischen "freier Kombination“ und "Idiom“ freie Kombination: Bestandteile beliebig austauschbar, erweiterbar Beispiel: Am Bahnhof wird ein Parkhaus gebaut. Idiom: sehr starre Kombination, nicht erweiterbar Beispiel: Hans hat an Maria einen Narren gefressen.
Inhaltliche Grundlagen Studienprojekt: KOKS WS2000-SS2001 Philip Reuter 5/10 Inhaltliche Grundlagen Definitionsmöglichkeiten semantisch: Kombination durch Bedeutungsverwandschaft Beispiel: Hund und bellen syntaktisch: bestimmte syntaktische Kombinationen Beispiel: V+N: Politik betreiben Adj+N: ein schwerer Unfall V+Adv: verbissen kämpfen statistisch: Häufigkeitskriterien als Indikator
Inhaltliche Grundlagen Studienprojekt: KOKS WS2000-SS2001 Philip Reuter 6/10 Inhaltliche Grundlagen Zum statistischen Kollokationsbegriff Idee: Kollokationspartner häufig mit bestimmten Wörtern kombiniert oft gefiltert durch Kriterium der syntaktischen Wohlgeformtheit Problem: Häufigkeitskriterium nicht adäquat Beispiel: Kollokationen mit Angst: 90% Angst haben 3% Angst bekommen einmal Angst bekämpfen
Inhaltliche Grundlagen Studienprojekt: KOKS WS2000-SS2001 Philip Reuter 7/10 Inhaltliche Grundlagen Unser Kollokationsverständnis Kollokationsbegriff von Breidt: „... collocations shall refer only to word combinations with a lexically (rather than syntactically or semantically) restricted combinatory potential, where at least one component has a special meaning that it cannot have in a free syntagmatic construction.“ schließt Fälle wie Schuhe zumachen oder Zähne putzen aus Arbeitsdefinition, keine starre Vorgabe
Inhaltliche Grundlagen Studienprojekt: KOKS WS2000-SS2001 Philip Reuter 8/10 Inhaltliche Grundlagen Paralleler Korpus Korpus: Menge von Texten parallel: Texte liegen in zwei oder mehr Sprachen übersetzt vor Beispiele: Geschäftsberichte international agierender Unternehmen EU-Dokumente (in bis zu 11 Sprachen) Äquivalenzwörterbücher als Spezialfall
Inhaltliche Grundlagen Studienprojekt: KOKS WS2000-SS2001 Philip Reuter 8/10 Inhaltliche Grundlagen Beispiel
Inhaltliche Grundlagen Studienprojekt: KOKS WS2000-SS2001 Philip Reuter 10/10 Inhaltliche Grundlagen Alignment Korrespondenz zwischen Einheiten paralleler Texte herstellen Unterteilung in Absatzalignment Satzalignment Wortalignment Wortalignment: schwer zu realisieren hilfreich zur Identifikation von Kollokationen
Studienprojekt: KOKS WS2000-SS2001 Arno Erpenbeck 3. Funktionalität
Funktionalität Generelle Ziele Das KOKS-System soll: Studienprojekt: KOKS WS2000-SS2001 Arno Erpenbeck 1/6 Funktionalität Generelle Ziele Das KOKS-System soll: Kollokationen in Texten auffinden und erkennen Information über Verwendung/Bedeutung von Kollokationen sammeln Ergebnisse auswerten und aufbereiten intelligenten Zugriff auf die Datenbestände ermöglichen eine Auswahl dieser Information dem Benutzer präsentieren
Funktionalität Schwerpunkte Aufbau eines Kollokationslexikons Studienprojekt: KOKS WS2000-SS2001 Arno Erpenbeck 2/6 Funktionalität Schwerpunkte Aufbau eines Kollokationslexikons intelligente Zugriffsmöglichkeiten
Funktionalität Kollokationen finden & erkennen Studienprojekt: KOKS WS2000-SS2001 Arno Erpenbeck 3/6 Funktionalität Kollokationen finden & erkennen natürlichsprachliche Texte als Eingabe Suche in vorgegebenen Teilbereichen Einsatz von Standard-CL-Methoden Nutzung vorhandenen Wissens des Systems über Kollokationen Test und Bewertung von Kollokationskandidaten
Funktionalität Information sammeln & verwalten Studienprojekt: KOKS WS2000-SS2001 Arno Erpenbeck 4/6 Funktionalität Information sammeln & verwalten Erstellung einer Kollokationsdatenbank initialer Aufbau der Datenbank mit kanonischen Formen Datenbasis: zweisprachige (parallele) Korpora Wissen über Kollokationen aufbauen Re-Analyse des vorhandenen Datenbestands Herkunftsinformationen speichern
Funktionalität Intelligenter Zugriff große Datenbestände (Korpora) Studienprojekt: KOKS WS2000-SS2001 Arno Erpenbeck 5/6 Funktionalität Intelligenter Zugriff große Datenbestände (Korpora) Toleranz/Robustheit bei Abweichungen/Variationen „Kollokationen zerstörende“ Abweichungen Verwendung von bekannten Teilanalysen Belege aus parallelen Korpora lokale Applikation, Web-basiert
Funktionalität Ergebnisse selektieren & präsentieren Studienprojekt: KOKS WS2000-SS2001 Arno Erpenbeck 6/6 Funktionalität Ergebnisse selektieren & präsentieren Auswahl und Präsentation der Ergebnisse quantitative Daten Übersetzungsvorschläge Bedeutungserklärungen Verwendungsweise von Kollokationen
Studienprojekt: KOKS WS2000-SS2001 Norman Kummer 4. Demo-Applikation
Studienprojekt: KOKS WS2000-SS2001 Norman Kummer 1/1
Studienprojekt: KOKS WS2000-SS2001 Britta Koch Pause
Studienprojekt: KOKS WS2000-SS2001 Norman Kummer 5. Architektur
Architektur Notwendige Funktionen: größtenteils Standardwerkzeuge Studienprojekt: KOKS WS2000-SS2001 Norman Kummer 1/4 Architektur . Notwendige Funktionen: Alignment POS-Tagger Lemmatisierung Morphologie Phrasenzuordnung Intelligenter Lexikonzugriff größtenteils Standardwerkzeuge
Architektur 2 Anwendungsfälle der Module: . Studienprojekt: KOKS WS2000-SS2001 Norman Kummer 2/4 Architektur . 2 Anwendungsfälle der Module: Lexikon aufbauen & erweitern Kollokationserkennung (intelligenter Lexikonzugriff)
Architektur Lexikon aufbauen & erweitern . . . . . . . . . . . . . . . Studienprojekt: KOKS WS2000-SS2001 Norman Kummer 3/4 Architektur . . . . . . . . . . . . . . . Lexikon aufbauen & erweitern Datenquellen: Parallele Korpora - zweisprachig Funktion: - Textmaterial - liefern: Satzpaare Referenzbeispiele Datenquellen: Wörterbücher Äquivalenz~ einsprachige~ Dictionary-Entry-Parser Funktion: - extrahiert Phrasen-/ Wortpaare Normalisierung Funktion: - bringt Textressourcen in einheitliche Form (z.B. HTML, Plaintext) benötigte Informationen - abgeglichene Sätze - - Wortarten - - Stammformen - - Flexionsmorphologie - benötigte Informationen - abgeglichene Sätze - - Wortarten - - Stammformen - - Flexionsmorphologie - benötigte Informationen - abgeglichene Sätze - - Wortarten - - Stammformen - - Flexionsmorphologie - benötigte Informationen - abgeglichene Sätze - - Wortarten - - Stammformen - - Flexionsmorphologie - benötigte Informationen - abgeglichene Sätze - - Wortarten - - Stammformen - - Flexionsmorphologie - Phrasenzuordnung Funktion: - extrahiert Phrasen - bringt Phrasen in „lexikontaugliche“ Form Komplexitätssortierung Funktion: - sortiert Phrasen / Sätze nach Komplexität (z.B.Länge) Lexikon Funktion: - Datenhaltung (DB) - neue Phrasenpaare integrieren
Architektur Kollokationserkennung . . . . . . . . . . . Studienprojekt: KOKS WS2000-SS2001 Norman Kummer 4/4 Architektur . . . . . . . . . . . Kollokationserkennung (intelligenter Lexikonzugriff) Nutzer versteht den Sinn dieses Satzes nicht. ... und klickt „fällt“ an Intelligenter-Lexikon-Zugriff Funktion: - Anfrage an Lexikon mit analysiertem Satz - Lexikon liefert: kanonische Kollokationsform „ins Wasser fallen“ Referenzsätze
Studienprojekt: KOKS WS2000-SS2001 Joachim Wagner 6. Arbeitsplan
Arbeitsplan Erste Projektphase Studienprojekt: KOKS WS2000-SS2001 Joachim Wagner 1/2 Arbeitsplan Erste Projektphase
Arbeitsplan Zweite Projektphase Studienprojekt: KOKS WS2000-SS2001 Joachim Wagner 2/2 Arbeitsplan Zweite Projektphase
Studienprojekt: KOKS WS2000-SS2001 Britta Koch 7. Ausblick
Ausblick Zusammenfassung: Korpusbasierte Kollokationssuche . Studienprojekt: KOKS WS2000-SS2001 Britta Koch 1/2 Ausblick . Zusammenfassung: Korpusbasierte Kollokationssuche Erstellung eines Kollokationslexikons Intelligenter Zugriff
Ausblick Anwendungsmöglichkeiten . eigenständiges Lexikon Studienprojekt: KOKS WS2000-SS2001 Britta Koch 2/2 Ausblick . Anwendungsmöglichkeiten eigenständiges Lexikon Thesaurus für Kollokationen CALL (Computer Aided Language Learning): Add-In für eine Textverarbeitung Lückentexte Hinweis auf „schiefe“ Kollokationen
Studienprojekt: KOKS WS2000-SS2001 Britta Koch 8. Diskussion
Studienprojekt Koks Postanschrift: Webseite: Studienprojekt: KOKS WS2000-SS2001 Joachim Wagner 1/1 Studienprojekt Koks Postanschrift: Institut für Semantische Informationsverarbeitung Studienprojekt Koks Katharinenstraße 24 49078 Osnabrück Webseite: http://www.cl-ki.uni-osnabrueck.de/~koks/
Studienprojekt Koks Postanschrift: Webseite: Studienprojekt: KOKS WS2000-SS2001 Joachim Wagner 1/1 Studienprojekt Koks Postanschrift: Institut für Semantische Informationsverarbeitung Studienprojekt Koks Katharinenstraße 24 49078 Osnabrück Webseite: http://www.cl-ki.uni-osnabrueck.de/~koks/