Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

KOKS - Präsentation Studienprojekt: KOKS WS2000-SS2001 Britta Koch Korpusbasierte Kollokationssuche.

Ähnliche Präsentationen


Präsentation zum Thema: "KOKS - Präsentation Studienprojekt: KOKS WS2000-SS2001 Britta Koch Korpusbasierte Kollokationssuche."—  Präsentation transkript:

1 KOKS - Präsentation Studienprojekt: KOKS WS2000-SS2001 Britta Koch Korpusbasierte Kollokationssuche

2 Studienprojekt KOKS Studienprojekt: KOKS WS2000-SS2001 Britta Koch 1/3 im Rahmen des Studiengangs Computerlinguistik und Künstliche Intelligenz Dauer: ein Jahr

3 Studienprojekt KOKS Studienprojekt: KOKS WS2000-SS2001 Britta Koch 2/3 Teilnehmer: Arno Erpenbeck Britta Koch Norman Kummer Philip Reuter Patrick Tschorn Joachim Wagner beratend beteiligt: Helmar Gust Petra Ludewig

4 Programm der Präsentation Studienprojekt: KOKS WS2000-SS2001 Britta Koch 3/3 1. Motivation 2. Inhaltliche Grundlagen 3. Funktionalität 4. Demo-Applikation Pause 5. Architektur 6. Arbeitsplan 7. Ausblick 8. Diskussion

5 1. Motivation Studienprojekt: KOKS WS2000-SS2001 Patrick Tschorn

6 Motivation Studienprojekt: KOKS WS2000-SS2001 Patrick Tschorn 1/7 Eine verbreitete Annahme: Die Bedeutung von Sätzen läßt sich kompositionell aus den Bedeutungen der einzelnen Wörter ablesen. Ich habe einen Bekannten besucht und bin nach Hause gefahren.

7 Motivation Studienprojekt: KOKS WS2000-SS2001 Patrick Tschorn 2/7 Aber: Der Hund meines Bekannten hat ins Gras gebissen. Das kompositionelle Vorgehen scheitert. Trotzdem ist jedem die Bedeutung klar. Halt! Nicht-Muttersprachlern kann dieser Satz erhebliche Verständnisprobleme bereiten.

8 Motivation Studienprojekt: KOKS WS2000-SS2001 Patrick Tschorn 3/7 Beispiele: The man who used to clean the walls at the factory kicked the bucket last week. I screwed things up. She got her feet wet. Mabel has a bun in the oven. Brian was pie eyed when we got to the party.

9 Motivation Studienprojekt: KOKS WS2000-SS2001 Patrick Tschorn 4/7 Das Projektziel: Erstellung eines Tools, das: nicht kompositionell erschließbare Sätze erkennt z.B. passende Verständnishilfen anbietet

10 Motivation Studienprojekt: KOKS WS2000-SS2001 Patrick Tschorn 5/7 Probleme: Weltwissen tiefe linguistische Analyse Semantik

11 Motivation Studienprojekt: KOKS WS2000-SS2001 Patrick Tschorn 6/7 Unser Ansatz stützt sich auf: vorhandene Wörterbücher in mehreren Sprachen vorliegende Texte Die Übersetzungen einer Phrase spielen dabei die Rolle der Semantik.

12 Motivation Studienprojekt: KOKS WS2000-SS2001 Patrick Tschorn 7/7 Beispiel:

13 2. Inhaltliche Grundlagen Studienprojekt: KOKS WS2000-SS2001 Philip Reuter

14 Inhaltliche Grundlagen Studienprojekt: KOKS WS2000-SS2001 Philip Reuter 1/10 Kollokation Paralleler Korpus Alignment

15 Inhaltliche Grundlagen Studienprojekt: KOKS WS2000-SS2001 Philip Reuter 2/10 Beispiele (1) Leider ist die Party ins Wasser gefallen. Hans hat an Maria einen Narren gefressen. Du gehst mir ganz schön auf den Wecker! Peter ist ein starker Raucher. Hans ist ein guter Esser.

16 Inhaltliche Grundlagen Studienprojekt: KOKS WS2000-SS2001 Philip Reuter 3/10 Beispiele (2) Der Kanzler hielt auf dem Gewerkschaftertreffen neine bemerkenswerte Rede. Wir warten lieber, bis sein Zorn verraucht ist. Du solltest mal deine Schuhe zumachen. Hast Du schon Deine Zähne geputzt?

17 Inhaltliche Grundlagen Studienprojekt: KOKS WS2000-SS2001 Philip Reuter 4/10 Das Phänomen "Kollokation Kombinationen von zwei oder mehr Wörtern betrachten irgendwo zwischen "freier Kombination und "Idiom freie Kombination: Bestandteile beliebig austauschbar, erweiterbar Beispiel: Am Bahnhof wird ein Parkhaus gebaut. Idiom: sehr starre Kombination, nicht erweiterbar Beispiel: Hans hat an Maria einen Narren gefressen.

18 Inhaltliche Grundlagen Studienprojekt: KOKS WS2000-SS2001 Philip Reuter 5/10 Definitionsmöglichkeiten semantisch: Kombination durch Bedeutungsverwandschaft Beispiel: Hund und bellen syntaktisch: bestimmte syntaktische Kombinationen Beispiel: V+N: Politik betreiben Adj+N: ein schwerer Unfall V+Adv: verbissen kämpfen statistisch: Häufigkeitskriterien als Indikator

19 Inhaltliche Grundlagen Studienprojekt: KOKS WS2000-SS2001 Philip Reuter 6/10 Zum statistischen Kollokationsbegriff Idee: Kollokationspartner häufig mit bestimmten Wörtern kombiniert oft gefiltert durch Kriterium der syntaktischen Wohlgeformtheit Problem: Häufigkeitskriterium nicht adäquat Beispiel: Kollokationen mit Angst: 90% Angst haben 3% Angst bekommen einmal Angst bekämpfen

20 Inhaltliche Grundlagen Studienprojekt: KOKS WS2000-SS2001 Philip Reuter 7/10 Unser Kollokationsverständnis Kollokationsbegriff von Breidt:... collocations shall refer only to word combinations with a lexically (rather than syntactically or semantically) restricted combinatory potential, where at least one component has a special meaning that it cannot have in a free syntagmatic construction. schließt Fälle wie Schuhe zumachen oder Zähne putzen aus Arbeitsdefinition, keine starre Vorgabe

21 Inhaltliche Grundlagen Studienprojekt: KOKS WS2000-SS2001 Philip Reuter 8/10 Paralleler Korpus Korpus: Menge von Texten parallel: Texte liegen in zwei oder mehr Sprachen übersetzt vor Beispiele: Geschäftsberichte international agierender Unternehmen EU-Dokumente (in bis zu 11 Sprachen) Äquivalenzwörterbücher als Spezialfall

22 Inhaltliche Grundlagen Studienprojekt: KOKS WS2000-SS2001 Philip Reuter 8/10 Beispiel

23 Inhaltliche Grundlagen Studienprojekt: KOKS WS2000-SS2001 Philip Reuter 10/10 Alignment Korrespondenz zwischen Einheiten paralleler Texte herstellen Unterteilung in Absatzalignment Satzalignment Wortalignment Wortalignment: schwer zu realisieren hilfreich zur Identifikation von Kollokationen

24 3. Funktionalität Studienprojekt: KOKS WS2000-SS2001 Arno Erpenbeck

25 Funktionalität Studienprojekt: KOKS WS2000-SS2001 Arno Erpenbeck 1/6 Generelle Ziele Das KOKS-System soll: Kollokationen in Texten auffinden und erkennen Information über Verwendung/Bedeutung von Kollokationen sammeln Ergebnisse auswerten und aufbereiten intelligenten Zugriff auf die Datenbestände ermöglichen eine Auswahl dieser Information dem Benutzer präsentieren

26 Funktionalität Studienprojekt: KOKS WS2000-SS2001 Arno Erpenbeck 2/6 Schwerpunkte Aufbau eines Kollokationslexikons intelligente Zugriffsmöglichkeiten

27 Funktionalität Studienprojekt: KOKS WS2000-SS2001 Arno Erpenbeck 3/6 Kollokationen finden & erkennen natürlichsprachliche Texte als Eingabe Suche in vorgegebenen Teilbereichen Einsatz von Standard-CL-Methoden Nutzung vorhandenen Wissens des Systems über Kollokationen Test und Bewertung von Kollokationskandidaten

28 Funktionalität Studienprojekt: KOKS WS2000-SS2001 Arno Erpenbeck 4/6 Information sammeln & verwalten Erstellung einer Kollokationsdatenbank initialer Aufbau der Datenbank mit kanonischen Formen Datenbasis: zweisprachige (parallele) Korpora Wissen über Kollokationen aufbauen Re-Analyse des vorhandenen Datenbestands Herkunftsinformationen speichern

29 Funktionalität Studienprojekt: KOKS WS2000-SS2001 Arno Erpenbeck 5/6 Intelligenter Zugriff große Datenbestände (Korpora) Toleranz/Robustheit bei Abweichungen/Variationen Kollokationen zerstörende Abweichungen Verwendung von bekannten Teilanalysen Belege aus parallelen Korpora lokale Applikation, Web-basiert

30 Funktionalität Studienprojekt: KOKS WS2000-SS2001 Arno Erpenbeck 6/6 Ergebnisse selektieren & präsentieren Auswahl und Präsentation der Ergebnisse quantitative Daten Übersetzungsvorschläge Bedeutungserklärungen Verwendungsweise von Kollokationen

31 4. Demo-Applikation Studienprojekt: KOKS WS2000-SS2001 Norman Kummer

32 Studienprojekt: KOKS WS2000-SS2001 Norman Kummer 1/1

33 Pause Studienprojekt: KOKS WS2000-SS2001 Britta Koch

34 5. Architektur Studienprojekt: KOKS WS2000-SS2001 Norman Kummer

35 Architektur Studienprojekt: KOKS WS2000-SS2001 Norman Kummer 1/4 Notwendige Funktionen: Alignment POS-Tagger Lemmatisierung Morphologie Phrasenzuordnung Intelligenter Lexikonzugriff größtenteils Standardwerkzeuge.

36 Architektur 2 Anwendungsfälle der Module: Lexikon aufbauen & erweitern Kollokationserkennung (intelligenter Lexikonzugriff) Studienprojekt: KOKS WS2000-SS2001 Norman Kummer 2/4.

37 benötigte Informationen - abgeglichene Sätze - - Wortarten - - Stammformen - - Flexionsmorphologie - benötigte Informationen - abgeglichene Sätze - - Wortarten - - Stammformen - - Flexionsmorphologie - benötigte Informationen - abgeglichene Sätze - - Wortarten - - Stammformen - - Flexionsmorphologie - benötigte Informationen - abgeglichene Sätze - - Wortarten - - Stammformen - - Flexionsmorphologie - benötigte Informationen - abgeglichene Sätze - - Wortarten - - Stammformen - - Flexionsmorphologie - benötigte Informationen - abgeglichene Sätze - - Wortarten - - Stammformen - - Flexionsmorphologie - benötigte Informationen - abgeglichene Sätze - - Wortarten - - Stammformen - - Flexionsmorphologie - benötigte Informationen - abgeglichene Sätze - - Wortarten - - Stammformen - - Flexionsmorphologie - benötigte Informationen - abgeglichene Sätze - - Wortarten - - Stammformen - - Flexionsmorphologie - benötigte Informationen - abgeglichene Sätze - - Wortarten - - Stammformen - - Flexionsmorphologie - Architektur Lexikon aufbauen & erweitern Studienprojekt: KOKS WS2000-SS2001 Norman Kummer 3/4 Phrasenzuordnung Funktion: - extrahiert Phrasen - bringt Phrasen in lexikontaugliche Form Phrasenzuordnung Funktion: - extrahiert Phrasen - bringt Phrasen in lexikontaugliche Form Dictionary-Entry-Parser Funktion: - extrahiert Phrasen-/ Wortpaare Dictionary-Entry-Parser Funktion: - extrahiert Phrasen-/ Wortpaare Normalisierung Funktion: - bringt Textressourcen in einheitliche Form (z.B. HTML, Plaintext) Normalisierung Funktion: - bringt Textressourcen in einheitliche Form (z.B. HTML, Plaintext) Komplexitätssortierung Funktion: - sortiert Phrasen / Sätze nach Komplexität (z.B.Länge) Komplexitätssortierung Funktion: - sortiert Phrasen / Sätze nach Komplexität (z.B.Länge) Datenquellen: Parallele Korpora - zweisprachig Funktion: - Textmaterial - liefern: Satzpaare Referenzbeispiele Datenquellen: Parallele Korpora - zweisprachig Funktion: - Textmaterial - liefern: Satzpaare Referenzbeispiele Datenquellen: Wörterbücher Äquivalenz~ einsprachige~ Datenquellen: Wörterbücher Äquivalenz~ einsprachige~ Lexikon Funktion: - Datenhaltung (DB) - neue Phrasenpaare integrieren Lexikon Funktion: - Datenhaltung (DB) - neue Phrasenpaare integrieren

38 Kollokationserkennung (intelligenter Lexikonzugriff) Architektur Nutzer versteht den Sinn dieses Satzes nicht.... und klickt fällt an.... Studienprojekt: KOKS WS2000-SS2001 Norman Kummer 4/4... Intelligenter-Lexikon-Zugriff Funktion: - Anfrage an Lexikon mit analysiertem Satz - Lexikon liefert: kanonische Kollokationsform ins Wasser fallen Referenzsätze Intelligenter-Lexikon-Zugriff Funktion: - Anfrage an Lexikon mit analysiertem Satz - Lexikon liefert: kanonische Kollokationsform ins Wasser fallen Referenzsätze....

39 6. Arbeitsplan Studienprojekt: KOKS WS2000-SS2001 Joachim Wagner

40 Arbeitsplan Studienprojekt: KOKS WS2000-SS2001 Joachim Wagner 1/2 Erste Projektphase

41 Arbeitsplan Studienprojekt: KOKS WS2000-SS2001 Joachim Wagner 2/2 Zweite Projektphase

42 7. Ausblick Studienprojekt: KOKS WS2000-SS2001 Britta Koch

43 Ausblick Studienprojekt: KOKS WS2000-SS2001 Britta Koch 1/2 Zusammenfassung: Korpusbasierte Kollokationssuche Erstellung eines Kollokationslexikons Intelligenter Zugriff.

44 Ausblick Studienprojekt: KOKS WS2000-SS2001 Britta Koch 2/2 Anwendungsmöglichkeiten eigenständiges Lexikon Thesaurus für Kollokationen CALL (Computer Aided Language Learning): Add-In für eine Textverarbeitung Lückentexte Hinweis auf schiefe Kollokationen.

45 8. Diskussion Studienprojekt: KOKS WS2000-SS2001 Britta Koch

46 Studienprojekt: KOKS WS2000-SS2001 Joachim Wagner 1/1 Postanschrift: Institut für Semantische Informationsverarbeitung Studienprojekt Koks Katharinenstraße Osnabrück Webseite: Studienprojekt Koks

47 Studienprojekt: KOKS WS2000-SS2001 Joachim Wagner 1/1 Postanschrift: Institut für Semantische Informationsverarbeitung Studienprojekt Koks Katharinenstraße Osnabrück Webseite: Studienprojekt Koks


Herunterladen ppt "KOKS - Präsentation Studienprojekt: KOKS WS2000-SS2001 Britta Koch Korpusbasierte Kollokationssuche."

Ähnliche Präsentationen


Google-Anzeigen