Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

KOKS - Präsentation Korpusbasierte Kollokationssuche

Ähnliche Präsentationen


Präsentation zum Thema: "KOKS - Präsentation Korpusbasierte Kollokationssuche"—  Präsentation transkript:

1 KOKS - Präsentation Korpusbasierte Kollokationssuche
Studienprojekt: KOKS WS2000-SS2001 Britta Koch KOKS - Präsentation Korpusbasierte Kollokationssuche

2 Studienprojekt KOKS Computerlinguistik und Künstliche Intelligenz
Studienprojekt: KOKS WS2000-SS2001 Britta Koch 1/3 Studienprojekt KOKS im Rahmen des Studiengangs Computerlinguistik und Künstliche Intelligenz Dauer: ein Jahr

3 Studienprojekt KOKS Teilnehmer: beratend beteiligt: Arno Erpenbeck
Studienprojekt: KOKS WS2000-SS2001 Britta Koch 2/3 Studienprojekt KOKS Teilnehmer: Arno Erpenbeck Britta Koch Norman Kummer Philip Reuter Patrick Tschorn Joachim Wagner beratend beteiligt: Helmar Gust Petra Ludewig

4 Programm der Präsentation
Studienprojekt: KOKS WS2000-SS2001 Britta Koch 3/3 Programm der Präsentation 1. Motivation 2. Inhaltliche Grundlagen 3. Funktionalität 4. Demo-Applikation Pause 5. Architektur 6. Arbeitsplan 7. Ausblick 8. Diskussion

5 Studienprojekt: KOKS WS2000-SS2001 Patrick Tschorn
1. Motivation

6 Motivation Eine verbreitete Annahme:
Studienprojekt: KOKS WS2000-SS2001 Patrick Tschorn 1/7 Motivation Eine verbreitete Annahme: Die Bedeutung von Sätzen läßt sich kompositionell aus den Bedeutungen der einzelnen Wörter ablesen. Ich habe einen Bekannten besucht und bin nach Hause gefahren.

7 Studienprojekt: KOKS WS2000-SS2001 Patrick Tschorn 2/7
Motivation Aber: Der Hund meines Bekannten hat ins Gras gebissen. Das kompositionelle Vorgehen scheitert. Trotzdem ist jedem die Bedeutung klar. Halt! Nicht-Muttersprachlern kann dieser Satz erhebliche Verständnisprobleme bereiten.

8 Motivation Beispiele:
Studienprojekt: KOKS WS2000-SS2001 Patrick Tschorn 3/7 Motivation Beispiele: The man who used to clean the walls at the factory kicked the bucket last week. I screwed things up. She got her feet wet. Mabel has a bun in the oven. Brian was pie eyed when we got to the party.

9 Motivation Das Projektziel: Erstellung eines Tools, das:
Studienprojekt: KOKS WS2000-SS2001 Patrick Tschorn 4/7 Motivation Das Projektziel: Erstellung eines Tools, das: nicht kompositionell erschließbare Sätze erkennt z.B. passende Verständnishilfen anbietet

10 Motivation Probleme: Weltwissen tiefe linguistische Analyse Semantik
Studienprojekt: KOKS WS2000-SS2001 Patrick Tschorn 5/7 Motivation Probleme: Weltwissen tiefe linguistische Analyse Semantik

11 Motivation Unser Ansatz stützt sich auf: vorhandene Wörterbücher
Studienprojekt: KOKS WS2000-SS2001 Patrick Tschorn 6/7 Motivation Unser Ansatz stützt sich auf: vorhandene Wörterbücher in mehreren Sprachen vorliegende Texte Die Übersetzungen einer Phrase spielen dabei die Rolle der Semantik.

12 Studienprojekt: KOKS WS2000-SS2001 Patrick Tschorn 7/7
Motivation Beispiel:

13 2. Inhaltliche Grundlagen
Studienprojekt: KOKS WS2000-SS2001 Philip Reuter 2. Inhaltliche Grundlagen

14 Inhaltliche Grundlagen
Studienprojekt: KOKS WS2000-SS2001 Philip Reuter 1/10 Inhaltliche Grundlagen Kollokation Paralleler Korpus Alignment

15 Inhaltliche Grundlagen
Studienprojekt: KOKS WS2000-SS2001 Philip Reuter 2/10 Inhaltliche Grundlagen Beispiele (1) Leider ist die Party ins Wasser gefallen. Hans hat an Maria einen Narren gefressen. Du gehst mir ganz schön auf den Wecker! Peter ist ein starker Raucher. Hans ist ein guter Esser.

16 Inhaltliche Grundlagen
Studienprojekt: KOKS WS2000-SS2001 Philip Reuter 3/10 Inhaltliche Grundlagen Beispiele (2) Der Kanzler hielt auf dem Gewerkschaftertreffen neine bemerkenswerte Rede. Wir warten lieber, bis sein Zorn verraucht ist. Du solltest mal deine Schuhe zumachen. Hast Du schon Deine Zähne geputzt?

17 Inhaltliche Grundlagen
Studienprojekt: KOKS WS2000-SS2001 Philip Reuter 4/10 Inhaltliche Grundlagen Das Phänomen "Kollokation“ Kombinationen von zwei oder mehr Wörtern betrachten irgendwo zwischen "freier Kombination“ und "Idiom“ freie Kombination: Bestandteile beliebig austauschbar, erweiterbar Beispiel: Am Bahnhof wird ein Parkhaus gebaut. Idiom: sehr starre Kombination, nicht erweiterbar Beispiel: Hans hat an Maria einen Narren gefressen.

18 Inhaltliche Grundlagen
Studienprojekt: KOKS WS2000-SS2001 Philip Reuter 5/10 Inhaltliche Grundlagen Definitionsmöglichkeiten semantisch: Kombination durch Bedeutungsverwandschaft Beispiel: Hund und bellen syntaktisch: bestimmte syntaktische Kombinationen Beispiel: V+N: Politik betreiben Adj+N: ein schwerer Unfall V+Adv: verbissen kämpfen statistisch: Häufigkeitskriterien als Indikator

19 Inhaltliche Grundlagen
Studienprojekt: KOKS WS2000-SS2001 Philip Reuter 6/10 Inhaltliche Grundlagen Zum statistischen Kollokationsbegriff Idee: Kollokationspartner häufig mit bestimmten Wörtern kombiniert oft gefiltert durch Kriterium der syntaktischen Wohlgeformtheit Problem: Häufigkeitskriterium nicht adäquat Beispiel: Kollokationen mit Angst: 90% Angst haben 3% Angst bekommen einmal Angst bekämpfen

20 Inhaltliche Grundlagen
Studienprojekt: KOKS WS2000-SS2001 Philip Reuter 7/10 Inhaltliche Grundlagen Unser Kollokationsverständnis Kollokationsbegriff von Breidt: „... collocations shall refer only to word combinations with a lexically (rather than syntactically or semantically) restricted combinatory potential, where at least one component has a special meaning that it cannot have in a free syntagmatic construction.“ schließt Fälle wie Schuhe zumachen oder Zähne putzen aus Arbeitsdefinition, keine starre Vorgabe

21 Inhaltliche Grundlagen
Studienprojekt: KOKS WS2000-SS2001 Philip Reuter 8/10 Inhaltliche Grundlagen Paralleler Korpus Korpus: Menge von Texten parallel: Texte liegen in zwei oder mehr Sprachen übersetzt vor Beispiele: Geschäftsberichte international agierender Unternehmen EU-Dokumente (in bis zu 11 Sprachen) Äquivalenzwörterbücher als Spezialfall

22 Inhaltliche Grundlagen
Studienprojekt: KOKS WS2000-SS2001 Philip Reuter 8/10 Inhaltliche Grundlagen Beispiel

23 Inhaltliche Grundlagen
Studienprojekt: KOKS WS2000-SS2001 Philip Reuter 10/10 Inhaltliche Grundlagen Alignment Korrespondenz zwischen Einheiten paralleler Texte herstellen Unterteilung in Absatzalignment Satzalignment Wortalignment Wortalignment: schwer zu realisieren hilfreich zur Identifikation von Kollokationen

24 Studienprojekt: KOKS WS2000-SS2001 Arno Erpenbeck
3. Funktionalität

25 Funktionalität Generelle Ziele Das KOKS-System soll:
Studienprojekt: KOKS WS2000-SS2001 Arno Erpenbeck 1/6 Funktionalität Generelle Ziele Das KOKS-System soll: Kollokationen in Texten auffinden und erkennen Information über Verwendung/Bedeutung von Kollokationen sammeln Ergebnisse auswerten und aufbereiten intelligenten Zugriff auf die Datenbestände ermöglichen eine Auswahl dieser Information dem Benutzer präsentieren

26 Funktionalität Schwerpunkte Aufbau eines Kollokationslexikons
Studienprojekt: KOKS WS2000-SS2001 Arno Erpenbeck 2/6 Funktionalität Schwerpunkte Aufbau eines Kollokationslexikons intelligente Zugriffsmöglichkeiten

27 Funktionalität Kollokationen finden & erkennen
Studienprojekt: KOKS WS2000-SS2001 Arno Erpenbeck 3/6 Funktionalität Kollokationen finden & erkennen natürlichsprachliche Texte als Eingabe Suche in vorgegebenen Teilbereichen Einsatz von Standard-CL-Methoden Nutzung vorhandenen Wissens des Systems über Kollokationen Test und Bewertung von Kollokationskandidaten

28 Funktionalität Information sammeln & verwalten
Studienprojekt: KOKS WS2000-SS2001 Arno Erpenbeck 4/6 Funktionalität Information sammeln & verwalten Erstellung einer Kollokationsdatenbank initialer Aufbau der Datenbank mit kanonischen Formen Datenbasis: zweisprachige (parallele) Korpora Wissen über Kollokationen aufbauen Re-Analyse des vorhandenen Datenbestands Herkunftsinformationen speichern

29 Funktionalität Intelligenter Zugriff große Datenbestände (Korpora)
Studienprojekt: KOKS WS2000-SS2001 Arno Erpenbeck 5/6 Funktionalität Intelligenter Zugriff große Datenbestände (Korpora) Toleranz/Robustheit bei Abweichungen/Variationen „Kollokationen zerstörende“ Abweichungen Verwendung von bekannten Teilanalysen Belege aus parallelen Korpora lokale Applikation, Web-basiert

30 Funktionalität Ergebnisse selektieren & präsentieren
Studienprojekt: KOKS WS2000-SS2001 Arno Erpenbeck 6/6 Funktionalität Ergebnisse selektieren & präsentieren Auswahl und Präsentation der Ergebnisse quantitative Daten Übersetzungsvorschläge Bedeutungserklärungen Verwendungsweise von Kollokationen

31 Studienprojekt: KOKS WS2000-SS2001 Norman Kummer
4. Demo-Applikation

32 Studienprojekt: KOKS WS2000-SS2001 Norman Kummer 1/1

33 Studienprojekt: KOKS WS2000-SS2001 Britta Koch
Pause

34 Studienprojekt: KOKS WS2000-SS2001 Norman Kummer
5. Architektur

35 Architektur Notwendige Funktionen: größtenteils Standardwerkzeuge
Studienprojekt: KOKS WS2000-SS2001 Norman Kummer 1/4 Architektur . Notwendige Funktionen: Alignment POS-Tagger Lemmatisierung Morphologie Phrasenzuordnung Intelligenter Lexikonzugriff größtenteils Standardwerkzeuge

36 Architektur 2 Anwendungsfälle der Module: .
Studienprojekt: KOKS WS2000-SS2001 Norman Kummer 2/4 Architektur . 2 Anwendungsfälle der Module: Lexikon aufbauen & erweitern Kollokationserkennung (intelligenter Lexikonzugriff)

37 Architektur Lexikon aufbauen & erweitern . . . . . . . . . . . . . . .
Studienprojekt: KOKS WS2000-SS2001 Norman Kummer 3/4 Architektur . . . . . . . . . . . . . . . Lexikon aufbauen & erweitern Datenquellen: Parallele Korpora - zweisprachig Funktion: - Textmaterial - liefern: Satzpaare Referenzbeispiele Datenquellen: Wörterbücher Äquivalenz~ einsprachige~ Dictionary-Entry-Parser Funktion: - extrahiert Phrasen-/ Wortpaare Normalisierung Funktion: - bringt Textressourcen in einheitliche Form (z.B. HTML, Plaintext) benötigte Informationen - abgeglichene Sätze - - Wortarten - - Stammformen - - Flexionsmorphologie - benötigte Informationen - abgeglichene Sätze - - Wortarten - - Stammformen - - Flexionsmorphologie - benötigte Informationen - abgeglichene Sätze - - Wortarten - - Stammformen - - Flexionsmorphologie - benötigte Informationen - abgeglichene Sätze - - Wortarten - - Stammformen - - Flexionsmorphologie - benötigte Informationen - abgeglichene Sätze - - Wortarten - - Stammformen - - Flexionsmorphologie - Phrasenzuordnung Funktion: - extrahiert Phrasen - bringt Phrasen in „lexikontaugliche“ Form Komplexitätssortierung Funktion: - sortiert Phrasen / Sätze nach Komplexität (z.B.Länge) Lexikon Funktion: - Datenhaltung (DB) - neue Phrasenpaare integrieren

38 Architektur Kollokationserkennung . . . . . . . . . . .
Studienprojekt: KOKS WS2000-SS2001 Norman Kummer 4/4 Architektur . . . . . . . . . . . Kollokationserkennung (intelligenter Lexikonzugriff) Nutzer versteht den Sinn dieses Satzes nicht. ... und klickt „fällt“ an Intelligenter-Lexikon-Zugriff Funktion: - Anfrage an Lexikon mit analysiertem Satz - Lexikon liefert: kanonische Kollokationsform „ins Wasser fallen“ Referenzsätze

39 Studienprojekt: KOKS WS2000-SS2001 Joachim Wagner
6. Arbeitsplan

40 Arbeitsplan Erste Projektphase
Studienprojekt: KOKS WS2000-SS2001 Joachim Wagner 1/2 Arbeitsplan Erste Projektphase

41 Arbeitsplan Zweite Projektphase
Studienprojekt: KOKS WS2000-SS2001 Joachim Wagner 2/2 Arbeitsplan Zweite Projektphase

42 Studienprojekt: KOKS WS2000-SS2001 Britta Koch
7. Ausblick

43 Ausblick Zusammenfassung: Korpusbasierte Kollokationssuche .
Studienprojekt: KOKS WS2000-SS2001 Britta Koch 1/2 Ausblick . Zusammenfassung: Korpusbasierte Kollokationssuche Erstellung eines Kollokationslexikons Intelligenter Zugriff

44 Ausblick Anwendungsmöglichkeiten . eigenständiges Lexikon
Studienprojekt: KOKS WS2000-SS2001 Britta Koch 2/2 Ausblick . Anwendungsmöglichkeiten eigenständiges Lexikon Thesaurus für Kollokationen CALL (Computer Aided Language Learning): Add-In für eine Textverarbeitung Lückentexte Hinweis auf „schiefe“ Kollokationen

45 Studienprojekt: KOKS WS2000-SS2001 Britta Koch
8. Diskussion

46 Studienprojekt Koks Postanschrift: Webseite:
Studienprojekt: KOKS WS2000-SS2001 Joachim Wagner 1/1 Studienprojekt Koks Postanschrift: Institut für Semantische Informationsverarbeitung Studienprojekt Koks Katharinenstraße Osnabrück Webseite:

47 Studienprojekt Koks Postanschrift: Webseite:
Studienprojekt: KOKS WS2000-SS2001 Joachim Wagner 1/1 Studienprojekt Koks Postanschrift: Institut für Semantische Informationsverarbeitung Studienprojekt Koks Katharinenstraße Osnabrück Webseite:


Herunterladen ppt "KOKS - Präsentation Korpusbasierte Kollokationssuche"

Ähnliche Präsentationen


Google-Anzeigen