Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Aufgabe 1a: Korpora Definition: Korpus [lat. corpus = Gesamtwerk, Sammlung, eigtl. = Körper] Sammlung einer begrenzten Anzahl von Texten, Äußerungen.

Ähnliche Präsentationen


Präsentation zum Thema: "Aufgabe 1a: Korpora Definition: Korpus [lat. corpus = Gesamtwerk, Sammlung, eigtl. = Körper] Sammlung einer begrenzten Anzahl von Texten, Äußerungen."—  Präsentation transkript:

1 Aufgabe 1a: Korpora Definition: Korpus [lat. corpus = Gesamtwerk, Sammlung, eigtl. = Körper] Sammlung einer begrenzten Anzahl von Texten, Äußerungen o. Ä. als Grundlage für sprachwissenschaftliche Untersuchungen.

2 Arten von Korpora Arten von Korpora
Korpora gesprochener sprachlicher Phänomene Korpora geschriebener sprachlicher Phänomene Da die Gesamtheit aller Äußerungen nicht erfaßt werden kann, muß eine Auswahl getroffen werden. => Repräsentaive Korpus Auswahlkorpus

3 Typologie von Korpora 1 Korpora gesprochener Sprache
Sammlung von Tonbandaufzeichnungen monologischer Texte, z.B. Reden, Vorträge. Sammlung von Tonbandaufzeichnungen dialogischer Texte, z.B. Gespräche, die einen bestimmten Gesprächskontext entnommen sind.

4 Typologie von Korpora 2 Korpora geschriebener Sprache
Gesamtkorpora einer Sprache, z. B. Thesaurus Autorenkorpus, z.B. Kantkorpus Auswahlkorpora: Sprchkorpora, die nach zeitlichen und/oder räumlichen Gesichtspunkten für eine Sprache repräsentativ sind, z. B. LIMAS-Korpus, BROWN-Korpus, LANCASTER-BERGEN-Korpus, Frühmittelhochdeutsches Sprachkorpus LIMAS-Korpus Text von BROWN-Korpus soll repräsentativ für das Alltagsenglisch (American English) sein ; 500 Text mit je ca Worten LANCASTER-BERGEN-Korpus analog zum BROWN-Korpus jedoch für Britisch Englisch; ebenfalls 500 Texte.

5 Typologie von Korpora 3 Typologie nach Bearbeitungszuständen:
Unbearbeitete Korpora (reine Textform) Bearbeitete Korpora (annotierte Texte) phonetisch/phonologisch morphologisch syntaktisch (“Treebanks”) semantisch

6 Verwendung von Korpora
Deskriptive Phonologie z.B. Ermittlung des Phonemsystems von Dialekten Deskriptive Morphologie Ermittlung der Morpheme und der Wortbildungsregeln Deskriptive Syntax: Ermittlung der Typen von Satzmustern, Phrasenmustern, Art und Zahl der Konstituenten Deskripitve Semantik Lexikographie: Ermittlung von Dokumentation des Wortschatzes Sprachtechnologie: Entwicklung und Optimierung stochastischer Analyseverfahren

7 Aufgabe 1b: Aufbereitung von Korpora
Struktur und Metainformationen erkennen Umwandlung in definiertes Format Tokenisierung (Segmentierung): Aufspaltung des Textes Satzgrenzenerkennung: Disambiguierung von Satztrennzeichen Korpusrepräsentation: standardisiertes Format: (Corpus Encoding Standard (CES) Hinzufügen linguistischer Information: part-of-speech-taging; Lemmatisieren; Chunking; Parsing

8 Aufgabe 1c: Aufbereitung eines Texts als Korpus
<artikel> <ts>Bildung</ts> <hu>Humboldts Totengräber</hu> <su>Mit der Universität fällt Deutschlands beste Tradition – und Zukunft</su> <autor>Von Martin Spiewak</autor> <p>Die deutsche Universität verriegelt und verrammelt wie eine Pleitefirma – eine Horrorvision? Nein, denn im Herbst will die Berliner Humboldt-Universität zum ersten Mal in ihrer knapp 200-jährigen Geschichte keine neuen Studenten mehr aufnehmen. Auch ausscheidende Professoren sollen nicht ersetzt werden. 200 bis 600 Millionen Euro müssen die drei Berliner Universitäten einsparen. </p> <p> ... </p> </artikel>

9 Aufgabe 1c: Aufbereitung von Korpora
<artikel><ts> Bildung NN </ts> <hu> Humboldts NE Totengräber NN </hu> <su> Mit APPR der ART Universität NN fällt VVFIN Deutschlands NN beste ADJ Tradition NN und KON Zukunft NN </su> <autor> Von APPR Martin NE Spiewak NE </autor>

10 Tagging <s> Die ART deutsche ADJA Universität NN verriegelt VVPP
und KON verrammelt VVPP wie KOKOM (Vergleichspartikel ohne Satz) eine ART Pleitefirma NN – $ Horrorvision? NN </s>

11 Tagging <s> Nein PTKNEG , denn KON im APPRART Herbst NN
zum APPRART ersten ADJA Mal NN in APPR Ihrer PPOSAT knapp ADJD 200-jährigen ADJA Geschichte NN keine PIAT neuen ADJA Studenten NN mehr ADV Aufnehmen . <\s> <s> Nein PTKNEG , denn KON im APPRART Herbst NN will VMFIN die ART Berliner NN Humboldt-Universität NN PIAT Attribuierendes Indefinitpronomen

12 Tagging . <s> <s> 200 CARD Auch ADV bis APPR
Millionen NN Euro NN müssen VMFIN die ART drei CARD Berliner NN Universitäten NN einsparen VVINF . </s> <s> Auch ADV ausscheidende ADJA Professoren NN sollen VMFIN nicht PTKNEG ersetzt VVFIN Werden VAFIN . </s>

13 Aufgabe 2a: Syntaktische Analyse
Eingabe: Der Löwe springt aus dem Käfig. Schritt 1: Textanalyse Ergebnis: <s> Der Löwe springt aus dem Käfig. <s>

14 Aufgabe 2a: Tokenizing, Satzgrenzenerkennung
Schritt 2: Tokenizing, Satzgrenzenerkennung Ergebnis: <s> Der Löwe springt aus dem Käfig <\s>

15 Aufgabe 2a:Tagging Satz 1
Schritt 2:Taggin Ergebnis: <s> Morphologische Analyse STTS Der ART.Def.Masc.Nom.Sg ART Löwe NN.Masc.Nom.Sg NN springt V.3.Sg.Pres.Ind VVFIN aus PREP APPR dem ART.Def.Masc.Dat.Sg ART Käfig NN.Masc.Dat.Sg NN <\s>

16 Syntaktische Analyse Der Löwe springt aus dem Käfig
ART NN V PREP ART NN Def.M.Nom.Sg M.Nom.Sg 3.Sg.Pres.Ind Dat Def.M.Dat.Sg M.Dat.Sg Grammatik S -> NP VP NP -> ART NN VP -> V PP PP -> PREP NP Analyseergebnis [[Der Löwe]NP [springt [aus [dem Käfig] NP ] PP ] VP ] S

17 Aufgabe 2a:Tagging Satz 2
Schritt 2:Taggin Ergebnis: <s> Morphologische Analyse STTS Alfred NE.Masc.Nom NE gibt V.3.Sg.Pres.Ind NN Karl NE.Masc.Akk NE das ART.Def.Neut.Akk.Sg ART dicke ADJA.Neut.Akk.Sg ART Buch NN.Neut.Dat.Sg NN <\s>

18 Syntaktische Analyse Alfred gibt Karl das dicke Buch
NE V NE ART ADJ NN Masc.Nom V.3.Sg.Pres.Ind Masc.Dat Def.Neut.Akk Neut.Akk.Sg Neut.Akk.Sg Grammatik s. o. NP -> ADJ NN NP -> ART NP Analyseergebnis [[Alfred]NP [gibt [das [dicke Buch] NP ] NP ] VP ] S

19 Dependenzstruktur (Satz 1)
Der Löwe springt aus dem Käfig ART NN V PREP ART NN Def.M.Nom.Sg M.Nom.Sg 3.Sg.Pres.Ind Dat Def.M.Dat.Sg M.Dat.Sg person=3 number=sg tense=pres modus=ind person=3 number=sg tense=pres modus=ind number=Sg Gender=Masc number=sg gender=masc gender=masc number=sg gender=masc. number=sg art=def art=def

20 Dependenzstruktur (Satz 2)
Alfred gibt Karl das dicke Buch NE V NE ART ADJ NN Masc.Nom V.3.Sg.Pres.Ind Masc.Dat Def.Neut.Akk Neut.Akk.Sg Neut.Akk.Sg person=3 number=sg tense=pres modus=ind person=3 number=sg gender=neut

21 Algorithmus für einen Dependenzparsers
Tokenizing, Tagging, etc. Partielles Parsen (Felderanalyse) Kopf der Phrase bestimmen und alle Kinder (bzw. im Fall einer Phrase deren Kopf) durch eine Kante verbinden Aufgrund der morphologischen Merkmale: Kantebeschriftung bestimmen

22 Unterschiede zwischen PS und DS
PS enthalten nicht Terminal PS repräsentieren die Wortordnung Beziehung basiert auf dem Prinzip, dass eine Einheit a zu einer benachbarten Einheit b innerhalb einer größeren Einheit c in Beziehung stehen. Bsp.: [diea Kücheb]c DS beschreiben Beziehung mit binären Relationen zwischen einem Regens und einem Dependenten. In DS sind Kanten mit syntaktischen Relation beschriftet. Konten der Oberflächensyntaktische strukturen sind mit Lemma beschriftet. etc.

23 Subkategoriesierungsrahmen
(Valenz, Government Pattern) Fähigkeit eines Wortes, ein anderes semantisch oder syntaktisch an sich zu binden, besonders die Fähigkeit eines Verbs, zur Bildung eines vollständigen Satzes eine bestimmte Zahl von Ergänzungen zu fordern

24 Valenz RAUCHEN RAUCHEN_1:(Rauch ausstoßen)
Nomen (Nom) (-Anim) Der Ofen raucht Prep (=aus) Nomen (-Anim) Es raucht aus dem Ofen. RAUCHEN_2: (Rauch inhalieren) Nomen (Nom) (Hum) Der Arzt raucht Nomen (Akk) –Anim Er raucht Zigaretten 2. Abstr Er raucht eine neue Sorte.

25 Valenz LIEFERN LIEFERN_1: Nomen (Nom) (Hum) Nomen (Akk)
Nomen (Dat) (+Anim) Prep(=für) Nomen (+Anim)

26 Valenz SEHEN_1 SEHEN_1: (wahrnehmen, blicken) Nomen (Nom) (Hum)
Nomen (Akk) Nomen (Dat) Anim;) 2. Abstr Er sieht viele Schwierigkeiten Prep(=aus,in, durch,auf) Nomen Reichtung Prep(=nach) keine Selektionsbeschränkung Es sieht nach seinem Hund NS Act Wir sehen, dass er kommt. Infinitiv Act Wir sehen ihn kommen.

27 Valenz SEHEN_2 SEHEN_2: (halten für, einschätzen als)
Nomen (Nom) 1. Hum Der Schüler sieht in ihm seinen besten Freund. 2. Abstr (als Hum) Die Stadt sieht in ihm ihren bedeutesten Bürger. Nomen (Akk) Nomen (Dat) Anim Er sieht in ihm einen Feind 2. Abstr Die Stadt … Prep(=in) * Wir sehen in dem Arzt einen Helfer. NS Act Wir sehen einen Vorteil darin, dass er kommt.

28 Valenz WIEGEN WIEGEN_2: (Gewicht festellen)
Nomen (Nom) 1. Hum Der Fleischer wiegt die Wurst. Nomen (Akk) Anim Er wiegt das Kind Refl. Er wiegt sich. WIEGEN_2: (Gewicht betragen) Nomen (Nom) Anim Das Kind wiegt 30kg. Nomen (Akk) 2. Abstr. Er wiegt zwei Zentner. WIEGEN_3: (hin und her bewegen) Nomen (Nom) Hum Die Mutter wiegt das Kind. Nomen (Akk) Hum Prep(=in) Dir Sie weigt das Kind in den Schlaf WIEGEN_4: (zerkleinern) Nomen (Nom) Hum Der Mann wiegt die Petersilie. Nomen (Akk) 2. –Anim

29 Valenz RISIKO RISIKO: Nomen (Gen) ADJA Prep Pro NS
Selten nehemen die großen Plattenfirmen das finanzielle Risiko auf sich, den Arbeiten zu einer Veröffentlichung zu verhelfen. Das Risiko des Irrtums …

30 Kollokationen in Lexika
Stu|di|um, das; -s, ...ien [spätmhd. studium < (m)lat. studium = eifriges Streben, wissenschaftliche Betätigung]: 1. <o. Pl.> das Studieren (1); akademische Ausbildung an einer Hochschule: das medizinische S.; das S. der Theologie; dieses S. dauert mindestens acht Semester; das S. [an einer Universität] aufnehmen, [mit dem Staatsexamen] abschließen; sie ist noch im S., geht nach dem S. weg; sich um eine Zulassung zum S. bewerben. 2. a) eingehende [wissenschaftliche] Beschäftigung mit etw.: umfangreiche Studien; Studien [über etw.] betreiben, anstellen; sich dem S. (der Erforschung) antiker Münzen widmen; dabei kann man so seine Studien machen (aufschlussreiche Beobachtungen anstellen); b) <o. Pl.> kritische Prüfung [eines Textes], kritisches Durchlesen: beim S. der Akten; (ugs.:) ins S. der Zeitung vertieft sein; c) <o. Pl.> Einstudierung (1): für das S. dieser Rolle braucht man einige Zeit;

31 Kollokationen Unter lexikalischer Kollokation vesteht man die Tatsache, daß im syntagmatischen Zusammenhang je nach individuellem Wort ein ganz bestimmtes anderes Wort gewählt werden muß, um eine gegebene semantische Beziehung auszudrücken. Z.B. macht man eine Aussage, stellt man eine Frage, gibt man eine Antwort. Dabei sind die Kollokationen in verschiedenen Sprachen unterschiedlich. Z.B. sagt man starker Raucher aber heavy smoker, fest schlafen aber to sleep soundly, ein Versprechen geben aber to make a promise (Falsch wäre die wörtliche Übersetzung aus dem Englischen ein schwerer Raucher, gesund schlafen oder ein Versprechen machen.)

32 Kollokationen Befehl geben; Befehl erteilen; Befehl erhalten;
Befehl wiederrufen; Befehl befolgen; Befehl verweigern Gemüse pflanzen; schönes Gemüse; firsches Gemüse; grünes Gemüse Verheerender Wirbelsturm; Wirbelsturm zieht; Wirbelsturm aufbaut; Wirbelsturm fegt; Spaziergang machen; langer Spaziergang; ausgedehnter Spaziergang;

33 Kollokationen Vorwurf mache; bittere Vorwürfe; leisem Vorwurf
Prüfung bestehen; Prüfung ablegen bzw. machen; Prüfung befinden; Prüfung unterziehen; in der Prüfung durchfallen Studium bestehen; Studium aufnehmen; Studium abbrechen;Studium abschließen; zum Studium zulassen;


Herunterladen ppt "Aufgabe 1a: Korpora Definition: Korpus [lat. corpus = Gesamtwerk, Sammlung, eigtl. = Körper] Sammlung einer begrenzten Anzahl von Texten, Äußerungen."

Ähnliche Präsentationen


Google-Anzeigen