Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

BIT – Schaßan – WS 02/03 Basisinformationstechnologie HK-Medien Teil 1, 13. Sitzung WS 02/03.

Ähnliche Präsentationen


Präsentation zum Thema: "BIT – Schaßan – WS 02/03 Basisinformationstechnologie HK-Medien Teil 1, 13. Sitzung WS 02/03."—  Präsentation transkript:

1 BIT – Schaßan – WS 02/03 Basisinformationstechnologie HK-Medien Teil 1, 13. Sitzung WS 02/03

2 BIT – Schaßan – WS 02/03 Beschreibung von PSS Bei der Schaffung einer PS sollte diese in klarer und präziser Weise definiert werden. Begriffe und Konzepte müssen beschrieben und ihre Bedeutung erläutert werden. Alle Details müssen in einem Dokument erklärt werden, welches als Referenz fungiert. Genauigkeit, Präzision und Formalität sind dazu notwendig.

3 BIT – Schaßan – WS 02/03 Beschreibung von PSS (2) mögliche Probleme sind: verschiedene Sichtweisen auf die PS erfordern unterschiedliche Schwerpunktsetzungen; verschiedene Methoden der Beschreibung können zu unterschiedlichen Interpretationen führen mögliche Lösung ist die Abstraktion des zu Beschreibenden in formalisierter Weise unter Anwendung grammatikalischer Theorien

4 BIT – Schaßan – WS 02/03 Semi-Thue-Systeme Semi-Thue-Systeme können als einfache und allgemeine Form von Algorithmen betrachtet werden: Σendlicher Zeichenvorrat xWörter ( Länge: |x | = n ) x = x 0x n-1 von Zeichen x i aus Σ Überführen der Wörter in andere Wörter durch Ersetzen von x ix i+k-1 durch y jy j+k-1 Es gilt:k, l 0, i+k n; für k, l = 0 wird das leere Wort ε ersetzt

5 BIT – Schaßan – WS 02/03 Semi-Thue-Systeme (2) Ersetzungsregel:ab cd schematisch:p q Eine Regel heißt auf ein Wort x anwendbar, wenn x das Teilwort ab enthält. Beispiel: Addition natürlicher Zahlen Σ = { |, +} Regeln:+||+ +ε Wort:|||+|| Umformung: |||+||||||+| |||||+ |||||.

6 BIT – Schaßan – WS 02/03 Ableitung Der Übergang l r beschreibt die Transformation, die durch Anwendung einer Regel p q auf einen Teil der linken Seite l entsteht. r heißt aus l abgeleitet. Die Transformation heißt eine direkte Ableitung.

7 BIT – Schaßan – WS 02/03 Ableitung (2) l rwenn r aus l durch fortge- setzte Ableitung gewonnen werden kann l rentweder l r oder l = r Umgekehrt kann r auf l reduziert werden, wenn l r + + * *

8 BIT – Schaßan – WS 02/03 Metaregeln Metaregeln legen die Anwendung der Regeln fest. Wenn ab cd anwendbar ist, ersetze das Teilwort ab von x durch cd ; wenn ab mehrfach vorkommt oder mehrere Regeln anwendbar sind, so wähle das Teilwort bzw. die Regel beliebig; wiederhole die Anwendung beliebig oft.

9 BIT – Schaßan – WS 02/03 Semi-Thue-System (3) Eine Menge T = { p q } von Regeln zusammen mit den Metaregeln heißt ein Semi-Thue- oder Textersetzungssystem. Die Menge aller r, die aus l abgeleitet werden, heißt die formale Sprache L l = L( T,l ) von l bei vorgegebenem Semi- Thue-System T.

10 BIT – Schaßan – WS 02/03 Thue-Systeme T = { p q } ist ein Semi-Thue-System; Menge T -1 = { q p } mit umgekehrter Pfeilrichtung ist ebenfalls ein Semi-Thue-System Das inverse System heißt Reduktionssystem. Thue-Systeme sind symmetrische Semi-Thue- Systeme T = T T -1, bei dem zu jeder ableitenden Regel p q auch die reduzierende Regel q p zu T gehört.

11 BIT – Schaßan – WS 02/03 Determination Sind zu einem Text x mehrere anwendbare Regeln gegeben oder kann eine Regel auf mehrere Teilwörter von x angewendet wer- den, heißt ein Algorithmus indeterministisch. Ist in jedem Schritt die anzuwendende Operation eindeutig bestimmt, so heißt der Algorithmus deterministisch.

12 BIT – Schaßan – WS 02/03 Normalform Überführt ein Semi-Thue-System T ein Wort x in y = T (x ), x y, und hält dann an, so heißt y eine Normalform von x. *

13 BIT – Schaßan – WS 02/03 Markov-Algorithmen Unabhängig von Thue erfand Markov ein System zur Beschreibung von Textersetz- ungen. Ein Markov-Algorithmus (normaler Algo- rithmus) ist ein deterministisches Semi- Thue-System mit endlich vielen Regeln und zwei verschiedenen Endbedingungen.

14 BIT – Schaßan – WS 02/03 Markov-Algorithmen (2) Die Endbedingungen: Wähle in jedem Schritt die erste anwendbare Regel. Falls sie auf mehrere Teilwörter anwend- bar ist, wende sie auf das am weitesten links stehende Teilwort an. Wende Regeln so lange an, bis eine haltende Regel angewandt wurde, oder bis keine Regel mehr anwendbar ist.

15 BIT – Schaßan – WS 02/03 Markov-Algorithmen (3) haltende Regeln:x. y erste anwendbare Regel: bezogen auf die Reihenfolge, in der die Regeln aufgeschrieben wurden; falls eine Regel ε r angegeben ist, wird r am Anfang des Wortes eingesetzt, da das am weitesten links stehende Wort ersetzt wird;

16 BIT – Schaßan – WS 02/03 Markov-Algorithmen (4) Erlaubt man zusätzliche Zeichen α,β,γ,…, so genannte Schiffchen, die weder im Eingabetext noch im Ergebnis vorkommen, so kann man mit diesen gesteuerten Markov-Algorithmen, wie im übrigen auch mit allgemeinen Semi-Thue-Systemen, jede beliebige Berechnung beschreiben, die algorithmisch formulierbar ist.

17 BIT – Schaßan – WS 02/03 Beispiel-MA Σ = { O, L } mit den Schiffchen α, β Regeln: αL Lα,αO Oα, α β,Lβ βO, oβ. L,β. L, ε α Eingabe:LOLL Umformung: LOLL αLOLL LαOLL LOαLL LOLαL LOLLα LOLLβ LOLβO LOβOO LLOO

18 BIT – Schaßan – WS 02/03 Anwendung in der Linguistik Semi-Thue-Systeme können benutzt werden, um die Struktur von Sätzen in natürlichen Sprachen als Ableitungsbaum darzustellen. Die Übertragung bzw. Anwendung von solchen Systemen geschah in den 50er Jahren v.a. durch Chomsky und andere Linguisten.

19 BIT – Schaßan – WS 02/03 Grammatiken Chomsky nannte diese Semi-Thue- Systeme Grammatiken und ihre Regeln Produktionen. Beispiel: ein Satz als Normalform für eine Zeichenreihe

20 BIT – Schaßan – WS 02/03 Ableitungsbaum Satz SubjektPrädikat ArtikelSubstantivVerbum Ein Fischschwimmt

21 BIT – Schaßan – WS 02/03 Regeln des Beispiels Regeln: Satz Subjekt Prädikat Subjekt Artikel Substantiv Prädikat Verbum Artikel ein Substantiv Fisch Verbum schwimmt

22 BIT – Schaßan – WS 02/03 Grammatiken (2): Σ, N In einer Grammatik unterscheidet man syntaktische Begriffe wie Satz, Verbum etc. von den Wörtern der zu beschreibenden Sprache. Die Wörter werden als Einzelzeichen eines Zeichenvorrats Σ ohne weitere innere Struktur betrachtet und als terminale Zeichen oder kurz Terminale bezeichnet. Die syntaktischen Begriffe bilden einen Zeichen- vorrat N der syntaktischen Variablen, nicht- terminalen Zeichen oder Nichtterminale.

23 BIT – Schaßan – WS 02/03 Grammatiken (3): G, Z Mit der Angabe einer Grammatik G sollen die terminalen Zeichenreihen x, x T * beschrieben werden, die einem ausge- zeichneten syntaktischen Begriff Z, dem Startsymbol, Axiom oder Ziel der Grammatik G entsprechen.

24 BIT – Schaßan – WS 02/03 Grammatiken (4): L(G) Die Menge L(G ) dieser Zeichenreihen heißt der Sprachschatz der Grammatik G. Im Semi-Thue-System war die Menge aller, also nicht nur der terminalen, aus Z ableitbaren Zeichenreihen als formale Sprache L Z = L(G, Z ) bezeichnet worden. Das Ziel Z wird im Unterschied zum Semi-Thue- System nicht mehr explizit erwähnt, da es durch die Grammatik eindeutig gegeben ist.

25 BIT – Schaßan – WS 02/03 Grammatiken (5): V Die Vereinigung V = N Σ heißt das Vokabular der Grammatik bzw. formalen Sprache. Wenn auch die leere Zeichenreihe ε zulässig ist, wird die Menge aller Zeichenreihen über den Zeichenvorräten V bzw. Σ mit V * bzw. Σ* bezeichnet. Eine Zeichenreihe x aus V *, die durch endlich viele Anwendungen von Produktionen aus dem Ziel Z abgeleitet werden kann (Z x ) heißt Satzform oder Phrase. *

26 BIT – Schaßan – WS 02/03 Phrasenstrukturen Phrasenstrukturen können sichtbar gemacht werden, indem alle Produktionen l r durch l r ersetzt werden. Die Produktionsmengen P = {Z z, Z zZz } und P ' = {Z z, Z Zzz } strukturieren Wörter wie zzzzz unterschiedlich: z z z z z bzw. z zz zz

27 BIT – Schaßan – WS 02/03 Zerteilung Um herauszufinden, ob eine Zeichenreihe x eine Phrase ist, muss ihre syntaktische Struktur festgestellt werden. Dieser Vorgang heißt Zerteilung (engl. parsing) von x. Durch Umkehrung aller Pfeile erhält man aus dem Ableitungssystem A ein Reduktions- oder Zerteilungssystem R.

28 BIT – Schaßan – WS 02/03 Chomsky-Grammatik Eine Grammatik G = { Σ, N, P, Z }, in dem Σ, N und Z die vorher erläuterte Bedeutung haben und P eine endliche Menge von Produktionen l r ist, heißt eine Chomsky- Grammatik. Da die Grammatik G in Satzform bzw. aus Phrasen bestehen, werden die Grammatiken nach Chomsky oft Phrasenstrukturgrammatiken genannt.

29 BIT – Schaßan – WS 02/03 Begriffsübersicht GGrammatik VVokabular der Grammatik G ΣZeichenvorrat an Terminalen auch als V T bezeichnet NZeichenvorrat an Nichtterminalen auch als V N bezeichnet ZZiel, Axiom der Grammatik G auch als S bezeichnet L(G )Sprachschatz der Grammatik G PProduktionsmengen

30 BIT – Schaßan – WS 02/03 Beschreibung von PSS (3) Mit Grammatiken soll beschrieben werden, welche Texte syntaktisch korrekt aufgebaut sind. (Die Unterscheidung von sinnvollen und sinnlosen Texten ist nicht vonnöten.) Die Menge der syntaktisch korrekten Programme, also der Sprache, wird top- down beschrieben.

31 BIT – Schaßan – WS 02/03 Chomsky-Hierarchien Chomsky-Grammatiken lassen sich nach der Form ihrer Produktionen l r weiter klassifizieren: Chomsky-Typ 0 (kurz CH-0-Grammatik) heißt allgemeine Grammatik Chomsky-Typ 1 (kurz CH-1-Grammatik) heißt kontextsensitive Grammatik Chomsky-Typ 2 (kurz CH-2-Grammatik) heißt kontextfreie Grammatik Chomsky-Typ 3 (kurz CH-3-Grammatik) heißt reguläre Grammatik

32 BIT – Schaßan – WS 02/03 CH-0 Eine Grammatik ist allgemein oder eine CH-0- Grammatik, wenn ihre Produktionen keinen Ein- schränkungen unterliegen. Insbesondere sind Produktionen ε r erlaubt. Der Vergleich mit Markov-Algorithmen (die Schiffchen entsprechen in etwa den Nichttermi- nalen) zeigt, dass man jede berechenbare Menge als Sprache L(G ) einer CH-0-Grammatik erhalten kann.

33 BIT – Schaßan – WS 02/03 CH-1 Eine Grammatik ist kontextsensitiv oder eine CH-1-Grammatik, wenn ihre Produk- tionen beschränkt oder kontextsensitiv sind. Da in einer Ableitung Z x y stets |x | |y | gilt, kann man in endlich vielen Schritten bestimmen, ob ein Wort y vorge- gebener Länge zu L(G ) gehört. Eine Sprache L(G ) einer kontextsensitiven Grammatik muss daher entscheidbar sein. *

34 BIT – Schaßan – WS 02/03 CH-2 Eine Grammatik ist kontextfrei oder eine CH- 2-Grammatik, wenn ihre Produktionen kontextfrei sind. Die linke Seite jeder Ableitungsregel darf nur aus einer Variablen bestehen, wie die Variable A aber abgeleitet wird, darf nicht vom Kontext, in dem A steht, abhängen. Eine kontextfreie Grammatik heißt ε-frei, wenn sie keine ε-Produktion enthält.

35 BIT – Schaßan – WS 02/03 CH-3 Eine Grammatik ist regulär oder eine CH-3- Grammatik, wenn sie neben terminieren- den und ε-Produktionen entweder nur links- oder nur rechtslineare Produktionen enthält.

36 BIT – Schaßan – WS 02/03 Chomsky-Hierarchien-Übersicht ProduktionProduktionstypEigenschaftenGr.-typ l rallgemeinl, r V * beliebigCH-0 l εε-Produktionl V *, r = ε l rbeschränktl, r V *, l |l | |r |CH-1 uAv urvkontextsensitivA N, u,v,r V *, r εCH-1 A rA rkontextfreiA N, r V *CH-2 A BxlinkslinearA, B N, x ΣCH-3 A xBrechtslinearCH-3 A xA xterminierendA N, x Σ


Herunterladen ppt "BIT – Schaßan – WS 02/03 Basisinformationstechnologie HK-Medien Teil 1, 13. Sitzung WS 02/03."

Ähnliche Präsentationen


Google-Anzeigen