Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Die Bourne-Shell (cygwin), UNIX- Tools und treetagger Seminar: Strukturierung und Analyse linguistischer Korpusdaten Leiter: Leiter: Dr. Christian Riepl.

Ähnliche Präsentationen


Präsentation zum Thema: "Die Bourne-Shell (cygwin), UNIX- Tools und treetagger Seminar: Strukturierung und Analyse linguistischer Korpusdaten Leiter: Leiter: Dr. Christian Riepl."—  Präsentation transkript:

1 Die Bourne-Shell (cygwin), UNIX- Tools und treetagger Seminar: Strukturierung und Analyse linguistischer Korpusdaten Leiter: Leiter: Dr. Christian Riepl und Dr. Stephan Lücke Referentin: Olga Zabolotskykh Datum:

2 Was ist Shell? Weil die direkte Kommunikation mit dem Betriebssystem-Kern (UNIX) für einen Benutzer viel zu komplex wäre, ist eine vereinfachte Benutzer-Schnittstelle erforderlich. Die Rolle dieser Schnittstelle spielt Shell. Der englische Ausdruck Shell, zu Deutsch etwa Schale, drückt diesen Sachverhalt bereits aus. Jedenfalls lässt sich eine Shell als eine Schicht zwischen Betriebssystem und Benutzer verstehen.

3 Diese Schicht kann folgenderweise veranschaulicht werden

4 Die wichtigsten Vertreter sh:Bourne ShellDie Mutter aller Shells csh:C-Shell Shell mit C-aehnlicher Syntax ksh:Korn Shell Maechtige, C-orientierte Shell (Solaris) zsh:Z-Shell Erweiterte, komfortableShell, Bash kompatibel bash:Bourne Again SH Erweiterte, komfortable Bourne Shell

5 Cygwin-Shell Drei Kanäle für den Datenfluss: Den Standardeingabe- (stdin) Standardausgabe- (stdout) und Standardfehlerkanal (stderr)- Normalerweise erfolgt die Eingabe von Befehlen und/oder Text über die Tastatur (Standardeingabe). Alles, was Cygwin produziert, wird auf dem Standardausgabekanal, dem Bildschirm (im Cygwin-Fenster) ausgegeben und ist unter Umständen schon dann „verloren“, wenn der Text durch die Ein-/Ausgabe weiterer Befehle/Ergebnisse am oberen Rand des Cygwin-Fensters verschwunden ist. Der Standardfehlerkanal ist nur im Rahmen der Shell-Programmierung wichtig; auf ihn soll hier nicht näher eingegangen werden.

6 Die Standardeingabe, die Standardausgabe und die Standardfehlerausgabe kann man umlenken, d.h. man kann z.B. aus einer Datei statt von der Tastatur lesen oder in eine Datei statt auf das Terminal schreiben. Für die Eingabeumlenkung gibt es das "<"-Zeichen (Kleinerzeichen): wc -l < test.txt liest aus der Datei test.dat und schreibt das Ergebnis auf den Bildschirm. (Anmerkung: das Kommando wc gibt die Anzahl der Zeichen, Wörter und Zeilen der Datei test.txt zurück) Obiges Kommando hätte man allerdings auch folgenderweise aufrufen können: wc -l test.txt

7 Für die Ausgabeumlenkung benutzt man das Größerzeichen, also ">": ls > dir.txt ls liefert den Inhalt des aktuellen Verzeichnisses, also die Namen der Dateien und der Unterverzeichnisse. Die Umlenkung bewirk, dass das Ergebnis in dir.txt gespeichert wird. Falls die Datei vor dem Aufruf bereits existierte, wird sie mit dem neuen Inhalt überschrieben In vielen Fällen möchte man jedoch die Ausgaben eines Kommandos an eine bestehende Datei hinten anhängen. Dies ist bei Logdateien im Prinzip der Normalfall. Dies lässt sich ganz einfach bewerkstelligen, statt eines Größerzeichens benutzt man zwei Größerzeichen ">>“: ls >> dir.txt

8 PIPES Eine der großen Stärken von Linux (Unix) liegt in der Möglichkeit, Kommandos beliebig zu neuen Komandos zu kombinieren. Die Hintereinanderausführung von Kommandos nennt man Pipe (englisch: Röhre). Unter Hintereinanderausführung versteht man, dass die Ausgaben des ersten (zeitlich) Programmes als Eingaben für das nächste Programm verwendet werden. Der senkrechte Balken (|) verbindet die Kommandos zu einer Pipe. kommando1 | kommando2 | kommando 3 Zum Beispiel: ls | less

9 Häufig verwendete Befehle BefehlBeispielBeschreibung wgetwget auf Festplatte kopieren catcat datei1.txt datei2.txtden Inhalt der beiden Dateien wird unmittelbar hintereinander geschrieben und auf dem Bildschirm ausgegeben pastepaste datei1.txt datei2.txtZusammenfügung von zwei oder mehr Dateien in der Weise, dass die korrespondierenden Zeilen jeder Datei zu jeweils einer Zeile zusammengefügt werden, wobei zwischen den Ausgangszeilen jeweils ein Tabulator gesetzt wird. cdcd /tmpWechselt in das genannte Verzeichnis (change directory) cmpcmp [OPTION]... FILE1 FILE2Vergleicht zwei Dateien auf Übereinstimmung (compare two files byte by byte)

10 BefehlBeispielBeschreibung cutcut -c 4-10 text.txtschneidet von jeder Zeile eine zu definierende Anzahl von Buchstaben/Zeichen oder Spalten aus. filefile datei.txtliefert Informationen zur Art einer Datei und, im Fall, dass es sich um eine Textdatei handelt, zur darin verwendeten Zeichen- und Zeilenende-Kodierung. grepgrep –i regexp datei.txt„global/regular expression/print”. Durchsucht Datei nach einem regulären Ausdruck und gibt passende Zeilen aus. i – Groß/Kleinschreibung ingnorieren. lessless datei.txteine bestimmte Anzahl Zeilen einer Datei anzeigen odod datei.txtgibt den Inhalt der Datei in Zahlengestalt aus, wobei in der Standardeinstellung für die Darstellung der Zahlen das oktale Zahlensystem verwendet wird

11 BefehlBeispielBeschreibung pwd gibt das aktuelle Verzeichnis aus (print working directory) lsls –l /verzeichnis ls – a /verzeichnis Gibt den Inhalt eines Verzeichnisses aus (list); -l - langes Format -a – auch versteckte Dateien rmrm datei.txtlöscht Datei (remove) rmdirrmdir verzeichnis rmdir –p verzeichnis Verzeichnis löschen (remove directory); -p (parents) – Verzeichnisbaum löschen, wenn es leer sedsed regexp/replaceNicht-interaktiver Editor, verändert die Originaldatei nicht! Es schreibt lediglich das Ergebnis der Befehlsausführung auf die Standardausgabe sortsort datei.txt sort – r datei.txt sort – n datei.txt sortiert Datei, -r – rückwärts sortieren -n – numerisch sortieren

12 BefehlBeispielBeschreibung tailtail datei.txtGibt die letzten Zeilen einer Datei aus headhead datei.txtGibt die ersten Zeilen einer Datei aus wcwc –c datei.txt wc –m datei.txt wc –l datei.txt wc –w datei.txt Gibt die Anzahl der Bytes aus Gibt die Anzahl der Zeichens aus Gibt die Anzahl der Zeilen aus Gibt die Anzahl des Wörteraus

13 Treetagger Die TreeTagger ist ein Tool für automatische Lemmatisierung und Part-of-speech-Tagging Entwickler – Helmut Schmid, Institut für Computerlinguistik an der Universität Stuttgart Sprachen, mit denen TreeTagger „arbeitet“: Deutsch, Englisch, Französisch, Italienisch, Niederländisch, Spanisch, Bulgarisch, Russisch, Portugiesisch, Galizisch, Chinesisch, Swahili, Slowakisch, Slowenisch, Latein, Estnisch, Polnisch und Altfranzösisch. muenchen.de/~schmid/tools/TreeTagger/ muenchen.de/~schmid/tools/TreeTagger/

14

15 Danke für die Aufmerksamkeit!


Herunterladen ppt "Die Bourne-Shell (cygwin), UNIX- Tools und treetagger Seminar: Strukturierung und Analyse linguistischer Korpusdaten Leiter: Leiter: Dr. Christian Riepl."

Ähnliche Präsentationen


Google-Anzeigen