Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

1/34 Datenbanken in der FOR 600 Der Einsatz von Datenbanken in der empirischen Linguistik Heinrich-Heine-Universität, FFF-Kolloquium Christof Rumpf 29.04.2009.

Ähnliche Präsentationen


Präsentation zum Thema: "1/34 Datenbanken in der FOR 600 Der Einsatz von Datenbanken in der empirischen Linguistik Heinrich-Heine-Universität, FFF-Kolloquium Christof Rumpf 29.04.2009."—  Präsentation transkript:

1 1/34 Datenbanken in der FOR 600 Der Einsatz von Datenbanken in der empirischen Linguistik Heinrich-Heine-Universität, FFF-Kolloquium Christof Rumpf

2 2/34 Überblick Datenbanken – Grundlagen Datenbanken in der FOR 600 –DB Verbgraduierung –DB A2: Dimensionsverben –DB B5: FBs in der Harndiagnostik –DB A4: Entwicklung von FBs im Französischen –DB A5: mehrdimensionale Korpusanalyse

3 3/34 Was ist eine Datenbank? Datenbank, Datenbanksystem, englisch Data-Base-System, zentral verwaltetes System zur widerspruchsfreien und permanenten Speicherung großer Datenmengen eines Informationsgebietes (z. B. naturwissenschaftliche Daten, Wirtschaftsstatistiken), auf die nach unterschiedlichen Anwendungskriterien zugegriffen werden kann. Ein Datenbanksystem besteht aus den auf der Grundlage eines Datenbankmodells organisierten Datenbeständen (Datenbasis) und dem Datenbank-Managementsystem (Abkürzung DBMS), einem Softwarepaket, das die Datenbestände und Zugriffsrechte verwaltet sowie eine Anwenderschnittstelle für die Datendefinition, -eingabe und -manipulation enthält. Meyers Lexikon

4 4/34 Datenbankmodelle / -architekturen Relational - verbreitetster Standard Deduktiv - relational + Prolog Objektorientiert - entspr. OO-Programmierung Objektrelational - relational + objektorientiert Hierarchisch - Baumstruktur, veraltet Netzwerk - Graphen

5 5/34 Datenbankmanagementsystem Ein DBMS ist ein Softwarepaket –zur Speicherung und Organisation von Daten aufgrund eines Datenbankmodells –zur Verwaltung von Zugriffsrechten –enthält Entwicklerschnittstelle zur Definition von Datenmodellen Eingabe und Pflege von Daten Erstellung von Sichten auf Daten (Abfragen) Erstellung von Berichten (Reportgenerator) Erstellung von Benutzerschnittstellen für Normalbenutzer (Formulargenerator)

6 6/34 Relationale DBMS Desktop-DBMS –MS Access, dBase, OpenOffice Base, … –Müssen in einer Client-Server-Umgebung ganze Datenbestände auf den Client laden, um eine Abfrage auszuwerten. Server-DBMS –Oracle, MySQL, Microsoft SQL Server, … –Abfragen werden auf dem Server ausgewertet und nur die Ergebnisse zum Client übertragen.

7 7/34 Datenmodell Ein Datenmodell ist eine Abbildung von Objekten (z.B. aus der wirklichen Welt) mit ihren (relevanten) Eigenschaften und Beziehungen in einem Datenbankmodell. Beispiel: –Universität mit Fakultäten, Instituten, Angestellten, Studenten, Studiengängen, Lehrveranstaltungen, Abschlüssen, Semestern, Gebäuden, Räumen, … Datenmodelle für relationale Datenbanken werden häufig aus Entity-Relationship-Modellen abgeleitet.

8 8/34 Entity-Relationship-Modell (ERM) Attribut Beziehung Entität Quelle: Peter Körner, Wikipedia.de

9 9/34 Aufbau relationaler DBs Relationale Datenbanken bestehen aus verknüpften Tabellen, die in Felder (Attribute) und Datensätze (Relationen, Tupel) organisiert sind. In jedem Feld stehen Daten eines bestimmten Typs (Text, Zahlen, Datum/Zeit-Ausdrücke, Ja/Nein-Werte, BLOBs, …). Alle Datensätze einer Tabelle haben einen gleichartigen Aufbau, sind gleich lang. Eine Tabelle kann beliebig viele Datensätze enthalten. PIdVornameName 1HanSolo 2HarryPotter 3Madonna 4PeterMeier 5PeterMeier Daten- sätze Felder / Attribute z.B. Tabelle Personen Schlüsselfeld

10 10/34 Tabellenverknüpfung 1:n Über Schlüsselfelder kann man Tabellen bequem miteinander verknüpfen. Bei einer 1:n-Verknüpfung kann jeder Datensatz der 1-Seite beliebig vielen Datensätzen der n-Seite zugeordnet werden. Umgekehrt kann jeder Datensatz der n-Seite nur mit einem Datensatz der 1-Seite verknüpft sein. Szenario: Jeder Studierende studiert genau einen Studiengang. PIdVornameNameStgId 1HanSolo3 2HarryPotter2 3Madonna2 4PeterMeier1 5PeterMeier2 StgIdStudiengang 1Informationswissenschaft 2Linguistik 3Informatik n1 Mastertabelle StgId = Primärschlüssel Detailtabelle StgId = Fremdschlüssel Studierende Studiengänge

11 11/34 Tabellenverknüpfung n:m SemIdSeminar 1Wissensrepräsentation 2Datenbanken 3Semantik TIdPIdSemIdAbschluss 111BN AP 442BN 552AP Bei n:m-Verknüpfungen können jedem Datensatz der einen beliebig viele Datensätze der anderen Tabelle zugeordnet werden. Die Vermittlung zwischen n- und m-Seite erfolgt über eine dritte Tabelle und zwei 1:n-Verknüpfungen. Szenario: Jeder Student besucht beliebig viele Seminare. PIdVornameName 1HanSolo 2HarryPotter 3Madonna 4PeterMeier 5PeterMeier m1 n1 Personen Teilnehmer Seminare

12 12/34 Redundanz und Konsistenz Eine Datenbank soll redundanzfrei sein –Jedes (komplexe) Objekt soll nur einmal repräsentiert werden und in allen Beziehungskontexten referenziert werden. Das leistet ein gutes Datenmodell (Normalformen). Eine Datenbank soll konsistent sein –Keine Mutationsanomalien Das leistet ein gutes Datenmodell (Normalformen). –Alle Referenzen sollen auflösbar sein. Das leistet ein gutes DBMS (referentielle Integrität).

13 13/34 Mutationsanomalien Treten bei der Repräsentation verschiedener Entitäten in derselben Tabelle auf: Updateanomalien –Redundante Einträge müssen mehrfach geändert werden: Fehlerquelle Einfügeanomalien –Zuordnungsprobleme bei unvollständigen Datensätzen Löschanomalien –Drohender Datenverlust: Beim Löschen einer Entität gehen die Daten zu einer anderen evt. verloren

14 14/34 Normalformen Normalformen garantieren Redundanzfreiheit und verhindern Mutationsanomalien 1. Normalform –Alle Attribute haben atomare Werte 2. Normalform –Jedes Nichtschlüssel-Attribut ist voll funktional abhängig von jedem Kandidatenschlüssel 3. Normalform –Jedes Nichtschlüssel-Attribut hängt von keinem Schlüsselkandidaten transitiv ab.

15 15/34 SQL SQL Structured Query Language ist eine Sprache zur Abfrage, Manipulation und Definition von Daten in relationalen Datenbanken. Die Semantik von SQL basiert auf der relationalen Algebra. Sprachelemente Abfrage: SELECT Manipulation: INSERT, DELETE, UPDATE Datendefinition: CREATE, ALTER, DROP Zugriffsrechte:GRANT, REVOKE SQL wird von fast allen relationalen DBMS unterstützt und ist standardisiert nach ANSI und ISO. MS Access: Jede in der Access-Entwurfsansicht erstellte Abfrage hat eine äquivalente SQL-Darstellung, aber nicht alle SQL-Ausdrücke können in der Access-Entwurfsansicht erstellt werden (z.B. UNION-Abfragen).

16 16/34 SELECT Mit SELECT–Abfragen werden Sichten auf Daten erstellt. SELECT [DISTINCT] S-Attribute FROM F-Relation [WHERE Where-Klausel] [GROUP BY (Gruppierungsattribute) [HAVING Having-Klausel]] [ORDER BY (Sortierungsattribut [ASC|DESC])+]; S-Attribute: Attribute aus F-Relation, Konstanten, Funktionen (auf Attributen) F-Relation: Tabelle, Sichten (Abfragen), kartesische Produkte, Joins Where-Klausel: Bedingungen für Attributwerte (Selektion) Gruppierungsattribute: Gruppierung für Aggregatfunktionen Having-Klausel: Bedingungen für Aggregatfunktionen auf Gruppierungsattributen SELECT Veranstaltung FROM Veranstaltungen INNER JOIN Semester ON Veranstaltungen.SId = Semester.SId WHERE Semester = SS2009 ORDER BY Veranstaltung ASC;

17 17/34 DB Verbgraduierung Erfassung von ca Belegen zur Graduierung ca deutscher Verben bzw. ca Lesarten mit sehr. Systematische Annotierung der Funde mit relevanten Merkmalen u.a. zur Valenz. Die Daten wurden zunächst in Word-Tabellen erfasst und später in eine Access-Datenbank importiert. Status: wird weiterentwickelt.

18 18/34 Verbgraduierung: Datenmodell

19 19/34 Verbgraduierung: Eingabemaske

20 20/34 DB Dimensionsverben Sehr komplexes Datenmodell. Daten liegen z.Z. in Textform vor und sollen mittels Parsing in das Datenmodell der Datenbank importiert werden. Die Datenmodelle der Datenbanken Verbgraduierung und Dimensionsverben sollen integriert werden -> standardisiertes Datenmodell für Verben

21 21/34 Dimensionsverben: Datenmodell

22 22/34 Dimensionsverben: Eingabemaske

23 23/34 DB Harndiagnostik Erfassung von Funktionalbegiffen in der Literatur zur Harndiagnostik. Deutsche Literatur (Stand ) –20 Texte aus den Jahren –2517 Vorkommen von 364 FBs Französische Literatur –10 Texte aus den Jahren –2725 Vorkommen von 490 FBs Lateinische Literatur – in Arbeit

24 24/34 Harndiagnostik: Datenmodell

25 25/34 Harndiagnostik: Eingabemaske

26 26/34 DB FB-Entwicklung Erfassung von Funktionalbegriffen im Französischen und dem Zusammenhang ihrer diachronen Entwicklung. Erfassung von typisierten Transformationsprozessen. Es entsteht ein Graph der diachronen Zusammenhänge. Status: müsste portiert werden.

27 27/34 FB-Entwicklung: Eingabemaske 1

28 28/34 FB-Entwicklung: Eingabemaske 2

29 29/34 DB Korpusanalyse Vollständiger Korpus (Löbner 03) mit Tokens incl. morphosyntaktischer Analyse. Teilweise handannotierte Begriffstypen. Datenmodell für Lesarten und Typeshifts. Generierung von n-Grammen. Status: wird weiterentwickelt.

30 30/34 Korpusanalyse: Ausschnitt

31 31/34 Counts und Counts of Counts qryNNCounts SELECT Count(Token) AS Count, Token FROM tabSemantik_getaggt GROUP BY Token HAVING Tag="NN" ORDER BY Count(Token) DESC; qryCountsOfCounts SELECT Count(Count) AS CountsOfCounts, Count FROM qryNNCounts GROUP BY Count ORDER BY Count(Count) DESC; Häufigkeit von Tokens eines bestimmten Typs in einem Korpus Häufigkeit, mit der Tokens einer bestimmten Häufigkeit in einem Korpus vorkommen

32 32/34 Nomenbedeutungen: Datenmodell

33 33/34 Nomenbedeutungen: Eingabemaske

34 34/34 Danke fürs Zuhören!


Herunterladen ppt "1/34 Datenbanken in der FOR 600 Der Einsatz von Datenbanken in der empirischen Linguistik Heinrich-Heine-Universität, FFF-Kolloquium Christof Rumpf 29.04.2009."

Ähnliche Präsentationen


Google-Anzeigen