Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

10. Natürliche Sprache in Biologie und Medizin Wintersemester 2010/11 Dozent: Univ.-Prof. Dr. med. Stefan Schulz.

Ähnliche Präsentationen


Präsentation zum Thema: "10. Natürliche Sprache in Biologie und Medizin Wintersemester 2010/11 Dozent: Univ.-Prof. Dr. med. Stefan Schulz."—  Präsentation transkript:

1 10. Natürliche Sprache in Biologie und Medizin Wintersemester 2010/11 Dozent: Univ.-Prof. Dr. med. Stefan Schulz

2 Ebenen der Sprachtechnologie I.Speech Erkennung gesprochener Sprache (speech recognition) Erzeugung gesprochener Sprache (speech synthesis) II.Content Textretrieval Text Mining Textgenerierung Textzusammenfassung Informationsextraktion Maschinelle Übersetzung

3 Information Retrieval Sucher- gebnisse Kollektion von Dokumenten (Dokumentationseinheiten) Anfrage (Query) ?

4 PersonOut PersonIn Position Organization TimeOut TimeIn Template Dr. Hermann Wirth, bisheriger Leiter der Musikhochschule München, verabschiedete sich heute aus seinem Amt. Der 65-jährige tritt seinen wohlverdienten Ruhestand an. Als seine Nachfolgerin wurde Sabine Klinger benannt. Ebenfalls neu bestzt wurde die Stelle des Musikdirektors. Annelie Häfner folgt Christian Meindl nach Pressenotiz PersonOut Dr. Hermann Wirth PersonIn Sabine Klinger Position Leiter Organization Musikhochschule M TimeOut Heute TimeIn PersonOut Christian Meindl PersonIn Annelie Häfner Position Musikdirektor Organization Musikhochschule M TimeOut TimeIn Informationsextraktion

5 Maschinelle Übersetzung

6 Question Answering

7 Grundbegriffe der Linguistik Semiotik Phonetik, Phonologie Morphologie Syntax Grammatik Semantik Pragmatik Textlinguistik Lexikographie Terminologie

8 Ebenen der Linguistik Morphologie: – be + end + en, In + fekt + ion, In + fekt + ion + en Syntax: – Eine schwere Infektion beendete die Schwangerschaft vs. – Eine Infektion schwere die Schwangerschaft beendete. Semantik: – Es wurde eine Entbindung per Kaiserschnitt vorgenommen – Es wurde eine Osteosynthese per Kaiserschnitt vorgenommen Textverstehen: – Eine schwere Infektion beendete die Schwangerschaft. Das Neugeborene befindet sich in gutem Allgemeinzustand – Eine schwere Infektion beendete die Schwangerschaft. Das Transplantat wurde bisher nicht abgestoßen.

9 Medizinische Anwendungen von Sprachtechnologien Unterstützung der Befunderstellung durch Spracherkennungssysteme Dokumentenretrieval aus computerisierten Krankenblattarchiven, Literaturdatenbanken, WWW- Dokumenten, WWW-Portalen Zusammenfassung von Krankengeschichten Automatische Wissensaquisition aus medizinischen Freitexten Automatisierte Verordungen Multilinguale Erzeugung von Patienteninformation Automatische Kodierung / Klassifikation von Diagnosen und Prozeduren

10 Semiotik... Lehre von den Zeichen Ein Zeichen ist Stellvertreter für etwas Bezeichnetes Alles sinnlich wahrnehmbare kann Zeichen sein Alles beliebige kann als Zeichen fungieren Sprachwissenschaft: Zeichensystem Sprache

11 Das semiotische Dreieck Symbol, Wort, Code, Bezeichner Objekt, Instanz Referent Begriff, Gedanke, Inhalt, Konzept "Stuhl", "chair" Beliebiger Ausschnitt aus der wahrnehmbaren oder vorstellbaren Welt. Denkeinheit, die aus einer Menge von Gegenständen unter Ermittlung der diesen Gegenständen gemeinsamen Eigenschaften mittels Abstraktion gebildet wird. Repräsentation eines Begriffs mit sprachlichen oder anderen Mitteln

12 Sprachliche Zeichen Laute Phoneme Morphemever auf mitt haut einfache WörterMagen, Schleim, Haut Komplexe WörterMagen-schleim-haut Phrasendas ödematös aufgelockerte Stroma SätzeEs finden sich vereinzelt Lymphfollikel. Texte Zusammen gut reiskorngroßes Biopsiematerial einer Magenschleimhaut vom Antrumtyp mit mittelgradig verplumpten, verlängerten und vermehrt basophilen Foveolen, die streckenweise einen Becherzellbesatz aufweisen. Das ödematös aufgelockerte Stroma wird mittelgradig vermehrt überwiegend von Lymphozyten und Plasmazellen infiltriert. Es finden sich vereinzelt Lymphfollikel.

13 Linguistische Betrachtungsweisen Grammatik: Zeichenformen und Möglichkeiten ihrer Kombination Semantik: Bedeutung einfacher und komplexer Zeichenformen Pragmatik: Allgemeine Regularitäten, die dem Sprachgebrauch zugrundeliegen

14 Grammatik Lehre vom – Wort (Morphologie, Morphosyntax) – Satz (Syntax) – Laut (Phonologie) – Text (Textgrammatik) Formale Seite sprachlicher Ausdrücke: – System minimaler Einheiten mit Regeln zur Generierung komplexerer Einheiten – Berührung zur Theorie der formalen Sprachen

15 Sprachliche Zeichen Charakteristikum: Verkettung von Einzelzeichen zu komplexeren Einheiten Laute Phoneme Morpheme Wörter (einfach / komplex) PhrasenTexteSätze Morphem- bedeutung Wort- bedeutung Phrasen - bedeutung Text bedeutung Satz- bedeutung

16 Grammatik: Morphologie, Übung Morphologie = Lehre vom Wort Was ist ein Wort ? Beispiel: Übung: Wie viele Wörter hat dieser Satz ? Wenn hinter Fliegen eine Fliege fliegt, fliegt eine Fliege Fliegen nach.

17 Token, Type, Lexem Token: Einzelne Vorkommen eines Zeichens (Wortes) Type: Einzelne Muster eines Zeichens (Wortes) Lexem: Zusammenfassung mehrerer Types (unterschiedlicher syntaktischer Wörter) Wenn hinter Fliegen eine Fliege fliegt, fliegt eine Fliege Fliegen nach Wenn hinter Fliegen eine Fliege fliegt, fliegt eine Fliege Fliegen nach Wenn hinter Fliegen eine Fliege fliegt, fliegt eine Fliege Fliegen nach

18 Morphosyntax Morphemarten: Stamm, Präfix, Suffix Bildungsregeln wohlgeformter (well-formed) Wörter: Beispiele: – Kein Wort kann mit einem Suffix beginnen – Keine zwei Beugungssuffixe hintereinander – Kein Wort kann nur aus Affixen bestehen Beugungsregeln z.B. pastpart wentgone pres go

19 Morphologische Besonderheiten der Bio/Medizinsprache (I) Morpheme aus dem Griechischen, Lateinischen, Deutschen, zunehmend dem Englischen Fugen-o typisch für lat./gr. Lehnwörter: hepatozellulär, gastrointestinal Zwei Wortbildungsschemata: 1.Deutsch: Orthographische Anpassung lateinischer Morpheme ca ka; ce ze; ci zi; co ko; cu ku; es gelten deutsche Wortbildungsregeln wenige hybride Pluralbildungen (-itis, -itiden, -zera) 2.Lateinisch: Großschreibung der Substantive, sonst gelten die Wortbildungsregeln des Lateinischen

20 Morphologische Besonderheiten der Medizinsprache (II) Eponyme (Eigennamen) werden oft wie Wortstämme behandelt Parkinsonismus Akronyme (Kürzel) sehr häufig, verweisen oft auf englische NPs (ARDS, MALT, AIDS) und können zu normalen Wortstämmen mutieren (der Aidspatient) Abkürzungen (in der geschriebenen Sprache): meist Wortstämme chron., persist., Herzinsuff., Ad-hoc Kompositabildung lymphoplasmazellulär Becherzellbesatz

21 Wortbildungsphänomene in der Molekularbiologie

22 Syntax Lehre vom Satz – Regeln zur Bildung well-formed Wordgruppen – Früher: Satzgliedlehre (Subjekt, Prädikat, Objekt etc.) Worttypen: POS (Part of Speech) Komponenten: – Lexikon, Syntax: – Regeln der Kombination elementarer Ausdrücke zu komplexen Ausdrücke Ähnlichkeit zu formalen Sprachen (z.B. Programmiersprachen)

23 Syntax: Konstituentenstruktur Konstituente: Überbegriff für sämtliche Einheiten vom Einzelwort bis zum Satz – np:Nominalphrase Hans, der Arzt – vp: Verbalphrase verlegt, verlegt Hans – pp:Präpositionalphrase auf die Intensivstation Einfachstbeispiel: Regeln s-->np,vp. np-->det,n. np-->n. vp-->v,np. vp-->v. vp-->vp,pp. np-->np,pp. pp-->p,np. Lexikon n-->[Hans]. n-->[Arzt]. n-->[Intensivstation]. det-->[der]. det-->[die]. v-->[verlegt]. p-->[auf]. Nichtterminalsymbole: s, np, det,...; Terminalsymbole: Hans, Arzt, der,...

24 Beispiel: Strukturbaum detnnpn np vdet np DerArztHansaufIntensivstationverlegtdie np pp vp s

25 Parser pnnvdet Wir beobachten das Kind mit dem Fernglas pdetn np pp npvp s pnnvdetp n np pp npvp s np Ein Parser ist ein Programm, das einen gegebenen Satz anhand einer Grammatik syntaktisch analysiert. Es Programm ordnet dem Satz ein oder mehrere Strukturbäume zu (welche einer oder mehreren mehrdeutigen Lesarten entsprechen) Wir beobachten das Kind mit dem Fahrrad

26 Semantik

27 Symbol, Wort, Code, Bezeichner Objekt, Instanz Referent Begriff, Gedanke, Inhalt, Konzept "Stuhl", "chair" Beliebiger Ausschnitt aus der wahrnehmbaren oder vorstellbaren Welt. Denkeinheit, die aus einer Menge von Gegenständen unter Ermittlung der diesen Gegenständen gemeinsamen Eigenschaften mittels Abstraktion gebildet wird. Repräsentation eines Begriffs mit sprachlichen oder anderen Mitteln

28 Begriffsinhalt / Begriffsumfang Die Semantik erforscht die Bedeutung sprachlicher Ausdrücke u Begriffsinhalt (intensionale Bedeutung): definiert den Begriffsinhalt auf der Ebene des Denkens u Begriffsumfang (extensionale Bedeutung): definiert den Begriffsumfang auf der Ebene der Wirklichkeit Abstraktion: Übergang von der extensionalen zur intensionalen Bedeutung

29 Aufgaben von Semantik Welche Bedeutung kommt einem (sprachlichen) Zeichen zu ? Welche Beziehungen gibt es hinsichtlich der Bedeutung sprachlicher Ausdrücke ? Semantik der Arbitrarität oder lexikalische Semantik: definitorische Zuordnung von Bedeutung zu Ausdrücken, z.B. Stethoskop

30 Bedeutung Semantik der Kompositionalität: Aufbau der Bedeutung komplexer Ausdrücke aus den Bedeutungen ihrer Teile Unterdeterminiertheit: Diaphyse: dia = auseinander, physis = Natur durch die Lappen gehen Synonymie: Bauchspeicheldrüse = Pankreas Mehrdeutigkeit: – Polysemie, Homonymie: Krebs : Tier oder Krankheit – Syntaktische Ambiguität: Ich sehe das Kind mit dem Fernglas

31 Merkmalssemantik Theorie vom Begriff (Aristoteles: genus proximum et differentia specifica) Bedeutung eines Zeichens ist nicht atomar, sondern lässt sich in Bedeutungseinheiten zerlegen Ähnlichkeit zu formalen Ontologien Defizit: viele Begriffe lassen sich so nicht definieren weiblicherwachsenmenschlich Mann-++ Frau+++ Mädchen+-+ Weibchen+0-

32 Modelltheoretische Semantik Beschreibung der Bedeutung von Sprache mit Hilfe der Mathematik (formale Logik) Wahrheit von Aussagen in möglichen Welten (Modellen) Der Mensch hat 32 Zähne, Ein Einhorn hat ein Horn arzt(x): Funktion arzt bildet jedes der Elemente x auf die Werte True oder False ab Analog chirurg(x) Falls Teilmengenbeziehung, dann besteht zwischen arzt und chirurg eine Hypernymie/Hyponymie-Beziehung (is-a) (mengentheoretische Semantik, z.B. Beschreibungslogik) Problem: Adäquate Beschreibung erfordert Logiken höherer Ordnung => Berechnungskomplexität !

33 Zusammenspiel Sytax / Semantik: Beispiel aus medizinischem Textverstehenssystem Datenbasis medizinischer Freitexte T1T1 T2T2...TnTn Syntaktische Repräsentation Inhaltliche Repräsentation ?

34 Das Partikel spec: einer Colonschleimhaut mit ödematösen Zotten genatt: spec: ppatt: pobj: adj: zeigt subject: Dependenzgrammatik Kanten repräsentieren syntaktische Rollen Begriffe: – syntaktischer Kopf – syntaktischer Modifier

35 Show.5 show-patient Particle.1 Colon-Mucosa.2 anatomical-fragment-of has-phenomenon Edema.3 has-anatomical-part Villus.4 Ontologische Repräsentation

36 Das Partikel spec: einer Colonschleimhaut mit ödematösen Zotten genatt: spec: ppattr: pobj: adj: Syntaktische Ebene Edema.3 Villus.4 zeigt subject: Particle.1 Ontologische Ebene Show.5 Colon-Mucosa.2

37 Das spec: einer ödematösen spec: adj: Syntaktische Ebene Colon-Mucosa.2 Edema.3 Villus.4 zeigt Partikel mit Zotten ppatt: pobj: Colonschleimhaut genatt: subj: Show.5Particle.1 Ontologische Ebene

38 Von der Semantik zur Pragmatik Gegenstand der Semantik ist, was ein sprachlicher Ausdruck immer bedeutet Patient mit karzinomverdächtigem Befund der linken Lunge Gegenstand der Pragmatik ist, was ein sprachlicher Ausdruck situationsbedingt bedeutet. Ihr Befund ist positiv Gesagtes, Mitgeteiltes und Gemeintes. Ich war hier Es zieht Tupfer! Kompresse! Pragmatik untersucht den kommunikativen Austausch

39 Pragmatik Sprechakttheorie: – Konstative Sätze (Behauptungen) – Performative Sätze (Aktionen) 1.Äußerung Der Hund ist bissig (Grammatik, Syntax) 2.Proposition bissig(Hund) = True (Semantik) 3.Warnung oder Empfehlung 4.Hörer entfernt sich oder Hörer kauft den Hund Indirekte Sprechakte Können Sie mir sagen, wie spät es ist ?

40 Kontext Lokaler KontextDer Bruch wurde eingegipst Sprachlicher Kontext:Diabetes als Diagnose, Verdacht, oder Familienanamnese Intentionaler Kontext es ist kalt (Fenster schließen !) Situativer Kontext der Hubschrauber ist gelandet (Notfallaufnahme, Spielecke)

41 Generisches Textverstehenssystem Lexicon Grammar Semantic Rule Base Domain Ontology # 150,000 # 1,000,000 # 10,000 # 150,000 # 1,000,000 end + ed PastTense ended infectionpregnancy aseverethe Ending Pregnancy Infection severe E-patient E-agent I-degree P-patient IF... Pregnancy & inf. THEN... mortal danger * The baby survived Mother Baby Pregnancy P-co-patient Morphological Processor Syntactic Processor (Parser/ Generator) Semantic Interpreter Inference Engine

42 Generisches Textverstehenssystem Tiefstmögliche Textanalyse: Instantiierung einer Wissensbasis nach syntaktischer und semantischer Analyse, sowie der Anwendung semantischer Interpretationsregeln, bis hin zu Textverstehen (Auflösung von Koreferenzen, Diskursrelationen) Einzig und allein Prototypen vorbehalten, die in eingeschränkten Diskursbereichen ausgewählte Sprachphänomene implementieren. In der Praxis: Kompromisslösungen zwischen theoretischen Forderungen und pragmatischen Anforderungen

43 Text-Mining statt Textverstehen Seit 15 Jahren: Probabilistische Verfahren lösen KI-basierte Verfahren ab: – exponentielle Komplexität der wissensintensiven Verfahren – Knowledge acquisition bottleneck – Verfügbarkeit riesiger Textmengen (WWW) – Skalierbarkeit (shallow methods)

44 Standardtools und - ressourcen Tagger Chunker / partielle Parser Namenserkenner … Textkorpora – annotiert (POS, Chunks, Nes, Semantik) – nicht annotiert

45 Beispiel: Tagging 45 A severe infection ended the pregnancy. DET NOUNVERBADJDETNOUNST

46 Tag Set (Penn treebank) Tag DescriptionExamples. sentence terminator. ! ? DTdeterminer all an many such that the them these this JJadjective, numeral first oiled separable battery-powered NNcommon noun cabbage thermostat investment PRPpersonal pronoun herself him it me one oneself theirs they INpreposition among out within behind into next VBverb (base form) ask assess assign begin break bring VBDverb (past tense) asked assessed assigned began broke WPWH-pronoun that what which who whom

47 Statistisches HMM – Tagging (I) Wahrscheinlichkeit eines Tags im Vergleich zu n anchfolgenden Tags – P 1 (Tag i | Tag i-1... Tag i-n ) Wahrscheinlichkeit eines Tokens bzgl. eines Tags – P 2 (Token i | Tag i ) die/DET Frau/NOUN,/COMMA die/DET or PREL singt/VFIN

48 Statistisches HMM – Tagging (I) State transition probabilities (trigrams): – P 1 (DET | COMMA NOUN) = – P 1 (PREL | COMMA NOUN) = 0.01 State emission probabilities: – P 2 ( die | DET)= 0.7 – P 2 ( die | PREL)= 0.2 Compute probabilistic evidence for the tag being – DET: P 1 P 2 = – PREL: P 1 P 2 = die/DET Frau/NOUN,/COMMA die/PREL singt/VFIN

49 Statistische Methoden erfordern Trainingsdaten


Herunterladen ppt "10. Natürliche Sprache in Biologie und Medizin Wintersemester 2010/11 Dozent: Univ.-Prof. Dr. med. Stefan Schulz."

Ähnliche Präsentationen


Google-Anzeigen