Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

10. Natürliche Sprache in Biologie und Medizin

Ähnliche Präsentationen


Präsentation zum Thema: "10. Natürliche Sprache in Biologie und Medizin"—  Präsentation transkript:

1 10. Natürliche Sprache in Biologie und Medizin
Wintersemester 2010/11 Dozent: Univ.-Prof. Dr. med. Stefan Schulz

2 Ebenen der Sprachtechnologie
I. „Speech“ Erkennung gesprochener Sprache (speech recognition) Erzeugung gesprochener Sprache (speech synthesis) II. „Content“ Textretrieval Text Mining Textgenerierung Textzusammenfassung Informationsextraktion Maschinelle Übersetzung

3 Information Retrieval
Anfrage (Query) ? Sucher- gebnisse Kollektion von Dokumenten (Dokumentationseinheiten)

4 Informationsextraktion
Template Pressenotiz PersonOut PersonIn Position Organization TimeOut TimeIn Dr. Hermann Wirth, bisheriger Leiter der Musikhochschule München, verabschiedete sich heute aus seinem Amt. Der 65-jährige tritt seinen wohlverdienten Ruhestand an. Als seine Nachfolgerin wurde Sabine Klinger benannt. Ebenfalls neu bestzt wurde die Stelle des Musikdirektors. Annelie Häfner folgt Christian Meindl nach PersonOut Dr. Hermann Wirth PersonIn Sabine Klinger Position Leiter Organization Musikhochschule M TimeOut Heute TimeIn PersonOut Christian Meindl PersonIn Annelie Häfner Position Musikdirektor Organization Musikhochschule M TimeOut TimeIn

5 Maschinelle Übersetzung

6 Question Answering

7 Grundbegriffe der Linguistik
Semiotik Phonetik, Phonologie Morphologie Syntax Grammatik Semantik Pragmatik Textlinguistik Lexikographie Terminologie

8 Ebenen der Linguistik Morphologie: Syntax: Semantik: Textverstehen:
be + end + en, In + fekt + ion, In + fekt + ion + en Syntax: Eine schwere Infektion beendete die Schwangerschaft vs. Eine Infektion schwere die Schwangerschaft beendete. Semantik: Es wurde eine Entbindung per Kaiserschnitt vorgenommen Es wurde eine Osteosynthese per Kaiserschnitt vorgenommen Textverstehen: Eine schwere Infektion beendete die Schwangerschaft. Das Neugeborene befindet sich in gutem Allgemeinzustand Eine schwere Infektion beendete die Schwangerschaft. Das Transplantat wurde bisher nicht abgestoßen.

9 Medizinische Anwendungen von Sprachtechnologien
Unterstützung der Befunderstellung durch Spracherkennungssysteme Dokumentenretrieval aus computerisierten Krankenblattarchiven, Literaturdatenbanken, WWW- Dokumenten, WWW-Portalen Zusammenfassung von Krankengeschichten Automatische Wissensaquisition aus medizinischen Freitexten Automatisierte Verordungen Multilinguale Erzeugung von Patienteninformation Automatische Kodierung / Klassifikation von Diagnosen und Prozeduren

10 Semiotik... Lehre von den Zeichen
Ein Zeichen ist Stellvertreter für etwas Bezeichnetes Alles sinnlich wahrnehmbare kann Zeichen sein Alles beliebige kann als Zeichen fungieren Sprachwissenschaft: Zeichensystem „Sprache“

11 Das semiotische Dreieck
Begriff, Gedanke, Inhalt, Konzept Denkeinheit, die aus einer Menge von Gegenständen unter Ermittlung der diesen Gegenständen gemeinsamen Eigenschaften mittels Abstraktion gebildet wird. Repräsentation eines Begriffs mit sprachlichen oder anderen Mitteln Symbol, Wort, Code, Bezeichner Objekt, Instanz Referent "Stuhl", "chair" Beliebiger Ausschnitt aus der wahrnehmbaren oder vorstellbaren Welt.

12 Sprachliche Zeichen Laute Phoneme Morpheme ver auf mitt haut
einfache Wörter Magen, Schleim, Haut Komplexe Wörter Magen-schleim-haut Phrasen das ödematös aufgelockerte Stroma Sätze Es finden sich vereinzelt Lymphfollikel. Texte Zusammen gut reiskorngroßes Biopsiematerial einer Magenschleimhaut vom Antrumtyp mit mittelgradig verplumpten, verlängerten und vermehrt basophilen Foveolen, die streckenweise einen Becherzellbesatz aufweisen. Das ödematös aufgelockerte Stroma wird mittelgradig vermehrt überwiegend von Lymphozyten und Plasmazellen infiltriert. Es finden sich vereinzelt Lymphfollikel.

13 Linguistische Betrachtungsweisen
Grammatik: Zeichenformen und Möglichkeiten ihrer Kombination Semantik: Bedeutung einfacher und komplexer Zeichenformen Pragmatik: Allgemeine Regularitäten, die dem Sprachgebrauch zugrundeliegen

14 Grammatik Lehre vom Formale Seite sprachlicher Ausdrücke:
Wort (Morphologie, Morphosyntax) Satz (Syntax) Laut (Phonologie) Text (Textgrammatik) Formale Seite sprachlicher Ausdrücke: System minimaler Einheiten mit Regeln zur Generierung komplexerer Einheiten Berührung zur Theorie der formalen Sprachen

15 Wörter (einfach / komplex)
Sprachliche Zeichen Charakteristikum: Verkettung von Einzelzeichen zu komplexeren Einheiten Morphem- bedeutung Wort- bedeutung Phrasen - bedeutung Satz- bedeutung Text bedeutung Laute Phoneme Morpheme Wörter (einfach / komplex) Phrasen Sätze Texte

16 Grammatik: Morphologie, Übung
Morphologie = Lehre vom Wort Was ist ein Wort ? Beispiel: Übung: Wie viele Wörter hat dieser Satz ? Wenn hinter Fliegen eine Fliege fliegt, fliegt eine Fliege Fliegen nach.

17 Token, Type, Lexem Token: Einzelne Vorkommen eines Zeichens (Wortes)
Type: Einzelne Muster eines Zeichens (Wortes) Lexem: Zusammenfassung mehrerer Types (unterschiedlicher syntaktischer Wörter) Wenn hinter Fliegen eine Fliege fliegt, fliegt eine Fliege Fliegen nach Wenn hinter Fliegen eine Fliege fliegt, fliegt eine Fliege Fliegen nach Wenn hinter Fliegen eine Fliege fliegt, fliegt eine Fliege Fliegen nach

18 Morphosyntax Morphemarten: Stamm, Präfix, Suffix
Bildungsregeln „wohlgeformter“ (well-formed) Wörter: Beispiele: Kein Wort kann mit einem Suffix beginnen Keine zwei Beugungssuffixe hintereinander Kein Wort kann nur aus Affixen bestehen Beugungsregeln z.B. pres past part go went gone

19 Morphologische Besonderheiten der Bio/Medizinsprache (I)
Morpheme aus dem Griechischen, Lateinischen, Deutschen, zunehmend dem Englischen Fugen-o typisch für lat./gr. Lehnwörter: hepatozellulär, gastrointestinal Zwei Wortbildungsschemata: Deutsch: Orthographische Anpassung lateinischer Morpheme caka; ceze; cizi; coko; cuku; es gelten deutsche Wortbildungsregeln wenige hybride Pluralbildungen (-itis , -itiden, -zera) Lateinisch: Großschreibung der Substantive, sonst gelten die Wortbildungsregeln des Lateinischen

20 Morphologische Besonderheiten der Medizinsprache (II)
Eponyme (Eigennamen) werden oft wie Wortstämme behandelt Parkinsonismus Akronyme (Kürzel) sehr häufig, verweisen oft auf englische NPs (ARDS, MALT, AIDS) und können zu normalen Wortstämmen mutieren (der Aidspatient) Abkürzungen (in der geschriebenen Sprache): meist Wortstämme chron., persist., Herzinsuff., Ad-hoc Kompositabildung lymphoplasmazellulär Becherzellbesatz

21 Wortbildungsphänomene in der Molekularbiologie

22 Syntax Lehre vom Satz Komponenten:
Regeln zur Bildung „well-formed“ Wordgruppen Früher: Satzgliedlehre (Subjekt, Prädikat, Objekt etc.) Worttypen: POS („Part of Speech“) Komponenten: Lexikon, Syntax: Regeln der Kombination elementarer Ausdrücke zu komplexen Ausdrücke Ähnlichkeit zu formalen Sprachen (z.B. Programmiersprachen)

23 Syntax: Konstituentenstruktur
Konstituente: Überbegriff für sämtliche Einheiten vom Einzelwort bis zum Satz np: Nominalphrase „Hans“, „der Arzt“ vp: Verbalphrase „verlegt“, „verlegt Hans“ pp: Präpositionalphrase „auf die Intensivstation“ Einfachstbeispiel: Regeln s-->np,vp. np-->det,n. np-->n. vp-->v,np. vp-->v. vp-->vp,pp. np-->np,pp. pp-->p,np. Lexikon n-->[Hans]. n-->[Arzt]. n-->[Intensivstation]. det-->[der]. det-->[die]. v-->[verlegt]. p-->[auf]. Nichtterminalsymbole: s, np, det, ...; Terminalsymbole: Hans, Arzt, der, ...

24 Beispiel: Strukturbaum
vp vp pp np vp np np det n v p det n n Der Arzt verlegt auf die Intensivstation Hans

25 Parser Ein Parser ist ein Programm, das einen gegebenen Satz anhand einer Grammatik syntaktisch analysiert. Es Programm ordnet dem Satz ein oder mehrere Strukturbäume zu (welche einer oder mehreren mehrdeutigen Lesarten entsprechen) s s vp vp np vp pp pp np vp np np np vp np np pn v det n p det n pn v det n p det n Wir beobachten das Kind mit dem Fernglas Wir beobachten das Kind mit dem Fernglas Wir beobachten das Kind mit dem Fahrrad Wir beobachten das Kind mit dem Fahrrad

26 Semantik

27 Begriff, Gedanke, Inhalt, Konzept
Denkeinheit, die aus einer Menge von Gegenständen unter Ermittlung der diesen Gegenständen gemeinsamen Eigenschaften mittels Abstraktion gebildet wird. Repräsentation eines Begriffs mit sprachlichen oder anderen Mitteln Symbol, Wort, Code, Bezeichner Objekt, Instanz Referent "Stuhl", "chair" Beliebiger Ausschnitt aus der wahrnehmbaren oder vorstellbaren Welt.

28 Begriffsinhalt / Begriffsumfang
Die Semantik erforscht die Bedeutung sprachlicher Ausdrücke Begriffsinhalt (intensionale Bedeutung): definiert den Begriffsinhalt auf der Ebene des Denkens Begriffsumfang (extensionale Bedeutung): definiert den Begriffsumfang auf der Ebene der Wirklichkeit Abstraktion: Übergang von der extensionalen zur intensionalen Bedeutung

29 Aufgaben von Semantik Welche Bedeutung kommt einem (sprachlichen) Zeichen zu ? Welche Beziehungen gibt es hinsichtlich der Bedeutung sprachlicher Ausdrücke ? Semantik der Arbitrarität oder lexikalische Semantik: definitorische Zuordnung von Bedeutung zu Ausdrücken, z.B Stethoskop

30 Bedeutung Semantik der Kompositionalität: Aufbau der Bedeutung komplexer Ausdrücke aus den Bedeutungen ihrer Teile Unterdeterminiertheit: Diaphyse: dia = auseinander, physis = Natur durch die Lappen gehen Synonymie: Bauchspeicheldrüse = Pankreas Mehrdeutigkeit: Polysemie , Homonymie: „Krebs“ : Tier oder Krankheit Syntaktische Ambiguität: Ich sehe das Kind mit dem Fernglas

31 Merkmalssemantik Theorie vom Begriff (Aristoteles: genus proximum et differentia specifica) Bedeutung eines Zeichens ist nicht atomar, sondern lässt sich in Bedeutungseinheiten zerlegen Ähnlichkeit zu formalen Ontologien Defizit: viele Begriffe lassen sich so nicht definieren weiblich erwachsen menschlich Mann - + + Frau + + + Mädchen + - + Weibchen + -

32 Modelltheoretische Semantik
Beschreibung der Bedeutung von Sprache mit Hilfe der Mathematik (formale Logik) Wahrheit von Aussagen in möglichen Welten (Modellen) Der Mensch hat 32 Zähne, Ein Einhorn hat ein Horn arzt(x): Funktion arzt bildet jedes der Elemente x auf die Werte True oder False ab Analog chirurg(x) Falls Teilmengenbeziehung, dann besteht zwischen arzt und chirurg eine Hypernymie/Hyponymie-Beziehung (is-a) (mengentheoretische Semantik, z.B. Beschreibungslogik) Problem: Adäquate Beschreibung erfordert Logiken höherer Ordnung => Berechnungskomplexität !

33 Zusammenspiel Sytax / Semantik: Beispiel aus medizinischem Textverstehenssystem
Datenbasis medizinischer Freitexte Syntaktische Repräsentation Inhaltliche Repräsentation ..... T1 T2 ? ... ..... Tn

34 Dependenzgrammatik Kanten repräsentieren syntaktische Rollen Begriffe:
syntaktischer Kopf syntaktischer Modifier Das Partikel spec: einer Colonschleimhaut mit ödematösen Zotten genatt: ppatt: pobj: adj: zeigt subject:

35 Ontologische Repräsentation
Show.5 show-patient Particle.1 Colon-Mucosa.2 anatomical-fragment-of has-phenomenon Edema.3 has-anatomical-part Villus.4

36 zeigt Partikel Show.5 Syntaktische Ebene Particle.1 Colonschleimhaut
subject: Partikel Show.5 genatt: Syntaktische Ebene spec: Particle.1 Colonschleimhaut Das spec: ppattr: Colon-Mucosa.2 einer mit pobj: Zotten adj: Villus.4 ödematösen Edema.3 Ontologische Ebene

37 zeigt Partikel Syntaktische Ebene mit Zotten Colonschleimhaut Das
subj: Partikel Syntaktische Ebene genatt: spec: mit Zotten ppatt: pobj: Colonschleimhaut Das spec: einer adj: ödematösen Particle.1 Show.5 Colon-Mucosa.2 Villus.4 Edema.3 Ontologische Ebene

38 Von der Semantik zur Pragmatik
Gegenstand der Semantik ist, was ein sprachlicher Ausdruck immer bedeutet Patient mit karzinomverdächtigem Befund der linken Lunge Gegenstand der Pragmatik ist, was ein sprachlicher Ausdruck situationsbedingt bedeutet. „Ihr Befund ist positiv“ Gesagtes, Mitgeteiltes und Gemeintes. „Ich war hier“ „Es zieht“ „Tupfer!“ „Kompresse!“ Pragmatik untersucht den kommunikativen Austausch

39 Pragmatik Sprechakttheorie:
Konstative Sätze (Behauptungen) Performative Sätze (Aktionen) Äußerung „Der Hund ist bissig“ (Grammatik, Syntax) Proposition bissig(Hund) = True (Semantik) Warnung oder Empfehlung Hörer entfernt sich oder Hörer kauft den Hund Indirekte Sprechakte „Können Sie mir sagen, wie spät es ist ?“

40 Kontext Lokaler Kontext „Der Bruch wurde eingegipst“
Sprachlicher Kontext: „Diabetes“ als Diagnose, Verdacht, oder Familienanamnese Intentionaler Kontext „es ist kalt“ (Fenster schließen !) Situativer Kontext „der Hubschrauber ist gelandet“ (Notfallaufnahme, Spielecke)

41 Generisches Textverstehenssystem
end + edPastTense ended infection pregnancy a severe the Ending Pregnancy Infection severe E-patient E-agent I-degree P-patient IF ... Pregnancy & inf. THEN ... mortal danger * The baby survived Mother Baby Pregnancy P-co-patient Morphological Processor Syntactic (Parser/ Generator) Semantic Interpreter Inference Engine Lexicon Grammar Semantic Rule Base Domain Ontology # 150,000 # 1,000,000 # 10,000

42 Generisches Textverstehenssystem
Tiefstmögliche Textanalyse: Instantiierung einer Wissensbasis nach syntaktischer und semantischer Analyse, sowie der Anwendung semantischer Interpretationsregeln, bis hin zu Textverstehen (Auflösung von Koreferenzen, Diskursrelationen) Einzig und allein Prototypen vorbehalten, die in eingeschränkten Diskursbereichen ausgewählte Sprachphänomene implementieren. In der Praxis: Kompromisslösungen zwischen theoretischen Forderungen und pragmatischen Anforderungen

43 Text-Mining statt Textverstehen
Seit 15 Jahren: Probabilistische Verfahren lösen KI-basierte Verfahren ab: exponentielle Komplexität der wissensintensiven Verfahren „Knowledge acquisition bottleneck“ Verfügbarkeit riesiger Textmengen (WWW) Skalierbarkeit („shallow“ methods)

44 Standardtools und - ressourcen
Tagger Chunker / partielle Parser Namenserkenner Textkorpora annotiert (POS, Chunks, Nes, Semantik) nicht annotiert

45 Beispiel: Tagging A severe infection ended the pregnancy . DET ADJ
NOUN VERB DET NOUN ST

46 Tag Set (Penn treebank)
Description Examples . sentence terminator . ! ? DT determiner all an many such that the them these this JJ adjective, numeral first oiled separable battery-powered NN common noun cabbage thermostat investment PRP personal pronoun herself him it me one oneself theirs they IN preposition among out within behind into next VB verb (base form) ask assess assign begin break bring VBD verb (past tense) asked assessed assigned began broke WP WH-pronoun that what which who whom

47 Statistisches HMM – Tagging (I)
Wahrscheinlichkeit eines Tags im Vergleich zu n anchfolgenden Tags P1(Tagi | Tagi Tagi-n) Wahrscheinlichkeit eines Tokens bzgl. eines Tags P2(Tokeni | Tagi) die/DET Frau/NOUN ,/COMMA die/DET or PREL singt/VFIN

48 Statistisches HMM – Tagging (I)
State transition probabilities (trigrams): P1(DET | COMMA NOUN) = P1(PREL | COMMA NOUN) = 0.01 State emission probabilities: P2( die | DET) = 0.7 P2( die | PREL) = 0.2 Compute probabilistic evidence for the tag being DET: P1 • P2 = PREL: P1 • P2 = 0.002 die/DET Frau/NOUN ,/COMMA die/PREL singt/VFIN

49 Statistische Methoden erfordern Trainingsdaten


Herunterladen ppt "10. Natürliche Sprache in Biologie und Medizin"

Ähnliche Präsentationen


Google-Anzeigen