The German Specialist Lexicon

Slides:



Advertisements
Ähnliche Präsentationen
Developing your Business to Success We are looking for business partners. Enterprise Content Management with OS|ECM Version 6.
Advertisements

E-Solutions mySchoeller.com for Felix Schoeller Imaging
Anzahl der ausgefüllten und eingesandten Fragebögen: 211
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil3.
Einführung in die Informatik: Programmierung und Software-Entwicklung
Telefonnummer.
Kapitel 1 test review. A. Complete the sentence with a word from the box. zB. Glück Haltestellte 1.Wir haben _______, weil die Prüfung leicht ist. 2.
CPCP Institute of Clinical Pharmacology AGAH Annual Meeting, 29. Februar 2004, Berlin, Praktischer Umgang mit den Genehmigungsanträgen gemäß 12. AMG Novelle.
Modelle und Methoden der Linearen und Nichtlinearen Optimierung (Ausgewählte Methoden und Fallstudien) U N I V E R S I T Ä T H A M B U R G November 2011.
Modelle und Methoden der Linearen und Nichtlinearen Optimierung (Ausgewählte Methoden und Fallstudien) U N I V E R S I T Ä T H A M B U R G November 2011.
Workshop zur Medienarbeit der katholischen Kirche Aspekte des Religionsmonitors Berlin, 02. April 2008.
1 JIM-Studie 2010 Jugend, Information, (Multi-)Media Landesanstalt für Kommunikation Baden-Württemberg (LFK) Landeszentrale für Medien und Kommunikation.
= = = = 47 = 47 = 48 = =
-17 Konjunkturerwartung Europa September 2013 Indikator > +20 Indikator 0 a +20 Indikator 0 a -20 Indikator < -20 Europäische Union gesamt: +6 Indikator.
Rechneraufbau & Rechnerstrukturen, Folie 2.1 © W. Oberschelp, G. Vossen W. Oberschelp G. Vossen Kapitel 2.
© 2006 W. Oberschelp, G. Vossen Rechneraufbau & Rechnerstrukturen, Folie 2.1.
Grundkurs Theoretische Informatik, Folie 2.1 © 2006 G. Vossen,K.-U. Witt Grundkurs Theoretische Informatik Kapitel 2 Gottfried Vossen Kurt-Ulrich Witt.
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil2.
Insulin pump therapy in adults allows metabolic control at lower rates of hypoglycemia along with reduced insulin doses – results from the nationwide DPV-survey.
Differentielles Paar UIN rds gm UIN
1Ausgewählte Themen des analogen Schaltungsentwurfs Zusammenfassung Einführung Teilchendetektore – Sensorstrukturen, Verstärker, Rauschen, Geschwindigkeit.
Prof. Dr. Bernhard Wasmayr
Schieferdeckarten Dach.ppt
Prof. Dr. Bernhard Wasmayr VWL 2. Semester
Rechneraufbau & Rechnerstrukturen, Folie 12.1 © W. Oberschelp, G. Vossen W. Oberschelp G. Vossen Kapitel 12.
20:00.
Die Geschichte von Rudi
„Küsse deine Freunde“ – FlexKom-App teilen
Zusatzfolien zu B-Bäumen
Institut AIFB, Universität Karlsruhe (TH) Forschungsuniversität gegründet 1825 Towards Automatic Composition of Processes based on Semantic.
Eine Einführung in die CD-ROM
für Weihnachten oder als Tischdekoration für das ganze Jahr
1 Ein kurzer Sprung in die tiefe Vergangenheit der Erde.
Wir üben die Malsätzchen
Deutsch 1 G Stunde. Donnerstag, der 25. Oktober 2012 Deutsch 1, G Stunde Heute ist ein B- Tag Unit: Family & homeFamilie & Zuhause Objectives: Phrases.
NEU! 1 2. Wo kommt diese Art von Rezeptor im Körper vor?
HORIZONT 1 XINFO ® Das IT - Informationssystem PL/1 Scanner HORIZONT Software für Rechenzentren Garmischer Str. 8 D München Tel ++49(0)89 / 540.
PROCAM Score Alter (Jahre)
Ertragsteuern, 5. Auflage Christiana Djanani, Gernot Brähler, Christian Lösel, Andreas Krenzin © UVK Verlagsgesellschaft mbH, Konstanz und München 2012.
Geometrische Aufgaben
Vorlesung Mai 2000 Konstruktion des Voronoi-Diagramms II
Symmetrische Blockchiffren DES – der Data Encryption Standard
Relativpronomen / Relativsätze:
1 (C)2006, Hermann Knoll, HTW Chur, FHO Quadratische Reste Definitionen: Quadratischer Rest Quadratwurzel Anwendungen.
Großer Altersunterschied bei Paaren fällt nicht auf!
Zahlentheorie und Zahlenspiele Hartmut Menzer, Ingo Althöfer ISBN: © 2014 Oldenbourg Wissenschaftsverlag GmbH Abbildungsübersicht / List.
MINDREADER Ein magisch - interaktives Erlebnis mit ENZO PAOLO
1 (C)2006, Hermann Knoll, HTW Chur, FHO Quadratische Reste Definitionen: Quadratischer Rest Quadratwurzel Anwendungen.
Relativpronomen / Relativsätze:
Pigmentierte Läsionen der Haut
DEUTSCHE VERBEN I. REGULAR VERBS.
Schutzvermerk nach DIN 34 beachten 20/05/14 Seite 1 Grundlagen XSoft Lösung :Logische Grundschaltung IEC-Grundlagen und logische Verknüpfungen.
Folie Beispiel für eine Einzelauswertung der Gemeindedaten (fiktive Daten)
1 Mathematical Programming Nichtlineare Programmierung.
Imperfekt Wie sagt man das mit Imperfekt
Instrumente und Unterhaltung End of Unit Assessment.
Technische Frage Technische Frage Bitte löse die folgende Gleichung:
Ertragsteuern, 5. Auflage Christiana Djanani, Gernot Brähler, Christian Lösel, Andreas Krenzin © UVK Verlagsgesellschaft mbH, Konstanz und München 2012.
Unternehmensbewertung Thomas Hering ISBN: © 2014 Oldenbourg Wissenschaftsverlag GmbH Abbildungsübersicht / List of Figures Tabellenübersicht.
SiLeBAT Sicherstellung der Futter- und Lebensmittelwarenkette bei bio- und agro-terroristischen (BAT)-Schadenslagen.
Bildergalerie PRESEASON CAMP Juni 2014 Romanshorn Get ready for the Season!
Es war einmal ein Haus
Folie Einzelauswertung der Gemeindedaten
1 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt Modalverben.
Numbers Greetings and Good-byes All about Me Verbs and Pronouns
J-Team: Gymnasium Ulricianum Aurich und MTV Aurich Ein Projekt im Rahmen von UlricianumBewegt.de Euro haben wir schon…  8000 mal habt ihr bereits.
Datum:17. Dezember 2014 Thema:IFRS Update zum Jahresende – die Neuerungen im Überblick Referent:Eberhard Grötzner, EMA ® Anlass:12. Arbeitskreis Internationale.
1 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt Wie.
1 Medienpädagogischer Forschungsverbund Südwest KIM-Studie 2014 Landesanstalt für Kommunikation Baden-Württemberg (LFK) Landeszentrale für Medien und Kommunikation.
Monatsbericht Ausgleichsenergiemarkt Gas – Oktober
 Präsentation transkript:

The German Specialist Lexicon University of Freiburg Gesa Weske-Heck Susanne Hanser Albrecht Zaiss Stefan Schulz Rüdiger Klar University of Frankfurt Wolfgang Giere DIMDI Cologne Michael Schopen

Aims of the Project German Specialist Lexicon similar to the UMLS „Specialist Lexicon“ Lexical data model covering the German biomedical terminology „good“ lexical coverage focusing the clinical sublanguage Mappings between spelling variants, synonyms and abbreviations Software toolkit for lexicon querying and manipulation similar to the LVG functions

German biomedical language “Specialties” Numerous inflection forms nouns, adjectives, verbs depending on gender inflection classes word order syntactic context Spelling variants Karzinom, Carcinom German/Greek/Latin synonyms Nieren-, Nephr-, Ren- Homonyms Latin phrases with complete Latin inflection Ulcus duodeni nominal compounds Duodenalulkus

Suppositions of the Project Modelling structure and functions of the „Specialist Lexicon (UMLS)“ as close as possible Data storage in XML and in SQL JAVA-Programming

General Architecture

XML Data Structure

XML Document Type Definition (DTD) <?xml version="1.0" encoding="ISO-8859-1" ?> <!ELEMENT dict (e+)> <!ELEMENT e (cont,(noun_class|pron_class|adj_class),link*)> <!ATTLIST e id ID #REQUIRED language (d|lat|engl|gr|lu) #REQUIRED wordtype CDATA #REQUIRED wordtypespec CDATA #REQUIRED version CDATA #REQUIRED sg_pl (true|false|null) #IMPLIED casus_prep CDATA #IMPLIED ambig (true|false) #REQUIRED> <!ELEMENT cont (#PCDATA)> <!ELEMENT noun_class (exception*)> <!ATTLIST noun_class gen (m|f|n|u) #REQUIRED nclass CDATA #REQUIRED> <!ELEMENT pron_class (exception*)> <!ATTLIST pron_class gen (m|f|n|u) #REQUIRED> <!ELEMENT exception EMPTY> <!ATTLIST exception numerus (Sg|Pl) #REQUIRED casus (Nom|Dat|Gen|Akk) #REQUIRED word CDATA #REQUIRED> <!ELEMENT adj_class EMPTY> <!ATTLIST adj_class aclass CDATA #IMPLIED position (rel|abs|colour) #IMPLIED> <!ELEMENT link EMPTY> <!ATTLIST link idref IDREF #IMPLIED linktype CDATA #REQUIRED constitutive CDATA #REQUIRED idstring CDATA #REQUIRED>

Wordtype Specification (Abstract) Wordtype Wordtype Specification Classes (Part of Speech) Noun-Class Noun Proper Name Acronym Numeral Adjective Abbreviation Phrase Adj-Class Participle Comparative Superlative Pron-Class Determiner Defined Determiner Undefined. Determiner Pronoun Reflexive Pronoun Relative Pronoun Possessive Pr. etc. Verb Non-Inflected Preposition Conjunction Adverb Symbol Arithmetic operator Arabic digit Roman digit etc.

SQL Table Structure Tabelle wordlist IdInt(8) baseVarchar(70) FeldnameFeldtype IdInt(8) baseVarchar(70) wordtypeVarchar(20) wordtypespecVarchar(20) GenusChar(1) Sg_plChar(2) DeclinationVarchar(5) Positionchar(1) LanguageVarchar(20) DefVarchar(5) AmbigVarchar(5) ComparisonVarchar(5) Casus_prepVarchar(8) Tabelle wordadmin commentVarchar(150) First_dateVarchar(16) First_userVarchar(20) Last_dateVarchar(16) Last_userVarchar(20) versionVarchar(10) Tabelle exception NumerusChar(2) CasusChar(3) wordVarchar(50) Tabelle links LinkidInt(8) LinktypeVarchar(25) ConstitutiveVarchar(5) idstringVarchar(50) Tabelle index1 contVarchar(70) Tabelle index2 Tabelle stopwords stopwordVarchar(50) Tabelle rules ruleidInt(8) RuletypeVarchar(50) dclassVarchar(5) Numeruschar(2) SuffixconditionVarchar(10) suffixVarchar(10) umlautungVarchar(5) WordtypeVarchar(20) newWordtypeVarchar(20) newwordtypespecVarchar(20) Newgenuschar(1) newdclassVarchar(5) vorwortVarchar(20)

DSL Functions

Input - Output Batch Piping dsl -in eine große absolute Arrhythmie -out e 0 1 eine|eine|32677 eine|eine|32758 eine|ein|33028 große|groß|25851 absolute|absolut|25390 Arrhythmie|Arrhythmie|864 dsl –konfig ktest.txt Batch dsl -infile test.txt -out text dieser Satz abbilden drei aktive Stadien mit weil seine gebildeten Addison AHB A dsl –in Haus -out 0 1 –outfile output.txt Piping

Functions dsl -in eine große absolute Arrhythmie -fct 0 1 -out e 0 1 eine|eine|32677 eine|eine|32758 eine|ein|33028 grosse|groß|25851 absolute|absolut|25390 arrhythmie|Arrhythmie|864 -fct 0 = lowerCase 1 = replaceß dsl -in eine große absolute Arrhythmie -fct 14 -out 0 1 eine|32677 eine|32758 ein|33028 groß|25851 absolute Arrhythmie|32952 -fct 14 = filterPhrase dsl -in eine große absolute Arrhythmie -fct 12(adj|noun) -out 0 1 groß|25851 absolut|25390 Arrhythmie|864 -fct 12 = getWordtype

Functions dsl -lexfct 6 functionname / id for function ---------------------------------- lowercase / 0 replaceß / 1 replaceumlaut / 2 czkNorm / 3 filtercomments / 4 filterdiacret / 5 filterpunctuation / 6 filterspecchar / 7 sortalphabetic / 8 convertCharEnc / 81 inUnicode / 82 filterDoublewords / 9 getEntries / 10 getNoEntries / 11 getWordtype / 12 getWordtypespec / 13 filterPhrase / 14 filterStopwords / 15 filterWordtype / 16 filterWordtypespec / 17

Output-Parameter complete text one line for each id dsl -infile test.txt -out text dieser Satz abbilden drei aktive Stadien mit weil seine gebildeten Addison AHB A complete text dsl -in eine große absolute Arrhythmie -out e 0 1 eine|eine|32677 eine|eine|32758 eine|ein|33028 große|groß|25851 absolute|absolut|25390 Arrhythmie|Arrhythmie|864 one line for each id dsl -infile test.txt -outln e4 e2 e7 e12 drei|Satz|mit|AHB one line for each input line dsl -infile test.txt -outln e4.1 e2.38 e7 e12.46 33036|Sätze|mit|Anschlussheilbehandlung/8451 one line for each input line with desired parameters

Output-Parameter dsl -lexfct 5 comparative / 39 Outputname / Id for output ---------------------------------- baseform / 0 id / 1 language / 2 version / 3 ambig / 4 first_date / 5 first_user / 6 last_date / 7 last_user / 8 comment / 9 worttype / 10 worttypespec / 11 dclass / 12 aclass / 13 genus / 14 cas / 15 Sg/Pl / 16 S1 / 31 S2 / 32 S3 / 33 S4 / 34 P1 / 35 P2 / 36 P3 / 37 P4 / 38 comparative / 39 superlative / 40 spellingvariant / 41 synonym / 42 participlepresent / 43 participleperfect / 44 shortform / 45 longform / 46 parts / 47 adjective / 48 generatedwords / 49 inflectinginformation / 50 baseform / 51 linksfrom / 52 linksto / 53 allinks / 54

Lexicon Functions dsl -lexfct 7 lexicalfunctionname / id ---------------------------------- listLinks / 1 listWordtype / 2 listWordtypespec / 3 listRules / 4 listOutputfields / 5 listDSLfunction / 6 listLexfct / 7 listeDSLOpt / 8 listtools / 9 listpunctuation / 10 listHybrid / 11 listspecsign / 12 listcommentchar / 13 listspecchar / 14 listSeparator / 15 listPipechar / 16 ListCharacterset / 17 listSCreplacement / 18 listDiacret / 19 listHybridopt / 20 listDB / 21 listDBwrite / 22 listIndexfile / 23 listminimumlength / 24 listVersion / 25 listStopwords / 26 listambigwords / 30 listwordsstartswith / 31 listwordendswith / 32 listwordsOFwordtype / 33 listwordsOFwordtypespec / 34

DSL - Tools dsl -lexfct 9 tools --------------- add index1 modify index add entry delete entry modify entry delete rule add rule delete exception add exception modify exception add link delete link add stopword delete stopword xmlsql admin xmlsql entry xmlsql exception xmlsql link xmlsql rules xmlsql stopwords switchDB (1 = SQL, 2 = XML) switchDBWrite switchIndex

Options dsl -lexfct 8 optionname / Information ---------------------------------- addspecsign / ErgänzeSonderzeichen z.B. $ delspecsign / LöscheSonderzeichen adddia / ErgänzeDiakretikum deldia / LöscheDiakretikum addpunct / ErgänzeInterpunktion delpunct / LöscheInterpunktion addhyb / ErgänzeZwitter delhyb / LöscheZwitter addstopword / ErgänzeStopword delstopword / LöscheStopword addcomm / ErgänzeKommentar delcomm / LöscheKommentar addspecchar / ErgänzeSonderbuchstabe z.B. â delspecchar / LöscheSonderbuchstabe setIndexfile / SetzeAktuelleIndexdatei (1 = Standard, 2 = erweiterte Indexdatei) setPipechar / SetzePipezeichen setSCreplacement / Sonderzeichen werden ersatzlos gestrichen True/False setSeparator / Setze Worttrennzeichen setHybridropt / 0 wird belassen, 1 wird ersatzlos ersetzt, 2 wird mit Blanc ersetzt

Summary Results 30.000 entries Lexical functions like LVG most of them nouns and adjectives determiners, pronouns, adverbs, conjugations, prepositions and numbers infinitives of verbs as base for participles taken from the ICD-10 tabular list and alphabetical index Lexical functions like LVG command line interface Available from DIMDI for scientific research, no costs Missing: Functions for decomposition of compound nouns Verbs and conjugation … An user friendly graphical interface Connection to UMLS