QSAR, QSPR, Statistik, Korrelation, Similarität & Deskriptoren

Slides:



Advertisements
Ähnliche Präsentationen
Eine Einführung in das RSA-Verfahren an Beispielen
Advertisements

Statistik-Tutorat SS 2009 Christina
Rekursion: Rekurrenz: Algorithmen rufen sich selbst (rekursiv) auf.
Eine dynamische Menge, die diese Operationen unterstützt,
Vorlesung Programmieren II
Algebraische Zahlen: Exaktes Rechnen mit Wurzeln
Was ist Testtheorie?.
Fachreferat in Mathematik
Seminar „Extrapolationsmethoden für zufällige Felder“
Elektrolyte Teil III Solvatation, elektrische Leitfähigkeit, starke
Theorie psychometrischer Tests, III
Java: Objektorientierte Programmierung
Wirkstoffeigenschaften
Vorhersage von Moleküleigenschaften (I)
Vorhersage von Moleküleigenschaften (I)
Aufbau von Substanzbibliotheken für das High thoughput screening (I)
Aufbau von Substanzbibliotheken für das High thoughput screening (I)
Informationsfluß in einer drug discovery pipeline
Modern Methods in Drug Discovery
Modern Methods in Drug Discovery
Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2004/2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz.
Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2004/2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz.
Algorithmentheorie 04 –Hashing
WS Algorithmentheorie 02 - Polynomprodukt und Fast Fourier Transformation Prof. Dr. Th. Ottmann.
WS Algorithmentheorie 05 - Treaps Prof. Dr. Th. Ottmann.
Prof. Dr. S. Albers Prof. Dr. Th. Ottmann
Halbzeit: Kurze Wiederholung
Vorlesung Informatik 2 Algorithmen und Datenstrukturen Halbzeit: Was haben wir bisher gelernt? Prof. Th. Ottmann.
Die Nukleon-Nukleon Wechselwirkung
(Ron Rivest, Adi Shamit, Leonard Adleman , 1977)
Mathematische Grundlagen und Rechnen mit algebraischen Zahlen
Univariate Statistik M. Kresken.
Grundschutztools
Tutorium
Tutorium
Vorlesung: ANOVA I
Multikollinearität Wann spricht man von Multikollinearität?
Wiederholung: Einfache Regressionsgleichung
Daten auswerten Boxplots
20:00.
Partielle Autokorrelation
mit Metall-Metall-Bindung Modul AC V: Hauptseminar
Beschreibung der energetischen Zustände der Elektronen
Quantenchemische Grundlagen (I)
Quantenchemische Grundlagen (I)
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Quantum Computing Hartmut Klauck Universität Frankfurt WS 04/
VL 19 VL Laser (Light Amplification by Stimulated Emission of Radiation) Maser = Laser im Mikrowellenbereich, d.h. Microwave Amplification by.
STATISIK LV Nr.: 1375 SS März 2005.
STATISIK LV Nr.: 0028 SS Mai 2005.
Statistik: Mehr zur Regression.
Kapitel 10 Multikollinearität
Was soll und kann eine fachdidaktische Vorlesung leisten? Maximilian Selinka.
Aggregatzustände im Teilchenmodell
Aggregatzustände im Teilchenmodell
Analyse von Ablaufdiagrammen
i) Projektil in Ladungsverteilung des Kerns eindringt
Vorlesung Mai 2000 Konstruktion des Voronoi-Diagramms II
Symmetrische Blockchiffren DES – der Data Encryption Standard
1 (C)2006, Hermann Knoll, HTW Chur, FHO Quadratische Reste Definitionen: Quadratischer Rest Quadratwurzel Anwendungen.
Multivariate Statistische Verfahren
1 (C)2006, Hermann Knoll, HTW Chur, FHO Quadratische Reste Definitionen: Quadratischer Rest Quadratwurzel Anwendungen.
Multivariate Statistische Verfahren
Schutzvermerk nach DIN 34 beachten 20/05/14 Seite 1 Grundlagen XSoft Lösung :Logische Grundschaltung IEC-Grundlagen und logische Verknüpfungen.
1 Mathematical Programming Nichtlineare Programmierung.
Statistik – Regression - Korrelation
Monatsbericht Ausgleichsenergiemarkt Gas – Oktober
2 Die chemische Bindung 2.1 Die Ionenbindung
PCA Principal Component Analysis. Gliederung PCA – Warum eigentlich? PCA – Was ist zu tun? Was passiert eigentlich? Anwendungen Zusammenfassung.
 Gegenstandsbereich der Testtheorie: Analyse der Charakteristika von Tests:  Güte von Tests.  Struktur von Tests.  Schwierigkeit von Tests.  Gruppenunterschiede.
 Präsentation transkript:

QSAR, QSPR, Statistik, Korrelation, Similarität & Deskriptoren Das Handwerkszeug des rational drug designs am Computer, vor allem dann, wenn keine Strukturinformation über das target (Enzym) vorhanden ist. QSAR-Gleichungen stellen einen quantitativen Zusammenhang zwischen chemischer Struktur und (biologischer) Aktivität her. Erfordert das Vorhandensein von experimentellen Meßdaten für eine Reihe von bekannten Verbindungen, z.B. aus High Throughput Screening 6. Vorlesung Modern Methods in Drug Discovery WS04/05

Begriffsdefinitionen QSAR: quantitative structure-activity relationsship QSRP: quantitative structure-property relationship Activity und Property sind z.B: log(1/Ki) Bindungskonstante log(1/IC50) Konzentration bei der 50% Wirkung eintritt Physikalische Größen, wie Siedepunkt, Löslichkeit, … Ziel: Voraussage von Moleküleigenschaften anhand ihrer Struktur, ohne eine expt. Meßung durchführen zu müßen. → in silico anstatt in vitro oder in vivo Vorteil: Einsparung von Zeit und Resourcen 6. Vorlesung Modern Methods in Drug Discovery WS04/05

Zeitliche Entwicklung von QSAR Methoden (I) 1868 A.C.Brown, T.Fraser: Physiologische Aktivität ist eine Funktion der chemischen Konstitution (Zusammensetzung) Aber: Eine direkte Beziehung ist nicht gegeben, sodern immer nur über die Unterschiede. Zur Erinnerung: 1865 Strukturvorschlag für Benzol von A. Kekulé Die chemische Struktur der meisten organischen Verbindungen ist noch unbekannt ! 1893 H.H.Meyer, C.E.Overton Toxizität von organischen Verbindungen steht im Verhältnis zu deren Verteilung zwischen wäßrigem und lipophilen biologischem Medium 6. Vorlesung Modern Methods in Drug Discovery WS04/05

Zeitliche Entwicklung von QSAR Methoden (II) 1868 E.Fischer Schlüssel-Schloß Prinzip bei Enzymen Widerum keinerlei strukturelle Information über Enzyme vorhanden ! 1930-40 Hammet Gleichung: Reaktivität physikalisch, organische, theoretische Chemie 1964 C.Hansch, J.W.Wilson, S.M.Free, F.Fujita Geburtsstunde der modernen QSAR-Methoden Hansch-Analyse bzw. Free-Wilson-Analyse linear free energy-related approach Koeffizienten (konstant) Deskriptoren oder Variablen 6. Vorlesung Modern Methods in Drug Discovery WS04/05

Modern Methods in Drug Discovery WS04/05 Deskriptoren Ansätze eine mathematische Beziehung zwischen numerischen Eigenschaften (Deskriptoren Pi) und physikochemischen Eigenschaften der Verbindung (z.B. biologische Aktivität log(1/C) ) herzustellen, werden als QSAR, bzw QSPR bezeichnet. Daneben werden Deskriptoren auch zur Beschreibung von Molekülen in der Diversitäts Analyse und in Kombinatorischen Bibliotheken eingesetzt. Prinzipiell kann jede molekulare Eigenschaft als Deskriptor verwendet werden. Mehr zu Deskriptoren unter http://www.chemcomp.com/Journal_of_CCG/Features/descrip.html 6. Vorlesung Modern Methods in Drug Discovery WS04/05

Informationsfluß in einer drug discovery pipeline 6. Vorlesung Modern Methods in Drug Discovery WS04/05

Modern Methods in Drug Discovery WS04/05 Komponentenauswahl Wieviel Information ist über das target vorhanden ? X-Ray mit Wirkstoff Docking HTS X-Ray des Proteins active site Reihe von wirksamen Verbindungen QSAR, Pharmacophor erstellen Zunehmende Information Wenige hits aus HTS eADME Filter Kenntnis der Enzymfunktion (z.B. Kinase, GPCR) combi chem Erstellen einer virtuellen Bibliothek 6. Vorlesung Modern Methods in Drug Discovery WS04/05

Molekülbasierte Deskriptoren zur Voraussage der ADME Eigenschaften logP Wasser/Octanol Verteilungskoeffizient Lipinski‘s rule Topologische Indices Polar surface area Similarität / Dissimilarität QSAR quantitative structure activity relationship QSPR quantitative structure property rel. 6. Vorlesung Modern Methods in Drug Discovery WS04/05

Modern Methods in Drug Discovery WS04/05 „1D“ Deskriptoren (I) Für einige Deskriptoren benötigt man nur Kenntnisse die sich bereits aus der Summenformel der Verbindung erhält. Bsp.: Molmasse, Gesamtladung, Anzahl von Halogenatomen Weitere solcher eindimensionaler Deskriptoren ergeben sich additiv aus atomaren Beiträgen. Bsp.: Summe der atomaren Polarisierbarkeiten Refraktivität (Brechungsindex n, molar refractivity, MR) MR = (n2 –1) MW / (n2 +2) d mit Dichte d, Molekülgewicht MW Ist abhängig von der Polarisierbarkeit und enthält außerdem das Molekülvolumen (MW / d) 6. Vorlesung Modern Methods in Drug Discovery WS04/05

Modern Methods in Drug Discovery WS04/05 logP (I) Der Wasser/n-Octanol Verteilungskoeffizient bzw. der logaritmierte Wert wird als logP bezeichnet. Wird oft zur Abschätzung der Membrangängigkeit und der Bioverfügbarkeit einer Verbindung eingesetzt, da ein oral applizierter Wirkstoff lipophil genug sein muß um durch die Lipidschicht der Membrane zu gelangen, andererseits wasserlöslich sein muß um in Blut und Lymphe transportiert zu werden hydrophil –4.0 < logP < +8.0 lipophil Zitronensäure –1.72 Iodbenzol +3.25 Typische Wirkstoffe < 5.0 6. Vorlesung Modern Methods in Drug Discovery WS04/05

Modern Methods in Drug Discovery WS04/05 logP (II) Zur Vorhersage des logP wurde eine Reihe von Methoden entwickelt: basierend auf Molekülfragmenten (Gruppen und Reste) ClogP Leo, Hansch et al. J.Med.Chem. 18 (1975) 865. Problem: Aufreten von nicht parametrisierten Fragmenten (bis zu 25% in Substanzbibliotheken) basierend auf Atomtypen SlogP S.A. Wildman & G.M.Crippen J.Chem.Inf.Comput.Sci. 39 (1999) 868. AlogP, MlogP, XlogP... Jeweils mittels einer mathematischen Fitprozedur (Regressionanalyse, Neuronales Netz) erstellt. 6. Vorlesung Modern Methods in Drug Discovery WS04/05

Modern Methods in Drug Discovery WS04/05 logP (III) Neuere Methoden zur Vorhersage des logP verwenden zunehmend Eigenschaften des kompletten Moleküls, wie etwa Moleküloberfläche (polare/unpolare, bzw.deren elektrostatische Eigenschaften) Dipolmoment und Polarisierbarkeit Volumen / Oberfläche (Globularität) Bsp: mit Hilfe quantenmechanischer Daten trainiertes Neuronales Netz logP T. Clark et al. J.Mol.Model. 3 (1997) 142. 6. Vorlesung Modern Methods in Drug Discovery WS04/05

Modern Methods in Drug Discovery WS04/05 „1D“ Deskriptoren (II) Weitere atomare Deskriptoren benutzen Information basierend auf empirischen Atomtypen wie in einem Kraftfeld. Bsp.: Anzahl von Halogenen Anzahl von sp3 substituierten Kohlenstoffatomen Anzahl von H-Brücken Akzeptoren (N, O, S) Anzahl von H-Brücken Donoren (OH, NH, SH) Anzahl aromatischer Ringe Anzahl von COOH Gruppen ... Anzahl frei drehbarer Bindungen 6. Vorlesung Modern Methods in Drug Discovery WS04/05

Modern Methods in Drug Discovery WS04/05 fingerprints Binärer fingerprint eines Moleküls 6. Vorlesung Modern Methods in Drug Discovery WS04/05

Modern Methods in Drug Discovery WS04/05 Lipinski´s Rule of 5 Kombination von Deskriptoren zur Abschätzung der intestinalen Absorption. Schlechte Aufnahme der Verbindung, wenn Molekülmasse > 500 logP > 5.0 > 5 H-Brücken Donoren (OH und NH) >10 H-Brücken Akzeptoren (N und O) Schlechte Diffusion Zu lipophil Zuviele H-Brücken mit den Kopfgruppen der Membran C.A. Lipinski et al. Adv. Drug. Delivery Reviews 23 (1997) 3. 6. Vorlesung Modern Methods in Drug Discovery WS04/05

Modern Methods in Drug Discovery WS04/05 2D Deskriptoren (I) Bei Deskriptoren die sich aus der Molekülkonfiguration (kovalente Verknüpfung der Atome) ableiten, spricht man von 2D Deskriptoren. Da keine Atomkoordinaten verwendet werden sind 2D Deskriptoren generell konformationsunabhängig obwohl sie topologische Information über das Molekül enthalten. Vgl. Darstellung mittels SMILES 6. Vorlesung Modern Methods in Drug Discovery WS04/05

Modern Methods in Drug Discovery WS04/05 2D Deskriptoren (II) Die wesentlichsten topologischen Eigenschaften eines Moleküls sind der Verzeigungsgrad und die molekulare Form. Für Kohlenstoff stehen 4 Valenzen zur Verfügung. Das Verhältnis der tatsächlichen Verzweigung zur theoretisch möglichen Verzeigung läßt sich deshalb als Deskriptor verwenden. 6. Vorlesung Modern Methods in Drug Discovery WS04/05

Modern Methods in Drug Discovery WS04/05 2D Deskriptoren (III) Allgemeine Definitionen: Zi Ordnungszahl (H=1, C=6, LP=0) hi Anzahl H-Atome die an Atom i gebunden sind di Anzahl schwerer Atome die an Atom i gebunden sind Deskriptoren für den Verzweigungsgrad und die Flexibilität eines Moleküls: Kier & Hall Connectivity Indices pi Anzahl der s und p Valenzelektronen an Atom i vi = (pi – hi ) / (Zi – pi – 1) für alle schweren Atome 6. Vorlesung Modern Methods in Drug Discovery WS04/05

Kier und Hall Connectivity Indices Zi Ordnungszahl (H=1, C=6, LP=0) di Anzahl schwerer Atome die an Atom i gebunden sind pi Anzahl der s und p Valenzelektronen an Atom i vi = (pi – hi ) / (Zi – pi – 1) für alle schweren Atome Chi0 0. Ordnung Chi1 1. Ordnung Chi0v Valenzindex 6. Vorlesung Modern Methods in Drug Discovery WS04/05

Kier und Hall Shape Indices (I) n Anzahl schwerer Atome (Nicht-Wasserstoffatome) m Anzahl aller Bindungen zwischen den schweren Atomen p2 Anzahl der Pfade mit Länge 2 p3 Anzahl der Pfade mit Länge 3 aus der Distanzmatrix D Kappa1 Kappa2 Kappa3 Kappa3 6. Vorlesung Modern Methods in Drug Discovery WS04/05

Kier und Hall Shape Indices (II) Setzt man die Atome in Relation zu sp3-hybridisierten C-Atomen so erhält man die Kappa alpha Indices ri Kovalenzradius von Atom i rc Kovalenzradius eines sp3 Kohlenstoffatoms Element Hybridi-sierung  C sp3 sp2 -0.13 sp -0.22 N -0.04 -0.20 -0.29 O P +0.43 S +0.35 Cl +0.29 KappaA1 6. Vorlesung Modern Methods in Drug Discovery WS04/05

Balaban, Wiener und Zagreb Indices n Anzahl schwerer Atome (Nicht-Wasserstoffatome) m Anzahl aller Bindungen zwischen den schweren Atomen di Anzahl schwerer Atome die an Atom i gebunden sind Summe der nichtdiagonalen Matrixelemente von Atom i in der Distanzmatrix D BalabanJ Korreliert mit den Siedepunkten von Alkanen WienerJ (Pfad Nummer) WienerPolarität Zagreb 6. Vorlesung Modern Methods in Drug Discovery WS04/05

Was sagen die topologischen Indices aus ? Topologische Indices sind assoziert mit Verzweigunsgrad des Moleküls Größe und räumliche Ausdehnung des Moleküls Strukturelle Flexibilität In der Regel läßt sich eine chemische Eigenschaft nicht direkt mit einem einzigen Index korrellieren. Topologische Indices kodieren prinzipiell dieselben Eigenschaften wie fingerprints, jedoch weniger einleuchtend aber numerisch einfacher aufzustellen 6. Vorlesung Modern Methods in Drug Discovery WS04/05

Modern Methods in Drug Discovery WS04/05 3D Deskriptoren Bei Deskriptoren die Atomkoordinaten des Moleküls verwenden spricht man von 3D Deskriptoren. Diese sind deshalb in der Regel konformationsabhängig. Beispiele: Van der Waals Volumen, Molekulare Oberfläche, Polare Oberfläche, Elektrostatisches Potential (ESP) 6. Vorlesung Modern Methods in Drug Discovery WS04/05

Quantenmechanische Deskriptoren (Auswahl) Atomladungen (partial atomic charges) Keine Observablen ! Mulliken Populationsanalyse Electrostatic potential (ESP) derived charges Dipolmoment Polarisierbarkeit HOMO / LUMO Energien (eV) der Grenzorbitale WienerJ (Pfad Nummer) Covalent hydrogen bond acidity/basicity Differenz der HOMO/LUMO Energien zu Wasser Lit: M. Karelson et al. Chem.Rev. 96 (1996) 1027 6. Vorlesung Modern Methods in Drug Discovery WS04/05

Modern Methods in Drug Discovery WS04/05 DRAGON Programm zur Erzeugung von >1400 Deskriptoren BalabanJ WienerJ (Pfad Nummer) WienerPolarität Roberto Todeschini Siehe: http://www.disat.unimib.it/chm/Dragon.htm Zagreb 6. Vorlesung Modern Methods in Drug Discovery WS04/05

Weiterführende Information zu Deskriptoren Roberto Todeschini, Viviana Consonni Handbook of Molecular Descriptors, Wiley-VCH, (2000) 667 Seiten (ca. 270 €) BalabanJ WienerJ (Pfad Nummer) CODESSA Alan R. Katritzky, Mati Karelson et al. http://www.codessa-pro.com MOLGEN C. Rücker et al. http://www.mathe2.uni-bayreuth.de/molgenqspr/index.html WienerPolarität Zagreb 6. Vorlesung Modern Methods in Drug Discovery WS04/05

Smilaritätsdeskriptoren und Indices (I) cA erfüllte Eigenschaft von Molekül A |cA  cB| Schnittmenge gemeinsamer Eigenschaften von A und B |cA  cB| Vereinigunsmenge der Eigenschaften von A und B Euklidische Distanz Manhattan Distanz Formel Definition Bereich Andere Namen ∞ bis 0 ∞ bis 0 - City-Block, Hamming 6. Vorlesung Modern Methods in Drug Discovery WS04/05

Smilaritätsdeskriptoren und Indices (II) Soergel Distanz Tanimoto Index 1 bis 0 -0.333 bis +1 (kontinuierliche Werte) 0 bis +1 (binäre on/off Werte) - Jaccard Koeffizient Bei binären (dichotomen) Werten sind Soergel Distanz und Tanimoto Index zueinander komplementär 6. Vorlesung Modern Methods in Drug Discovery WS04/05

Smilaritätsdeskriptoren und Indices (III) Dice Koeffizient Cosinus Koeffizient -1 bis +1 0 bis +1 (kontinuierliche Werte) 0 bis +1 0 bis +1 (binäre on/off Werte) Hodgkin Index Carbo Index Czekanowski Koeffizient Ochiai Koeffizient Sørensen Koeffizient Monoton mit dem Tanimoto Index Hoch korreliert mit dem Tanimoto Index 6. Vorlesung Modern Methods in Drug Discovery WS04/05

Korrelation der Deskriptoren (I) Ebenso wie konkrete Moleküleigenschaften sind auch die Deskriptoren oft miteinander korreliert. Korrelation nach Pearson Auftragung zweier Variablen x und y im Craig-Plot Um aus der Vielzahl der Deskriptoren eine möglichst aussage-kräftige Kombination zu erhalten, müssen multivariante Methoden der Statistik angewandt werden. 6. Vorlesung Modern Methods in Drug Discovery WS04/05

Korrelation der Deskriptoren (II) Im allgemeinen hat steht man vor dem Problem aus der Vielzahl vorhandener Deskriptoren die statistisch relevanten (und damit die aussagekräftigsten) für die jeweilige QSAR-Gleichung zu finden. Pro Deskriptor sollten 5 Moleküle (Datenpunkte) vorhanden sein, sonst ist die Gefahr einer zufälligen Korrelation zu hoch Lösungsansatz: Ermittlung der unkorrelierten Variablen mittels einer principal component analysis (PCA) – siehe unten – oder Anwendung der partial least square (PLS) Technik 6. Vorlesung Modern Methods in Drug Discovery WS04/05

Partial least square (PLS) Die Aktivität y wird als spezielle Linearkombination der Variablen bzw. Moleküleigenschaften xi ausgedrückt wobei Die latenten Variablen ti werden so konstruiert, daß sie zueinander orthogonal, also unkorreliert sind. → Statistikprogramme D.h. durch Kombination der ursprünglichen Moleküleigen-schaften werden neue Komponenten erzeugt, die unkorreliert zueinander sind. 6. Vorlesung Modern Methods in Drug Discovery WS04/05

Principal Component Analysis PCA (I) Problem: Welche sind die entscheidenden Deskriptoren im Datensatz ? Die Hauptkomponentenanalyse erzeugt eine Serie unkorrelierter Variablen aus einem Satz korrelierter Variablen. Dazu wird eine Koordinatentransformation der Datenmatrix durchgeführt, sodaß die erste Hauptachse (pc1) die größte Streuung (Varianz) der Datenpunkte aufweist. Die zweite (pc2) und folgende Hauptachsen stehen orthogonal zueinander und deren Komponenten sind unkorreliert zueinander. Lit: E.C. Pielou: The Interpretation of Ecological Data, Wiley, New York, 1984 6. Vorlesung Modern Methods in Drug Discovery WS04/05

Principal Component Analysis PCA (II) Die erste Hauptachse (pc1) weißt die größte Streuung (Varianz) der Datenpunkte auf, während die zweite (pc2) und folgende Hauptachsen orthogonal dazu stehen. 6. Vorlesung Modern Methods in Drug Discovery WS04/05

Principal Component Analysis PCA (III) Die signifikanten Hauptkomponenten haben meistens einen Eigenwert >1 (Kaiser-Guttman Kriterium). Zusätzlich tritt meistens ein Knick zu den weniger relevanten auf (Scree-Test) 6. Vorlesung Modern Methods in Drug Discovery WS04/05

Principal Component Analysis PCA (IV) Durch die so ermittelten relevanten Hauptkomponenten sollte sich mehr als 80% der gesamten Varianz erfassen lassen 6. Vorlesung Modern Methods in Drug Discovery WS04/05

Principal Component Analysis (V) Bsp: Durch welche Deskriptoren wird der logP bestimmt ? Eigenschaft pc1 pc2 pc3 Dipolmoment 0.353 Polarisierbarkeit 0.504 Mittel des +ESP 0.397 -0.175 0.151 Mittel des –ESP -0.389 0.104 0.160 Variance des ESP 0.403 -0.244 Minimales ESP -0.239 -0.149 0.548 Maximales ESP 0.422 0.170 Molekülvolumen 0.506 0.106 Oberfläche 0.519 0.115 Anteil an der Gesamtvariance 28% 22% 10% Lit: T.Clark et al. J.Mol.Model. 3 (1997) 142 6. Vorlesung Modern Methods in Drug Discovery WS04/05

Modern Methods in Drug Discovery WS04/05 QSAR-Gleichungen (I) Hat man nun möglichst viele unkorrelierte Eigenschaften, müßen nun noch die Koeffizienten ki bestimmt werden. Dies geschieht durch multiple lineare Regressionsanalyse (least square fit der besten Kombination der Koeffizienten) → Statistikprogramme Meistens kann man nicht die beste Kombination aller möglichen Kombinationen von Deskriptoren berechnen. (exponentielle Laufzeit) In der Regel fängt man deshalb mit dem Deskriptor an der die höchste Einzelkorrelation zeigt und nimmt schrittweise weitere Deskriptoren hinzu (forward regression). Oder man fängt mit allen Deskriptoren an und entfernt sukzessive diejenigen die die Korrelation am wenigsten verschlechtern (backward regression). 6. Vorlesung Modern Methods in Drug Discovery WS04/05

QSAR-Gleichungen (II) Die wichtigsten Statistischen Größen zur Beurteilung einer QSAR-Gleichung sind: Korrelationskoeffizient (quadriert als r2) Standartabweichung (standard deviation, se, möglichst klein, se<0.4 Einheiten) Fisher value F (Maß für die Übertragbarkeit der QSAR-Gleichung auf einen anderen Datensatz, sollte möglichst hoch sein, wird aber mit zunehmender Anzahl der Variablen kleiner) Probability value p einer einzelner Variablen (Maß für zufällige Korrelation, p<0.05 = 95% Sicherheit) 6. Vorlesung Modern Methods in Drug Discovery WS04/05

QSAR-Gleichungen (III) Zur Überprüfung der Aussagekraft der QSAR-Gleichung werden vor allem zwei gebräuchliche Möglichkeiten verwendet: a) willkürliche Vertauschung der tatsächlichen Aktivitäten (falscher Datensatz) sollte die Voraussagefähigkeit (Standardabweichung) der Gleichung zusammenbrechen lassen. b) Cross-validation Es werden verschiedene Gleichungen aufgestellt, wobei jeweils eine Klasse von Eigenschaften (Physicochemisch, biologisch, elektronisch, sterisch) weggelassen wird (leave-one-out) und das Ergebnis mit dem vollständigen Modell verglichen wird. Die erhaltene Standardabweichung wird als PRESS (predictive residual sum of squares) bezeichnet. 6. Vorlesung Modern Methods in Drug Discovery WS04/05

QSAR-Gleichungen (IV) Cross-validation Der Korrelationskoeffizient q2 der aus der cross-validation erhalten wird ist kleiner als der ursprüngliche Wert r2, aber entsprechend aussage-kräftiger. Einer der besten Tests ist jedoch die Überprüfung mit einem externen Datensatz. 6. Vorlesung Modern Methods in Drug Discovery WS04/05

Interpretation von QSAR-Gleichungen (I) Die Art der enthaltenden Variablen bzw. Deskriptoren sollte Rückschlüße auf die zugrunde liegenden physiko-chemischen Vorgänge zulassen und so das Design neuer Moleküle durch Interpolation ermöglichen Die mathematische Form der QSAR-Gleichung kann Aufschluß über den biologischen Wirkungsmechanismus geben: Eine Abhängigkeit der Aktivität von (log P)2 deutet auf einen Transportvorgang des Wirkstoffes zum Rezeptor hin. Vorsicht ist bei der Extrapolation über die Grenzen des erfaßten Datenbereiches angebracht. Hier können keine zuverlässigen Vorhersagen gemacht werden. 6. Vorlesung Modern Methods in Drug Discovery WS04/05

Interpretation von QSAR-Gleichungen (II) Zwischen den verwendeten Deskriptoren und der Meßgröße sollte ein schlüssiger Zusammenhang stehen. Hierzu ein Gegenbeispiel: H. Sies Nature 332 (1988) 495. Wissenschaftlicher Beweis, daß der Storch die Babies bringt Die Daten hierzu finden sie unter /home/stud/mihu004/qsar/storks.spc 6. Vorlesung Modern Methods in Drug Discovery WS04/05