Quantitative Analyse von Arzneistoff-Membran-Wechselwirkungen ...
Quantitative Analyse von Arzneistoff-Membran-Wechselwirkungen ...
Quantitative Analyse von Arzneistoff-Membran-Wechselwirkungen ...
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
Modellierung der Verteilungsvorgänge<br />
den Vektoren der ursprünglichen Deskriptoren und den extrahierten latenten Variablen. Ein kleiner<br />
loading-Wert eines Deskriptors zeigt, dass die Information nur unzureichend <strong>von</strong> der latenten<br />
Variablen extrahiert wurde. Eine perfekte Wiedergabe eines Deskriptors innerhalb einer LV führt zu<br />
einer Ladung <strong>von</strong> 1. Als Grenzwert für eine signifikante Ladung einer ursprünglichen Variablen durch<br />
eine latente Variable wird allgemein ein Wert <strong>von</strong> 0.7 gewählt, da dieser ca. 50% der Varianz der<br />
ursprünglichen Variablen entspricht.<br />
Die score-Matrix beinhaltet Informationen über die Verbindungen. Dabei ist jedes Molekül anstatt<br />
durch seine Deskriptoren über seine Beträge zu den score-Werten der jeweiligen latenten Variablen<br />
charakterisiert. Die score-Werte stellen somit die Projektion der ursprünglichen Variablen<br />
(Verbindungen) auf die latenten Variablen dar. In diesem Zusammenhang sind die score-Werte der<br />
ersten LV <strong>von</strong> besonderer Bedeutung. Sie repräsentiert den generellen Zusammenhang zwischen den<br />
Molekülen und den Aktivitätsvariablen, weil die erste LV die meiste Varianz extrahiert.<br />
Bei der PLS-<strong>Analyse</strong> sollen die latenten Variablen sowohl die X-Matrix als auch die Y-Matrix<br />
repräsentieren. Dabei wird der bestmögliche Zusammenhang zwischen den X- und Y-Variablen<br />
angestrebt. Die Kovarianz zwischen X- und Y-Variablen wird somit maximiert. Mit zunehmender<br />
Anzahl an latenten Variablen kann eine überzogene Anpassung (overfitting) auftreten. Die optimale<br />
Anzahl der latenten Variablen wird anhand der Vorhersagekraft bei unterschiedlicher Zahl an LV<br />
bestimmt. Im Gegensatz zur multiplen linearen Regression (MLR) dient beim PLS-Verfahren die<br />
Vorhersagekraft als Auswahlkriterium für das beste Modell.<br />
Als wichtige Kennfaktoren einer PLS-<strong>Analyse</strong> sind demnach die Anzahl der zu extrahierenden latenten<br />
Variablen, die score-Werte der Verbindungen und die loading-Werte der ursprünglichen Variablen<br />
(Deskriptoren) in der ersten latenten Variablen herauszustellen.<br />
6.1.4.2. Testung der Vorhersagekraft<br />
Zur Kontrolle der Signifikanz des Beitrags der einzelnen latenten Variablen eignet sich das cross<br />
validation-Verfahren (CV). In Verbindung mit der PLS-<strong>Analyse</strong> nutzt man die CV zur Bestimmung<br />
der optimalen Anzahl latenter Variablen (Kubinyi und Abraham 1993). Es gibt verschiedene Vorgehensweisen,<br />
die Vorhersagekraft des Modells abzuschätzen:<br />
Leave-one-out-Modelle (LOO) werden erstellt, indem ein Objekt (Verbindung) aus der PLS-<strong>Analyse</strong><br />
ausgelassen wird (Testsatz). Für diese Verbindung wird der Aktivitätswert nach einer erneuten PLS-<br />
<strong>Analyse</strong> berechnet. Dieser Vorgang wird zyklisch wiederholt, bis jede Verbindung einmal ausgelassen<br />
und ihr Y-Wert vorhergesagt worden ist. Die unberücksichtigte Information einer ausgelassenen<br />
Verbindung kann sich in Fall <strong>von</strong> Objektgruppen weiterhin im Modell befinden, so dass sich die LOO-<br />
Methode eher als eine oberflächliche Testung erweist.<br />
Die random group-Methode, besser als leave-n-out-Methode zu bezeichnen, trägt diesem Umstand<br />
Rechnung. Die Einteilung der Objekte (Verbindungen) in Gruppen erfolgt zufällig und die Prozedur<br />
wird mehrfach wiederholt, wobei üblicherweise 5 Gruppen, entsprechend 20% der Verbindungen,<br />
ausgewählt werden. Jede Gruppe (Testsatz) besteht aus einer ausgeglichenen Menge an Objekten.<br />
Nun wird jede Gruppe einmal pro <strong>Analyse</strong> ausgelassen und die Aktivitäten der Objekte des entsprechenden<br />
Testsatzes vorhergesagt. Im Gegensatz zur LOO-Methode variiert die Vorhersagekraft<br />
88