16.12.2012 Aufrufe

Quantitative Analyse von Arzneistoff-Membran-Wechselwirkungen ...

Quantitative Analyse von Arzneistoff-Membran-Wechselwirkungen ...

Quantitative Analyse von Arzneistoff-Membran-Wechselwirkungen ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

Modellierung der Verteilungsvorgänge<br />

den Vektoren der ursprünglichen Deskriptoren und den extrahierten latenten Variablen. Ein kleiner<br />

loading-Wert eines Deskriptors zeigt, dass die Information nur unzureichend <strong>von</strong> der latenten<br />

Variablen extrahiert wurde. Eine perfekte Wiedergabe eines Deskriptors innerhalb einer LV führt zu<br />

einer Ladung <strong>von</strong> 1. Als Grenzwert für eine signifikante Ladung einer ursprünglichen Variablen durch<br />

eine latente Variable wird allgemein ein Wert <strong>von</strong> 0.7 gewählt, da dieser ca. 50% der Varianz der<br />

ursprünglichen Variablen entspricht.<br />

Die score-Matrix beinhaltet Informationen über die Verbindungen. Dabei ist jedes Molekül anstatt<br />

durch seine Deskriptoren über seine Beträge zu den score-Werten der jeweiligen latenten Variablen<br />

charakterisiert. Die score-Werte stellen somit die Projektion der ursprünglichen Variablen<br />

(Verbindungen) auf die latenten Variablen dar. In diesem Zusammenhang sind die score-Werte der<br />

ersten LV <strong>von</strong> besonderer Bedeutung. Sie repräsentiert den generellen Zusammenhang zwischen den<br />

Molekülen und den Aktivitätsvariablen, weil die erste LV die meiste Varianz extrahiert.<br />

Bei der PLS-<strong>Analyse</strong> sollen die latenten Variablen sowohl die X-Matrix als auch die Y-Matrix<br />

repräsentieren. Dabei wird der bestmögliche Zusammenhang zwischen den X- und Y-Variablen<br />

angestrebt. Die Kovarianz zwischen X- und Y-Variablen wird somit maximiert. Mit zunehmender<br />

Anzahl an latenten Variablen kann eine überzogene Anpassung (overfitting) auftreten. Die optimale<br />

Anzahl der latenten Variablen wird anhand der Vorhersagekraft bei unterschiedlicher Zahl an LV<br />

bestimmt. Im Gegensatz zur multiplen linearen Regression (MLR) dient beim PLS-Verfahren die<br />

Vorhersagekraft als Auswahlkriterium für das beste Modell.<br />

Als wichtige Kennfaktoren einer PLS-<strong>Analyse</strong> sind demnach die Anzahl der zu extrahierenden latenten<br />

Variablen, die score-Werte der Verbindungen und die loading-Werte der ursprünglichen Variablen<br />

(Deskriptoren) in der ersten latenten Variablen herauszustellen.<br />

6.1.4.2. Testung der Vorhersagekraft<br />

Zur Kontrolle der Signifikanz des Beitrags der einzelnen latenten Variablen eignet sich das cross<br />

validation-Verfahren (CV). In Verbindung mit der PLS-<strong>Analyse</strong> nutzt man die CV zur Bestimmung<br />

der optimalen Anzahl latenter Variablen (Kubinyi und Abraham 1993). Es gibt verschiedene Vorgehensweisen,<br />

die Vorhersagekraft des Modells abzuschätzen:<br />

Leave-one-out-Modelle (LOO) werden erstellt, indem ein Objekt (Verbindung) aus der PLS-<strong>Analyse</strong><br />

ausgelassen wird (Testsatz). Für diese Verbindung wird der Aktivitätswert nach einer erneuten PLS-<br />

<strong>Analyse</strong> berechnet. Dieser Vorgang wird zyklisch wiederholt, bis jede Verbindung einmal ausgelassen<br />

und ihr Y-Wert vorhergesagt worden ist. Die unberücksichtigte Information einer ausgelassenen<br />

Verbindung kann sich in Fall <strong>von</strong> Objektgruppen weiterhin im Modell befinden, so dass sich die LOO-<br />

Methode eher als eine oberflächliche Testung erweist.<br />

Die random group-Methode, besser als leave-n-out-Methode zu bezeichnen, trägt diesem Umstand<br />

Rechnung. Die Einteilung der Objekte (Verbindungen) in Gruppen erfolgt zufällig und die Prozedur<br />

wird mehrfach wiederholt, wobei üblicherweise 5 Gruppen, entsprechend 20% der Verbindungen,<br />

ausgewählt werden. Jede Gruppe (Testsatz) besteht aus einer ausgeglichenen Menge an Objekten.<br />

Nun wird jede Gruppe einmal pro <strong>Analyse</strong> ausgelassen und die Aktivitäten der Objekte des entsprechenden<br />

Testsatzes vorhergesagt. Im Gegensatz zur LOO-Methode variiert die Vorhersagekraft<br />

88

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!