Fachbereich Mathematik - GSI
Fachbereich Mathematik - GSI
Fachbereich Mathematik - GSI
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
Technische Universität Darmstadt<br />
- <strong>Fachbereich</strong> <strong>Mathematik</strong> -<br />
<strong>GSI</strong><br />
Helmholtzzentrum für Schwerionenforschung<br />
- Abteilung Biophysik -<br />
Master-Thesis<br />
Theorie und Numerik zur nichtlinearen<br />
Dosisoptimierung in der Schwerionentherapie<br />
Angefertigt von<br />
Michael Horcicka<br />
Referent: Prof. Dr. Christian Meyer<br />
Korreferent: Prof. Dr. Stefan Ulbrich<br />
Darmstadt 2011
Diese Arbeit wurde mit dem Textsatzsystem L ATEX erstellt.
Abstract<br />
In the <strong>GSI</strong> therapy pilot project from 1997 until 2008 about 450 cancer patients<br />
were successfully treated with carbon ions. Because of the promising healing rates<br />
the clinical radiotherapy facility HIT was opened in 2009. However, research for the<br />
heavy-ion therapy is still in progress at <strong>GSI</strong>.<br />
For the treatment planning the software TRiP is used. An essential part of the<br />
treatment planning ist the dose optimization. The aim of the dose optimization is<br />
to achieve a homogeneous target dose distribution as close as possible to the prescribed<br />
dose distribution by an appropriate sparing of healthy tissue and critical<br />
structures like the brainstem. These requirements can be mathematically expressed<br />
by an optimization problem, where the free optimization parameters are the particle<br />
numbers for the rasterspots. If biological effects are taken into account, the optimization<br />
problem leads to a nonlinear, finite dimensional and restricted minimization<br />
problem. A theoretical examination and a solution of the optimization problem is<br />
the core area of this master-thesis.<br />
By utilizing a special variant of the Weierstraß extreme value theorem, which<br />
requires the lower semi-continuity and radial unboundness of the objective function,<br />
the existence of a global minimum of the optimization problem can be proofed. Due<br />
to the nonconvexity of the objective funtion the uniqueness of a global minimum<br />
can not be proofed straightforward because standard techniques for such proofs can<br />
not be applied. A numerical approach, which indicates, that the minimum of the<br />
objective function is unique, is discussed. Furthermore, the objective function is<br />
approximated with an appropriate smooth function. This is necessary to derive the<br />
Karush-Kuhn-Tucker-conditions for the optimization problem.<br />
Due to the nonlinearity of the objective function the optimization problem can<br />
only be solved with numerical methods. For this purpose the Linesearch-Techniques<br />
method of steepest descent, conjugated gradients and the inverse BFGS-method were<br />
implemented and examined. Several variants of these numerical solvers are presented<br />
in this work. The convergence results show, that the Fletcher-Reeves variant of<br />
the conjugated gradient method has the best numerical properties. The results of<br />
the inverse BFGS-method are similar concerning the iteration steps but require by<br />
a factor of 1.5 more computation time. The method of steepest descent is slow<br />
concerning the iteration steps and computation time.<br />
The convergence results show, that currently the Fletcher-Reeves variant of the<br />
conjugated gradient method is the best algorithm for the optimization step in the<br />
treatment planning procedure. With this method complete patient plans can be<br />
optimized in an acceptable computation time. Furthermore, this method doesn’t<br />
require much memory space and is robust.<br />
3
Inhaltsverzeichnis<br />
Abbildungsverzeichnis 7<br />
Abkürzungsverzeichnis 8<br />
1 Einleitung 10<br />
1.1 Die Krankheit Krebs . . . . . . . . . . . . . . . . . . . . . . . . . . . 10<br />
1.2 Strahlentherapie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10<br />
1.3 Physikalische Grundlagen ionisierender Strahlung . . . . . . . . . . . 12<br />
1.4 Strahlenbiologische Grundlagen . . . . . . . . . . . . . . . . . . . . . 15<br />
1.5 Das Kohlenstoff-Therapieprojekt der <strong>GSI</strong> . . . . . . . . . . . . . . . . 17<br />
1.5.1 Technik der Therapie . . . . . . . . . . . . . . . . . . . . . . . 18<br />
1.5.2 Ablauf der Therapie . . . . . . . . . . . . . . . . . . . . . . . 20<br />
2 Optimierung der Dosis in der Schwerionentherapie 22<br />
2.1 Bestrahlungsplanung mit TRiP . . . . . . . . . . . . . . . . . . . . . 22<br />
2.2 Berechnung der Dosis . . . . . . . . . . . . . . . . . . . . . . . . . . . 25<br />
2.2.1 Berechnung der physikalischen Dosis . . . . . . . . . . . . . . 25<br />
2.2.2 Berechnung der RBW-gewichteten Dosis . . . . . . . . . . . . 27<br />
2.3 Mathematische Formulierung der Optimierung . . . . . . . . . . . . . 29<br />
2.3.1 Physikalische und technische Betrachtung . . . . . . . . . . . 31<br />
2.3.2 Mathematische Betrachtung . . . . . . . . . . . . . . . . . . . 32<br />
2.4 Experimentelle Verifikation . . . . . . . . . . . . . . . . . . . . . . . . 34<br />
3 Theoretische Betrachtung des Optimierungsproblems 36<br />
3.1 Stetigkeits- und Differenzierbarkeitseigenschaften der Zielfunktion . . 36<br />
3.2 Existenz und Eindeutigkeit eines Minimums . . . . . . . . . . . . . . 38<br />
3.2.1 Existenz eines Minimums . . . . . . . . . . . . . . . . . . . . . 38<br />
3.2.1.1 Unterhalbstetigkeit der Zielfunktion . . . . . . . . . 38<br />
3.2.1.2 Radiale Unbeschränktheit der Zielfunktion . . . . . . 40<br />
3.2.1.3 Anwendung auf den Extremwertsatz von Weierstraß 42<br />
3.2.2 Eindeutigkeit eines Minimums . . . . . . . . . . . . . . . . . . 42<br />
3.3 Glättung der Zielfunktion . . . . . . . . . . . . . . . . . . . . . . . . 43<br />
3.4 Karush-Kuhn-Tucker-Bedingungen . . . . . . . . . . . . . . . . . . . 45<br />
4 Nichtlineare Optimierung 49<br />
4.1 Numerische Minimierung mit Linesearch-Verfahren . . . . . . . . . . 49<br />
4.2 Schrittweitenstrategien . . . . . . . . . . . . . . . . . . . . . . . . . . 52<br />
4
Inhaltsverzeichnis<br />
4.2.1 Schrittweitenbestimmung über Dämpfung der Physik-Schrittweite<br />
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52<br />
4.2.2 Die Schrittweitenregel von Armijo . . . . . . . . . . . . . . . . 53<br />
4.3 Voroptimierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54<br />
4.4 Ressourcen, Daten und Bemerkungen zur Optimierung . . . . . . . . 55<br />
4.4.1 Verwendete Rechnerarchitektur . . . . . . . . . . . . . . . . . 55<br />
4.4.2 Verwendeter Patientenplan . . . . . . . . . . . . . . . . . . . . 55<br />
4.4.3 Bewertung der Algorithmen . . . . . . . . . . . . . . . . . . . 56<br />
4.4.4 Bemerkungen und Details zur Implementierung . . . . . . . . 56<br />
5 Gradientenverfahren und konjugiertes Gradientenverfahren 58<br />
5.1 Das Gradientenverfahren . . . . . . . . . . . . . . . . . . . . . . . . . 58<br />
5.2 Das konjugierte Gradientenverfahren . . . . . . . . . . . . . . . . . . 59<br />
5.3 Konvergenzergebnisse und Diskussion . . . . . . . . . . . . . . . . . . 60<br />
6 BFGS-Verfahren 63<br />
6.1 Das Newton-Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . 63<br />
6.2 Quasi-Newton-Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . 66<br />
6.3 Das BFGS-Update . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67<br />
6.4 Das inverse BFGS-Verfahren mit Armijo-Schrittweite und Winkeltest 69<br />
6.5 Konvergenzergebnisse und Diskussion . . . . . . . . . . . . . . . . . . 71<br />
6.6 Weitere implementierte und ausgewertete Varianten des inversen BFGS-<br />
Verfahrens und zusätzliche Bemerkungen . . . . . . . . . . . . . . . . 74<br />
7 Zusammenfassung und Ausblick 77<br />
7.1 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77<br />
7.2 Ausblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79<br />
8 Anhang 81<br />
8.1 Beschleunigeranlage der <strong>GSI</strong> . . . . . . . . . . . . . . . . . . . . . . . 81<br />
8.2 Gradient und Hesse-Matrix der Dosis . . . . . . . . . . . . . . . . . . 82<br />
8.2.1 Gradient und Hesse-Matrix der physikalischen Dosis . . . . . . 82<br />
8.2.2 Gradient und Hesse-Matrix der RBW-gewichteten Dosis . . . 82<br />
8.2.3 Gradient und Hesse-Matrix des analytischen Ausdrucks für die<br />
RBW-gewichtete Dosis . . . . . . . . . . . . . . . . . . . . . . 83<br />
8.3 Gradient und Hesse-Matrix der Zielfunktion . . . . . . . . . . . . . . 83<br />
8.3.1 Gradient und Hesse-Matrix bei Optimierung der physikalischen<br />
Dosis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83<br />
8.3.2 Gradient und Hesse-Matrix bei Optimierung der RBW-gewichteten<br />
Dosis . . . . . . . . . . . . . . . . . . . . . . . . . . 84<br />
8.3.3 Gradient und Hesse-Matrix bei Optimierung mit dem analytischen<br />
Ausdruck für die RBW-gewichtete Dosis . . . . . . . . 85<br />
8.4 Der Extremwertsatz von Weierstraß . . . . . . . . . . . . . . . . . . . 85<br />
8.5 Unterhalbstetigkeit einer Funktion . . . . . . . . . . . . . . . . . . . . 86<br />
5
Inhaltsverzeichnis<br />
8.6 Radiale Unbeschränktheit einer Funktion . . . . . . . . . . . . . . . . 88<br />
8.7 Erweiterungen des Extremwertsatzes von Weierstraß . . . . . . . . . . 88<br />
8.8 Eindeutigkeit eines Minimums . . . . . . . . . . . . . . . . . . . . . . 89<br />
8.9 Exakte Schrittweitenbestimmung bei Optimierung der physikalischen<br />
Dosis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89<br />
Literaturverzeichnis 92<br />
6
Abbildungsverzeichnis<br />
1.1 Überlagerung von Bestrahlungsfeldern bei der Photonentherapie . . . 11<br />
1.2 Dosisverteilung bei IMRT und Kohlenstofftherapie im Schädelinneren 12<br />
1.3 Tiefendosisprofil für Photonen, Protonen und 12 C in Wasser . . . . . 13<br />
1.4 Laterales Streuverhalten von Photonen-, Protonen- und 12 C-Strahlen<br />
in Wasser . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14<br />
1.5 Überlebenskurven von Zellen nach Röntgen- und Kohlenstoffbestrahlung<br />
mit verschiedenen RBW-Werten . . . . . . . . . . . . . . . . . . 15<br />
1.6 Vergleich der simulierten Bahnspuren von 12 C-Ionen und Röntgen mit<br />
der schematischen Darstellung einer DNA-Doppelhelix . . . . . . . . 16<br />
1.7 Illustration des Rasterscan-Verfahrens . . . . . . . . . . . . . . . . . . 17<br />
1.8 Darstellung einer ausgedehnten Bragg-Peak Zone im Tumorbereich . 18<br />
1.9 Schematische Darstellung der PET-Analyse . . . . . . . . . . . . . . 19<br />
1.10 Fixierter Patient im Therapieraum der <strong>GSI</strong> . . . . . . . . . . . . . . . 21<br />
1.11 Thermoplastische Maske zur Fixierung des Kopfes des Patientens . . 21<br />
2.1 CT-Scheibe des Patientenplanes #135 mit eingezeichnetem Target<br />
und Hirnstamm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23<br />
2.2 Modellhafte Darstellung eines Zielvolumens mit Isoenergieschichten<br />
und den dazugehörigen Rasterpunkten . . . . . . . . . . . . . . . . . 24<br />
2.3 Vergleich zweier optimierter Dosisverteilungen in einer CT-Scheibe . . 25<br />
2.4 Modellrechnung der physikalischen und RBW-gewichteten Dosis mit<br />
korrespondierenden Überlebensraten aus Zellexperimenten . . . . . . 27<br />
2.5 Foto des präparierten Biophantoms vor der Bestrahlung . . . . . . . . 34<br />
2.6 Vergleich von gemessenem Zellüberleben und berechnetem Zellüberleben<br />
mit TRiP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35<br />
3.1 Graphische Veranschaulichung der Heaviside-Funktion . . . . . . . . . 39<br />
3.2 Graphische Veranschaulichung der Glättung der Heaviside-Funktion . 44<br />
4.1 "Ideale" Skalierungswerte für die Physik-Schrittweite . . . . . . . . . 53<br />
5.1 Minimierung mit dem GRV und KGV als Funktion der Iterationen . 62<br />
5.2 Minimierung mit dem GRV und KGV als Funktion der Rechenzeit . . 62<br />
6.1 Minimierung mit BFGS und KGV als Funktion der Iterationen . . . . 73<br />
6.2 Minimierung mit BFGS und KGV als Funktion der Rechenzeit . . . . 73<br />
8.1 Beispiel einer unstetigen Funktion, die unterhalbstetig ist . . . . . . . 88<br />
7
Abkürzungsverzeichnis<br />
12C Atomkern des Kohlenstoffes mit 6 Protonen und 6 Neutronen<br />
16O Atomkern des Sauerstoffes mit 8 Protonen und 8 Neutronen<br />
BED Biologisch effektive Dosis<br />
BFGS BFGS-Verfahren: Optimierungsalgorithmus benannt nach seinen Entwicklern<br />
Broyden, Fletcher, Goldfarb und Shanno<br />
CT Computertomographie, Computertomogramm<br />
DKFZ Deutsches Krebsforschungszentrum<br />
EFO Einzelfeldoptimierung<br />
Feld Bestrahlungsfeld (bestrahlter Bereich aus einer Einstrahlrichtung)<br />
GRV Gradientenverfahren<br />
<strong>GSI</strong> <strong>GSI</strong> Helmholtzzentrum für Schwerionenforschung GmbH<br />
Gy SI-Einheit Gray[ J<br />
GyE<br />
] (Energiedosis verursacht durch Strahlung)<br />
kg<br />
Gray-Equivalent (Einheit der biologisch effektiven Dosis)<br />
Gy (RBW) Einheit der RBW-gewichteten Dosis<br />
HIT Heidelberger Ionenstrahl-Therapiezentrum<br />
IES Isoenergieschicht<br />
IMRT Intensitätsmodulierte Photonentherapie<br />
KGV Konjugiertes Gradientenverfahren<br />
KKT Karush-Kuhn-Tucker (meist KKT-Punkt, -Bedingungen oder -Theorie)<br />
LEM Local-Effect-Model (Biophysikalisches Modell zur RBW-Bestimmung)<br />
LET Linearer Energietransfer<br />
MFO Mehrfelderoptimierung<br />
min f Minimiere die Funktion f<br />
NDF Anzahl der Freiheitsgrade<br />
NV Newton-Verfahren<br />
OAR Organ-At-Risk (Risikoorgan)<br />
PET Positronen-Emissions-Tomographie<br />
RBW Relative biologische Wirksamkeit<br />
Target Zielvolumen bei der Bestrahlungsplanung<br />
TRiP Treatment Planning for Particles (Bestrahlungsplanungssoftware)<br />
u. d. N. unter der Nebenbedingung<br />
VOI Volume of Interest<br />
Voxel Volumenpixel in einer CT<br />
8
1 Einleitung<br />
1.1 Die Krankheit Krebs<br />
Jährlich wird die Anzahl der neudiagnostizierten Krebserkrankungen weltweit auf<br />
über 12 Millionen geschätzt. In einem Jahr sterben ca. 7.6 Millionen Menschen an<br />
den Folgen einer Krebserkrankung, davon ca. fünf Millionen in den Entwicklungsländern.<br />
Damit ist Krebs, nach den Herz-Kreislauferkrankungen, die zweithäufigste<br />
Todesursache. Experten schätzen, dass in den folgenden Jahren, auch bedingt durch<br />
den demografischen Wandel, die Zahl der Krebserkrankungen deutlich steigen wird.<br />
[Wik11]<br />
Unter dem Krankeitsbild Krebs versteht man eine bösartige Gewebeneubildung<br />
(Tumor) im menschlichen Körper. Krebszellen wachsen und teilen sich unkontrolliert,<br />
was zu einer Verdrängung oder Zerstörung des umliegenden Gewebes führen<br />
kann. Dabei handelt es sich immer um eine Störung vom genetisch geregelten Zellwachstum<br />
und Apoptose (selbstprogrammierter Zelltod). Krebs hat eine Vielzahl<br />
von Ursachen, prinzipiell können alle menschlichen Organe befallen sein.<br />
Eine Krebstherapie richtet sich nach Tumorart, Tumorgröße, Lokalisation des<br />
Tumors und dem Allgemeinzustand des Patienten. Als Therapieformen werden in<br />
der Regel Chemotherapie, operative Entfernung des Tumors und Strahlentherapie<br />
angewendet. Häufig werden diese drei Therapieformen miteinander kombiniert.<br />
Im Therapieprojekt des <strong>GSI</strong> Helmholtzzentrums für Schwerionenforschung GmbH<br />
(<strong>GSI</strong>) [Kra08] wurden in den meisten Fällen Gehirntumore behandelt. Bei diesem<br />
Pilotprojekt handelte es sich um eine neue Form der Strahlentherapie mit Teilchenstrahlung.<br />
Details zu dieser speziellen Methode werden im letzten Abschnitt dieses<br />
Kapitels beschrieben. Im nächsten Abschnitt werden die Grundlagen der Strahlentherapie,<br />
in Anwendung auf Kopf- und Nackentumore, näher dargestellt. Anschließend<br />
werden die physikalischen und biologischen Eigenschaften von Strahlung<br />
erläutert.<br />
1.2 Strahlentherapie<br />
Zur Strahlentherapie gehören zum Beispiel die Photonentherapie, Teilchentherapie<br />
oder Brachytherapie [D + 06]. Etwa jede zweite Tumorerkrankung wird mit einer<br />
Strahlentherapie behandelt. Das Ziel der Strahlentherapie ist den Tumor mit einer<br />
Dosis zu bestrahlen, die die Reparaturfähigkeit der Tumorzellen überschreitet<br />
[HB97]. Dabei soll das umliegende Normalgewebe bestmöglich geschont werden. Vor-<br />
10
1.2 Strahlentherapie<br />
Abbildung 1.1: Überlagerung von Bestrahlungsfeldern bei der Photonentherapie. Um mit einem<br />
Bestrahlungsfeld die vorgeschriebene Dosis (Anteil in Prozent) im Tumor (roter Bereich) zu deponieren,<br />
müsste im Eingangsbereich eine höhere Dosis erzeugt werden (linke Seite). Schon bei der<br />
Hinzunahme eines zweiten Feldes kann dieser nachteilige Effekt halbiert werden (rechte Seite).<br />
aussetzung für eine erfolgreiche Strahlentherapie ist ein Bestrahlungsplan, der für<br />
jeden Patienten individuell erstellt wird. Bei einer Bestrahlungsplanung werden in<br />
der Regel auf Basis einer dreidimensionalen Computertomographie (CT) die notwendigen<br />
Bestrahlungsparameter festgelegt. Die Gesamtdosis für den Tumor wird meistens<br />
auf tägliche Einzeldosen verteilt (Fraktionierung). Dabei wird die schlechtere<br />
Reparaturfähigkeit von Tumorzellen ausgenutzt. Eine gesamte Bestrahlungstherapie<br />
kann bis zu 30 Fraktionen betragen.<br />
Die konventionelle Form der Strahlentherapie ist die Photonentherapie. Photonen<br />
besitzen die Eigenschaft, dass wenige Millimeter nach dem Eintreten in Gewebe die<br />
Dosisdeposition ihr Maximum erreicht und anschließend exponentiell abfällt [KP88].<br />
Um bei der Tumorbestrahlung das umliegende Normalgewebe zu schonen, werden<br />
in tiefsitzenden Tumoren mehrere (6-12) Einstrahlrichtungen (sog. Bestrahlungsfelder)<br />
überlagert. In Abbildung 1.1 wird dies Anhand von zwei Bestrahlungsfeldern<br />
demonstriert. Die fortgeschrittenste Methode der Photonentherapie ist die Intensitätsmodulierte<br />
Photonentherapie (IMRT) [Gro01]. Hier wird mit speziell geformten<br />
Kompensatoren im Strahlweg gearbeitet, wodurch eine bessere Dosiskonformität im<br />
Zielvolumen erreicht werden kann.<br />
Bei der Teilchentherapie [DL10] (auch Partikeltherapie genannt) werden Protonen<br />
und Schwerionen 1 verwendet. Bei der Schwerionentherapie [SESE10] zeigten<br />
besonders 12 C-Ionen ideale Eigenschaften [Kra00]. Gegenwärtig wird Forschung betrieben,<br />
ob sich auch andere Teilchensorten, wie z.B. Helium-, Lithium- oder Sauerstoffionen,<br />
für die Teilchentherapie eignen. Teilchenstrahlen besitzen ein vorteilhaftes<br />
Tiefendosisprofil gegenüber Photonenstrahlen [Wil46]. Der Teilchenstrahl entfaltet<br />
erst am Ende seiner Reichweite ein scharfes Dosis-Maximum, während im Eingangskanal<br />
eine geringe Dosis appliziert wird. Dieses Phänomen wird als das Inverse<br />
Dosisprofil bezeichnet. Dadurch kann das Gewebe vor und nach dem Tumor überwiegend<br />
geschont werden. Desweiteren besitzen Teilchenstrahlen beim Eindringen<br />
in lebendes Gewebe eine höhere biologische Wirksamkeit gegenüber Photonen (ge-<br />
1 In der Strahlentherapie werden alle Ionen mit einer größeren Ordnungszahl als Wasserstoff als<br />
schwere Ionen bezeichnet.<br />
11
1 Einleitung<br />
Abbildung 1.2: Dosisverteilung erzeugt durch Kohlenstofftherapie mit zwei Bestrahlungsfeldern<br />
(rechts) und IMRT mit sieben Feldern (links). Die Farbskalierung reicht von rot, entsprechend<br />
100% der vorgeschriebenen Zieldosis, bis zu blau mit 10%. Mit beiden Methoden kann eine gute<br />
Dosisapplikation im Tumorbereich (weiße Kontur) erzielt werden. Die Dosisbelastung des gesunden<br />
Gewebes ist bei der Therapie mit Teilchen wesentlich geringer als bei Photonen.<br />
naueres in Abschnitt 1.4) [KKWS03]. In der Regel reichen bei der Teilchenstrahlung<br />
2-3 Bestrahlungsfelder aus, um die Dosis im Tumorvolumen zu verteilen. Einen Vergleich<br />
zwischen der Dosisverteilung bei IMRT und Kohlenstofftherapie zeigt Abbildung<br />
1.2. Damit die Teilchen genug Energie besitzen, um tiefer in Gewebe eindringen<br />
zu können, müssen sie in Teilchenbeschleunigern (Zyklotron, Synchrotron) auf hohe<br />
Geschwindigkeit gebracht werden. Dies ist ein Nachteil der Teilchentherapie, denn<br />
solche Beschleunigeranlagen stellen hohe technische und finanzielle Anforderungen.<br />
Hingegen werden bei der Photonentherapie lediglich Elektronen-Linearbeschleuniger<br />
benötigt.<br />
1.3 Physikalische Grundlagen ionisierender<br />
Strahlung<br />
Ionisierende Strahlung setzt beim Eintreten in Materie Elektronen aus den Atomhüllen<br />
frei (sog. Ionisation), so dass positiv geladene Ionen zurückbleiben. Ionisierende<br />
Strahlung wird in Teilchenstrahlung und elektromagnetische Strahlung unterteilt,<br />
wobei letztere auch Photonenstrahlung genannt wird. Messgröße für die applizierte<br />
Energiedosis D ist die SI-Einheit Gray (Gy), welche die absorbierte Energie E pro<br />
Masse m beschreibt:<br />
D[Gy] = dE<br />
dm<br />
= 1<br />
ρ<br />
dE<br />
dV<br />
, 1Gy = 1 J<br />
kg<br />
. (1.1)<br />
Hier ist ρ die Dichte und V das Volumen des bestrahlten Materials. Die Dosis, die aus<br />
Gleichung (1.1) resultiert, wird als physikalische oder absorbierte Dosis bezeichnet.<br />
12
1.3 Physikalische Grundlagen ionisierender Strahlung<br />
Abbildung 1.3: Tiefendosisprofil für Photonen, Protonen und 12 C in Wasser. Bei Photonen ist<br />
nach einem anfänglichen Anstieg ein exponentieller Abfall zu beobachten. Teilchenstrahlen deponieren<br />
am Anfang wenig Dosis und am Ende ihrer Reichweite das Dosismaximum (Bragg-Peak),<br />
welches bei 12 C noch ausgeprägter ist als bei Protonen. Die Lage des Bragg-Peaks kann durch die<br />
Anfangsenergie der Strahlen kontrolliert werden. Durch Projektilfragmente entsteht bei 12 C hinter<br />
dem Bragg-Peak noch ein kleiner Dosisanteil.<br />
Photonen, die auf Materie treffen, lösen unterschiedliche Prozesse aus, welche von<br />
der Energie der Photonen abhängen. Die fundamentalsten sind der Photoeffekt, der<br />
Compton-Effekt und die Paarbildung [GM06]. Die dabei entstehende Schwächung<br />
der Strahlungsintensität I ist durch das Beersche Absorptionsgesetz gegeben:<br />
I(x) = I0 · e −µx , (1.2)<br />
mit der Anfangsintensität I0, der Eindringtiefe x und Materialabsorptionskonstante<br />
µ. Die Tiefendosiskurve für Photonenstrahlung (siehe Abbildung 1.3) zeigt einen<br />
Anstieg im Bereich der ersten Zentimeter und erst anschließend einen exponentiellen<br />
Abfall. Der anfängliche Anstieg kann mit dem Aufbaueffekt erklärt werden, bei dem<br />
Sekundärelektronen vorwiegend in Vorwärtsrichtung emittiert werden, bis sich ein<br />
Gleichgewicht zwischen Energiedeposition und Produktion weiterer Sekundärelektronen<br />
einstellt.<br />
Teilchenstrahlen interagieren mit dem Targetmaterial hauptsächlich durch inelastische<br />
Kollisionen mit den Hüllenelektronen. Dabei erleiden die durchgehenden<br />
13
1 Einleitung<br />
Strahlaufweitung [mm]<br />
Photonen (21MV)<br />
12 C (270MeV/u)<br />
Protonen (148MeV/u)<br />
Eindringtiefe in Wasser [mm]<br />
Abbildung 1.4: Laterales Streuverhalten von Photonen-, Protonen- und 12 C-Strahlen in Wasser.<br />
Photonenstrahlen besitzen anfangs die größte Aufweitung, welche jedoch bei weiterem Eindringen<br />
wenig ansteigt. Protonen streuen bis zum dreifachen stärker als 12 C-Ionen. Abbildung aus [Web96].<br />
Teilchen pro Weglängeneinheit dx einen Energieverlust, der von der Bethe-Bloch-<br />
Formel [Bet30, Blo33] beschrieben wird:<br />
− dE<br />
dx = 4π e4z2 eff<br />
mev<br />
2 nZ<br />
<br />
2mev<br />
ln<br />
2 <br />
+ relativistische Korrekturen , (1.3)<br />
I<br />
wobei e die Elementarladung des Elektrons und me seine Ruhemasse, v die Teilchengeschwindigkeit,<br />
zeff die effektive Projektilladung, n die Dichte der Targetatome, Z<br />
die Atomnummer und I das Targetionisationspotential darstellen. Der Energieverlust<br />
ist bei hohen Geschwindigkeiten gering und steigt mit Geschwindigkeitsabnahme<br />
kontinuierlich an. Kurz bevor die Teilchen zum Ende ihrer Reichweite gelangen,<br />
kommt es zu einem starken Anstieg des Energieverlustes. Dabei erreicht die deponierte<br />
Dosis ein scharfes Maximum (Bragg-Peak) und fällt unmittelbar danach steil<br />
ab. Der Verlauf der Tiefendosisprofile wird von den Bragg-Kurven beschrieben. Die<br />
zugehörigen Bragg-Kurven für 12C-Strahlen und Protonenstrahlen sind in Abbildung<br />
1.3 zu sehen. Bei Schwerionen kommt es, im Gegensatz zu Protonen, zur Projektil-<br />
Fragmentation. Diese verursacht hinter dem Bragg-Peak den Fragmentschwanz.<br />
Häufig wird die Wirkung von Strahlung auf biologisches Gewebe mit dem linearen<br />
Energietransfer (LET) angegeben. Dieser beschreibt, wie viel Energie ein<br />
durchquerendes Teilchen pro Längeneinheit an das Material abgibt. Der LET wird<br />
in Kiloelektronenvolt pro Mikrometer gemessen und ist mit der Dosis verbunden<br />
über:<br />
D[Gy] = 1.6 · 10 −9 · dE<br />
<br />
keV<br />
<br />
g<br />
· ρ<br />
dx µm cm<br />
<br />
LET<br />
3<br />
−1 · F cm −2 , (1.4)<br />
mit der Materialdichte ρ und Teilchenfluenz F .<br />
14
1.4 Strahlenbiologische Grundlagen<br />
250 kV<br />
Abbildung 1.5: Überlebenskurven von Zellen nach der Bestrahlung mit Röntgenstrahlen bzw.<br />
Kohlenstoffionen in Abhängigkeit der Dosis. RBW-Werte sind für verschiedene prozentuale Überlebensanteile<br />
angegeben. Um ein Überleben von 10% zu erreichen muss hier mit Röntgenstrahlen,<br />
im Vergleich zu Kohlenstoffstrahlen, eine 4.2-fache physikalische Dosis appliziert werden. Bei steigender<br />
Dosis fällt die RBW. [Mit freundlicher Genehmigung Dr. W. Kraft-Weyrather].<br />
Das grundsätzlich unterschiedliche Tiefendosisprofil von Teilchenstrahlung gegenüber<br />
Photonenstrahlung ist für die Strahlentherapie von großer Bedeutung. Besonders<br />
der scharfe Bragg-Peak bei 12 C erlaubt eine konzentrierte Dosisapplikation im<br />
Tumor. Ein weiterer physikalischer Effekt, der in der Strahlentherapie berücksichtigt<br />
werden muss, ist die laterale Aufweitung des Strahlenbündels beim Eintreten<br />
in Materie (siehe Abb. 1.4). Die geringe Aufweitung des 12 C-Strahlenbündels ist ein<br />
weiterer Vorteil der Kohlenstofftherapie.<br />
1.4 Strahlenbiologische Grundlagen<br />
Beim Eintritt ionisierender Strahlung in biologisches Gewebe kommt es im mikroskopischen<br />
Bereich zur Schädigung der DNA (Desoxyribonukleinsäure). Die im Zellkern<br />
liegende DNA kann dabei so stark geschädigt werden, dass die zahlreichen Reparaturprozesse<br />
der Zelle nicht mehr greifen können und es kommt zur Apoptose (programmierter<br />
Zelltod) [A + 99]. Besonders eine hohe Anzahl an Doppelstrangbrüchen,<br />
in der DNA-Doppelhelix, führt zur Zellinaktivierung.<br />
Die Strahlenwirkung auf zelluläres Gewebe wird anhand von Überlebenskurven<br />
gemessen. Diese beschreiben die Wahrscheinlichkeit des Zellenüberlebens S als Funktion<br />
der absorbierten Dosis D. Messungen haben das folgende "linear-quadratische"<br />
Modell motiviert [Hal94]:<br />
S(D) = e −(αD+βD2 ) , α ≥ 0 , β ≥ 0 , (1.5)<br />
15
1 Einleitung<br />
z [nm]<br />
12 C-Ionen Röntgen<br />
x [nm]<br />
z [nm]<br />
x [nm]<br />
Abbildung 1.6: Vergleich der simulierten Bahnspuren von 12 C-Ionen und Röntgen mit der schematischen<br />
Darstellung einer DNA-Doppelhelix. Die farbigen Linien repräsentieren die Spuren der<br />
emittierten Sekundärelektronen. Die höhere Ionisationsdichte kann bei der Teilchenstrahlung deutlich<br />
beobachtet werden. Der dabei entstehende DNA-Schaden ist schwierig zu reparieren. Die geringe<br />
Ionisationsdichte von der Röntgenstrahlung verursacht meist reparable Einzelstrangbrüche.<br />
wobei die Konstanten α und β von der bestrahlten Zelllinie abhängen. Ein großes<br />
α-Verhältnis<br />
steht für ein geringes Reparaturvermögen der Zelllinie, während ein<br />
β<br />
kleines α-Verhältnis<br />
ein hohes Reparaturvermögen bedeutet.<br />
β<br />
Die gleiche absorbierte Dosis kann bei verschiedenen Strahlarten unterschiedliche<br />
biologische Effekte auslösen. Ein Maß dafür ist die relative biologische Wirksamkeit<br />
(RBW). Die RBW ist definiert als das Verhältnis der Dosis einer Bezugsstrahlung<br />
zu der Dosis einer zu vergleichenden Strahlung, wobei mit beiden Dosen die gleiche<br />
biologische Wirkung erreicht wird:<br />
RBW =<br />
DBezugsstrahlung<br />
Dzu vergleichende Strahlung<br />
<br />
<br />
<br />
Isoeffekt<br />
. (1.6)<br />
Verschiedene RBW-Werte von 12 C-Ionen, mit Röntgen als Bezugsstrahlung, können<br />
aus den entsprechenden Überlebenskurven in Abbildung 1.5 entnommen werden.<br />
Dabei ist stets eine RBW von > 1 zu beobachten. D.h., dass Kohlenstoff, bei gleicher<br />
physikalischer Dosis, eine höhere biologische Wirkung als Photonen besitzt. Dies<br />
kann unter anderem dadurch erklärt werden, dass die Bahnstruktur von Teilchenstrahlen<br />
eine höhere Ionisationsdichte aufweist, was zahlreiche Doppelstrangbrüche<br />
induziert (siehe Abb. 1.6) [KK94].<br />
Wegen der höheren biologischen Wirksamkeit können Tumorzellen mit 12 C-Ionen<br />
effizienter inaktiviert werden als mit Photonen oder Protonen. Dies ist ein weiterer<br />
Vorteil der Kohlenstofftherapie [WK09]. Da die RBW von vielen Eingangsparametern<br />
abhängt, wie z.B. Art der Strahlung, bestrahlter Gewebetyp, Dosis und Energie,<br />
ist die Berechnung sehr komplex. Dafür wurde an der <strong>GSI</strong> das Local-Effect-Model<br />
(LEM) entwickelt, mit dem die relevanten RBW-Werte bestimmt werden können.<br />
Auf das LEM wird in dieser Arbeit nicht näher eingegangen. Details befinden sich,<br />
neben zahlreichen anderen Veröffentlichungen, in [Sch03, EKS08, Gem09].<br />
16
1.5 Das Kohlenstoff-Therapieprojekt der <strong>GSI</strong><br />
Abbildung 1.7: Illustration des Rasterscan-Verfahrens. Der Teilchenstrahl wird von den Dipolmagneten<br />
vertikal und horizontal abgelenkt. Das Monitorsystem misst die Position und die Anzahl der<br />
durchquerenden Teilchen. Informationen aus einem ständigen Soll-Ist-Vergleich werden an die Magnete<br />
rückgekoppelt. Durch Energiemodulation des Beschleunigers werden die IESen des Tumors,<br />
beginnend mit der hintersten, mit Bragg-Peaks angesteuert. In einer IES erhält ein bestimmter Rasterpunkt<br />
(rot) Teilchenbeiträge von anderen Rasterpunkten. Dies wird bei dem Soll-Ist-Vergleich<br />
der Teilchenzahlen vollständig beachtet.<br />
1.5 Das Kohlenstoff-Therapieprojekt der <strong>GSI</strong><br />
Das Pilotprojekt der <strong>GSI</strong> entstand in enger Kooperation mit dem Forschungszentrum<br />
Rossendorf, dem Deutschen Krebsforschungszentrum (DKFZ) und dem Universitätsklinikum<br />
Heidelberg. Dabei handelte es sich um die weltweit erste intensitätsmodulierte<br />
Schwerionentherapie. Von 1997 bis 2008 wurden über 440 Patienten<br />
mit 12 C-Ionen bestrahlt. Dabei wurden meist strahlenresistente und tiefsitzende Tumorarten<br />
gewählt, die im Kopf- oder Nackenbereich lagen. Ab dem Jahr 2006 wurden<br />
auch Prostatakarzinome behandelt.<br />
Die Erfolgsquoten im <strong>GSI</strong>-Pilotprojekt waren so vielversprechend [SE + 04], dass<br />
diese neue Art der Tumortherapie in den klinischen Routinebetrieb übergehen soll.<br />
Im November 2009 nahm das Heidelberger Ionenstrahl-Therapiezentrum HIT [H + 04]<br />
seinen Betrieb auf. Gegenwärtig befinden sich in Kiel, Marburg und Pavia (Italien)<br />
Kohlenstoff-Protonen-Therapiezentren im Bau oder Erprobung und weltweit weitere<br />
in Planung. In den Strahlentherapiezentren sollen jährlich 1500-2000 Patienten<br />
behandelt werden.<br />
Obwohl die Patientenbestrahlung an das HIT übergegangen ist, ist die Schwerionentherapie<br />
weiterhin Gegenstand intensiver Forschung an der <strong>GSI</strong>. Neben Verbesserungen<br />
und Erweiterungen der physikalischen, biologischen und technischen<br />
Aspekte, sowie in der Bestrahlungsplanung, liegt der Fokus auf der Bestrahlung von<br />
17
1 Einleitung<br />
Relative Dosis [%]<br />
Ausgedehnter<br />
Bragg-Peak<br />
✛ Tumorzone ✲<br />
✟✟✟✟✟✟<br />
Eindringtiefe [cm]<br />
Abbildung 1.8: Überlagerung einzelner Bragg-Peaks (rote Kurven) zu einer resultierenden Dosis<br />
(blaue Kurve). In der Tumorzone kann mit dem ausgedehnten Bragg-Peak eine homogene Dosisverteilung<br />
erzielt werden. Die Dominanz des hintersten Bragg-Peaks ist dabei deutlich zu erkennen.<br />
bewegten Zielvolumina. Dies sind Tumore, die im Thorax oder Bauchbereich liegen,<br />
und sich unter Einfluss der Atmung und des Herzschlages bewegen. Näheres dazu<br />
ist z.B. in [Grö04, Ber06, RB10, B + 06] zu finden.<br />
1.5.1 Technik der Therapie<br />
Bei der <strong>GSI</strong> werden die Kohlenstoffionen in Ionenquellen erzeugt und anschließend<br />
in die Beschleunigeranlage injiziert. Nachdem die Teilchen dort hohe Geschwindigkeiten<br />
erreicht hatten (ca. 50% der Lichtgeschwindigkeit), wurden sie in den Therapieraum<br />
weitergeführt. Eine Grundrissskizze der Beschleunigeranlage der <strong>GSI</strong> und<br />
des Therapieraumes befindet sich im Anhang.<br />
Bei der Erfassung des Tumorvolumens wird es in Schichten gleicher Strahlreichweite,<br />
sog. Isoenergieschichten (IES), aufgeteilt. Jede IES wird mit einem Punkteraster<br />
diskretisiert. Damit alle Rasterpunkte einer IES mit dem Strahl abgetastet<br />
werden können, wurde an der <strong>GSI</strong> das Rasterscan-Verfahren [H + 93] entwickelt.<br />
Beim Rasterscannen wird das geladene Teilchenbündel von zwei Dipolmagneten<br />
(Scanmagnete), unter Einwirkung der Lorentz-Kraft [GM06], horizontal und vertikal<br />
abgelenkt. Abbildung 1.7 illustriert das Rasterscan-Verfahren. Nachdem in einem<br />
Rasterpunkt die vorher festgelegte Teilchenanzahl erreicht wurde, wird der<br />
Strahl weitergelenkt. Die Messung der Teilchenzahlen erfolgt mit einer Ionisationskammer.<br />
Strahlreichweite, und damit der Bragg-Peak, wird mit aktiver Energiemodulation<br />
des Beschleunigers gesteuert. Zuerst wird die hinterste IES bestrahlt,<br />
anschließend erfolgt eine Verringerung der Energiestufe um die vordere Scheibe zu<br />
bestrahlen. Eine homogene Dosis in der Tumorzone entsteht durch Überlagerung<br />
einzelner Bragg-Peaks unterschiedlicher Anfangsenergie (siehe Abb. 1.8). Die <strong>GSI</strong>-<br />
18
12C-Strahl ✏✏<br />
✏✏<br />
11C-Teilchen ✏<br />
1.5 Das Kohlenstoff-Therapieprojekt der <strong>GSI</strong><br />
Gammaquant<br />
Detektoren<br />
✑✑<br />
✑<br />
Abbildung 1.9: Schematische Darstellung der PET-Analyse. Oben: Fragmentation zwischen einem<br />
12 C-Teilchen und 16 O-Teilchen. Dabei kann es vorkommen, dass nach der Kollision ein radioaktives<br />
11 C-Teilchen entsteht. Flugrichtung und Geschwindigkeit des 11 C-Teilchens unterscheidet sich<br />
kaum zu der vom vorhergehenden 12 C-Teilchen. Unten: Durch Zerfall des 11 C-Teilchens am Endpunkt<br />
werden zwei Gammaquanten ausgesendet, die von den Detektoren gemessen werden. Durch<br />
Rückrechnung kann die Reichweite des ursprünglichen 12 C-Strahls im Patienten gemessen werden.<br />
Beschleunigeranlage stellt 253 verschiedene Energien (80MeV/u - 430MeV/u) des<br />
12 C-Strahls zur Verfügung, was einer wasseräquivalenten Reichweite von ca. 2-31cm<br />
entspricht. Des Weiteren können sieben Strahldurchmesser (4-12mm) eingestellt werden.<br />
Mit dieser Technik kann ein dünner Strahl präzise über das dreidimensionale<br />
Zielvolumen geführt werden.<br />
Ein Interlocksystem kontrollierte im Submillisekundenbereich den Bestrahlungsablauf<br />
und sorgte, bei einem Fehlverhalten, für einen sofortigen Abbruch der Bestrahlung.<br />
Zur Verifikation der Bestrahlung wurde die sog. Positronen-Emissions-Tomographie<br />
(PET) verwendet [E + 99]. Die PET bietet die Möglichkeit, ohne zusätzliche<br />
Dosisbelastung, den Strahl im Patienten zu verfolgen. Eine PET-Analyse fand nach<br />
jeder Bestrahlungsfraktion statt. Die PET basiert darauf, dass bei der Passage des<br />
12 C-Strahls durch das Gewebe ein kleiner Teil der 12 C-Teilchen in instabile 11 C-<br />
Isotope 2 umgewandelt wird. Die Reichweite des 11 C-Teilchens unterscheidet sich nur<br />
minimal zur Reichweite des 12 C-Teilchens, das 11 C-Teilchen zerfällt jedoch am Endpunkt.<br />
Beim Zerfall der 11 C-Teilchen entstehen β + -Emitter (Positronen 3 ). Durch<br />
Annihilation 4 der Positronen mit Elektronen werden Gammaquanten 5 ausgesendet,<br />
die von der PET-Kamera detektiert werden. Durch Rückrechnung kann dann die Position<br />
des Zerfalls des 11 C-Isotops, und damit die Strahlreichweite, bestimmt werden.<br />
2 Isotope sind Atome mit gleicher Protonenanzahl aber unterschiedlicher Neutronenanzahl.<br />
3 Das Positron ist das Antiteilchen des Elektrons (also positiv geladen).<br />
4 Unter Annihilation versteht man in der Teilchenphysik die Paarvernichtung eines Teilchens mit<br />
seinem Antiteilchen.<br />
5 Gammaquanten sind elektromagnetische Strahlen.<br />
19
1 Einleitung<br />
Eine schematische Darstellung der PET-Analyse zeigt Abbildung 1.9.<br />
1.5.2 Ablauf der Therapie<br />
Um eine präzise Bestrahlung zu erreichen wird der Patient vor dem Strahlaustrittsfenster<br />
fixiert (siehe Abbildung 1.10). Bei der Behandlung eines Schädel- oder Nackentumors<br />
wurde für die Fixierung, für jeden Patienten individuell, eine Kopfmaske<br />
aus selbsthärtendem Kunststoff angefertigt, wie sie in Abbildung 1.11 zu sehen ist.<br />
Die Maske wurde dann an der Patientenliege verschraubt. Bei der Therapie von Prostatakarzinomen<br />
wurde diese Technik dem Beckenbereich angepasst. Die Lagerung<br />
des Patienten wurde vor jeder Bestrahlungsfraktion mit zwei zueinander senkrechten<br />
Röntgenaufnahmen überprüft.<br />
Die Gesamtzeit, die für eine Fraktion benötigt wurde, lag bei ca. 30-40 Minuten.<br />
Die reine Bestrahlungszeit dauerte etwa 5-10 Minuten. Fixierung und Positionierung<br />
des Patienten nahmen die meiste Zeit in Anspruch. Bei Schädeltumoren wurden 20<br />
Fraktionen in 20 aufeinanderfolgenden Tagen verabreicht. Die Gesamtdosis einer<br />
Therapie lag dabei bei 60-70Gy. Bei Prostatakarzinomen wurden an der <strong>GSI</strong> 18Gy<br />
auf sechs Fraktionen verteilt. Eine Tagesdosis lag somit bei ca. 3Gy.<br />
Die Möglichkeit der Rotation des Patiententisches erlaubte einen Wechsel der<br />
Bestrahlungsfelder. In der Regel waren zwei gegenüberliegende Felder ausreichend,<br />
selten wurde noch ein drittes verwendet.<br />
20
Austrittsfenster<br />
des Strahls<br />
Fixierte<br />
Kopfmaske<br />
Patient<br />
1.5 Das Kohlenstoff-Therapieprojekt der <strong>GSI</strong><br />
Verstellbare<br />
Patientenliege<br />
Positionierbarer<br />
Tisch<br />
Abbildung 1.10: Fixierter Patient im Therapieraum der <strong>GSI</strong>. Die Kopfmaske ist an die Tischauflage<br />
direkt vor dem Strahlaustrittsfenster geschraubt. Der Tisch kann entlang der kreisförmigen<br />
Schiene im Boden rotiert werden. Damit kann ein automatischer Wechsel des Bestrahlungsfeldes<br />
stattfinden. Hinter der weißen Abschirmung über- und unterhalb des Patientens befindet sich die<br />
PET-Kamera. Mit dem "Buzzer" in der rechten Hand kann der Patient die Bestrahlung jederzeit<br />
eigenständig abbrechen.<br />
Abbildung 1.11: Thermoplastische Maske zur Fixierung des Kopfes des Patienten.<br />
21
2 Optimierung der Dosis in der<br />
Schwerionentherapie<br />
Dieses Kapitel widmet sich der Optimierung der Dosis in der Schwerionentherapie.<br />
Als erstes wird die Bestrahlungsplanungssoftware, die an der <strong>GSI</strong> entwickelt und<br />
für die Kohlenstofftherapie verwendet wurde, vorgestellt. In Abschnitt 2.2 werden<br />
Details zur Berechnung der Dosis geschildert. Abschnitt 2.3 geht ausführlich auf<br />
die mathematische Formulierung des Optimierungsproblems ein. Die theoretische<br />
Betrachtung und Lösung des Optimierungsproblems ist Schwerpunkt dieser Master-<br />
Thesis. Im letzten Abschnitt dieses Kapitels wird gezeigt, wie eine optimierte Dosisverteilung<br />
experimentell nachgewiesen werden kann.<br />
2.1 Bestrahlungsplanung mit TRiP<br />
Das Rasterscan-Verfahren erfordert eine präzise Vorberechnung mehrerer zehntausend<br />
Strahlpositionen, Strahlenergien und Teilchenzahlen, um die vom Arzt vorgeschriebene<br />
Dosisverteilung zu erreichen. Hierzu dient die Bestrahlungsplanungssoftware<br />
Treatment Planning for Particles (TRiP) [K + 00, J + 01]. Sie wurde an der <strong>GSI</strong><br />
für die intensitätsmodulierte Schwerionentherapie, in der Programmiersprache C,<br />
entwickelt. Des Weiteren wird TRiP auch zu Forschungszwecken eingesetzt. An der<br />
<strong>GSI</strong> ist TRiP selbst Forschungsgegenstand und wird stets weiterentwickelt.<br />
Bei der Erstellung eines Bestrahlungsplanes führt TRiP im wesentlichen vier Schritte<br />
aus:<br />
1. Die modifizierten CT-Daten des Patienten werden eingelesen.<br />
2. Im Target wird ein dreidimensionales Rastergitter generiert.<br />
3. Optimierung der Dosis. Dabei werden für jeden Rasterpunkt Teilchenfluenzen<br />
bestimmt, aus denen eine optimale Dosisverteilung resultiert.<br />
4. Eine Kontrolldatei für den Rasterscanner wird erstellt.<br />
Der genauere Ablauf der ersten drei Schritte wird im folgenden beschrieben.<br />
Die Auflösung eines CT’s ist 3mm in z-Richtung (Tiefe) und 1mm in x- bzw. y-<br />
Richtung. Eine solche Volumeneinheit wird Voxel (Volumenpixel) genannt und kann<br />
als Bildpunkt interpretiert werden. Bei der Dosisberechnung und -optimierung wird<br />
22
2.1 Bestrahlungsplanung mit TRiP<br />
Abbildung 2.1: CT-Scheibe des Patientenplanes #135. Tumor (rote Kontur) und Hirnstamm (grüne<br />
Kontur) wurden mit Konturen markiert. Vor der Bestrahlungsplanung wird jede CT-Scheibe<br />
auf diese Art und Weise bearbeitet.<br />
jedes Voxel mit einem Dosiswert belegt. Bevor TRiP die CT’s verarbeitet, werden<br />
von einem Medizin-Physiker die Volumes of Interest (VOI) bestimmt und in jeder<br />
CT-Scheibe mit einer Kontur umlegt. Die VOI’s umfassen Tumor (Target) und Organs<br />
at Risk (OAR). Bei einem OAR kann es sich z.B. um Hirnstamm, Chiasma<br />
oder Sehnerv handeln, welche bei der Bestrahlungsplanung besonders berücksichtigt<br />
werden müssen. Eine bearbeitete CT-Scheibe zeigt Abbildung 2.1.<br />
Die Anzahl der Bestrahlungsfelder und deren Richtungen werden bei der Bestrahlungsplanung<br />
manuell eingestellt. TRiP generiert, relativ zum Strahleintritt,<br />
in jedem Feld die Isoenergieschichten. In jeder IES wird ein Punkteraster gelegt<br />
und die x- bzw. y-Koordinaten der einzelnen Rasterpunkte werden berechnet. Die z-<br />
Koordinaten der Rasterpunkte werden über die Anfangsenergien des Strahls, welche<br />
aus den verfügbaren Beschleunigerenergien gewählt werden, bestimmt. Die Abstände<br />
der Rasterpunkte in x-,y- und z-Richtung können vom Benutzer definiert werden.<br />
Typische Abstände für die Therapie sind 2-3mm in alle drei Richtungen. Die Überlagerung<br />
der Rasterpunkte, aus allen Scheiben und Feldern, definiert ein 3D-Gitter<br />
im Target, welches bei der Bestrahlung abgefahren wird. In Abbilldung 2.2 ist das<br />
23
2 Optimierung der Dosis in der Schwerionentherapie<br />
Strahl<br />
✏ ✏✏✏✶<br />
y<br />
x<br />
Reichweite/Energie<br />
Abbildung 2.2: Modellhafte Darstellung eines Zielvolumens (Ellipsoid) mit Isoenergieschichten<br />
(gestrichelt) und den dazugehörigen Rasterpunkten. Die Größe der Rasterpunkte repräsentiert die<br />
benötigte Teilchenfluenz um eine optimierte Dosis zu erhalten. Die hinterste IES (aus Sicht des<br />
Strahls) bedarf der höchsten Teilchenfluenz. Wegen der Vorbestrahlung werden für die vorderste<br />
IES lediglich geringe Teilchenzahlen benötigt. [Mit freundlicher Genehmigung Dr. C. Bert].<br />
Modell eines Zielvolumens, mit Isoenergieschichten und den dazugehörigen Rasterpunkten,<br />
zu sehen.<br />
Ein wesentlicher Bestandteil der Bestrahlungsplanung ist der Optimierungsschritt.<br />
In diesem werden mit implementierten Algorithmen die Teilchenzahlen für mehrere<br />
zehntausend Rasterpunkte berechnet. Ziel der Optimierung ist eine adäquate Dosisverteilung<br />
zu erhalten bei tragbarem Zeit- und Speicheraufwand. Die Kriterien für<br />
eine gute Dosisverteilung sind die folgenden [B + 90]:<br />
z<br />
• Die applizierte Dosis im Target sollte sehr nahe an der vorgeschriebenen Dosis<br />
liegen.<br />
• Die Dosis sollte im Target homogen verteilt sein.<br />
• In jedem OAR sollte die festgelegte tolerierbare Dosisgrenze nicht überschritten<br />
werden.<br />
• In dem umliegenden Gewebe, welches an das Target angrenzt, sollte wenig<br />
Dosis appliziert werden.<br />
Mit der mathematischen Formulierung des Optimierungsproblems beschäftigt sich<br />
Abschnitt 2.3. Theoretische Diskussion und numerische Lösung des Optimierungsproblems<br />
sind Schwerpunkt dieser Master-Thesis. Davor behandelt der folgende Abschnitt<br />
noch Details zur Dosisberechnung.<br />
24
2.2 Berechnung der Dosis<br />
Abbildung 2.3: Vergleich zweier optimierten Dosisverteilungen in einer CT-Scheibe des Patientenplanes<br />
#135. Die Farbskalierung entspricht dem prozentualen Anteil der vorgeschriebenen Dosis.<br />
Da hier der Tumor (starke Kontur) um den Hirnstamm (schwache kreisförmige Kontur) herumwächst,<br />
handelt es sich um einen komplexen Fall. In beiden Fällen kann im Target eine gute<br />
Dosisverteilung beobachtet werden. Linkes Bild zeigt insgesamt dennoch eine unzufriedenstellende<br />
Dosisverteilung, da im Hirnstamm relativ viel Dosis appliziert wird. Durch Änderungen in der<br />
Bestrahlungsplanung und neuer Optimierung kann das gewünschte Resultat auf der rechten Seite<br />
erreicht werden.<br />
Als Ergebnis der Optimierung erzeugt TRiP einen Dosis-Würfel, der die dreidimensionale<br />
Dosisverteilung im CT enthält. Dabei enthält jedes Voxel einen Dosiswert.<br />
Für eine bessere Übersicht können Dosisverteilungen in den einzelnen CT-<br />
Scheiben betrachtet werden. Bevor ein Bestrahlungsplan für einen Patienten verwendet<br />
wird muss die Eignung des Plans überprüft werden. Dies geschieht, indem sich<br />
ein Arzt oder Medizin-Physiker die Dosisverteilung in jeder einzelnen CT-Schicht ansieht<br />
(siehe Abbildung 2.3). Bei deutlichen Abweichungen zu den oberen Kriterien<br />
müssen gegebenenfalls Optimierungsparameter, technische Einstellungen, Bestrahlungsgeometrien<br />
oder sonstiges geändert werden. Anschließend ist in der Regel eine<br />
Wiederholung der Optimierung notwendig.<br />
2.2 Berechnung der Dosis<br />
2.2.1 Berechnung der physikalischen Dosis<br />
Das folgende Strahlmodell, mit dem TRiP die physikalische Dosis (absorbierte Dosis)<br />
berechnet, wurde speziell für 12 C-Ionenstrahlen entwickelt. Die partielle Dosis, die<br />
ein einzelnes Strahlenbündel der Energie ES an Position r0 ∈ R 3 in Position r ∈ R 3<br />
appliziert, ist gegeben durch [K + 00]:<br />
D(ES, r)[Gy] = 1.6 · 10 −8 <br />
MeV<br />
· d(ES, z)<br />
gcm−2 <br />
1<br />
·<br />
2πσ<br />
<br />
Tiefenbeitrag<br />
2 [mm2 <br />
· exp −<br />
] r2<br />
2σ2 <br />
·N , (2.1)<br />
<br />
Lateralbeitrag<br />
wobei N die Anzahl der Teilchen, σ die Strahlbreite, r 2 = ||r − r0|| 2 2 der euklidische<br />
Abstand und d(ES, z) die eindimensionale Tiefendosisverteilung ist. Dabei<br />
25
2 Optimierung der Dosis in der Schwerionentherapie<br />
wird angenommen, dass der Strahl lateral ein gaußförmiges Profil besitzt. Die eindimensionale<br />
Tiefendosisverteilung d(ES, z) beschreibt, welche Dosis ein Strahl der<br />
Anfangsenergie ES in Abhängigkeit der Tiefe z deponiert. Die Berechnung erfolgt<br />
nach dem YIELD-Transportmodell. Dies wird detailiert in [K + 00] geschildert und<br />
ist vollständiger Bestandteil von TRiP.<br />
Die Gesamtdosis in einem CT-Voxel resultiert aus der Superposition von vielen<br />
Dosisbeiträgen, die sich aus den jeweiligen Einzelstrahlen gemäß (2.1) ergeben. Dabei<br />
repräsentiert jeder Rasterpunkt des Bestrahlungsplanes einen Einzelstrahl. In<br />
TRiP werden prinzipiell in jedem Voxel die Dosisbeiträge der Strahlenbündel aller<br />
Rasterpunkte aufsummiert. Dafür wird zu jedem Voxel i, von jedem Rasterpunkt j,<br />
ein Lateral- und ein Tiefenbeitrag berechnet. Der Wert, der die Stärke dieser Dosis-Korrelation<br />
angibt, wird mit cij bezeichnet. Mathematisch gesehen werden alle<br />
Korrelationen, zwischen allen Voxeln und Rasterpunkten, in einer Dosis-Korrelations-Matrix<br />
C zusammengefasst und cij sind dann dementsprechend die Matrixelemente:<br />
C ∈ R q×p<br />
≥0 , (cij)i=1,...,q ; j=1,...,p , (2.2)<br />
wobei q der größte Voxelindex und p der größte Rasterpunktindex ist. Diese Definition<br />
von q und p bleibt für den Rest dieser Master-Thesis bestehen. Die Zeilenanzahl<br />
der Dosis-Korrelations-Matrix ist also gleich der Anzahl der Voxel und die Spaltenanzahl<br />
ist gleich der Anzahl der Rasterpunkte im Bestrahlungsplan. Die Voxelanzahl<br />
q setzt sich hier aus allen Target- und OAR-Voxeln zusammen, denn nur diese gehen<br />
später in die Optimierung ein.<br />
Mit der Dosis-Korrelations-Matrix C kann dann die gesamte physikalische Dosis<br />
D i Phys , für alle Voxel i, als Funktion der Teilchenzahlen N aller Rasterpunkte, wie<br />
folgt berechnet werden:<br />
mit D i Phys<br />
D i Phys( N)[Gy] =<br />
p<br />
j=1<br />
cijNj = c T i · N , ci ∈ R p<br />
≥0 , N ∈ R p<br />
≥0 1 , (2.3)<br />
: Rp<br />
≥0 → R≥0 ∀ i. Die physikalische Dosis für ein Voxel i ergibt sich somit<br />
aus dem kanonischen Skalarprodukt der i-ten Zeile von C mit dem Teilchenzahlvektor<br />
N. Die Funktionalanalysis zeigt, dass ein Skalarprodukt stetig ist. 2 D.h., das<br />
Funktional D i Phys ist stetig für alle i. Linearität der physikalischen Dosis in N ist offensichtlich.<br />
Die Berechnung des Gradienten von (2.3), der später in der Optimierung<br />
benötigt wird, befindet sich im Anhang in Unterabschnitt 8.2.1.<br />
Da ein typischer Bestrahlungsplan mehrere zehntausend Rasterpunkte sowie Voxel<br />
beinhaltet, würde die Implementation der vollständigen Dosis-Korrelations-Matrix<br />
C zu einem großen Speicheraufwand führen. Ein Voxel i, welches lateral und in<br />
der Tiefe von einem Rasterpunkt j weit entfernt liegt, erhält von diesem einen vernachlässigbaren<br />
oder sogar gar keinen Beitrag. TRiP erlaubt die Einstellung eines<br />
1In Abschnitt 2.3 wird erklärt, warum der Teilchenzahlvektor N p<br />
im Raum R≥0 betrachtet wird.<br />
2Die Stetigkeit des Skalarproduktes folgt aus dem Folgenkriterium und kann mit der Cauchy-<br />
Schwarzschen-Ungleichung bewiesen werden [Heu92, Kre07].<br />
26
Dosis [Gy (RBW)]<br />
Überleben<br />
✻<br />
RBW<br />
❄<br />
Eindringtiefe [mm]<br />
2.2 Berechnung der Dosis<br />
RBW-g. Dosis<br />
Phys. Dosis<br />
Abbildung 2.4: Oben: Modellrechnung von TRiP mit zwei gegenüberliegenden Feldern. Physikalische<br />
und RBW-gewichtete Dosis sind als Funktion der Eindringtiefe aufgetragen. Die Kohlenstoffstrahlen<br />
variieren zwischen einer Anfangsenergie von 160 und 230MeV/u. Man beachte den starken<br />
Beitrag der RBW auf die RBW-gewichtete Dosis. Unten: Experimentell gemessenes (Punkte) und<br />
kalkuliertes Überleben (Linie) der Zellen, korrespondierend zu dem oberen Tiefendosisprofil. Die<br />
weißen und schwarzen Punkte repräsentieren die Ergebnisse von zwei unabhängigen Experimenten.<br />
Berechnetes und gemessenes Überleben ist in diesem Beispiel in guter Übereinstimmung. Abbildung<br />
aus [Krä01].<br />
Parameters ɛc, der eine obere Schranke darstellt, bis zu der die Dosis-Korrelations-<br />
Werte cij nicht beachtet werden. Dabei entsteht eine dünnbesetzte (schwachbesetzte)<br />
Matrix, die TRiP als Elementliste speichert. Bei der Wahl von ɛc = 2 · 10 −3 erhält<br />
durchschnittlich jedes Voxel von ca. 1000 Rasterpunkten Beiträge. Die Vernachlässigung<br />
der restlichen Rasterpunkte induziert einen geringen Dosisfehler von 0.5-1%,<br />
der in der Bestrahlungsplanung akzeptabel ist [G + 08]. Das Speichern der Elementliste<br />
kann bei größeren Bestrahlungsplänen dennoch mehrere Gigabytes erfordern.<br />
2.2.2 Berechnung der RBW-gewichteten Dosis<br />
Bei der Teilchentherapie müssen neben den physikalischen auch die biologischen<br />
Effekte der Teilchenstrahlung berücksichtigt werden. D.h., die RBW muss in die<br />
Bestrahlungsplanung integriert sein. Dies geschieht, indem die physikalische Dosis<br />
mit der RBW gewichtet (multipliziert) wird. Wie bereits erwähnt wurde, die RBW<br />
setzt sich in komplizierter Weise aus vielen physikalischen und biologischen Parametern<br />
zusammen. Durch die Komplexität des Bestrahlungsfeldes ändert sich die<br />
RBW von Punkt zu Punkt, also von Voxel zu Voxel, und kann deshalb nicht mit<br />
einem globalen Wert belegt werden. Im Gegensatz dazu besitzen Protonen nur eine<br />
schwach erhöhte biologische Wirksamkeit, die in der klinischen Anwendung mit ei-<br />
27
2 Optimierung der Dosis in der Schwerionentherapie<br />
ner konstanten RBW von 1.1 festgesetzt wird [Pag03]. Die Stärke des Beitrages der<br />
RBW zur physikalischen Dosis, im Falle von 12C-Ionen, zeigt Abbildung 2.4.<br />
Für die Berechnung der biologischen Effekte von 12C-Ionen ist das LEM in TRiP<br />
implementiert [KS00]. Über das LEM kann in jedem Voxel i, in Abhängigkeit des<br />
Teilchenzahlvektors N, die RBW bestimmt werden [Krä09]. Die RBW-gewichtete<br />
Dosis wird mit Di Bio bezeichnet und mit der Einheit Gy (RBW) angegeben. Für die<br />
RBW-gewichtete Dosis ergibt sich somit der folgende Ausdruck:<br />
mit D i Bio<br />
D i Bio( N)[Gy (RBW)] = D i Phys( N)<br />
<br />
Gleichung (2.3)<br />
· RBW i ( N) , N ∈ R p<br />
≥0<br />
: Rp<br />
≥0 → R≥0 ∀ i, wobei für Kohlenstoffteilchen stets die Beziehung<br />
, (2.4)<br />
RBW i ( N) ≥ 1 ∀ i , (2.5)<br />
mit RBW i<br />
: R p<br />
≥0 → R≥0 ∀ i, gilt. Gradient und Hesse-Matrix von (2.4) befinden<br />
sich im Anhang in 8.2.2. Oftmals wird in der Literatur die Bezeichnung "Biologisch<br />
Effektive Dosis" (BED), mit der Einheit GyE (Gray-Equivalent), für Di Bio verwendet.<br />
In der Veröffentlichung [W + 07] der internationalen Atomenergieorganisation (IAEA)<br />
wird der Begriff RBW-gewichtete Dosis mit der Einheit Gy (RBW) empfohlen, der<br />
in dieser Master-Thesis verwendet wird.<br />
Im weiteren Verlauf dieser Arbeit wird die RBW-gewichtete Dosis unter folgenden<br />
Voraussetzungen betrachtet:<br />
• Als Teilchensorte wird ausschließlich 12 C betrachtet.<br />
• Als Dosen werden nur therapierelevante Werte betrachtet. Diese liegen in einem<br />
Intervall von 0 bis ca. 10Gy (RBW).<br />
• Für die Berechnung der RBW wird die sogenannte "lowdose-approximation"<br />
verwendet. Mit dieser Methode können für therapierelevante Dosen die RBW-<br />
Werte schnell berechnet werden. Eine genauere Metheode ist der sog. "classical<br />
approach", der zwar exaktere RBW-Werte liefert, jedoch wesentlich zeitaufwändiger<br />
ist. Mit der "lowdose-approximation" wird, gegenüber dem "classical<br />
approach", lediglich ein tolerabler Fehler von 5% begangen. [KS06]<br />
Unter den oberen Voraussetzungen kann für die RBW-gewichtete Dosis, in guter Approximation,<br />
ein analytischer Ausdruck betrachtet werden. Dieser wird mit D i Bio(ana)<br />
bezeichnet und sieht wie folgt aus:<br />
28<br />
D i Bio(ana)( N)[Gy (RBW)] =<br />
<br />
αi · (c T i · N) + βi · (c T i · N) 2<br />
βx<br />
+<br />
2 αx<br />
2βx<br />
− αx<br />
, (2.6)<br />
2βx<br />
αx ∈ R>0 , βx ∈ R>0 , αi ∈ R>0 ∀ i , βi ∈ R>0 ∀ i , ci ∈ R p<br />
≥0 , N ∈ R p<br />
≥0
und D i Bio(ana)<br />
Bezeichnungen:<br />
: Rp<br />
≥0 → R≥0 ∀ i.<br />
2.3 Mathematische Formulierung der Optimierung<br />
αx und βx : alpha- und beta-Wert aus der Photon-Survival-Curve.<br />
αi und βi : alpha- und beta-Werte für jedes Voxel i.<br />
Diese werden mit dem LEM berechnet.<br />
ci : i-te Zeile aus der Dosis-Korrelations-Matrix C.<br />
N : Teilchenzahlvektor für alle Rasterpunkte.<br />
Eine genaue Herleitung des Ausdrucks (2.6) findet sich in [KS06]. Dass alle alphaoder<br />
beta-Werte gleich Null wären, würde den Fall repräsentieren, dass keine Strahlung<br />
auf Materie trifft, was im Hinblick auf die Therapie keinen Sinn ergeben würde.<br />
Unter der Wurzel befinden sich ausschließlich nichtnegative Werte, die addiert, multipliziert<br />
oder quadriert werden. Daher kann unter der Wurzel kein negativer Ausdruck<br />
entstehen. Das Funktional Di Bio(ana) ist stetig, da es sich um eine Verkettung<br />
handelt, in der alle Anteile stetig sind3 . In diesem Fall ist das Funktional sogar glatt,<br />
also stetig differenzierbar. Die Nichtlinearität von Di Bio(ana) bzgl. N ist offensichtlich,<br />
die Ableitungen befinden sich im Anhang in 8.2.3.<br />
2.3 Mathematische Formulierung der Optimierung<br />
Aufgabe der Optimierung ist die Bestimmung der Teilchenzahlen für alle Rasterpunkte<br />
im Bestrahlungsplan. Die daraus resultierende Dosisverteilung soll die Qualitätskriterien<br />
eines Bestrahlungsplanes (siehe Abschnitt 2.1) möglichst gut erfüllen.<br />
Die Optimierung ist der aufwendigste Teil in der Bestrahlungsplanung.<br />
Die mathematische Formulierung des Optimierungsproblems entspricht der Minimierung<br />
einer endlichdimensionalen nichtlinearen Zielfunktion. Die Idee dabei ist,<br />
die quadratischen Abweichungen, zwischen der vorgeschriebenen/tolerierbaren und<br />
tatsächlich erzeugten Dosis, in allen Target/OAR-Voxeln, zu minimieren. Dabei sind<br />
die Teilchenzahlen für alle Rasterpunkte die zu optimierenden Parameter.<br />
Dieser Abschnitt ist folgendermaßen unterteilt:<br />
1. Formulierung der Zielfunktion.<br />
2. Formulierung des Optimierungsproblems.<br />
3. Physikalische und technische Betrachtung des Optimierungsproblems.<br />
4. Mathematische Betrachtung des Optimierungsproblems.<br />
3 Aus der Analysis ist bekannt, dass eine Verkettung stetiger Funktionen stetig ist.<br />
29
2 Optimierung der Dosis in der Schwerionentherapie<br />
Den beiden letzten Punkten ist jeweils ein eigener Unterabschnitt gewidmet.<br />
Die Zielfunktion hat folgende Gestalt:<br />
χ 2 ( N) = <br />
mit χ2 : R p<br />
≥0 → R≥0.<br />
Bezeichnungen:<br />
<br />
Di pre − Di act( 2 N)<br />
∆D<br />
i∈Target<br />
2 pre<br />
<br />
Di max − Di act( 2 N)<br />
+ <br />
i∈OAR<br />
χ 2<br />
∆D 2 max<br />
<br />
· Θ D i act( N) − D i <br />
max<br />
,<br />
(2.7)<br />
: Bezeichnung der Zielfunktion<br />
N ∈ R p<br />
≥0 : Vektor, dessen j-te Komponente die Teilchenzahl<br />
für den j-ten Rasterpunkt enthält<br />
i ∈ Target/OAR, i = 1, . . . , q : Voxel aus dem Target/OAR-Volumen<br />
Bemerkungen:<br />
D i pre ∈ R≥0 : Vorgeschriebene Dosis im i-ten Target-Voxel<br />
D i max ∈ R≥0 : Maximale Dosisgrenze im i-ten OAR-Voxel<br />
D i act : R p<br />
≥0 → R≥0 : Tatsächlich erzeugte Dosis im Voxel i<br />
∆Dpre/max ∈ R>0 : Gewichtungsfaktor<br />
Θ : Heaviside-Funktion<br />
• Bei D i act handelt es sich um einen Platzhalter für eine Dosisfunktion aus Abschnitt<br />
2.2. "act" ist eine Abkürzung für das englische Wort "actual", mit D i act<br />
ist also die tatsächlich erzeugte Dosis gemeint.<br />
• Die genaue Definition der Heaviside-Funktion Θ wird im folgenden Unterabschnitt<br />
angegeben.<br />
• Die obigen Bezeichnungen für die Parameter der Zielfunktion gelten für den<br />
Rest dieser Master-Thesis. Die mathematischen Forderungen an die Parameter<br />
werden im weiteren Verlauf nicht mehr explizit angegeben.<br />
Das Optimierungsproblem lautet dann:<br />
min χ 2 ( N) , (2.8)<br />
u. d. N. Nj ≥ 0 ⇔ −Nj ≤ 0 ∀ j = 1, . . . , p . (2.9)<br />
Bemerkung: Mit "min" ist "minimiere" gemeint und "u. d. N." bedeutet "unter der<br />
Nebenbedingung".<br />
30
2.3 Mathematische Formulierung der Optimierung<br />
2.3.1 Physikalische und technische Betrachtung<br />
Im weiteren Verlauf folgt die physikalische und technische Betrachtung des Optimierungsproblems.<br />
• Die Zielfunktion setzt sich aus einer Target- und einer OAR-Summe zusammen.<br />
Letztere wird für jedes OAR im Bestrahlungsplan einmal hinzugefügt.<br />
Ein Bestrahlungsplan kann mehrere OAR’s enthalten (z.B. Auge links, Auge<br />
rechts, Sehnerv links, Sehnerv rechts, Chiasma, Hirnstamm, Rückenmark,<br />
etc.).<br />
• Bei Dmax handelt es sich um die maximal tolerierbare Dosisgrenze für das<br />
entsprechende OAR und wird stets als Anteil von Dpre angegeben:<br />
Dmax = dfrac · Dpre , dfrac ∈ [0.3 ; 0.7] . (2.10)<br />
Zu jedem OAR gehört ein eigenes dfrac.<br />
• Im Target werden in jedem Voxel Über- und Unterdosierungen mit quadratischen<br />
Abweichungen quantifiziert. Unterdosierungen in einem OAR spielen<br />
keine Rolle und können daher bei der Optimierung vernachlässigt werden. Dies<br />
wird mit der Heaviside-Funktion kontrolliert, die hier wie folgt definiert ist:<br />
<br />
Θ D i act( N) − D i <br />
max =<br />
<br />
1 : D i act( N) > D i max ,<br />
0 : D i act( N) ≤ D i max .<br />
(2.11)<br />
Weitere Betrachtungen der Heaviside-Funktion folgen im kommenden Unterabschnitt.<br />
• Die Gewichtungsfaktoren ∆Dpre und ∆Dmax kontrollieren den Einfluss der<br />
quadratischen Abweichungen. Damit eine Abweichung stärker gewichtet wird,<br />
werden beide Faktoren mit kleinen Werten von<br />
∆Dpre = 0.025 · Dpre bzw. ∆Dmax = 0.025 · Dmax (2.12)<br />
belegt. Durch (2.10) besteht zwischen ihnen stets die Größenbeziehung:<br />
∆Dmax < ∆Dpre . (2.13)<br />
Somit wird eine Abweichung im OAR "härter bestraft" als im Target.<br />
• In Abschnitt 2.1 wurden die vier Kriterien für eine gute Dosisverteilung gennant.<br />
Mit der obigen Zielfunktion werden nur die ersten drei Kriterien modelliert.<br />
Der vierte Punkt, dass die Dosis im umliegenden gesunden Gewebe,<br />
welches an das Target angrenzt, so niedrig wie möglich sein sollte, geht nicht<br />
in die Zielfunktion ein. Einbeziehung der Voxel aus dem umliegenden Gewebe<br />
würde den Optimierungsaufwand deutlich erhöhen. Falls doch Voxel aus diesem<br />
Bereich einbezogen werden sollen, so könnte bei der Bestrahlungsplanung<br />
im gesunden Gewebe ein "künstliches" OAR-Volumen definiert werden.<br />
31
2 Optimierung der Dosis in der Schwerionentherapie<br />
• In die Zielfunktion (2.7) sind alle Bestrahlungsfelder einbezogen. D.h., der Teilchenzahlvektor<br />
N setzt sich aus allen Rasterpunkten aus den entsprechenden<br />
Feldern zusammen. Somit werden alle Felder simultan optimiert. Diese Methode<br />
wird Mehrfelderoptimierung (MFO) genannt. Es gibt noch die Einzelfeldoptimierung<br />
(EFO), bei der die Felder einzeln und unabhängig voneinander<br />
optimiert werden. Bei der EFO wird ein anderer Ansatz für die Zielfunktion<br />
verwendet. In [G + 08] wurde gezeigt, dass mit der MFO, im Gegensatz zur<br />
EFO, bessere Optimierungsergebnisse erzielt werden können. Die EFO wird<br />
noch bei der Voroptimierung eine Rolle spielen, die in Abschnitt 4.3 beschrieben<br />
wird.<br />
• Ein Bestrahlungsplan besteht typischerweise aus mehreren zehntausend Voxeln<br />
als auch Rasterpunkten (bis zu 100000 bei sehr großen Bestrahlungsplänen).<br />
Bei Auswertung der Zielfunktion muss die RBW für jedes Voxel berechnet<br />
werden. Dabei handelt es sich um den zeitaufwändigsten Teil bei der Dosisberechnung.<br />
In dieser Arbeit wird für die RBW-Berechnung die schnelle<br />
"lowdose-approximation" verwendet. Dennoch ist die Auswertung der Zielfunktion<br />
relativ zeitaufwändig.<br />
• Bei der Optimierung ist der Gradient und die Hesse-Matrix der Zielfunktion<br />
von großer Bedeutung. Durch die hohe Dimension des Teilchenzahlvektors N<br />
entsteht für die Ableitungen ein großer Speicherbedarf. Dies gilt vor allem<br />
für die Hesse-Matrix. Dieser Speicheraufwand kommt zusätzlich zu dem der<br />
Dosis-Korrelations-Matrix C hinzu.<br />
• An dieser Stelle wird die "Anzahl der Freiheitsgrade" (NDF) eingeführt. NDF<br />
ist die Differenz zwischen der Anzahl der Voxel q und der Anzahl der Rasterpunkte<br />
p:<br />
NDF = q − p . (2.14)<br />
In der Regel sind bei der Bestrahlungsplanung mehr Target- und OAR-Voxel<br />
als Rasterpunkte enthalten. Damit ist NDF positiv. Die Verwendung von NDF<br />
wird im Unterabschnitt 4.4.3 erklärt.<br />
2.3.2 Mathematische Betrachtung<br />
Als erstes soll das Optimierungsproblem (2.8)-(2.9) klassifiziert werden. Dafür wird<br />
zuerst die zulässige Menge Z des Optimierungsproblems betrachtet. Diese wird von<br />
den Nebenbedingungen (2.9) beschrieben und sieht damit wie folgt aus:<br />
Z = R p<br />
≥0 . (2.15)<br />
Die Nebenbedingungen sind offensichtlich, da es keine negativen Teilchenzahlen für<br />
einen Rasterpunkt geben kann. Für die Klassifizierung spielen folgende Punkte eine<br />
Rolle:<br />
32
2.3 Mathematische Formulierung der Optimierung<br />
• Optimierung der RBW-gewichteten Dosis, diese ist relevant für die Therapie,<br />
verlangt das Einsetzen von D i Bio oder Di Bio(ana) für Di act in die Zielfunktion.<br />
Aus der Nichtlinearität der RBW-gewichteten Dosis folgt die Nichtlinearität<br />
der Zielfunktion in N und somit liegt ein nichtlineares Optimierungsproblem<br />
vor.<br />
• Z wird ausschließlich durch Ungleichungen beschrieben. Damit ist Z nicht der<br />
gesamte R p und hiermit ist ein ungleichungsrestringiertes Optimierungsproblem<br />
vorhanden.<br />
• Die Dimension des Optimierungsproblems ist p, also die Anzahl der Rasterpunkte<br />
im Bestrahlungsplan. Da p nicht unendlich werden kann handelt es<br />
sich um ein endlichdimensionales Optimierungsproblem.<br />
• Streng gesehen müsste das Optimierungsproblem als ganzzahliges Optimierungsproblem<br />
angesehen werden, da nur ganze Teilchen betrachtet werden<br />
können. Das Optimierungsproblem wird dennoch als kontinuierliches Optimierungsproblem<br />
(Optimierung mit reellen Zahlen) betrachtet. Ein ganzzahliges<br />
Optimierungsproblem gehört zum Teilgebiet der "Diskreten Optimierung",<br />
welche eine ganz andere und komplexere Herangehensweise als die kontinuierliche<br />
Optimierung ist. Die Teilchenzahlen für einen Rasterpunkt liegen in Bereichen<br />
von 5000 bis 500000. Bei so großen Zahlen kann das Optimierungsproblem<br />
als ein kontinuierliches angesehen werden und die Optimierungskomponenten<br />
können nach dem Optimierungsprozess gerundet werden. Dabei entsteht ein<br />
vernachlässigbarer Fehler.<br />
Bei dem Optimierungsproblem (2.8)-(2.9) handelt es sich somit um ein<br />
nichtlineares ungleichungsrestringiertes endlichdimensionales kontinuierliches<br />
Minimierungsproblem<br />
.<br />
Des Weiteren sind in der mathematischen Betrachtung noch folgende Punkte von<br />
Interesse:<br />
• Die zulässige Menge Z ist eine konvexe Menge. Die Diskussion, ob die Zielfunktion<br />
eine konvexe Funktion ist, und ob damit ein konvexes Optimierungsproblem<br />
vorliegt, findet in Unterabschnitt 3.2.2 statt. Konvexität eines Optimierungsproblems<br />
spielt im Hinblick auf Eindeutigkeitsaussagen über eine<br />
Lösung eine wesentliche Rolle.<br />
• Die Heaviside-Funktion ist im klassischen/starken Sinne nicht differenzierbar.<br />
Über die mathematische Theorie der Distributionen kann eine Ableitung<br />
mit der Diracschen Delta-Funktion angegeben werden. Im Rahmen der<br />
Optimierung wird dies nicht benötigt. Deshalb wird die Heaviside-Funktion<br />
33
2 Optimierung der Dosis in der Schwerionentherapie<br />
Abbildung 2.5: Foto des präparierten Biophantoms, welches direkt vor dem Strahlaustrittsfenster<br />
platziert ist. Auf den Stäbchen wachsen die Zellen, die in das Nährmedium (rote Flüssigkeit)<br />
eingetaucht sind.<br />
beim Differenzieren der Zielfunktion als konstanter Faktor behandelt. Gradient<br />
und Hesse-Matrix der Zielfunktion, die in der Optimierung eine essentielle<br />
Rolle spielen, befinden sich im Anhang in Abschnitt 8.3. Bei der Herleitung<br />
von notwendigen Optimalitätsbedingungen wird das Problem der nicht-<br />
Differenzierbarkeit mit einer lokalen Glättung der Zielfunktion umgangen.<br />
• Weitere Stetigkeits- und Differenzierbarkeitseigenschaften, als auch eine Glättung<br />
der Zielfunktion, werden in Kapitel 3 betrachtet.<br />
Im weiteren Verlauf dieser Arbeit liegt der Fokus auf der Lösung des Optimierungsproblems<br />
(2.8)-(2.9). Ziel ist es, in adäquater Rechenzeit, das Minimum der Zielfunktion<br />
zu ermitteln. In dem Minimum liegen die optimalen Teilchenzahlen, also:<br />
NOpt := Optimale Teilchenzahlen . (2.16)<br />
Dabei muss NOpt ein zulässiger Punkt sein, d.h. NOpt ∈ Z muss erfüllt sein.<br />
Das nächste Kapitel widmet sich der theoretischen Diskussion des Optimierungsproblems.<br />
Da die Zielfunktion nichtlinear in N ist, kann NOpt analytisch nicht bestimmt<br />
werden und muss mit iterativen Verfahren angenähert werden. Mit der allgemeinen<br />
Lösungsstrategie beschäftigt sich Kapitel 4. Auf die verwendeten Verfahren<br />
und deren Ergebnisse sowie numerische Bewertung geht Kapitel 5 und 6 ein.<br />
2.4 Experimentelle Verifikation<br />
An der <strong>GSI</strong> wurde ein sog. Biophantom entwickelt [vN + 06]. Abbildung 2.5 zeigt das<br />
Biophantom. Mit diesem kann über Messungen von Zellüberleben die Dosis in einem<br />
Bestrahlungsplan experimentell verifiziert werden.<br />
34
2.4 Experimentelle Verifikation<br />
Zellüberleben (Messung) Zellüberleben (TRiP)<br />
Abbildung 2.6: Vergleich von gemessenem Zellüberleben nach Bestrahlung mit 12 C-Ionen (linke<br />
Seite) und berechnetem Zellüberleben mit TRiP (rechte Seite). Die Ansicht ist von oben auf das<br />
Modell des Biophantoms. Auf der linken Seite repräsentiert ein Kästchen ein Stäbchen in dem Biophantom.<br />
Die Farbskalierung entspricht dem prozentualem Überleben in Abhängigkeit des Ortes.<br />
Hier handelt es sich um einen Bestrahlungsplan mit zwei Feldern, der eine komplexe Bestrahlungssituation<br />
simuliert. Das gemessene ist mit dem berechneten Zellüberleben in guter Übereinstimmung.<br />
Abbildung aus [Krä09].<br />
In dem Biophantom können auf Stäbchen Zellen kultiviert werden. Die Stäbchen<br />
sind senkrecht in einem Nährmedium platziert. Das präparierte Biophantom kann<br />
anschließend unter Therapiebedingungen bestrahlt werden. Nach der Bestrahlung<br />
wird an jedem einzelnen Stäbchen die Überlebensrate bestimmt. Aus dem Zellüberleben<br />
können Rückschlüsse über die Dosis, an der Stelle wo das Stäbchen in dem<br />
Biophantom platziert war, gemacht werden.<br />
Abbildung 2.6 zeigt Zellüberlebenswerte aus dem Biophantom im Vergleich mit<br />
einem optimierten Plan mit zwei Bestrahlungsfeldern. In diesem Beispiel handelt<br />
es sich um einen komplexen Plan, da sich zwischen dem Targetvolumen gesundes<br />
Gewebe befindet. Die Resultate zeigen, dass das gemessene Zellüberleben mit dem<br />
berechneten Zellüberleben von TRiP in guter Übereinstimmung ist.<br />
Näheres zum Biophantom und zur experimentellen Dosisverifikation befindet sich<br />
in [KD10, Krä09, G + 08].<br />
35
3 Theoretische Betrachtung des<br />
Optimierungsproblems<br />
In diesem Kapitel wird das Optimierungsproblem (2.8)-(2.9) theoretisch betrachtet.<br />
Eine theoretische Betrachtung des Optimierungsproblemes ist wichtig. Einerseits<br />
helfen die theoretischen Betrachtungen das Optimierungsproblem besser zu<br />
verstehen und andererseits sind die dabei gewonnenen Erkenntnisse später bei der<br />
numerischen Lösung des Optimierungsproblemes von Bedeutung.<br />
Im ersten Abschnitt werden von der Zielfunktion die Stetigkeits- und Differenzierbarkeitseigenschaften<br />
betrachtet, da diese im weiteren Verlauf eine bedeutende Rolle<br />
einnehmen. In Abschnitt 3.2 folgt die Diskussion der Existenz und Eindeutigkeit eines<br />
globalen Minimums des Optimierungsproblemes. Dabei muss eine Erweiterung<br />
des Extremwertsatzes von Weierstraß verwendet werden, die die Unterhalbstetigkeit<br />
und radiale Unbeschränktheit der Zielfunktion benötigt. Diese beiden Eigenschaften<br />
der Zielfunktion werden in diesem Kapitel bewiesen. Im letzten Abschnitt werden<br />
die Karush-Kuhn-Tucker-Bedingungen für das Optimierungsproblem angegeben, die<br />
die notwendige Optimalitätsbedingung erster Ordnung darstellen. Diese besitzen jedoch<br />
nur ihre Gültigkeit, wenn die Zielfunktion stetig-differenzierbar ist. Da dies<br />
nicht der Fall ist, wird vor der Herleitung der Karush-Kuhn-Tucker-Bedingungen<br />
die χ 2 -Funktion in Abschnitt 3.3 geeignet geglättet.<br />
3.1 Stetigkeits- und<br />
Differenzierbarkeitseigenschaften der<br />
Zielfunktion<br />
In diesem Abschnitt werden die Stetigkeits- und Differenzierbarkeitseigenschaften<br />
der Zielfunktion diskutiert. Diese Eigenschaften sind von großer Bedeutung bei der<br />
theoretischen Analyse des Optimierungsproblems (2.8)-(2.9). Dabei soll die Zielfunktion<br />
bei Optimierung mit dem analytischen Ausdruck für die RBW-gewichtete<br />
Dosis betrachtet werden. Dies erfordert das Einsetzen von Di Bio(ana) (siehe (2.6)) für<br />
Di act in der Zielfunktion. Die Zielfunktion wird dann mit χ2 Bio(ana) bezeichnet und<br />
36
hat folgende Gestalt:<br />
χ 2 Bio(ana)( N) = <br />
3.1 Stetigkeits- und Differenzierbarkeitseigenschaften der Zielfunktion<br />
<br />
Di pre − Di Bio(ana) ( 2 N)<br />
∆D<br />
i∈Target<br />
2 pre<br />
<br />
Di max − Di Bio(ana) ( 2 N)<br />
+ <br />
i∈OAR<br />
∆D 2 max<br />
<br />
· Θ D i Bio(ana)( N) − D i <br />
max<br />
,<br />
(3.1)<br />
mit χ2 Bio(ana) : Rp≥0<br />
→ R≥0.<br />
Zuerst wird die Stetigkeit von χ2 Bio(ana) betrachtet. Dabei wird der Target- und<br />
der OAR-Term seperat diskutiert. Anschließend folgt eine Zusammenfassung der<br />
Stetigkeitseigenschaften der gesamten χ2 Bio(ana) -Funktion mit Angabe der Differenzierbarkeitseigenschaften.<br />
Stetigkeitsbetrachtung des Target-Terms<br />
Es ist ausreichend, die Stetigkeit für ein Target-Voxel i zu zeigen, denn für jedes<br />
Target-Voxel i ist die Struktur im Target-Term die Gleiche. Ist die Stetigkeit für<br />
alle Target-Voxel i gezeigt, kann für den Target-Term die Eigenschaft angewendet<br />
werden, dass eine endliche Summe stetiger Funktionen stetig ist.<br />
Wie bereits in Abschnitt 2.2.2 erwähnt wurde, das Funktional Di Bio(ana) ist stetig<br />
für alle i. Di pre und ∆D2 pre sind Zahlen, die trivialerweise stetig sind. Die Differenz<br />
im Zähler ist auch stetig. Die Differenz im Quadrat kann als quadratische Funktion<br />
interpretiert werden, die ebenfalls stetig ist. Damit liegt in jedem Target-Voxel i eine<br />
stetige Funktion vor, denn es handelt sich um eine Verkettung von ausschließlich<br />
stetigen Teilen. Dies führt zur Stetigkeit des Target-Terms. 1<br />
Stetigkeitsbetrachtung des OAR-Terms<br />
Betrachtet man den OAR-Term ohne die Heaviside-Funktion Θ, dann gilt das Gleiche<br />
wie oben, es muss nur D i pre und ∆D 2 pre mit D i max und ∆D 2 max ersetzt werden.<br />
Da aber für jedes OAR-Voxel i die Heaviside-Funktion als Faktor vorkommt, ist der<br />
OAR-Term unstetig, da die Heaviside-Funktion eine Sprungfunktion ist.<br />
Zusammenfassung und Differenzierbarkeitseigenschaften<br />
Da der OAR-Term unstetig ist, ist die χ2 Bio(ana) -Funktion unstetig. Die Unstetigkeit<br />
wird ausschließlich durch die Heaviside-Funktion Θ induziert. Da die Heaviside-<br />
Funktion eine Sprungfunktion ist, ist die χ2 Bio(ana) -Funktion im klassischen Sinne<br />
nicht differenzierbar.<br />
1 Alle hier getroffenen Aussagen zur Stetigkeit sind z.B. in [Heu84] zu finden.<br />
37
3 Theoretische Betrachtung des Optimierungsproblems<br />
3.2 Existenz und Eindeutigkeit eines Minimums<br />
3.2.1 Existenz eines Minimums<br />
In diesem Unterabschnitt soll die Existenz eines globalen Minimums von dem Optimierungsproblem<br />
(2.8)-(2.9) gezeigt werden. Dabei wird die χ2 Bio(ana) -Funktion als<br />
Zielfunktion verwendet. Das Standardargument für die Existenz eines Minimums ist<br />
der Extremwertsatz von Weierstraß (siehe Satz 8.1 im Anhang). Dieser setzt die Stetigkeit<br />
der Funktion und Kompaktheit der Menge, auf der die Funktion betrachtet<br />
wird, voraus. Da die χ2 Bio(ana) -Funktion unstetig und die zulässige Menge (2.9) nicht<br />
kompakt ist, so kann nicht der Extremwertsatz von Weierstraß, weder in der Form<br />
in Satz 8.1 noch mit Betrachtung von Niveau-Mengen wie in Satz 8.3, als Existenzkriterium<br />
verwendet werden. Ist jedoch die Zielfunktion unterhalbstetig und radial<br />
unbeschränkt, kann die erweiterte Version des Extremwertsatzes von Weierstraß aus<br />
Abschnitt 8.7 angewendet werden. Dies ist das Ziel in diesem Unterabschnitt.<br />
Im Weiteren wird in 3.2.1.1 die Unterhalbstetigkeit und in 3.2.1.2 die radiale<br />
Unbeschränktheit der χ2 Bio(ana) -Funktion bewiesen. Mit diesen Ergebnissen wird dann<br />
in 3.2.1.3 die Existenz mindestens eines globalen Minimums gezeigt.<br />
3.2.1.1 Unterhalbstetigkeit der Zielfunktion<br />
An dieser Stelle soll gezeigt werden, dass die χ2 Bio(ana) -Funktion unterhalbstetig ist.<br />
Die dafür benötigten Definitionen, Eigenschaften und Veranschaulichungen zu unterhalbstetigen<br />
Funktionen befinden sich im Anhang in Abschnitt 8.5.<br />
Als erstes wird gezeigt, dass die Heaviside-Funktion Θ unterhalbstetig ist. Dabei<br />
genügt es, die Unterhalbstetigkeit für ein beliebiges OAR-Voxel i zu zeigen, denn<br />
die Struktur der Heaviside-Funktion ist in jedem OAR-Voxel die Gleiche. Für eine<br />
bessere Übersicht wird die Heaviside-Funktion hier nochmals angegeben:<br />
<br />
Θ D i Bio(ana)( N) − D i <br />
max =<br />
1 : D i Bio(ana) ( N) > D i max ,<br />
0 : D i Bio(ana) ( N) ≤ D i max .<br />
(3.2)<br />
Eine graphische Veranschaulichung der obigen Heaviside-Funktion zeigt Abbildung<br />
3.1.<br />
Satz 3.1<br />
Die äußere Heaviside-Funktion Θ mit der inneren Verkettung D i Bio(ana) ( N) − D i max<br />
in (3.2) ist unterhalbstetig.<br />
Beweis: Für das Argument der Heaviside-Funktion wird die Hilfsvariable ξ eingeführt,<br />
also:<br />
ξ := D i Bio(ana)( N) − D i max . (3.3)<br />
In diesem Beweis wird dann Θ(ξ) betrachtet. Man kann im weiteren Verlauf dieses<br />
Beweises mit der Substitution (3.3) arbeiten. Ist die Unterhalbstetigkeit für die<br />
38
3.2 Existenz und Eindeutigkeit eines Minimums<br />
Θ<br />
Abbildung 3.1: Graphische Veranschaulichung der Heaviside-Funktion aus (3.2) in Abhängigkeit<br />
der Hilfsvariable ξ. Die Heaviside-Funktion in dieser Form ist unterhalbstetig. Die Unterhalbstetigkeit<br />
ist unter anderem daran zu erkennen, dass die Funktion an keiner Stelle nach unten springt.<br />
aüßere Funktion Θ gezeigt, dann bleibt diese mit der inneren Verkettung unterhalbstetig,<br />
da der innere Teil D i Bio(ana) ( N) − D i max stetig ist. Eine unterhalbstetige<br />
Funktion mit einer inneren verkettet, wobei die innere Funktion stetig ist, bleibt<br />
unterhalbstetig. Die Heaviside-Funktion ist überall stetig mit Ausnahme der Stelle<br />
ξ = 0. Diese Stelle wird mit ξ0 bezeichnet. Sie repräsentiert den Fall:<br />
ξ0<br />
ξ0 := 0 =⇒ D i Bio(ana)( N) = D i max . (3.4)<br />
Wegen der Stetigkeit der Heaviside-Funktion außerhalb der Stelle ξ0 ist sie dort<br />
auch unterhalbstetig (siehe Eigenschaften in Abschnitt 8.5). Jetzt muss nur noch<br />
Unterhalbstetigkeit in ξ0 gezeigt werden und die Unterhalbstetigkeit der Heaviside-<br />
Funktion ist bewiesen. Unterhalbstetigkeit in ξ0 lässt sich dann aus Definition 8.4<br />
folgern. Für jedes ɛ > 0 existiert eine beliebige Umgebung U von ξ0, so dass<br />
Θ(y) > Θ(ξ0) − ɛ (3.5)<br />
für ein beliebiges y ∈ U gilt. Θ(y) kann nur die Werte 1 oder 0 annehmen und daraus<br />
können sich in (3.5) lediglich die beiden folgenden Fälle ergeben:<br />
1 > 0 − ɛ , (3.6)<br />
0 > 0 − ɛ . (3.7)<br />
Bei Betrachtung von Abbildung 3.1 sieht man, dass die Heaviside-Funktion aus<br />
(3.2) an keiner Stelle nach unten springt, was die anschauliche Bedeutung einer unterhalbstetigen<br />
Funktion ist.<br />
Aus der Unterhalbstetigkeit der Heaviside-Funktion in jedem OAR-Voxel i folgt:<br />
ξ<br />
<br />
39
3 Theoretische Betrachtung des Optimierungsproblems<br />
Satz 3.2<br />
Die Zielfunktion χ 2 Bio(ana)<br />
ist unterhalbstetig.<br />
Beweis: Hier kann mit den Eigenschaften unterhalbstetiger Funktionen aus Abschnitt<br />
8.5 argumentiert werden. Der Target-Term und der OAR-Term (ohne die<br />
Heaviside-Funktion Θ) sind unterhalbstetig, da diese stetig sind. Der gesamte OAR-<br />
Term ist unterhalbstetig, da dieser ein Produkt von zwei nichtnegativen und unterhalbstetigen<br />
Funktionen ist. Die χ2 Bio(ana) -Funktion ist damit eine Summe zweier<br />
unterhalbstetiger Funktionen, die wiederum unterhalbstetig ist.<br />
<br />
3.2.1.2 Radiale Unbeschränktheit der Zielfunktion<br />
Hier soll die radiale Unbeschränktheit der χ2 Bio(ana) -Funktion gezeigt werden. Die Definition<br />
einer radial unbeschränkten Funktion befindet sich im Anhang in Abschnitt<br />
8.6. Für die radiale Unbeschränktheit der χ2 Bio(ana) -Funktion wird noch der folgende<br />
Satz benötigt:<br />
Satz 3.3<br />
Der analytische Ausdruck für die RBW-gewichtete Dosis D i Bio(ana) ( N) aus (2.6) ist<br />
auf der zulässigen Menge Z radial unbeschränkt.<br />
Beweis: Der Beweis wird wieder für ein beliebiges Voxel i gezeigt, denn in jedem<br />
Voxel hat D i Bio(ana) ( N) die gleiche Struktur. Für die radiale Unbeschränktheit kön-<br />
nen in dem Ausdruck für D i Bio(ana) ( N) alle αx, βx, αi und βi vernachlässigt werden,<br />
da diese positive Konstanten sind. Daher kann man sich auf folgenden Ausdruck<br />
beschränken:<br />
D i Bio(ana)( N) =<br />
<br />
(c T i · N) + (c T i · N) 2 . (3.8)<br />
Als erstes soll der Ausdruck unter der Wurzel betrachtet werden, also:<br />
lim<br />
|| <br />
(c<br />
N||→∞<br />
T i · N) + (c T i · N) 2<br />
<br />
. (3.9)<br />
Aus den Gesetzen der Grenzwertbildung folgt:<br />
lim<br />
|| (c<br />
N||→∞<br />
T i · N) + lim<br />
|| (c<br />
N||→∞<br />
T i · N) 2<br />
. (3.10)<br />
Die Komponenten von c T i sind alle nichtnegativ und es gilt die Einschränkung N ∈<br />
R p<br />
≥0 . Man muss hier noch den Fall ausschließen, dass bei einem cT i alle Komponenten<br />
Null sind. c T i sind Zeilen aus der Dosis-Korrelations-Matrix C. Würden in den Zeilen<br />
alle Komponenten den Wert 0 haben, dann würde dass den Fall repräsentieren,<br />
dass keine Strahlung auf irgendeine Materie trifft, was im Hinblick auf die Therapie<br />
keinen Sinn ergeben würde. Daher werden in dem kanonischen Skalarprodukt c T i · N<br />
40
3.2 Existenz und Eindeutigkeit eines Minimums<br />
positive Zahlen miteinander multipliziert und addiert. Daraus folgt, wenn man N<br />
gegen unendlich laufen lässt:<br />
lim<br />
|| (c<br />
N||→∞<br />
T i · N) + lim<br />
|| (c<br />
N||→∞<br />
T i · N) 2 = ∞ + ∞ = ∞ . (3.11)<br />
Dieses Ergebnis und das streng monotone Wachstum der Wurzelfunktion ergibt:<br />
lim<br />
|| D<br />
N||→∞<br />
i Bio(ana)( N) = +∞ . (3.12)<br />
Damit ist der Satz bewiesen, denn aus der radialen Unbeschränktheit von D i Bio(ana)( N)<br />
folgt die radiale Unbeschränktheit von D i Bio(ana) ( N).<br />
<br />
Mit der radialen Unbeschränktheit von D i Bio(ana) ( N) kann nun der folgende Satz<br />
angegeben und bewiesen werden:<br />
Satz 3.4<br />
Die Zielfunktion χ 2 Bio(ana)<br />
ist radial unbeschränkt.<br />
Beweis: Da der OAR-Term eine nichtnegative Funktion ist, kann er bei der Betrachtung<br />
der radialen Unbeschränktheit der χ2 Bio(ana) -Funktion vernachlässigt werden<br />
und man kann sich auf folgenden Ausdruck beschränken:<br />
χ 2 Bio(ana)( N) = <br />
i∈Target<br />
<br />
Di pre − Di Bio(ana) ( 2 N)<br />
∆D 2 pre<br />
. (3.13)<br />
Aus der radialen Unbeschränktheit von χ2 Bio(ana) folgt die radiale Unbeschränktheit<br />
von χ2 Bio(ana) . Es ist ausreichend, die radiale Unbeschränktheit für ein Target-Voxel<br />
i zu zeigen, also für:<br />
<br />
Di pre − Di Bio(ana) ( 2 N)<br />
, (3.14)<br />
∆D 2 pre<br />
denn in jedem i liegt die gleiche Struktur vor. Da ∆D 2 pre eine positive Konstante<br />
ist, so ist der Ausdruck in (3.14) eine positive quadratische Funktion 2 , mit dem<br />
Argument<br />
D i pre − D i Bio(ana)( N) . (3.15)<br />
D i pre ist ebenfalls eine positive Konstante. Da D i Bio(ana) ( N) radial unbeschränkt ist<br />
und wegen der radialen Unbeschränktheit einer positiven quadratischen Funktion<br />
gilt:<br />
lim<br />
|| N||→∞<br />
<br />
Di pre − Di Bio(ana) ( 2 N)<br />
∆D 2 pre<br />
= +∞ . (3.16)<br />
2 Mit einer positiv quadratischen Funktion ist eine nach oben geöffnete Parabel gemeint.<br />
41
3 Theoretische Betrachtung des Optimierungsproblems<br />
Damit ist in jedem Target-Voxel i eine radial unbeschränkte Funktion vorhanden.<br />
Die Summe von radial unbeschränkten Funktionen ist wiederum radial unbeschränkt<br />
(siehe Bemerkungen in Abschnitt 8.6) und somit folgt:<br />
lim<br />
|| χ<br />
N||→∞<br />
2 Bio(ana)( N) = +∞ . (3.17)<br />
Da aus der radialen Unbeschränktheit von χ2 Bio(ana) die radiale Unbeschränktheit<br />
von χ2 Bio(ana) folgt, ist der Satz bewiesen.<br />
<br />
3.2.1.3 Anwendung auf den Extremwertsatz von Weierstraß<br />
Mit dem Ergebnis, dass die χ2 Bio(ana) -Funktion unterhalbstetig und radial unbeschränkt<br />
ist, kann folgende Existenzaussage getroffen und bewiesen werden:<br />
Satz 3.5<br />
Das Optimierungsproblem<br />
min χ 2 Bio(ana)( N) , (3.18)<br />
u. d. N.<br />
N ∈ Z = R p<br />
≥0<br />
, (3.19)<br />
besitzt mindestens ein globales Minimum auf der zulässigen Menge Z.<br />
Beweis: Hier kann der erweiterte Satz von Weierstraß (Satz 8.8) aus dem Anhang<br />
angewendet werden. Die zulässige Menge Z ist nichtleer und abgeschlossen. Des Weiteren<br />
ist die Zielfunktion χ2 Bio(ana) unterhalbstetig (Satz 3.2) und radial unbeschränkt<br />
(Satz 3.4) auf Z. Dies sind alle Forderungen, die in Satz 8.8 gestellt werden. Damit<br />
besitzt die χ2 Bio(ana) -Funktion mindestens ein globales Minimum auf Z.<br />
<br />
3.2.2 Eindeutigkeit eines Minimums<br />
Die iterativen Verfahren, die zur numerischen Lösung des Optimierungsproblems<br />
verwendet werden (siehe Abschnitt 4.1), können nur lokale Minima ermitteln. Da die<br />
Existenz mindestens eines Minimums gezeigt ist, ist es von großer Bedeutung, ob das<br />
Minimum eindeutig ist oder ob noch andere existieren können. Dies ist wichtig, denn<br />
bei mehreren Minima könnte der entsprechende Algorithmus bei unterschiedlichen<br />
Startpunkten gegen unterschiedliche Lösungen konvergieren.<br />
Ob ein lokales Minimum gleichzeitig globales Minimum ist, wird in der Regel<br />
über die Konvexität der Zielfunktion gezeigt. Für den Nachweis der Eindeutigkeit<br />
des Minimums wird die strengere Bedingung der strikten Konvexität benötigt. Der<br />
entsprechene Satz dazu befindet sich im Anhang in Abschnitt 8.8. Der Nachweis der<br />
strikten Konvexität einer Zielfunktion ist alles andere als trivial, da zum Beispiel<br />
die positive Definitheit der Hesse-Matrix der Zielfunktion auf der zulässigen Menge<br />
42
3.3 Glättung der Zielfunktion<br />
gezeigt werden muss3 . Bei hochgradig nichtlinearen Optimierungsproblemen ist dies<br />
oft nicht möglich.<br />
Ist die Zielfunktion nicht konvex, heißt es nicht notwendigerweise, dass mehrere<br />
Minima existieren müssen. Funktionen, die nicht konvex sind, können ein eindeutiges<br />
Minimum haben, der Nachweis davon ist allerdings noch schwieriger als im strikt<br />
konvexen Fall. Dies ist jedoch die Situation bei der χ2 Bio(ana) -Funktion. Im OAR-Term<br />
ist die Heaviside-Funktion enthalten, diese ist nicht konvex und damit ist dann auch<br />
im Optimierungsproblem die Zielfunktion χ 2 Bio(ana)<br />
nicht konvex. Aufgrund dieser<br />
komplexen Situation wird auf den Nachweis der Eindeutigkeit eines Minimums im<br />
weiteren verzichtet.<br />
In [Sch06] konnte gezeigt werden, dass ein iteratives Verfahren bei unterschiedlichen<br />
Sartwerten in das gleiche Minimum läuft. Dies ist zwar kein mathematischer<br />
Nachweis der Eindeutigkiet eines Minimums, lässt dies aber vermuten.<br />
3.3 Glättung der Zielfunktion<br />
Im nächsten Abschnitt soll für das Optimierungsproblem (2.8)-(2.9) die notwendige<br />
Optimalitätsbedingung erster Ordnung hergeleitet werden. Bei einem restringierten<br />
Optimierungsproblem sind das die bekannten Karush-Kuhn-Tucker-Bedingungen<br />
(KKT-Bedingungen). Diese besitzen jedoch nur ihre Gültigkeit, wenn die Zielfunktion<br />
stetig differenzierbar4 , also eine C1-Funktion, ist [GK02].<br />
Betrachtung der Stetigkeits- und Differenzierbarkeitseigenschaften der χ2 Bio(ana) -<br />
Funktion fand in Abschnitt 3.1 statt, mit dem Resultat, dass der Target-Term und<br />
der OAR-Term, ohne die Heaviside-Funktion Θ, stetig ist. Bei genauerem hinsehen<br />
erkennt man schnell, dass diese beiden Objekte auch stetig-differenzierbar sind,<br />
da sie sich ausschließlich aus stetig-differenzierbaren Teilen zusammensetzen. Lediglich<br />
die Heaviside-Funktion Θ ist nicht stetig, da diese eine Sprungfunktion ist. In<br />
diesem Abschnitt soll diese adäquat geglättet, also mit einer glatten Funktion approximiert,<br />
werden. Mit einer hinreichend5 guten Glättung der Heaviside-Funktion<br />
Θ kann eine hinreichend gute Approximation der χ2 Bio(ana) -Funktion erreicht werden,<br />
die stetig-differenzierbar ist. Für die geglättete Zielfunktion können dann anschließend<br />
im folgenden Abschnitt die KKT-Bedingungen hergeleitet werden.<br />
Es gibt mehrere Möglichkeiten, die Heaviside-Funktion Θ hinreichend gut zu glätten.<br />
Eine Möglichkeit wäre, sie mit einem Polynom, z.B. einem Polynom dritten Grades,<br />
zu glätten. In dieser Arbeit soll die Heaviside-Funktion Θ mit einer angepassten Tangens<br />
Hyperbolicus-Funktion geglättet werden, da sich diese dafür relativ gut eignet.<br />
Eine Tangens Hyperbolicus-Funktion ist glatt und damit stetig-differenzierbar.<br />
3 Der Nachweis der positiven Definitheit einer Matrix kann oft nur über die Eigenwerte gezeigt<br />
werden. Bei großen Matrizen ist die Eigenwertberechnung extrem aufwendig.<br />
4 Eine stetig differenzierbare Funktion besitzt die Eigenschaft, dass ihre Ableitung mindestens<br />
stetig ist.<br />
5 Mit hinreichend glatt ist gemeint, dass eine Funktion hinreichend oft differenzierbar ist.<br />
43
3 Theoretische Betrachtung des Optimierungsproblems<br />
a = 1<br />
a = 2<br />
a = 10<br />
Θ(x)<br />
1.0<br />
0.8<br />
0.6<br />
0.4<br />
0.2<br />
4 2 2 4<br />
0<br />
Abbildung 3.2: Graphische Veranschaulichung der Glättung der Heaviside-Funktion Θ(x). Die<br />
Heaviside-Funktion ist die rote Funktion, die Tangens Hyperbolicus-Funktionen werden von den<br />
anderen Farben repräsentiert. Es ist zu erkennen, dass die Heaviside-Funktion Θ(x) gut mit der<br />
tanh-Funktion aus (3.20) im glatten Sinne approximiert werden kann. Je größer der Parameter<br />
a > 0 gewählt wird, desto besser ist die Approximation der Heaviside-Funktion Θ(x). Bereits<br />
mit a = 10 erhält man eine relativ gute Approximation, da der Sprung an der Stelle x = 0 gut<br />
nachgestellt werden kann.<br />
Eine Heaviside-Funktion Θ(x), x ∈ R, kann mit folgender Funktion im glatten<br />
Sinne hinreichend gut approximiert werden:<br />
Θ(x) ≈ 1 1<br />
+ · tanh(a · x) =<br />
2 2<br />
1<br />
1 + e −2a·x , x ∈ R , a ∈ R>0 . (3.20)<br />
Je größer der Parameter a, desto besser ist diese Approximation, da der vertikale<br />
Sprung an der Stelle x = 0 besser nachgestellt werden kann (siehe Abbildung 3.2).<br />
Des weiteren gilt, wenn x = 0 vorausgesetzt wird:<br />
<br />
1 1<br />
Θ(x) = lim + · tanh(a · x) . (3.21)<br />
a→∞ 2 2<br />
Die Konvergenzgeschwindigkeit in (3.21) hängt von der Variablen x ab.<br />
Obiges kann dann einfach auf die Heaviside-Funktion Θ in der Zielfunktion<br />
aus (3.1) folgendermaßen übertragen werden:<br />
χ 2 Bio(ana)<br />
<br />
Θ D i Bio(ana)( N) − D i <br />
max ≈ 1 1<br />
<br />
+ · tanh a · D<br />
2 2 i Bio(ana)( N) − D i <br />
max<br />
x<br />
, (3.22)<br />
mit einem hinreichend großen a > 0. Jetzt ist es möglich eine hinreichend gute<br />
Approximation der Zielfunktion χ2 Bio(ana) mit einer stetig-differenzierbaren Funktion<br />
anzugeben. Die Approximierende wird mit χ2 Bio(glatt) bezeichnet und hat folgende<br />
44
Struktur:<br />
χ 2 Bio(glatt)( N) = <br />
+ <br />
i∈OAR<br />
mit χ 2 Bio(glatt)<br />
<br />
Di pre − Di Bio(ana) ( 2 N)<br />
∆D<br />
i∈Target<br />
2 pre<br />
<br />
Di max − Di Bio(ana) ( 2 N)<br />
∆D 2 max<br />
·<br />
3.4 Karush-Kuhn-Tucker-Bedingungen<br />
<br />
1 1<br />
<br />
+ · tanh a · D<br />
2 2 i Bio(ana)( N) − D i <br />
max<br />
<br />
: Rp<br />
≥0 → R≥0. Bei einem hinreichend großen a > 0 gilt dann:<br />
,<br />
(3.23)<br />
χ 2 Bio(ana)( N) ≈ χ 2 Bio(glatt)( N) . (3.24)<br />
Es ist offensichtlich, dass je größer der Parameter a > 0 gewählt wird, desto besser<br />
ist die Approximation in (3.24).<br />
Die χ2 Bio(glatt) -Funktion ist glatt, da sie ausschließlich aus glatten Teilen besteht.<br />
Eine Komposition von glatten Funktionen induziert wiederum eine glatte Funktion.<br />
Daher kann mindestens davon ausgegangen werden, dass die χ2 Bio(glatt) -Funktion<br />
stetig-differenzierbar ist, also dass mindestens<br />
und damit<br />
χ 2 Bio(glatt) ∈ C 1 ( N) (3.25)<br />
∇χ 2 Bio(glatt) ∈ C 0 ( N) p<br />
(3.26)<br />
gilt. Die Bedingungen (3.25) und (3.26) sind mathematisch ausreichend für die im<br />
folgenden stattfindende Herleitung und Diskussion der KKT-Bedingungen.<br />
3.4 Karush-Kuhn-Tucker-Bedingungen<br />
In der Optimierung spielen die notwendigen Optimalitätsbedingungen eine bedeutende<br />
Rolle. Notwendige Optimalitätsbedingungen sind Kriterien, die notwendigerweise<br />
von einem lokal optimalen Punkt NOpt erfüllt werden müssen.<br />
Bei der unrestringierten Optimierung ist die notwendige Optimalitätsbedingung<br />
erster Ordnung einfach. Diese ist nichts weiter, als das ein lokal optimaler Punkt<br />
NOpt stationär 6 sein muss, also dass folgendes gilt:<br />
∇χ 2 ( NOpt) = 0 . (3.27)<br />
Für die restringierte Optimierung kann die notwendige Optimalitätsbedingung erster<br />
Ordnung aus (3.27) nicht einfach so übernommen werden. Der Grund ist, dass bei<br />
der restringierten Optimierung lokal optimale Punkte nicht notwendigerweise (3.27)<br />
6 Mit Stationarität ist der geometrisch anschauliche Fall gemeint, dass in einem Punkt die Tangenten<br />
in alle möglichen Richtungen keine Steigung haben.<br />
45
3 Theoretische Betrachtung des Optimierungsproblems<br />
erfüllen müssen. Daher muss (3.27) geeignet erweitert werden, was zu den Karush-<br />
Kuhn-Tucker-Bedingungen (KKT-Bedingungen) führt.<br />
Bevor die KKT-Bedingungen hergeleitet werden, wird hier nochmals für eine bessere<br />
Übersicht das Optimierungsproblem aufgeschrieben. Dabei wird als Zielfunktion<br />
χ 2 Bio(glatt) betrachtet:<br />
min χ 2 Bio(glatt)( N) , (3.28)<br />
u. d. N. Nj ≥ 0 ⇔ −Nj ≤ 0 ∀ j = 1, . . . , p , (3.29)<br />
p ist der größte/letzte Index eines Rasterpunktes.<br />
Die KKT-Bedingungen lassen sich übersichtlicher mit der Lagrange-Funktion<br />
aufstellen. Zu dem obigen Optimierungsproblem (3.28)-(3.29) sieht die Lagrange-<br />
Funktion L wie folgt aus:<br />
L( N, λ) = χ 2 Bio(glatt)( N) +<br />
p<br />
λj · (−Nj) , (3.30)<br />
mit L : R p × R p → R. λ ist der sogenannte Lagrange-Multiplikator. Die Lagrange-<br />
Funktion fasst somit ein allgemeines Optimierungsproblem (also Zielfunktion und<br />
alle Nebenbedingungen) in einer Funktion L zusammen. Weiteres zur Lagrange-<br />
Funktion findet sich z.B. in [Ulb07, GK02].<br />
Mit Hilfe der Lagrange-Funktion L aus (3.30) können jetzt die KKT-Bedingungen<br />
angegeben werden:<br />
Karush-Kuhn-Tucker-Bedingungen zu (3.28)-(3.29)<br />
Es existiert ein ¯ λ ∈ R p mit<br />
1) −N Opt<br />
j<br />
j=1<br />
≤ 0 ∀ j = 1, . . . , p (Zulässigkeit) , (3.31)<br />
2) ∇ N L( NOpt, ¯ λ) = 0 (Multiplikatorregel) , (3.32)<br />
3) ¯ λ ≥ 0 , ¯ λ T · (− NOpt) = 0 (Komplementaritätsbedingung) . (3.33)<br />
1) ist offensichtlich und besagt nichts weiter, als dass alle Optimierungskomponenten<br />
in der zulässigen Menge (3.29) liegen müssen. Die Ungleichung in 3) ist komponentenweise<br />
zu verstehen. Der Ausdruck in 2)<br />
∇ N L( NOpt, ¯ λ) (3.34)<br />
ist der Gradient der Lagrange-Funktion bzgl. der Variablen N. Ausgeschrieben sieht<br />
dieser folgendermaßen aus:<br />
∇ N L( NOpt, ¯ λ) = ∇χ 2 Bio(glatt)( NOpt) − ¯ λ . (3.35)<br />
Mit den obigen KKT-Bedingungen kann jetzt für das Optimierungsproblem (3.28)-<br />
(3.29) die notwendige Optimalitätsbedingung erster Ordnung angegeben werden:<br />
46
3.4 Karush-Kuhn-Tucker-Bedingungen<br />
Satz 3.6<br />
Sei NOpt ein lokales Minimum des Optimierungsproblemes (3.28)-(3.29). Sind zudem<br />
die Zielfunktion und alle auftretenden Nebenbedingungen stetig-differenzierbar,<br />
dann gelten für NOpt die KKT-Bedingungen (3.31)-(3.33).<br />
Bemerkungen:<br />
• Das Resultat, dass die Zielfunktion (3.28) stetig-differenzierbar ist, befindet<br />
sich in Abschnitt 3.3. Dass die Nebenbedingungen (3.29) stetig-differenzierbar<br />
sind, ist trivial.<br />
• Ein Punkt NOpt, der (3.31)-(3.33) erfüllt, wird KKT-Punkt oder stationärer<br />
Punkt des Optimierungsproblems genannt.<br />
• Die KKT-Bedingungen können als eine Art der Abstraktion des geometrischen<br />
Begriffes der Stationarität interpretiert werden.<br />
• Das KKT-System kann, weil die Nebenbedingungen in (3.29) einfach sind, in<br />
die äquivalente und anschaulichere Form umformuliert werden:<br />
∇χ 2 Bio(glatt)( NOpt)j =<br />
<br />
0 falls − N Opt<br />
j<br />
≥ 0 sonst .<br />
< 0 ,<br />
(3.36)<br />
Bei der ersten Zeile in (3.36) ist die Optimierungskomponente j im strikt inneren<br />
der zulässigen Menge und bei der zweiten Zeile liegt die Optimierungskomponente<br />
j auf dem Rand der zulässigen Menge.<br />
(3.36) kann in einem numerischen Optimierungsverfahren, in leicht abgewandelter<br />
Form, als Abbruchkriterium verwendet werden. Dazu mehr am Ende<br />
von Abschnitt 4.1.<br />
• In der KKT-Theorie spielt der Begriff "Abadie Constraint Qualification" eine<br />
wesentliche Rolle. Dabei sind die Begriffe Tangentialkegel und Linearisierungskegel,<br />
als auch deren Beziehung zueinander, von großer Bedeutung. Die<br />
KKT-Bedingungen gelten nämlich nur, wenn für ein lokales Optimum NOpt<br />
die "Abadie Constraint Qualification" erfüllt ist. Bedingungen, die die "Abadie<br />
Constraint Qualification" sicherstellen, werden in der Optimierung als<br />
"Constraint Qualifications" bezeichnet, von denen mehrere existieren. Eine<br />
von den "Constraint Qualifications" ist, dass in einem nichtlinearen Optimierungsproblem<br />
alle auftretenden Nebenbedingungen linear sind. Dies ist bei<br />
dem Optimierungsproblem (3.28)-(3.29) der Fall und damit gilt die "Abadie<br />
Constraint Qualification" für ein lokales Minimum NOpt. Daher besitzen die<br />
KKT-Bedingungen (3.31)-(3.33) für das Optimierungsproblem (3.28)-(3.29)<br />
ihre Gültigkeit.<br />
47
3 Theoretische Betrachtung des Optimierungsproblems<br />
48<br />
Weiter soll hier auf die "Abadie Constraint Qualification" und "Constraint<br />
Qualifications" nicht eingegangen werden, da dies umfangreich ist und im weiteren<br />
Verlauf dieser Arbeit nicht mehr benötigt wird. Näheres dazu findet sich<br />
z.B in [Ulb07, GK02].
4 Nichtlineare Optimierung<br />
In diesem Kapitel wird das Wichtigste zur numerischen Lösung des Optimierungsproblems<br />
(2.8)-(2.9) zusammengefasst. Der erste Abschnitt gibt eine Einführung in<br />
die sogenannten Linesearch-Verfahren. Im darauffolgenden Abschnitt werden zwei<br />
Schrittweitenstrategien vorgestellt. In Abschnitt 4.3 wird die Voroptimierung erklärt.<br />
Diese ist wichtig, den das Ergebnis der Voroptimierung wird als Startpunkt<br />
für die Linesearch-Verfahren verwendet. Der letzte Abschnitt behandelt noch einige<br />
Details zur numerischen Optimierung, wie z.B. die verwendete Rechnerarchitektur<br />
und der verwendete Bestrahlungsplan, über die Bewertung der Verfahren und abschließend<br />
zwei Bemerkungen zur Implementierung der Verfahren.<br />
Bemerkung: Die Kapitel 4, 5 und 6 beschäftigen sich mit der numerischen Lösung des<br />
Optimierungsproblemes (2.8)-(2.9). Dabei wird ausschließlich die RBW-gewichtete<br />
Dosis optimiert. Die RBW-Werte werden in dieser Arbeit mit der ersten Version<br />
des LEMs, das LEM I, berechnet. Aus Platzgründen wird die Zielfunktion in den<br />
Kapiteln 4, 5 und 6 nicht mehr mit χ2 Bio(ana) oder χ2Bio bezeichnet, sondern nur noch<br />
mit χ2 .<br />
4.1 Numerische Minimierung mit<br />
Linesearch-Verfahren<br />
Die Nichtlinearität des Optimierungsproblemes (2.8)-(2.9) lässt keine analytische<br />
Lösung zu. Die einzige Möglichkeit, einen Lösungsvektor NOpt zu erhalten, ist eine<br />
Lösung mit numerischen Methoden. Da die Zielfunktion minimiert werden soll, ist<br />
es naheligend, mit einem Iterationsverfahren ein Abstiegsverfahren zu erzeugen. Bei<br />
einem Abstiegsverfahren erüllt eine Folge Nk, ausgehend von einem Startpunkt N0,<br />
die folgende Bedingung:<br />
χ 2 ( Nk+1) < χ 2 ( Nk) , k = 0, 1, 2, 3, . . . . (4.1)<br />
k ist der Iterationsindex des Verfahrens. Ziel ist es, dass die Folge Nk gegen ein<br />
NOpt konvergiert. Es gibt zwei Klassen von Abstiegsverfahren, die sogenannten<br />
Linesearch-Verfahren und die Trust-Region-Verfahren [Ulb07]. In dieser Arbeit werden<br />
nur Linesearch-Verfahren verwendet. Linesearch-Verfahren sind die klassischen<br />
Verfahren zur Lösung nichtlinearer Optimierungsaufgaben und sind bis jetzt besser<br />
untersucht. Trust-Region-Verfahren spielen eher bei neueren Verfahrenskonzepten<br />
eine Rolle [Alt02].<br />
49
4 Nichtlineare Optimierung<br />
Ein Linesearch-Verfahren verwendet bei der Berechnung von Nk+1 eine Abstiegsrichtung<br />
dk mit der Eigenschaft<br />
∇χ 2 ( Nk) T · dk < 0 , dk ∈ R p<br />
. (4.2)<br />
Bei dem Ausdruck in (4.2) handelt es sich um die Richtungsableitung der Funktion<br />
χ 2 an der Stelle Nk in Richtung dk. Ist diese Richtungsableitung negativ, dann heißt<br />
das, dass wenn man an der Stelle Nk in Richtung dk losläuft, man sich zumindest<br />
anfangs in der Zielfunktionstopologie nach unten bewegt. Des Weiteren wird noch<br />
eine Schrittweite µk benötigt, so dass<br />
gilt und die Abnahme<br />
χ 2 ( Nk + µk dk) < χ 2 ( Nk) , µk ∈ R>0 , (4.3)<br />
χ 2 ( Nk) − χ 2 ( Nk + µk dk) (4.4)<br />
ausreichend groß ist. Berechnung der Schrittweite wird als Schrittweitenbestimmung<br />
oder -steuerung bezeichnet. Auf diese wird im nächsten Abschnitt näher eingegangen.<br />
Bemerkung: Die mathematischen Forderungen k = 0, 1, 2, 3, . . ., dk ∈ R p und µk ∈<br />
R>0 gelten für den Rest dieser Arbeit und werden im weiteren Verlauf nicht mehr<br />
explizit angegeben.<br />
Ohne die Berechnung von Abstiegsrichtungen dk und Schrittweiten µk zu spezifizieren,<br />
hat ein Linesearch-Verfahren im allgemeinen folgende Verfahrensvorschrift:<br />
Algorithmus: Allgemeines Linesearch-Verfahren<br />
1. Wähle einen Startpunkt N0 und setze k := 0.<br />
2. Falls eine Abbruchbedingung erfüllt ist, dann steige mit der Lösung Nk aus.<br />
3. Bestimme eine Abstiegsrichtung dk.<br />
4. Berechne eine Schrittweite µk.<br />
5. Berechne einen neuen Teilchenzahlenvektor Nk+1 = Nk + µk dk.<br />
6. Setze k := k + 1 und gehe zurück zu Schritt 2.<br />
Bemerkungen:<br />
50<br />
• Sind die Abstiegsrichtungen dk hinreichend gut und die Schrittweiten µk realisieren<br />
einen ausreichenden Abstieg, dann ist in der Regel die Konvergenz eines<br />
Linesearch-Verfahrens gewährleistet.<br />
• Mit einem Linesearch-Verfahren können nur lokale Minima bestimmt werden.
4.1 Numerische Minimierung mit Linesearch-Verfahren<br />
Üblicherweise wird im zweiten Punkt des allgemeinen Linesearch-Verfahrens als<br />
Abbruchkriterium die Stationarität an der Stelle Nk getestet, also:<br />
∇χ 2 ( Nk) = 0 . (4.5)<br />
Dieses Abbruchkriterium ist zum einem numerisch nicht realisierbar und zum anderen<br />
kann es bei restringierten Optimierungsproblemen nicht verwendet werden, da in<br />
diesem Fall Minima nicht notwendigerweise (4.5) erfüllen müssen. Dieser Fall kann<br />
zum Beispiel eintreten, wenn das Minimum auf dem Rand der zulässigen Menge liegt.<br />
Dies wurde bereits in Abschnitt 3.4 angesprochen. Um unnötig lange Rechenzeiten<br />
zu vermeiden, können folgende Abbruchkriterien verwendet werden:<br />
• Die relative Änderung der Zielfunktionswerte unterscheidet in aufeinanderfolgenden<br />
Iterationsschritten einen bestimmten Wert:<br />
|χ 2 ( Nk−1) − χ 2 ( Nk)|<br />
χ 2 ( Nk−1)<br />
< ɛ1 , χ 2 ( Nk−1) = 0 ∀ k . (4.6)<br />
• Wenn der Abstand zwischen zweier aufeinanderfolgender Schritte einen bestimmten<br />
Wert unterschreitet:<br />
|| Nk−1 − Nk|| < ɛ2 . (4.7)<br />
Als Norm wird irgendeine von den p-Normen für endlichdimensionale Vektorräume<br />
R n verwendet. In der Regel wird p = 2 (Euklidische Norm) oder p = ∞<br />
(Maximumsnorm) bevorzugt.<br />
• Ein Abbruchtest, ob mit einem Verfahren ein stationärer Punkt erreicht wurde,<br />
muss wie folgt implementiert werden:<br />
∇χ 2 ( <br />
< ɛ3 falls (−Nk)j < 0 ,<br />
Nk)j =<br />
(4.8)<br />
≥ 0 sonst .<br />
Hierbei handelt es sich um eine numerische Umsetzung der KKT-Bedingungen<br />
aus (3.36).<br />
• Wird keines der oberen Abbruchkriterien erfüllt, dann steigt das Verfahren<br />
nach einer festgelegten Anzahl an Iterationsschritten aus.<br />
Bemerkungen:<br />
• Für ɛ1, ɛ2 und ɛ3 werden üblicherweise Werte aus dem Intervall [10 −2 , 10 −8 ]<br />
gewählt.<br />
• Die ersten zwei Abbruchbedingungen können erst ab der zweiten Iteration des<br />
Linesearch-Verfahrens geprüft werden.<br />
51
4 Nichtlineare Optimierung<br />
4.2 Schrittweitenstrategien<br />
Um konvergente Linesearch-Verfahren zu erhalten, müssen effiziente Schrittweiten 1<br />
berechnet werden. Es ist naheliegend, die Schrittweite µk über das eindimensionale<br />
Optimierungsproblem<br />
µk = argmin µ∈[0, µmax] χ 2 ( Nk + µ dk) , µmax ∈ (0, ∞] , (4.9)<br />
zu berechnen. Diese Schrittweite wird exakte Schrittweite genannt [Alt02]. In der<br />
Regel kann bei nichtlinearen Optimierungsproblemen die exakte Schrittweite analytisch<br />
nicht berechnet werden. Eine numerische Lösung ist prinzipiell möglich, jedoch<br />
zu zeitaufwendig.<br />
Im folgenden werden zwei Schrittweitenstrategien beschrieben, mit denen eine gute<br />
Näherung der exakten Schrittweite berechnet werden kann, ohne den Ausdruck<br />
(4.9) numerisch lösen zu müssen. Mit beiden Varianten kann viel Rechenzeit gespart<br />
werden.<br />
4.2.1 Schrittweitenbestimmung über Dämpfung der<br />
Physik-Schrittweite<br />
Vorab werden für diesen Unterabschnitt die folgenden Bezeichnungen eingeführt:<br />
• Exakte Schrittweite bei Optimierung der RBW-gewichteten Dosis := µBio.<br />
• Exakte Schrittweite bei Optimierung der physikalischen Dosis und Vernachlässigung<br />
des OAR-Terms := µPhys.<br />
Optimierung der RBW-gewichteten Dosis ist nichtlinear und das daraus resultierende<br />
eindimensionale Optimierungsproblem (4.9) für die exakte Schrittweite µBio kann<br />
analytisch nicht gelöst werden. Bei Optimierung der linearen physikalischen Dosis<br />
und Vernachlässigung des OAR-Terms in der Zielfunktion (OAR-Term muss wegen<br />
der Heaviside-Funktion weggelassen werden) liegt ein quadratisches Optimerungsproblem<br />
vor. In diesem Fall ergibt sich dann für (4.9) ebenfalls ein quadratisches<br />
Optimierungsproblem. Dieses ist sogar streng konvex und das eindeutige µPhys kann<br />
analytisch berechnet werden. Ziel ist es hier, über die Schrittweite µPhys durch Skalierung<br />
an eine gute Schrittweite µBio zu gelangen.<br />
Die genaue Berechnungsvorschrift von µPhys befindet sich im Anhang in Abschnitt<br />
8.9. Die Idee bei der hier beschriebenen Schrittweitenstrategie ist, µPhys zu berechnen<br />
und anschließend mit einem Faktor fµ zu skalieren um an eine gute Approximation<br />
von µBio zu gelangen. Die Approximation von µBio wird mit µBio bezeichnet und<br />
berechnet sich demnach wie folgt:<br />
µBio = fµ · µPhys , fµ ∈ R>0 . (4.10)<br />
1 Effiziente Schrittweiten implizieren sog. zulässige Schrittweiten. Die Definition von effizienten<br />
und zulässigen Schrittweiten findet sich z.B. in [Ulb07].<br />
52
fµ<br />
Dosis [Gy (RBW)]<br />
4.2 Schrittweitenstrategien<br />
Abbildung 4.1: "Ideale" Skalierungswerte fµ für µPhys in Abhängigkeit der vorgeschriebenen Dosis.<br />
Die Daten wurden aus zwei verschiedenen Patientenplänen mit zwei unterschiedlichen Methoden<br />
ermittelt. Die "Dreicek"-Daten wurden aus einem Patientenplan mit einem dynamischen Suchalgorithmus<br />
gewonnen. Dies ist detailliert in [Hor08] beschrieben. Die "Quadrat"-Daten wurden in<br />
einem anderen Patientenplan mit vielen statistischen Auswertungen ermittelt. Näheres hierzu ist in<br />
[Sch06] veröffentlicht. Die gute Übereinstimmung beider Datensätze und gute Konvergenzergebnisse<br />
mit diesen Daten in anderen Patientenplänen deuten auf deren allgemeine Gültigkeit. Deutlich<br />
ist zu erkennen, dass bei steigender vorgeschriebener Dosis der Skalierungsfaktor fµ erhöht werden<br />
sollte.<br />
Es hat sich gezeigt, dass ein guter Parameter fµ von der vorgeschriebenen Dosis<br />
Dpre abhängt. Zum Beispiel werden die besten Konvergenzergebnisse bei einer vorgeschriebenen<br />
Dosis von 3Gy (RBW) mit dem Dämpfungsfaktor fµ = 0.5 erreicht.<br />
Weitere "Idealwerte" von fµ zu verschiedenen vorgeschriebenen Dosen können aus<br />
Abbildung 4.1 entnommen werden. Weitere Details und die Beschaffung der Werte<br />
aus dieser Abbildung befinden sich in [Sch06] und [Hor08].<br />
4.2.2 Die Schrittweitenregel von Armijo<br />
Die Armijo-Regel ist ein einfach zu implementierendes Schrittweitenverfahren mit<br />
dem relativ schnell eine geeignete Schrittweite µk berechnet werden kann. Sie wird<br />
oft bei nichtlinearen Optimierungsproblemen zur Schrittweitensteuerung verwendet.<br />
Hier wird nur das Nötigste zur Armijo-Regel angegeben. Eine ausführlichere Behandlung<br />
findet sich z.B. in [Alt02, Ulb07].<br />
Armijo-Verfahren:<br />
Es wird eine hinreichend große Startschrittweite benötigt, die als µmax bezeichnet<br />
wird. Des Weiteren seien δ ∈ (0, 1) und γ ∈ (0, 1) fest gewählte Konstanten.<br />
Bestimme die größte Schrittweite µk ∈ {µmax, µmaxδ, µmaxδ 2 , . . .}, für welche die<br />
53
4 Nichtlineare Optimierung<br />
folgende Ungleichung erfüllt ist:<br />
Bemerkungen:<br />
χ 2 ( Nk) − χ 2 ( Nk + µk dk) ≥ −γµk∇χ 2 ( Nk) T · dk . (4.11)<br />
• Häufig wird für die Parameter δ = 0.5 und γ = 10 −2 gewählt [Alt02]. Beide<br />
Konstanten sind unabhängig von Nk und dk.<br />
• Bei bestimmten Voraussetzungen ist das Armijo-Verfahren wohldefiniert und<br />
liefert nach endlich vielen Schritten eine effiziente Schrittweite.<br />
• Die Startschrittweite µmax sollte hinreichend groß gewählt werden, da das<br />
Armijo-Verfahren die Schrittweite nur verkleinern kann.<br />
• Das Armijo-Verfahren greift in der Regel schnell, wenn für µmax eine gute<br />
Approximation der exakten Schrittweite gewählt wird.<br />
• Als Startschrittweite kann zum Beispiel µPhys oder µBio (siehe vorherigen Unterabschnitt)<br />
gewählt werden.<br />
• Die Schrittweite<br />
µmax,k = −<br />
∇χ 2 ( Nk) T · dk<br />
2(χ 2 ( Nk + dk) − χ 2 ( Nk) − ∇χ 2 ( Nk) T · dk)<br />
(4.12)<br />
ist eine Approximation der exakten Schrittweite und damit geeignet als Startschrittweite<br />
für das Armijo-Verfahren. Setzt man<br />
ϕk(µ) = χ 2 ( Nk + µ dk) , (4.13)<br />
mit ϕk : R≥0 → R≥0 ∀k, so ist die Schrittweite (4.12) die exakte Schrittweite<br />
des quadratischen Interpolationspolynomes von (4.13) durch die Punkte<br />
ϕ(0) = χ 2 ( Nk) , ϕ ′ (0) = ∇χ 2 ( Nk) T · dk , ϕ(1) = χ 2 ( Nk + dk) . (4.14)<br />
4.3 Voroptimierung<br />
Linesearch-Verfahren arbeiten ausgehend von einem Startpunkt N0. Generell hat<br />
die Wahl des Startvektors einen großen Einfluss auf das Konvergenzverhalten des<br />
entsprechenden Verfahrens. Sind bei einer Zielfunktion mehrere Minima vorhanden,<br />
dann läuft der Algorithmus in der Regel vom Startpunkt in das nächstgelegene Minimum.<br />
Je näher der Startvektor an einem Minimum liegt, desto schneller konvergiert<br />
in der Regel das Verfahren. Die besten Konvergenzergebnisse können erwartet werden,<br />
wenn der Startvektor eine gute Approximation des gesuchten Minimums ist,<br />
also:<br />
N0 ≈ NOpt . (4.15)<br />
54
4.4 Ressourcen, Daten und Bemerkungen zur Optimierung<br />
Da der Startvektor für das Konvergenzverhalten des Verfahrens von großer Bedeutung<br />
ist, wird er nicht willkürlich gewählt. Bevor die eigentliche Optimierung<br />
beginnt, ist in TRiP ein Voroptimierung implementiert, die einen geeigneten Startvektor<br />
N0 generiert. Die Voroptimierung läuft als Einzelfeldoptimierung ab, wo die<br />
Felder einzeln und unabhängig voneinander optimiert werden. Dabei werden OAR’s<br />
nicht berücksichtigt. Mit dem aus der Voroptimierung resultierendem Startvektor<br />
N0 kann bereits eine gute Dosisverteilung im Targetvolumen erzeugt werden, jedoch<br />
eine hohe Dosis in den OAR’s. Die Voroptimierung dauert in der Regel weniger als<br />
eine Minute. Details zur Voroptimierung finden sich in [G + 08, K + 00].<br />
4.4 Ressourcen, Daten und Bemerkungen zur<br />
Optimierung<br />
4.4.1 Verwendete Rechnerarchitektur<br />
Alle Berechnungen wurden mit einem IBM PS701 Blade Server Rechner auf einem<br />
3GHz Power7 Prozessor ausgeführt.<br />
4.4.2 Verwendeter Patientenplan<br />
Als Referenz für die Minimierungsergebnisse der χ 2 -Funktion wird der Patientenplan<br />
#135 verwendet. Eine bearbeitete CT-Scheibe dieses Patientenplans ist in Abbildung<br />
2.1 zu sehen. Neben dem Tumor (Targetvolumen) wird als OAR lediglich<br />
der Hirnstamm betrachtet. Dies ist ein vereinfachter Patientenplan, da bei der Bestrahlungsplanung<br />
oft mehrere OAR’s betrachtet werden müssen. Die Hinzunahme<br />
weiterer OAR’s ändert jedoch nicht die mathematische Struktur der Zielfunktion.<br />
Die vorgeschriebene Dosis D i pre wird in jedem Target-Voxel i auf 3Gy (RBW) gesetzt.<br />
Die maximale Dosisgrenze D i max wird für jedes OAR-Voxel i auf 1.5Gy (RBW)<br />
gesetzt. Dies sind typische Werte für einzelne Fraktionen in der Therapie. Minimierungsergebnisse<br />
in anderen Patientenplänen mit diesen Einstellungen sind alle ähnlich.<br />
Es folgen noch einige Daten zum hier verwendeten Patientenplan #135:<br />
Anzahl der Voxel im Targetvolumen : 19200<br />
Anzahl der Voxel im OAR-Volumen : 4400<br />
Anzahl der Rasterpunkte : 19600<br />
Anzahl der Bestrahlungsfelder : 2<br />
Speicher für die Dosis-Korrelations-Matrix : 440MB<br />
Bemerkung: Die Anzahl der Rasterpunkte in einem Patientenplan ist zugleich die<br />
Dimension des Optimierungsproblems p. Bei p = 19600, wie im oberen Beispiel,<br />
55
4 Nichtlineare Optimierung<br />
handelt es sich eher um einen kleineren Tumor. Bis zu 100000 Rasterpunkte als<br />
auch Voxel können in der Bestrahlungsplanung auftreten.<br />
4.4.3 Bewertung der Algorithmen<br />
In den folgenden Kapiteln werden verschiedene Linesearch-Verfahren auf das Optimierungsproblem<br />
(2.8)-(2.9) angewendet bei Verwendung des obigen Patientenplanes.<br />
Für die einzelnen Verfahren werden in dieser Arbeit die folgenden Bewertungsmaßstäbe<br />
betrachtet:<br />
• Minimierung der Zielfunktion als Funktion der Iterationsschritte.<br />
• Minimierung der Zielfunktion als Funktion der Rechenzeit.<br />
• Speicheranforderung des entsprechenden Verfahrens.<br />
Bei den Minimierungsplots werden auf der Ordinatenachse die Funktionswerte der<br />
χ 2 -Funktion dividiert durch die Anzahl der Freiheitsgrade, also NDF (siehe Unterabschnitt<br />
2.3.1), dargestellt. Dies kann als eine Art "Normierung" interpretiert<br />
werden. Des Weiteren wird die Ordinatenachse logarithmisch angezeigt.<br />
4.4.4 Bemerkungen und Details zur Implementierung<br />
Detektionslimit der Ionisationskammern<br />
Bei der Bestrahlung werden die Teilchenzahlen für die Rasterpunkte werden mit<br />
Ionisationskammern gemessen (siehe Abschnitt 1.5). Ionisationskammern besitzen<br />
ein unteres Detektionslimit. Unter dem Detektionslimit kann die genaue Anzahl der<br />
durchquerenden Teilchen nicht mehr sicher bestimmt werden. Das untere Detektionslimit,<br />
der bei <strong>GSI</strong> verwendeten Ionisationskammern, beträgt 5000. Dieses muss<br />
bei der Bestrahlungsplanung berücksichtigt werden und ist daher in TRiP eingearbeitet.<br />
[G + 08]<br />
In jedem Iterationsschritt werden am Ende neue Teilchenzahlen Nk+1 berechnet.<br />
Ist von dem neuen Teilchenzahlenvektor Nk+1 eine Komponente kleiner als 5000,<br />
dann wird diese auf 0 gesetzt. Im darauffolgenden Iterationsschritt besteht für die<br />
Komponente wieder die Möglichkeit auf mindestens 5000 zu gelangen. Es hat sich<br />
jedoch gezeigt, dass wenn eine Komponente während der Iteration auf 0 fällt, dass<br />
diese fast immer in den darauffolgenden Iterationsschritten unter 5000 bleibt. Auswertungen<br />
haben ergeben, dass von diesem Effekt weniger als 5% der Rasterpunkte<br />
(also Komponenten von Nk+1) betroffen sind [Sch06]. Daher würde sich eine Dimensionsverkleinerung<br />
des Optimierungsproblems, während dem Optimierungsprozess,<br />
um Rechenzeit zu sparen, nicht besonders lohnen.<br />
56
Abbruchkriterien für die Iteration<br />
4.4 Ressourcen, Daten und Bemerkungen zur Optimierung<br />
Am Ende von Abschnitt 4.1 werden mögliche numerische Abbruchkriterien für ein<br />
Linesearch-Verfahren genannt. Gegenwärtig ist in TRiP nur das erste implementiert,<br />
also (4.6). Dabei wird ɛ1 = 10 −8 gewählt. Die Abbruchschranke ɛ1 wird hier<br />
bewusst so klein gewählt, damit die Algorithmen länger "ausgereizt" werden und ihr<br />
Konvergenzverhalten kann in einem längeren Iterationsprozess beobachtet werden.<br />
Es ist geplant, in naher Zukunft, auch das zweite und dritte Abbruchkriterium, also<br />
(4.7) und (4.8), zu implementieren.<br />
Falls nicht anders erwähnt, wird die maximale Anzahl der Iterationsschritte auf<br />
100 gesetzt.<br />
57
5 Gradientenverfahren und<br />
konjugiertes<br />
Gradientenverfahren<br />
Dieses Kapitel beschäftigt sich mit den Gradientenverfahren. Abschnitt 5.1 geht auf<br />
das Gradientenverfahren ein und Abschnitt 5.2 auf das konjugierte Gradientenverfahren.<br />
Dabei werden Bemerkungen, Vor- und Nachteile und die Iterationsvorschrift<br />
der Verfahren angegeben. Im letzten Abschnitt dieses Kapitels werden die Minimierungsergebnisse,<br />
die mit beiden Verfahren erzielt werden, gezeigt und diskutiert.<br />
Bemerkung: Als Schrittweite wird beim Gradientenverfahren als auch beim konjugierten<br />
Gradientenverfahren die gedämpfte Physik-Schrittweite, also µBio, verwendet.<br />
D.h., es wird ein µPhys berechnet (siehe Abschnitt 8.9) und dieses wird mit einem<br />
Parameter fµ multipliziert. Genaueres zu dieser Schrittweitensteuerung findet sich<br />
in Unterabschnitt 4.2.1. Da als vorgeschriebene Dosis 3Gy (RBW) verwendet wird,<br />
so wird für den Dämpfungsfaktor fµ = 0.5 gewählt (siehe Abbildung 4.1). Eine Implementierung<br />
der Armijo-Schrittweite in das Gradientenverfahren und konjugierte<br />
Gradientenverfahren ist in naher Zukunft geplant.<br />
5.1 Das Gradientenverfahren<br />
Das Gradientenverfahren (GRV), auch Verfahren des steilsten Abstiegs genannt, ist<br />
ein klassisches Verfahren der nichtlinearen Optimierung. Das GRV macht in jedem<br />
Iterationsschritt einen Schritt in die Richtung des steilsten Abstiegs der Zielfunktion.<br />
Die Richtung des steilsten Abstiegs einer Funktion ist der negative Gradient der<br />
Funktion.<br />
Algorithmus: Gradientenverfahren (GRV)<br />
Da das GRV ein so einfacher und übersichtlicher Algorithmus ist, wird hier nicht die<br />
ganze Verfahrensvorschrift angegeben. Das GRV kann sehr einfach in das allgemeine<br />
Linesearch-Verfahren aus Abschnitt 4.1 eingebaut werden. Der einzige Punkt,<br />
der beachtet werden muss, ist, dass in jedem Iterationsschritt die Suchrichtung<br />
dk = −∇χ 2 ( Nk) verwendet wird.<br />
58
Bemerkungen:<br />
5.2 Das konjugierte Gradientenverfahren<br />
• Das GRV ist robust und einfach zu implementieren, weswegen es häufig in den<br />
Anwendungen benutzt wird.<br />
• Bei gewissen Voraussetzungen ist das GRV ein global konvergentes Verfahren 1<br />
[Ulb07].<br />
• Oftmals konvergiert das GRV langsam, da es sich dem Minimum mit einem<br />
Zick-Zack-Kurs nähert.<br />
• Der Betrag/Norm des Gradienten an einer Stelle Nk ist ein Maß für die Steigung<br />
der Funktion an dieser Stelle. Ist das Minimum in einer flachen Region<br />
lokalisiert, so ist das GRV dort ineffizient, de es in der Regel nur noch kleine<br />
Schritte macht. Auf der anderen Seite arbeitet das GRV im Einzugsgebiet<br />
relativ schnell.<br />
• Da das GRV lediglich mit dem Gradienten der Zielfunktion und einer Schrittweite<br />
arbeitet, müssen keine großen Speicherressourcen zur Verfügung gestellt<br />
werden.<br />
5.2 Das konjugierte Gradientenverfahren<br />
Bei dem konjugierten Gradientenverfahren (KGV), auch Verfahren konjugierter Richtungen<br />
genannt, handelt es sich um eine Modifizierung des Gradientenverfahrens.<br />
Die Idee der Verwendung von konjugierten Richtungen [Ste04] ist, dass die Information,<br />
über die Abstiegsrichtung aus dem vorherigen Iterationsschritt, in den neuen<br />
Schritt mitgenommen wird. Dadurch kann ein ausgeprägter Zick-Zack-Verlauf des<br />
Verfahrens vermieden werden und das Verfahren besitzt in der Regel bessere Konvergenzeigenschaften<br />
als das GRV. Die Struktur der Iterationsvorschrift ist etwas<br />
aufwändiger, jedoch kostet ein Schritt nicht viel mehr Rechenzeit als beim GRV.<br />
Algorithmus: Konjugiertes Gradientenverfahren (KGV)<br />
1. Wähle einen Startpunkt N0.<br />
2. Berechne h0 = d0 = −∇χ 2 ( N0).<br />
3. Setze k := 0.<br />
4. Bestimme eine Schrittweite µk.<br />
5. Berechne einen neuen Teilchenzahlenvektor Nk+1 = Nk + µk hk.<br />
6. Falls eine Abbruchbedingung erfüllt ist, dann steige aus.<br />
1 Unter globaler Konvergenz versteht man, dass ein Verfahren unabhängig vom Startpunkt zu<br />
einer Lösung hin konvergiert.<br />
59
5 Gradientenverfahren und konjugiertes Gradientenverfahren<br />
7. Berechne dk+1 = −∇χ 2 ( Nk+1).<br />
8. Berechne βk = dT k+1 · dk+1<br />
d T k · ,<br />
dk<br />
dT k · dk = 0, βk ∈ R≥0.<br />
9. Berechne hk+1 = dk+1 + βk hk.<br />
10. Setze k := k + 1 und gehe zurück zu Schritt 4.<br />
Bemerkungen:<br />
• Das KGV arbeitet lediglich mit Vektoren und Skalaren und ist daher nicht<br />
Speicheraufwändig. Daher eignet es sich, wie das GRV, für hochdimensionale<br />
Optimierungsprobleme.<br />
• Mit der gleichen Begründung wie beim GRV ist das KGV für Minima in flachen<br />
Regionen ineffizient.<br />
• Wird das βk wie in Schritt 8. berechnet, dann handelt es sich bei dem konjugierten<br />
Gradientenverfahren um die Variante nach "Fletcher-Reeves". Es existieren<br />
neben dieser Variante noch einige andere, wie z.B. die nach "Hestenes-<br />
Stiefel" oder "Polak-Ribiere". Bei den anderen Varianten wird das βk jeweils<br />
leicht abgeändert berechnet. Für nichtlineare Optimierungsprobleme erhält<br />
man jedoch meistens mit der "Fletcher-Reeves"-Variante die besten Konvergenzergebnisse<br />
[Alt02]. In [Bus09] wurde gezeigt, dass man bei der numerischen<br />
Lösung des Optimierungsproblems (2.8)-(2.9) mit der "Fletcher-<br />
Reeves"-Variante die besten Konvergenzergebnisse erhält.<br />
• Wie das GRV, so ist auch das KGV bei bestimmten Voraussetzungen ein global<br />
konvergentes Verfahren.<br />
5.3 Konvergenzergebnisse und Diskussion<br />
Abbildung 5.1 zeigt die Minimierung der χ 2 -Funktion mit dem GRV und KGV als<br />
Funktion der Iterationsschritte und Abbildung 5.2 als Funktion der Rechenzeit bei<br />
Verwendung des Patientenplanes #135 (genaueres zum Bestrahlungsplan befindet<br />
sich in Abschnitt 4.4.2).<br />
Bei der Minimierung der χ 2 -Funktion bzgl. der Iterationsschritte ist sowohl beim<br />
GRV als auch beim KGV ein typisches Verhalten dieser Verfahren zu beobachten.<br />
Die ersten 10-15 Iterationsschritte läuft die Minimierung mit größeren Schritten.<br />
Danach ist nur noch ein langsamer, streng monotoner, Abfall der χ 2 -Funktion zu<br />
beobachten. Diese Ergebnisse lassen vermuten, dass sich die Verfahren in den ersten<br />
10-15 Iterationsschritten im Einzugsgebiet befinden. Das Minimum scheint in<br />
einer eher flachen Region lokalisiert zu sein, in welche die Verfahren nach dem Einzugsgebiet<br />
eintreten. Von Anfang an arbeitet das KGV mit größeren Schritten zum<br />
60
5.3 Konvergenzergebnisse und Diskussion<br />
Minimum hin als das GRV. Für ein χ 2 -Level von 2.8, für welches das GRV 100 Iterationsschritte<br />
benötigt, braucht das KGV nur 17 Iterationsschritte. Dies lässt sich<br />
damit erklären, dass das KGV eine Modifizierung des GRVs ist und eine angepasstere<br />
Iterationsvorschrift besitzt. Das Abbruchkriterium (4.6) (siehe Abschnitt 4.4.4),<br />
mit ɛ1 = 10 −8 , wird mit beiden Verfahren nicht erfüllt.<br />
Bei der Minimierung der χ 2 -Funktion bzgl. der Rechenzeit ist der Verlauf sehr<br />
ähnlich wie in Abbildung 5.1. Dies lässt sich damit begründen, dass das GRV und das<br />
KGV für einen Iterationsschritt ungefähr die selbe Rechenzeit benötigen. Trotz der<br />
komplexeren Iterationssvorschrift ist der Mehraufwand beim KGV in einer Iteration,<br />
gegenüber dem des GRVs, gering. Für ein χ 2 -Level von 2.8, für welches das GRV<br />
ca. 1420 Sekunden benötigt, braucht das KGV lediglich ca. 240 Sekunden. Beide<br />
Verfahren benötigen zu ihrem Endpunkt (100. Iterationsschritt) ca. 1420 Sekunden.<br />
D.h., dass mit diesen Verfahren der Optimierungsschritt, in diesem Bestrahlungsplan<br />
und den gegebenen Einstellungen, weniger als eine halbe Stunde dauert.<br />
Bei der Minimierung der χ 2 -Funktion arbeitet das KGV bzgl. der Iterationsschritte<br />
als auch der Rechenzeit wesentlich effizienter als das GRV. Die Minimierung konnte<br />
mit dem KGV in den Iterationen als auch in der Rechenzeit um einen Faktor von<br />
fast sechs verschnellert werden. In anderen Patientenplänen konnte ein ähnlicher Effekt<br />
beobachtet werden. Beide Verfahren besitzen einen ähnlichen Speicheraufwand<br />
und somit ist hier das KGV dem GRV gegenüber deutlich im Vorteil.<br />
61
5 Gradientenverfahren und konjugiertes Gradientenverfahren<br />
χ 2<br />
✡ ✡✡✣<br />
KGV<br />
17 Schritte<br />
χ 2 -Level von ca. 2.8<br />
Iteration<br />
GRV<br />
100 Schritte<br />
❏<br />
❏❏❏❫<br />
Abbildung 5.1: Minimierung der χ 2 -Funktion mit dem GRV und KGV als Funktion der Iterationsschritte.<br />
Detaillierte Bildbeschreibung und Diskussion befindet sich im Text.<br />
χ 2<br />
✡ ✡✡✣<br />
KGV<br />
ca. 240s<br />
χ 2 -Level von ca. 2.8<br />
Zeit [s]<br />
GRV<br />
ca. 1420s<br />
❏<br />
❏<br />
❏❏❫<br />
Abbildung 5.2: Minimierung der χ 2 -Funktion mit dem GRV und KGV als Funktion der Rechenzeit.<br />
Detaillierte Bildbeschreibung und Diskussion befindet sich im Text.<br />
62
6 BFGS-Verfahren<br />
In diesem Kapitel wird das BFGS-Verfahren behandelt. Die Konvergenzergebnisse<br />
mit dem KGV sind zwar zufriedenstellend, es soll aber getestet werden, ob mit dem<br />
BFGS-Verfahren evtl. noch bessere Konvergenzergebnisse erreicht werden können.<br />
Der erste Abschnitt beschreibt das Newton-Verfahren. Das Newton-Verfahren ist<br />
wichtig für das Verständnis der Arbeitsweise des BFGS-Verfahrens. In Abschnitt 6.2<br />
wird das wichtigste zu den Quasi-Newton-Verfahren genannt, zu deren Klasse das<br />
BFGS-Verfahren gehört. In Abschnitt 6.3 geht es um das BFGS-Update, besonders<br />
um das inverse BFGS-Update, welches Kern des BFGS-Verfahrens ist. Die Iterationsvorschrift<br />
des BFGS-Verfahrens, mit der die besten Konvergenzergebnisse erzielt<br />
werden, wird detailliert in Abschnitt 6.4 geschildert. Anschließend werden die Konvergenzergebnisse<br />
des BFGS-Verfahrens diskutiert. Im letzten Abschnitt werden die<br />
weiteren Varianten des BFGS-Verfahrens genannt, die in TRiP implementiert und<br />
ausgewertet wurden.<br />
Bemerkung: In diesem Abschnitt spielt die zweite Ableitung der χ 2 -Funktion, also<br />
die Hesse-Matrix, eine bedeutende Rolle. Die Hesse-Matrix der Zielfunktion wird<br />
hier mit ∇ 2 χ 2 ( N) bezeichnet. Des Weiteren wird in diesem Abschnitt die Matrix H<br />
oft verwendet. Für beide Matrizen gilt die mathematische Forderung<br />
∇ 2 χ 2 ( N) ∧ H ∈ R p×p , (6.1)<br />
die im weiteren Verlauf nicht mehr explizit angegeben wird.<br />
6.1 Das Newton-Verfahren<br />
Das Newton-Verfahren (NV) spielt in der numerischen <strong>Mathematik</strong> als auch der<br />
nichtlinearen Optimierung eine bedeutende Rolle, da es lokal sehr gute Konvergenzeigenschaften<br />
besitzt. Das Bedeutende im NV ist die Newton-Richtung, die auch<br />
Grundlage für andere Suchrichtungen ist. Hier wird nur das vom NV behandelt, was<br />
später in dieser Arbeit benötigt wird. Details zum NV finden sich in nahezu allen<br />
Büchern zur numerischen <strong>Mathematik</strong> und nichtlinearen Optimierung.<br />
Die Arbeitsweise des NVs wird hier über einen anschaulicheren Ansatz motiviert.<br />
Eine Erklärung der Arbeitsweise über die Lösung eines nichtlinearen Gleichungssystemes<br />
findet sich z.B. in [Ulb07].<br />
Für die Minimierung der χ 2 -Funktion kann diese um den Punkt N0 (dieser wird<br />
nach Abschnitt 4.3 berechnet) mit einem Taylor-Polynom zweiten Grades approxi-<br />
63
6 BFGS-Verfahren<br />
miert werden:<br />
χ 2 ( N) ≈ Q( N) = χ 2 ( N0) + ( N − N0) T · ∇χ 2 ( N0)<br />
+ 1<br />
2 · ( N − N0) T · ∇ 2 χ 2 ( N0) · ( N − N0) .<br />
(6.2)<br />
Ist die Hesse-Matrix ∇ 2 χ 2 ( N0) positiv definit, so ist die Funktion Q( N) streng konvex<br />
und ihr eindeutiges Minimum kann analytisch folgendermaßen berechnet werden:<br />
NMin, Q := ∇Q( N) = 0 , (6.3)<br />
=⇒ ∇χ 2 ( N0) + ∇ 2 χ 2 ( N0) · ( N − N0) = 0 , (6.4)<br />
=⇒ NMin, Q = <br />
N0 − ∇ 2 χ 2 ( −1 N0) · ∇χ 2 ( N0) . (6.5)<br />
Bei (6.3) handelt es sich um die notwendige Optimalitätsbedingung 1. Ordnung.<br />
D.h., man sucht einen stationären Punkt der Funktion Q. Für den Fall, dass die<br />
Approximation in (6.2) gut ist, so liegt das Minimum NMin, Q näher an dem Minimum<br />
der χ2-Funktion als der Punkt N0. Durch wiederholtes Anwenden dieser Prozedur,<br />
immer ausgehend von dem neu erhaltenen Punkt, kann in den meisten Fällen die<br />
Näherung an das gesuchte Minimum NOpt stets verbessert werden. Daraus ergibt<br />
sich im NV der sogenannte Newton-Schritt:<br />
Nk+1 = <br />
Nk − ∇ 2 χ 2 ( −1 Nk) · ∇χ 2 ( Nk) . (6.6)<br />
<br />
Hier ist dk die sog. Newton-Richtung. Diese und der Newton-Schritt können leicht<br />
in das allgemeine Linesearch-Verfahren aus Kapitel 4.1 eingebaut werden.<br />
Bemerkungen:<br />
64<br />
• Bei der Anwendung auf ein Minimierungsproblem wird das NV manchmal<br />
auch "Minimierung mit quadratischer Form" genannt [Bra99].<br />
• Man ersetzt beim NV somit die Aufgabe der Minimierung der χ 2 -Funktion<br />
durch das einfachere quadratische Optimierungsproblem (6.3) und löst dieses<br />
analytisch. Ist die Hesse-Matrix ∇ 2 χ 2 ( Nk) positiv definit, dann liegt ein eindeutiges<br />
Minimum des quadratischen Problems vor und die Suchrichtung dk<br />
ist eine Abstiegsrichtung. Weiteres zu quadratischen Optimierungsproblemen<br />
findet sich z.B. in [Alt02, Ulb07].<br />
• Das NV, welches in diesem Abschnitt beschrieben wird, wird als "Standard"oder<br />
"gewöhnliches"-NV bezeichnet [Hor79]. Bei diesem wird die Schrittweite<br />
µk = 1∀k verwendet. In diesem Fall kann bei einer schlechten Wahl des<br />
Startpunktes N0 das NV sogar divergieren. Durch eine geeignete Schrittweitensteuerung<br />
kann globale Konvergenz (sog. Globalisierung des Verfahrens)<br />
erreicht werden.<br />
dk
6.1 Das Newton-Verfahren<br />
• Liegt der Startwert N0 nahe am Minimum der χ 2 -Funktion, dann konvergiert<br />
das NV in der Regel schnell. Bei bestimmten Voraussetzungen liegt sogar quadratische<br />
Konvergenz 1 vor [Ulb07]. Die guten Konvergenzeigenschaften erhält<br />
man allerdings nur in einer lokalen Umgebung des Minimums.<br />
• Nachteil des NVs ist, dass in jedem Iterationsschritt die Hesse-Matrix ∇ 2 χ 2 ( Nk)<br />
aufgestellt und gespeichert werden muss. Das Aufstellen der Hesse-Matrix kann<br />
viel Rechenzeit beanspruchen. Der Speicheraufwand kann bei hochdimensionalen<br />
Problemen mehrere Gigabytes erfordern.<br />
• Neben dem hier beschriebenen "Standard"-NV gibt es noch die Newton-artigen-Verfahren,<br />
die inexakten NV und die Quasi-Newton-Verfahren. Bei den<br />
Newton-artigen-Verfahren wird die Hesse-Matrix ∇ 2 χ 2 ( Nk) in jedem Iterationsschritt<br />
k approximiert. Der Begriff der inexakten NV wird weiter unten<br />
in diesem Abschnitt erklärt. Mit den Quasi-Newton-Verfahren, zu denen das<br />
BFGS-Verfahren gehört, beschäftigt sich der nächste Abschnitt ausführlicher.<br />
Die Berechnung der Newton-Richtung<br />
<br />
dk = − ∇ 2 χ 2 ( −1 Nk) · ∇χ 2 ( Nk) (6.7)<br />
erfordert in jedem Iterationsschritt k das Invertieren der Hesse-Matrix ∇ 2 χ 2 ( Nk)<br />
und die anschließende Multiplikation mit dem Gradienten ∇χ 2 ( Nk). Dieses Vorgehen<br />
wäre numerisch nicht sinnvoll, da das Invertieren einer Matrix mit einem großen<br />
Rechenaufwand verbunden ist [EMR96]. Daher wird der Ausdruck (6.7) in den folgenden<br />
überführt<br />
∇ 2 χ 2 ( Nk) · dk = −∇χ 2 ( Nk) , (6.8)<br />
der als Newton-Gleichung bezeichnet wird. Die Newton-Gleichung ist ein lineares<br />
Gleichungssystem mit der gleichen Ordnung wie die Dimension des Optimierungsproblems<br />
(hier also der Ordnung p). Die Koeffizientenmatrix ist die Hesse-Matrix<br />
der Zielfunktion und die rechte Seite der negative Gradient der Zielfunktion. Das<br />
Gleichungssystem (6.8) ist symmetrisch, da die Hesse-Matrix nach dem Satz von<br />
Schwarz symmetrisch ist [Heu83]. Wird das Gleichungssystem nur näherungsweise<br />
gelöst, dann handelt es sich um ein inexaktes NV. Dabei wird in der Regel die<br />
Konvergenzgeschwindigkeit des NVs niedriger, auf der anderen Seite kann viel Rechenzeit<br />
gespart werden. Für die Konvergenzordnung von inexakten NV als auch<br />
Newton-artigen-Verfahren spielt die Dennis-Moré-Bedingung eine fundamentale Rolle<br />
[Ulb07].<br />
Es gibt prinzipiell zwei Ansätze um ein lineares Gleichungssystem zu lösen, die<br />
direkten und iterativen Methoden/Verfahren [Sch93]. Die direkten Verfahren, z.B.<br />
1 Die Definition von quadratischer Konvergenz und anderen Konvergenzgeschwindigkeiten, wie<br />
z.B. die lineare oder superlinerae Konvergenz, findet sich in fast allen Lehrbüchern zur numerischen<br />
<strong>Mathematik</strong>.<br />
65
6 BFGS-Verfahren<br />
Cholesky-Zerlegung oder Gauß-Algorithmus, haben den Vorteil, dass sie eine exakte<br />
Lösung des Gleichungssystems liefern [F + 92]. Der Nachteil ist, dass die direkten<br />
Verfahren O(p 3 ) Punktoperationen benötigen und damit immer noch aufwendig<br />
sind. Bei den iterativen Verfahren eignen sich besonders die Krylov-Unterraum-<br />
Verfahren, wie z.B. das CG-Verfahren, für die Lösung der Gleichungssysteme [Hac93,<br />
Saa03]. Diese liefern zwar nur eine angenäherte Lösung, benötigen jedoch pro Iterationsschritt<br />
lediglich O(p) Punktoperationen. Werden bei den Krylov-Unterraum-<br />
Verfahren zusätzlich Vorkonditionierungstechniken angewendet, dann konvergieren<br />
die Verfahren meistens schnell. Es ist offensichtlich, dass je höher die Ordnung des<br />
Gleichungssystem ist, desto eher eignen sich die Krylov-Unterraum-Verfahren. Dabei<br />
muss jedoch eine Verringerung der Konvergenzgeschwindigkeit des NVs in kauf genommen<br />
werden. Diese haben zusätzlich den direkten Verfahren gegenüber den Vorteil,<br />
dass sie die Besetzungsstruktur der Koeffizientenmatrix, wie z.B. eine dünne Besetzungsstruktur,<br />
ausnutzen können. Zudem sind die Krylov-Unterraum-Verfahren<br />
robust und einfach zu implementieren.<br />
6.2 Quasi-Newton-Verfahren<br />
Wie bereits erwähnt wurde, die Berechnung der Newton-Richtung ist aufwendig. In<br />
jedem Iterationsschritt muss die Hesse-Matrix ∇ 2 χ 2 ( Nk) aufgestellt und invertiert<br />
werden oder statt der Invertierung kann das Gleichungssystem (6.8) gelöst werden.<br />
Bei den Newton-artigen-Verfahren werden geeignete Approximationen Hk der<br />
Hesse-Matrix verwendet, also:<br />
Hk ≈ ∇ 2 χ 2 ( Nk) . (6.9)<br />
Die Suchrichtung dk kann anschließend durch Lösung der Newton-artigen-Gleichung<br />
Hk · dk = −∇χ 2 ( Nk) (6.10)<br />
bestimmt werden.<br />
Die Idee bei den Quasi-Newton-Verfahren ist, dass ausgehend von einer symmetrischen<br />
und invertierbaren 2 Matrix H0 durch Updates die Matrizen Hk erzeugt<br />
werden. Das Update (auch als Aufdatierung bezeichnet) soll dabei durch eine Korrektur<br />
der aktuellen Matrix Hk berechnet werden, also:<br />
Hk+1 = Hk + Korrektur ∀k . (6.11)<br />
Damit können Informationen 3 aus der Matrix Hk an die neue Matrix Hk+1 weitergegeben<br />
werden.<br />
Eine fundamentale Rolle bei den Quasi-Newton-Verfahren spielt die Quasi-Newton-Gleichung:<br />
Hk+1 · ( Nk+1 − Nk) = ∇χ 2 ( Nk+1) − ∇χ 2 ( Nk) . (6.12)<br />
2 Invertierbare Matrizen werden auch reguläre Matrizen genannt.<br />
3 Die Matrizen Hk enthalten z.B. Informationen über die Krümmung der Zielfunktion.<br />
66
6.3 Das BFGS-Update<br />
Eine Herleitung und weiteres zu der Quasi-Newton-Gleichung findet man z.B. in<br />
[Ulb07]. Im weiteren Verlauf dieser Arbeit werden die folgenden Abkürzungen verwendet:<br />
sk = Nk+1 − Nk und yk = ∇χ 2 ( Nk+1) − ∇χ 2 ( Nk) , (6.13)<br />
mit sk ∈ R p und yk ∈ R p . Mit den oberen Abkürzungen kann die Quasi-Newton-<br />
Gleichung kompakter aufgeschrieben werden:<br />
Hk+1 · sk = yk . (6.14)<br />
Bei den Quasi-Newton-Verfahren beschränkt man sich bei den Aufdatierungsformeln<br />
auf folgende Abbildung:<br />
Hk+1 = Φ(Hk, sk, yk) , (6.15)<br />
mit Φ : R p×p × R p × R p → R p×p .<br />
Bemerkungen:<br />
• Als Startmatrix H0 wird oft die Einheitsmatrix I verwendet. Die Einheitsmatrix<br />
ist symmetrisch und positiv definit.<br />
• Bei einem guten Update sollte die Matrix Hk+1 symmetrisch, positiv definit<br />
und notwendigerweise die Quasi-Newton-Gleichung erfüllen.<br />
• Nach Möglichkeit sollte ein Update wenig Rechenaufwand erfordern.<br />
• Unter gewissen Voraussetzungen gilt<br />
lim<br />
k→∞ ||Hk+1 − Hk|| = 0 . (6.16)<br />
Ist (6.16) erfüllt, dann kann von dem entsprechenden Quasi-Newton-Verfahren,<br />
über die Dennis-Moré-Bedingung, superlineare Konvergenz gezeigt werden.<br />
Die Matrix Hk+1 in der Quasi-Newton-Gleichung ist nicht eindeutig bestimmt. Aus<br />
diesem Grund existieren mehrere Aufdatierungvarianten, wie z.B. das SR1-, DFPoder<br />
BFGS-Update. Das BFGS-Update ist das Bewährteste unter ihnen, da es sich<br />
in der Praxis als das numerisch effizienteste erwiesen hat. Daher wurde bis jetzt<br />
nur dieses in TRiP implementiert und ist Gegenstand im weiteren Verlauf dieses<br />
Kapitels.<br />
6.3 Das BFGS-Update<br />
Es wird nochmals an die Abkürzungen<br />
sk = Nk+1 − Nk und yk = ∇χ 2 ( Nk+1) − ∇χ 2 ( Nk) (6.17)<br />
67
6 BFGS-Verfahren<br />
erinnert. Das BFGS-Update wurde 1970 mit unterschiedlichen Ansätzen von Broyden,<br />
Fletcher, Goldfarb und Shanno unabhängig voneinander entwickelt [Bro70,<br />
Fle70, Gol70, Sha70]. Die BFGS-Aufdatierungsformel hat folgende Struktur:<br />
Hk+1 = Hk + yk · y T k<br />
y T k · sk<br />
Bemerkungen:<br />
− Hk · sk · (Hk · sk) T<br />
s T k · Hk · sk<br />
, y T k · sk = 0 , s T k · Hk · sk = 0 . (6.18)<br />
• Eine Herleitung der BFGS-Aufdatierungsformel findet man z.B. in [Alt02].<br />
• Es kann leicht gezeigt werden, dass die BFGS-Aufdatierungsformel die Quasi-<br />
Newton-Gleichung erfüllt.<br />
• Ist die Matrix Hk symmetrisch, positiv definit und gilt y T k · sk > 0, dann ist<br />
die Matrix Hk+1, die über (6.18) berechnet wurde, ebenfalls symmetrisch und<br />
positiv definit. Die resultierende Suchrichtung dk+1 ist dann eine Abstiegsrichtung.<br />
Wie beim NV kann auch bei einem Quasi-Newton-Verfahren die Suchrichtung dk,<br />
anstelle der Lösung der Gleichung (6.10), über Matrixinversion berechnet werden:<br />
dk = −H −1<br />
k · ∇χ 2 ( Nk) . (6.19)<br />
Damit wird mit H −1<br />
k eine gute Approximation der inversen Hesse-Matrix angestrebt:<br />
H −1<br />
k ≈<br />
<br />
∇ 2 χ 2 ( Nk)<br />
−1<br />
. (6.20)<br />
Der Vorteil beim BFGS-Update ist, dass neben den Updates der Matrix Hk auch<br />
Updates der inversen Matrix H −1<br />
k berechnet werden können. Über die "Sherman-<br />
Morrison-Woodbury-Formel" [GT97] kann aus (6.18) der folgende Ausdruck hergeleitet<br />
werden, der als inverser BFGS-Update bezeichnet wird:<br />
H −1<br />
k+1 = H−1<br />
k + (sk − H −1<br />
k · yk) · s T k + sk · (sk − H −1<br />
k · yk) T<br />
y T k · sk<br />
− (sk − H −1<br />
k · yk) T · yk<br />
(y T · (sk · s<br />
k · sk) 2<br />
T k ) , y T k · sk = 0 .<br />
(6.21)<br />
Hier kommt nun die Stärke des BFGS-Updates zur Geltung. Anstelle des Updates<br />
(6.18) kann der inverse Update (6.21) verwendet werden. Der Rechenaufwand dieser<br />
beiden Updates ist ungefähr der Gleiche. Nach dem inversen BFGS-Update kann<br />
über (6.19) (also lediglich eine Matrix-Vektor-Multiplikation) die Suchrichtung dk<br />
berechnet werden. Damit kann das Lösen eines linearen Gleichungssystemes oder<br />
eine Matrixinvertierung vollständig umgangen werden.<br />
Bemerkungen:<br />
68
6.4 Das inverse BFGS-Verfahren mit Armijo-Schrittweite und Winkeltest<br />
• Wird das inverse BFGS-Update verwendet, dann wird das Verfahren inverses<br />
BFGS-Verfahren genannt.<br />
• Beim inversen BFGS-Verfahren muss als Startmatrix anstelle von H0 eine inverse<br />
H −1<br />
0 vorgegeben werden. Es kann weiterhin als Startmatrix die Einheitsmatrix<br />
I verwendet werden, denn trivialerweise gilt:<br />
H0 = I =⇒ H −1<br />
0 = I . (6.22)<br />
• Die Auswertung der inversen BFGS-Aufdatierungsformel (6.21) benötigt O(p 2 )<br />
Punktoperationen [Alt02].<br />
6.4 Das inverse BFGS-Verfahren mit<br />
Armijo-Schrittweite und Winkeltest<br />
Unten wird die Iterationsvorschrift des BFGS-Verfahrens angegeben, die in TRiP<br />
implementiert ist. Dabei wird das inverse BFGS-Update verwendet und zur Schrittweitensteuerung<br />
wird das Armijo-Verfahren benutzt. Des Weiteren ist ein Winkeltest<br />
implementiert, der für das Konvergenzverhalten des Verfahrens eine große Rolle<br />
spielt und weiter unten näher betrachtet wird. Mit der angegeben Variante wurden<br />
die besten Ergebnisse beim BFGS-Verfahren erzielt. Die anderen Varianten, die<br />
ebenfalls in TRiP implementiert sind und ausgewertet wurden, werden in Abschnitt<br />
6.6 diskutiert.<br />
Algorithmus: BFGS-Verfahren (BFGS)<br />
1. Setze δ = 0.5, γ = 10 −2 und τ = 0.15.<br />
2. Wähle als Startmatrix H −1<br />
0 = I.<br />
3. Bestimme einen Startpunkt N0 und setze k := 0.<br />
4. Falls eine Abbruchbedingung erfüllt ist, dann steige mit der Lösung Nk aus.<br />
5. Berechne die BFGS-Suchrichtung d BFGS<br />
k<br />
6. Falls<br />
−∇χ2 ( Nk) T · dBFGS k<br />
||∇χ2 ( Nk)|| · || dBFGS k<br />
erfüllt ist, dann verwende als Suchrichtung<br />
= −H −1<br />
k · ∇χ 2 ( Nk).<br />
|| ≥ τ , ||∇χ2 ( Nk)|| ∧ || d BFGS<br />
k || = 0 , (6.23)<br />
dk = d BFGS<br />
k , (6.24)<br />
69
6 BFGS-Verfahren<br />
führe Schritt 7 aus und überspringe Schritt 8.<br />
Ist (6.23) nicht erfüllt, dann verwende als Suchrichtung<br />
und mache weiter mit Schritt 8.<br />
7. Berechne die Startschrittweite µmax,k über (4.12).<br />
dk = −∇χ 2 ( Nk) (6.25)<br />
8. Berechne die Startschrittweite µmax,k über µBio aus (4.10).<br />
9. Bestimme eine Schrittweite µk über das Armijo-Verfahren.<br />
10. Berechne einen neuen Teilchenzahlenvektor Nk+1 = Nk + µk dk.<br />
11. Berechne sk = Nk+1 − Nk und yk = ∇χ 2 ( Nk+1) − ∇χ 2 ( Nk).<br />
12. Berechne H −1<br />
k+1 nach dem inversen BFGS-Update (6.21).<br />
13. Setze k := k + 1 und gehe zurück zu Schritt 4.<br />
Bei (6.23) handelt es sich um den sogenannten Winkeltest. Dabei wird der Winkel<br />
zwischen dem negativen Gradienten der χ2-Funktion an der Stelle Nk und der<br />
BFGS-Suchrichtung dBFGS k berechnet. Der negative Gradient der Zielfunktion steht<br />
orthogonal auf den Höhenlinien. Ist der Winkel zwischen −∇χ2 ( Nk) und dBFGS k exakt<br />
90 ◦ , dann würde das den Fall repräsentieren, dass man mit der BFGS-Suchrichtung<br />
anfangs entlang der Höhenlinie läuft. In dem entsprechenden Iterationsschritt könnte<br />
dann die Zielfunktion nicht minimiert werden. Ist der Winkel nahe bei 90 ◦ (z.B.<br />
zwischen 80 ◦ und 90 ◦ ), würde man mit dem Schritt die Zielfunktion wahrscheinlich<br />
nur geringfügig minimieren können. Mit dem Winkeltest kann dies verhindert<br />
werden. Die Idee dabei ist, dass wenn die berechnete BFGS-Suchrichtung zu nahe<br />
an den Höhenlinien liegt, dass diese dann verworfen wird und in dem aktuellen Iterationsschritt<br />
der negative Gradient als Suchrichtung verwendet wird. Man ersetzt<br />
damit in einem Iterationsschritt den BFGS-Schritt mit einem Schritt des GRVs.<br />
In dem hier angegebenen BFGS-Algorithmus wird τ = 0.15 als kritischer Winkel-<br />
wert verwendet. Es gilt4 arccos(0.15) ≈ 81, 373. D.h., dass zwischen dem negativem<br />
Gradienten der Zielfunktion an der Stelle Nk und der BFGS-Suchrichtung dBFGS k ein<br />
Winkel von 81, 37◦ noch toleriert wird. Ist der Winkel größer (und damit ziemlich<br />
nahe an der entsprechenden Höhenlinie), dann wird die BFGS-Suchrichtung mit der<br />
Suchrichtung vom GRV überschrieben.<br />
Der Winkeltest ist bei Newton-artigen-Verfahren als auch bei Quasi-Newton-<br />
Verfahren sinnvoll, obwohl man ihn selten in der Literatur findet. Bei beiden Verfahren<br />
werden in jedem Iterationsschritt Approximationen für die Hesse-Matrix verwendet.<br />
Ist in einem Iterationsschritt die Approximation schlecht, dann kann die<br />
4 Für den Winkel φ zwischen den Vektoren v und w gilt:<br />
70<br />
〈v,w〉<br />
||v||·||w|| = cos φ.
6.5 Konvergenzergebnisse und Diskussion<br />
schlechte Approximation mit dem Winkeltest abgesichert werden. Anstelle eines<br />
Schrittes, in dem die schlecht approximierte Matrix verwertet wird, kann der Schritt<br />
mit dem robusten Gradientenverfahren ersetzt werden. Dies trägt zur allgemeinen<br />
Robustheit des Verfahrens bei und verbessert in der Regel auch die Konvergenzgeschwindigkeit.<br />
Neben dem hier beschriebenen Winkeltest gibt es noch den "allgemeinen<br />
Winkeltest", der in [Ulb07] beschrieben ist.<br />
Weitere Bemerkungen zum BFGS-Algorithmus:<br />
• Die Konstanten δ und γ werden für das Armijo-Verfahren verwendet.<br />
• Bei dem obigen BFGS-Verfahren wird als Startmatrix die Einheitsmatrix I<br />
verwendet. Daher ist der erste Schritt des Verfahrens ein Schritt des GRVs.<br />
• Die Wahl der Startschrittweite für das Armijo-Verfahren hängt von der letztendlich<br />
verwendeten Suchrichtung dk ab. Wird die BFGS-Suchrichtung verwendet,<br />
dann wird die Startschrittweite über das Minimum der quadratischen<br />
Interpolation (4.12) berechnet (Schritt 7 im BFGS-Algorithmus). Wird als<br />
Suchrichtung der negative Gradient verwendet, dann wird als Startschrittweite<br />
µBio aus (4.10) verwendet (Schritt 8 im BFGS-Algorithmus), da sich diese<br />
bereits bei dem GRV und KGV bewährt hat. Dies wird nochmals in Abschnitt<br />
6.6 aufgegriffen und näher erklärt.<br />
• Für allgemeine nichtlineare Zielfunktionen ist der Beweis der globalen Konvergenz<br />
des inversen BFGS-Verfahrens mit Armijo-Schrittweite ein offenes Problem<br />
5 . Ist die Zielfunktion auf einer Niveau-Menge gleichmäßig konvex, dann<br />
kann die globale Konvergenz gezeigt werden [Ulb07]. Ist die Hesse-Matrix der<br />
Zielfunktion in einer lokalen Umgebung eines Minimums Lipschitz-Stetig, dann<br />
konvergiert das Verfahren in dieser Umgebung superlinear.<br />
6.5 Konvergenzergebnisse und Diskussion<br />
Abbildung 6.1 zeigt die Minimierung der χ 2 -Funktion mit dem inversen BFGS-<br />
Verfahren, welches im vorherigen Abschnitt detailliert beschrieben wurde, als Funktion<br />
der Iterationsschritte. Diesmal wurden 150 Iterationsschritte zugelassen. Abbildung<br />
6.2 zeigt das entsprechende Ergebnis der Minimierung bzgl. der Rechenzeit.<br />
Für einen Vergleich werden die Ergebnisse mit denen des KGVs, da sich dieses gegenüber<br />
dem GRV sowohl in den Iterationsschritten als auch in der Rechenzeit als<br />
das bessere Verfahren gezeigt hatte, gegenübergestellt.<br />
Bei der Minimierung bzgl. der Iterationsschritte ist beim BFGS-Verfahren am<br />
Anfang ein relativ steiler Abfall der Funktionswerte der χ 2 -Funktion zu erkennen.<br />
5 Konvergenzuntersuchungen zu Quasi-Newton-Verfahren gestalten sich generell als sehr schwierig,<br />
da neben Approximationseigenschaften der Update-Matrizen Hk für die Aufdatierungen<br />
Störungsaussagen aus der linearen Algebra einbezogen werden müssen.<br />
71
6 BFGS-Verfahren<br />
Im weiteren Verlauf wird dieser Abfall stets flacher. Im Vergleich zum KGV arbeitet<br />
das BFGS-Verfahren im Einzugsgebiet schlechter. Nach dem Einzugsgebiet ist das<br />
BFGS-Verfahren effizienter als das KGV, da der Abfall der χ 2 -Funktionswerte steiler<br />
ist. Dies kann wahrscheinlich damit begründet werden, dass das BFGS-Verfahren<br />
Krümmungsinformationen der Zielfunktion verarbeitet und damit in der flachen Region<br />
besser arbeitet. Da jedoch das KGV im Einzugsgebiet deutlich effizienter ist,<br />
schafft es das BFGS-Verfahren auch nicht nach 150 Iterationsschritten das KGV zu<br />
überholen (besser zu minimieren). Beim 150 Iterationsschritt ist jedoch mit beiden<br />
Verfahren ein Level von ca. 0.9 der χ 2 -Funktion erreicht. Das Abbruchkriterium<br />
(4.6) (siehe Abschnitt 4.4.4), mit ɛ1 = 10 −8 , wird mit beiden Verfahren nicht erfüllt.<br />
Weitere Auswertungen haben ergeben, dass das inverse BFGS-Verfahren das KGV<br />
ca. im 180. Iterationsschritt überholt. Im weiteren Verlauf kann jedoch mit dem inversen<br />
BFGS-Verfahren nur noch eine wenig bessere Minimierung der χ 2 -Funktion<br />
errreicht werden. Dies liegt daran, dass sich beide Verfahren bereits in relativ niedrigen<br />
Bereichen befinden, in denen nicht mehr viel minimiert werden kann.<br />
Die Minimierung der χ 2 -Funktion bzgl. der Rechenzeit ist in Abbildung 6.2 zu<br />
sehen. Man sieht, dass das BFGS-Verfahren nicht wesentlich mehr Rechenzeit als<br />
das KGV benötigt, ein Unterschied ist jedoch sichtbar. Dies liegt daran, dass beim<br />
BFGS-Verfahren in jedem Iterationsschritt das Matrixupdate stattfindet. Das KGV<br />
benötigt bis zum Ende ca. 2100s. Das BFGS-Verfahren benötigt zu dem fast gleichen<br />
Endpunkt ca. 3250s. Dies ist ein Faktor von ca. 1.55 mehr Rechenzeit.<br />
Im Gesamturteil ist das KGV besser als das BFGS-Verfahren. Nach 150 Iterationsschritten<br />
ist zwar ein ähnliches Level der χ 2 -Funktion erreicht, das BFGS-<br />
Verfahren benötigt aber mehr Rechenzeit. Ein weiterer Nachteil des BFGS-Verfahrens<br />
gegenüber dem KGV ist, dass in jedem Iterationsschritt die Update-Matrix<br />
gespeichert werden muss. Schon bei dem "kleinen" Patientenplan #135 besitzt die<br />
Update-Matrix ca. 19600 2 Elemente. Werden die Matrixelemente in doppelter Genauigkeit<br />
abgespeichert (also in der Programmiersprache C im "double"-Format mit<br />
8 Byte pro Matrixelement), dann ergibt sich ein Speicheraufwand von ca. 2.9GB für<br />
die Update-Matrix. Z.B. bei einem Optimierungsproblem mit der Dimension von<br />
80000 beträgt der Speicheraufwand für die Update-Matrix ca. 47.7GB bei doppelter<br />
Genauigkeit, was eine hohe Anforderung ist.<br />
Auswertungen haben ergeben, dass die Hesse-Matrizen ∇ 2 χ 2 ( Nk), unabhängig<br />
von k, schwach besetzt sind. Ca. 80-90% der Werte sind 0 oder vernachlässigbar klein.<br />
Die restlichen Werte sind in Clustern durch die gesamte Matrix verteilt [Hor08].<br />
Auch wenn die Hesse-Matrizen ∇ 2 χ 2 ( Nk) schwach besetzt sind, sind die Update-<br />
Matrizen Hk in der Regel voll besetzt [Spe99]. Es ist schwieriger, mit einer vollbesetzten<br />
Matrix Hk die dünnbesetzte Matrix ∇ 2 χ 2 ( Nk) gut zu approximieren, was die<br />
Voraussetzung für ein gutes Konvergenzverhalten eines Quasi-Newton-Verfahrens<br />
ist. Dies könnte ein Grund sein, warum das inverse BFGS-Verfahren bzgl. der Iterationsschritte<br />
nicht effizienter als das KGV arbeitet.<br />
72
χ 2<br />
6.5 Konvergenzergebnisse und Diskussion<br />
Iteration<br />
Abbildung 6.1: Minimierung der χ 2 -Funktion mit dem BFGS-Verfahren und KGV als Funktion<br />
der Iterationsschritte. Detaillierte Bildbeschreibung und Diskussion befindet sich im Text.<br />
χ 2<br />
KGV<br />
ca. 2100s<br />
❏<br />
❏❏❏❏❏❏❫<br />
χ2-Level von ca. 0.9<br />
❏<br />
❏❏❫<br />
Zeit [s]<br />
BFGS<br />
ca. 3250s<br />
❏<br />
❏❏❏❫<br />
Abbildung 6.2: Minimierung der χ 2 -Funktion mit dem BFGS-Verfahren und KGV als Funktion<br />
der Rechenzeit. Detaillierte Bildbeschreibung und Diskussion befindet sich im Text.<br />
73
6 BFGS-Verfahren<br />
6.6 Weitere implementierte und ausgewertete<br />
Varianten des inversen BFGS-Verfahrens und<br />
zusätzliche Bemerkungen<br />
Der Vollständigkeit halber werden hier alle anderen Varianten des inversen BFGS-<br />
Verfahrens angegeben, die in TRiP implementiert und ausgewertet wurden. Die<br />
anderen Varianten haben schlechtere Ergebnisse geliefert als das inverse BFGS-<br />
Verfahren aus Abschnitt 6.4. Aus diesem Grund werden von den anderen Varianten<br />
an dieser Stelle keine Konvergenzergebnisse gezeigt. Des Weiteren werden in diesem<br />
Abschnitt zusätzliche Bemerkungen zum inversen BFGS-Verfahren aus Abschnitt<br />
6.4 gemacht.<br />
74<br />
• Bei allen Varianten des inversen BFGS-Verfahrens war der Winkeltest notwendig<br />
für ein gutes Konvergenzverhalten. D.h., dass im Verfahren öfters Suchrichtungen<br />
dBFGS k erzeugt wurden, die nahe an der Höhenlinie lagen. Ohne den<br />
Winkeltest war die Konvergenzgeschwindigkeit des entsprechenden inversen<br />
BFGS-Verfahrens sehr langsam (sogar wesentlich langsamer als beim GRV).<br />
[HDK10]<br />
• Beim Winkeltest wurden für den kritischen Winkelwert τ in allen inversen<br />
BFGS-Varianten Werte von 0.05, 0.1, 0.15, ...,0.5 getestet. In den meisten<br />
Fällen wurden mit τ = 0.15 die besten Konvergenzergebnisse erzielt. War der<br />
Wert kleiner, dann wurden BFGS-Suchrichtungen zugelassen, die zu nah an<br />
den Höhenlinien waren. Daraus folgte oft eine sehr geringe Minimierung der<br />
Zielfunktion. Bei größeren Werten für τ verhielt sich das Verfahren sehr ähnlich<br />
wie das GRV.<br />
• Wurde als Suchrichtung die BFGS-Suchrichtung verwendet, also<br />
dk = d BFGS<br />
k , (6.26)<br />
dann wurden die besten Konvergenzergebnisse erzielt, wenn die Startschrittweite<br />
µmax,k für das Armijo-Verfahren über das Minimum der quadratischen<br />
Interpolation (4.12) berechnet wurde. Näheres dazu im übernächsten Punkt.<br />
• Ergibt sich aus dem Winkeltest, dass die aktuelle Suchrichtung der negative<br />
Gradient ist, also:<br />
dk = −∇χ 2 ( Nk) , (6.27)<br />
dann werden die besten Konvergenzergebnisse erreicht, wenn die Startschrittweite<br />
µmax,k für das Armijo-Verfahren über µBio aus (4.10) berechnet wird.<br />
Näheres dazu im nächsten Punkt.<br />
• Auswertungen haben folgendes ergeben: Für die Norm der Suchrichtung über<br />
den negativen Gradienten gilt || − ∇χ2 ( Nk)|| < 1 ∀ k und für die Norm der<br />
BFGS-Suchrichtung gilt || dBFGS k || > 1 ∀ k. Es konnte beobachtet werden, dass
6.6 Weitere implementierte und ausgewertete Varianten des inversen<br />
BFGS-Verfahrens und zusätzliche Bemerkungen<br />
wenn die Norm der Suchrichtung klein ist, dass sich als Startschrittweite für<br />
das Armijo-Verfahren µBio besser eignet. Ist die Norm der Suchrichtung größer,<br />
dann eignet sich als Startschrittweite für das Armijo-Verfahren das Minimum<br />
aus der quadratischen Interpolation (4.12). Daher erhält man die besten Konvergenzergebnisse<br />
mit dem inversen BFGS-Verfahren, wenn die Startschrittweite<br />
für das Armijo-Verfahren vom Typen der Suchrichtung abhängt.<br />
Mit der Variante des inversen BFGS-Verfahrens aus Abschnitt 6.4 erhält man<br />
die besten Konvergenzergebnisse. Es konnte sogar beobachtet werden, dass<br />
mit dieser Variante dass Armijo-Verfahren in fast allen Iterationsschritten die<br />
Startschrittweite nicht verkleinern muss. Dies lässt folgendes vermuten: Falls in<br />
einem Iterationsschritt die Suchrichtung −∇χ2 ( Nk) verwendet wird, wird mit<br />
der Schrittweite µBio eine gute Approximation der exakten Schrittweite erzielt.<br />
Wird als Suchrichtung dBFGS k verwendet, dann erhält man über das Minimum<br />
der quadratischen Interpolation (4.12) eine gute Approximation der exakten<br />
Schrittweite. Dass die Startschrittweite des Armijo-Kriteriums (4.11) fast immer<br />
akzeptiert wird, spielt für die benötigte Gesamtrechenzeit des Verfahrens<br />
eine bedeutende Rolle. Es werden dann keine zusätzlichen Funktionsauswertungen<br />
benötigt. Diese sind hier relativ teuer, da bei einer Auswertung der<br />
χ2-Funktion die RBW-Werte berechnet werden müssen, was zeitaufwendig ist.<br />
• Wurden die Werte für die Startschrittweite für das Armijo-Verfahren manuell<br />
gewählt, z.B. µmax,k = 1, 2 oder 4, dann waren die Konvergenzergebnisse nicht<br />
schlecht aber auch nicht zufriedenstellend.<br />
• Bei der BFGS-Suchrichtung dBFGS k wurde für das Armijo-Verfahren als Startschrittweite<br />
die folgende implementiert:<br />
µmax,k = || Nk||<br />
|| dk||<br />
, || dk|| = 0 . (6.28)<br />
Auswertungen haben ergeben, dass diese Startschrittweite zu groß ist. Das<br />
Armijo-Verfahren musste die Startschrittweite oft (ca. 5-10) verkleinern. Durch<br />
die zusätzlichen Auswertungen der χ 2 -Funktion wird damit viel Rechenzeit<br />
beansprucht. Die Ergebnisse mit dieser Startschrittweite bzgl. der Iterationsschritte<br />
waren ähnlich wie in Abbildung 6.1. Durch die langen Rechenzeiten<br />
war das Ergebnis bzgl. der Rechenzeit relativ schlecht.<br />
Weitere Auswertungen haben ergeben, dass bei der Startschrittweite (6.28)<br />
die letztendlich akzeptierte Schrittweite ähnlich wie die Schrittweite aus dem<br />
Minimum der quadratischen Interpolation ist. Dies festigt die Vermutung, die<br />
schon weiter oben genannt wurde, dass mit der Schrittweite aus dem Minimum<br />
der quadratischen Interpolation (4.12) eine gute Approximation der exakten<br />
Schrittweite erzielt wird.<br />
• Für die Konstanten δ und γ im Armijo-Verfahren wurden in allen Varianten<br />
des inversen BFGS-Verfahrens verschiedene Werte überprüft. Es wur-<br />
75
6 BFGS-Verfahren<br />
76<br />
den jeweils, in Kombination miteinander, δ = 0.75, 0.66, 0.5, 0.33, 0.25 und<br />
γ = 10 −1 , 10 −2 , 10 −3 , . . . , 10 −5 ausprobiert. Die besten Konvergenzergebnisse<br />
wurden mit δ = 0.5 und γ = 10 −2 erzielt. Dies konnte in den meisten Varianten<br />
des inversen BFGS-Verfahrens beobachtet werden.<br />
• Restarts beim inversen BFGS-Verfahren (D.h., dass die Update-Matrix H −1<br />
k<br />
in einem gewissen Iterationsschritt k mit der Einheitsmatrix I "neu gestartet"<br />
wird [Alt02]) zeigten stets eine Verschlechterung der Konvergenzergebnisse.
7 Zusammenfassung und Ausblick<br />
7.1 Zusammenfassung<br />
Im Pilotprojket der <strong>GSI</strong> wurden von 1997 bis 2008 ca. 440 Tumorpatienten mit<br />
schweren Ionen unter Verwendung des Rasterscan-Verfahrens bestrahlt. Dabei wurden<br />
ausschließlich Kohlenstoffionen verwendet, da diese durch ihren scharfen Bragg-<br />
Peak und ihre hohe RBW besonders geeignete Eigenschaften besitzen. Die Erfolgsquoten<br />
von dieser neuartigen Strahlentherpaie waren so vielversprechend, dass seit<br />
2008 das dedizierte Heidelberger Ionenstrahl-Therapiezentrum HIT die Schwerionentherapie<br />
im klinischen Routinebetrieb weiterführt. Die Patiententherapie findet nur<br />
noch am HIT statt, dennoch ist die Schwerionentherapie weiterhin Gegenstand intensiver<br />
Forschung an der <strong>GSI</strong>.<br />
Für jeden Patienten muss vor der Bestrahlung ein individueller Bestrahlungsplan<br />
erstellt werden. Dafür wurde an der <strong>GSI</strong> die Bestrahlungsplanungssoftware<br />
TRiP entwickelt. Ein wesentlicher Bestandteil der Bestrahlungsplanung ist die Optimierung<br />
der Dosis. Das Ziel dabei ist eine homogene Dosisverteilung durch den<br />
Tumor zu erhalten, die nahe an der vorgeschriebenen Dosis liegt. Des Weiteren<br />
soll die resultierende Dosisverteilung im gesunden Gewebe so niedrig wie möglich<br />
sein und in kritischen Organen gewisse Dosis-Grenzwerte nicht überschreiten. Diese<br />
Kriterien können mathematisch in einem Optimierungsproblem formuliert werden.<br />
Werden biologische Effekte berücksichtigt, d.h. eine Einbeziehung der RBW, dann<br />
wird das Optimierungsproblem nichtlinear. Der Kerngedanke der Optimierung ist,<br />
dass die quadratischen Abweichungen zwischen vorgeschriebener Dosis und tatsächlich<br />
erzeugter Dosis in den Voxeln minimiert werden, was mit einem Zielfunktional<br />
modelliert wird. Dabei sind die Teilchenzahlen für die Rasterpunkte die freien und zu<br />
optimierenden Variablen. Eine mathematische Analyse des Optimierungsproblems<br />
ergibt, dass es sich um eine nichtlineare endlichdimensionale ungleichungsrestringierte<br />
Funktionalminimierung handelt. Die theoretische Betrachtung und numerische<br />
Lösung des Optimierungsproblemes waren Schwerpunkt dieser Master-Thesis.<br />
Nach der Beschreibung des Optimierungsproblemes wurde dieses theoretisch betrachtet.<br />
Eine Stetigkeitsuntersuchung der Zielfunktion ergab, dass diese wegen der<br />
vorkommenden Heaviside-Funktion nicht stetig ist. Für die Existenzuntersuchung<br />
konnte damit der Extremwertsatz von Weierstraß nicht angewendet werden, da dieser<br />
die Stetigkeit der Zielfunktion voraussetzt. Zudem ist die zulässige Menge des<br />
Optimierungsproblems nicht beschränkt, was eine weitere Voraussetzung des Extremwertsatzes<br />
von Weierstraß ist. Aus diesem Grund wurde für den Existenzbeweis<br />
eine Erweiterung des Extremwertsatzes von Weierstraß verwendet, die die Unter-<br />
77
7 Zusammenfassung und Ausblick<br />
halbstetigkeit und radiale Unbeschränktheit der Zielfunktion voraussetzt. Nach dem<br />
diese beiden Eigenschaften für das Zielfunktional bewiesen werden konnten, konnte<br />
die Existenz mindestens eines globalen Minimums des Optimierungsproblemes bewiesen<br />
werden. Die Eindeutigkeit eines globalen Minimums konnte nicht nachgewiesen<br />
werden, da die Zielfunktion nicht konvex ist. Damit können Standardtechniken,<br />
mit denen Eindeutigkeitsbeweise für Minima geführt werden, nicht angewendet werden.<br />
Des Weiteren wurde die Zielfunktion in dieser Arbeit mit einer angepassten<br />
Tangens Hyperbolicus-Funktion geglättet. Dies war notwendig, damit die Karush-<br />
Kuhn-Tucker-Bedingungen zu dem Optimierungsproblem angegeben werden konnten.<br />
Diese sind die notwendige Optimalitätsbedingung erster Ordnung und besitzen<br />
nur bei einer stetig-differenzierbaren Zielfunktion ihre Gültigkeit.<br />
Für die numerische Lösung des Optimierungsproblemes wurden Linesearch-Verfahren<br />
verwendet. Als erstes wurden diese allgemein eingeführt und deren Arbeitsweise<br />
geschildert. Als Schrittweitensteurung wurden in dieser Arbeit zwei Techniken<br />
verwendet. Bei der einen Technik wird eine skalierte Schrittweite von einem<br />
einfacheren linearen Optimierungsproblem verwendet, bei dem die biologischen<br />
Effekte vernachlässigt werden und die andere Technik ist die bekannte Armijo-<br />
Schrittweitensteuerung. Bei der Armijo-Schrittweite wurden unterschiedliche Startschrittweiten<br />
verwendet. Als Linesearch-Verfahren wurden in dieser Arbeit das Gradientenverfahren,<br />
das konjugierte Gradientenverfahren und das inverse BFGS-Verfahren<br />
in TRiP implementiert und ausgewertet. Deren Arbeitsweise, Vor- und Nachteile<br />
als auch diverse Varianten dieser Verfahren wurden diskutiert. Die besten Minimierungsergebnisse<br />
von den Varianten dieser Verfahren wurden bei Verwendung<br />
des Patientenplanes #135 bzgl. der Iterationsschritte als auch der Rechenzeit gegenübergestellt.<br />
Das Gradientenverfahren schneidet dabei am schlechtesten ab. Bzgl. der<br />
Iterationsschritte arbeiten das inverse BFGS-Verfahren und das konjugierte Gradientenverfahren<br />
ähnlich effizient. Wegen den benötigten Matrixupdates braucht jedoch<br />
das inverse BFGS-Verfahren ca. um einen Faktor von 1.5 mehr Rechenzeit als das<br />
konjugierte Gradientenverfahren. Obwohl beim inversen BFGS-Verfahren viele Varianten<br />
versucht wurden, konnten mit diesem keine besseren Konvergenzergebnisse<br />
als mit dem konjugierten Gradientenverfahren erzielt werden.<br />
In [Hor08] wurde die Levenberg-Marquardt-Minimierung [Lev44, Mar63] für die numerische<br />
Lösung des Optimierungsproblemes untersucht. Dabei konnte beobachtet<br />
werden, das dass Minimierungsergebnis bzgl. der Iterationsschritte sehr gut ist (sogar<br />
deutlich besser als beim konjugierten Gradientenverfahren). Da die auftretenden<br />
Gleichungssysteme in jedem Iterationsschritt mit dem Cholesky-Verfahren gelöst<br />
wurden, ist die Levenberg-Marquardt-Minimierung in dieser Variante extrem zeitaufwendig.<br />
Damit ist das konjugierte Gradientenverfahren im Gesamturteil immer<br />
noch geeigneter für die Optimierung in der Bestrahlungsplanung als diese Variante<br />
der Levenberg-Marquardt-Minimierung.<br />
In der Arbeit [Bus09] wurden die auftretenden linearen Gleichungssysteme in<br />
der Levenberg-Marquardt-Minimierung mit den Krylov-Unterraum-Verfahren gelöst.<br />
Dabei konnten die Rechenzeiten zwar signifikant verringert werden, die Ge-<br />
78
7.2 Ausblick<br />
samtrechenzeit der Levenberg-Marquardt-Minimierung war dennoch deutlich höher<br />
als beim konjugierten Gradientenverfahren.<br />
Ein weiterer Schwerpunkt der Arbeit [Bus09] war das konjugierte Gradientenverfahren.<br />
Dort wurden viele Varianten von diesem untersucht, wie z.B. die von Polak-<br />
Ribiere und Hestenes-Stiefel. Auch in der Arbeit [Bus09] hat sich gezeigt, dass die<br />
besten Konvergenzergebnisse bei der numerischen Lösung des Optimierungsproblemes<br />
mit der Fletcher-Reeves Variante des konjugierten Gradientenverfahrens erreicht<br />
werden.<br />
Der gegenwärtige Stand ist, dass bei der nichtlinearen Dosisoptimierung in der<br />
Schwerionentherapie die Fletcher-Reeves Variante des konjugierten Gradientenverfahrens<br />
das geeignetste Verfahren ist. Mit diesem Verfahren kann der Optimierungsschritt<br />
in der Bestrahlungsplanung in einer angemessen Zeit durchgeführt werden.<br />
Die gegenwärtigen Konvergenzergebnisse als auch die resultierenden Dosisverteilungen<br />
sind relativ zufriedenstellend. Des Weiteren eignet sich das konjugierte Gradientenverfahren,<br />
da es keine großen Speicherressourcen beansprucht und robust ist.<br />
7.2 Ausblick<br />
Folgende Ideen könnten in der Zukunft bei der nichtlinearen Dosisoptimierung eingebracht<br />
werden:<br />
• Es könnten Modifikationen an der Zielfunktion vorgenommen werden. Z.B.<br />
könnten Optimierungsergebnisse betrachtet werden, wenn als Zielfunktion die<br />
geglättete Zielfunktion aus (3.23) verwendet wird.<br />
• Für die numerische Lösung des Optimierungsproblemes könnten die sog. Innere-<br />
Punkte-Verfahren getestet werden.<br />
• Die auftretenden Gleichungssysteme bei der Levenberg-Marquardt-Minimierung<br />
könnten mit UMFPACK [Dav04] gelöst werden. Damit könnte das gute<br />
Konvergenzverhalten der Levenberg-Marquardt-Minimierung bzgl. der Iterationsschritte<br />
ausgenutzt werden. Mit UMFPACK können dünnbesetzte lineare<br />
Gleichungssysteme sehr schnell gelöst werden. Dabei werden Matrixpermutationen<br />
geschickt eingesetzt.<br />
• Beim KGV könnte eine Implementierung des Winkeltestes, ähnlich wie beim<br />
inversen BFGS-Verfahren, untersucht werden.<br />
• Beim KGV könnte die Armijo-Schrittweite und die Powell-Wolfe-Schrittweite<br />
eingebaut werden. Die Powell-Wolfe-Schrittweite ist eine Erweiterung der Armijo-Schrittweite.<br />
Diese kann die Startschrittweite auch vergrößern.<br />
• Beim BFGS-Verfahren könnte die Powell-Wolfe-Schrittweite implementiert werden.<br />
79
7 Zusammenfassung und Ausblick<br />
• Anstelle des BFGS-Updates könnte das Limited-Memory-BFGS-Update (L-<br />
BFGS) verwendet werden. Dabei werden nicht Updates der ganzen Matrix<br />
berechnet, sondern nur von den relevanten Matrixeinträgen. Mit dem L-BFGS-<br />
Verfahren kann viel Speicherplatz gespart werden.<br />
• Es könnten Auswertungen gemacht werden, wie bei der numerischen Lösung<br />
des Optimierungsproblemes die Linesearch-Verfahren geeignet miteinander<br />
kombiniert werden können. Beispielsweise könnte im Einzugsgebiet das KGV<br />
verwendet werden und in einem geeigneten Iterationsschritt könnte dann die<br />
Levenberg-Marquardt-Minimierung oder das inverse BFGS-Verfahren "eingeschaltet"<br />
werden.<br />
In Abschnitt 1.5 wurde erwähnt, dass die <strong>GSI</strong> an einer Weiterentwicklung der Schwerionentherapie<br />
arbeitet. Zwei Punkte bei der Erweiterung der Therapie, wo die Optimierung<br />
eine Rolle spielt, sind:<br />
80<br />
• Bei der Patientenbehandlung soll in Zukunft die adaptive Therapie angewendet<br />
werden. Hierbei soll z.B. der sogenannte Hypoxia-Effekt berücksichtigt<br />
werden. Dies erfordet eine neue Formulierung des Optimierungsproblemes. Des<br />
Weiteren wird dabei auch der LET optimiert. Näheres dazu findet sich z.B. in<br />
[SKD10].<br />
• Mit dem Schwerionenstrahl sollen auch Tumore bestrahlt werden, die im Thorax<br />
des Patienten liegen und sich unter Einfluss der Atmung und des Herzschlages<br />
bewegen. Dabei wird auch eine Optimierung der Dosis benötigt. Durch die<br />
Tumorbewegung wird die gesamte Bestrahlungsplanung wesentlich aufwendiger<br />
und komplexer als im statischen Fall, was auch zu einer aufwendigeren<br />
Optimierung führt. Weitere Details dazu, als auch zur Dosisoptimierung unter<br />
Einfluss der Bewegung, befindet sich in [BD11].
8 Anhang<br />
8.1 Beschleunigeranlage der <strong>GSI</strong><br />
Obere Abbildung zeigt den Grundriß der <strong>GSI</strong>-Beschleunigeranlage. Im linken Fenster<br />
sieht man die Vergrößerung des Therapieraumes, der sich im gelben Bereich befindet.<br />
Die wichtigsten Beschleunigerkomponenten für die Therapie an der <strong>GSI</strong> sind:<br />
1. Die Ionenquellen HLI: Hier werden die 12 C-Ionen erzeugt.<br />
2. Der Linearbeschleuniger UNILAC: Dient als Vorstufe der Beschleunigung.<br />
3. Der Schwerionensynchrotron SIS: In dem Kreisbeschleuniger werden die 12 C-<br />
Ionen auf die gewünschte Geschwindigkeit/Energie gebracht.<br />
81
8 Anhang<br />
8.2 Gradient und Hesse-Matrix der Dosis<br />
Hier wird der Gradient und die Hesse-Matrix für die physikalische, RBW-gewichtete<br />
und des analytischen Ausdrucks für die RBW-gewichtete Dosis angegeben. Gradient<br />
und Hesse-Matrix der entsprechenden Dosis werden besonders bei den Ableitungen<br />
der Zielfunktion benötigt (siehe nächsten Abschnitt). Die verschiedenen Dosistypen<br />
werden ausführlich in Abschnitt 2.2 behandelt. Dort sind auch die Bezeichnungen<br />
und mathematischen Forderungen für die vorkommenden Parameter angegeben. Diese<br />
werden hier in den Ableitungen nicht mehr angegeben.<br />
8.2.1 Gradient und Hesse-Matrix der physikalischen Dosis<br />
Hier werden die Ableitungen der physikalischen Dosis<br />
mit D i Phys<br />
Der Gradient ist<br />
mit ∇D i Phys<br />
: Rp<br />
≥0 → R≥0 ∀ i, angegeben.<br />
: Rp≥0<br />
→ Rp≥0<br />
∀ i.<br />
D i Phys( N) = c T i · N , (8.1)<br />
∇D i Phys( N) = ci , (8.2)<br />
Es ist offensichtlich, dass die Hesse-Matrix ∇ 2 D i Phys ( N) in jedem Voxel i die Nullmatrix<br />
ist.<br />
8.2.2 Gradient und Hesse-Matrix der RBW-gewichteten Dosis<br />
Hier werden die Ableitungen der RBW-gewichteten Dosis<br />
mit D i Bio<br />
Der Gradient ist<br />
mit ∇D i Bio<br />
: Rp<br />
≥0 → R≥0 ∀ i, angegeben.<br />
D i Bio( N) = D i Phys( N) · RBW i ( N) , (8.3)<br />
∇D i Bio( N) = ∇D i Phys( N) · RBW i ( N) + D i Phys( N) · ∇RBW i ( N) , (8.4)<br />
: Rp<br />
≥0 → Rp ∀ i.<br />
Die Hesse-Matrix ist<br />
∇ 2 D i Bio( N) = ∇D i Phys( N) · ∇RBW i ( N) T + ∇RBW i ( N) · ∇D i Phys( N) T<br />
mit ∇ 2 D i Bio ( N) ∈ R p×p ∀ i.<br />
82<br />
+ D i Phys( N) · ∇ 2 RBW i ( N) ,<br />
(8.5)
8.3 Gradient und Hesse-Matrix der Zielfunktion<br />
8.2.3 Gradient und Hesse-Matrix des analytischen Ausdrucks<br />
für die RBW-gewichtete Dosis<br />
Hier werden die Ableitungen des analytischen Ausdrucks für die RBW-gewichtete<br />
Dosis<br />
<br />
D i Bio(ana)( N) =<br />
αi · (c T i · N) + βi · (c T i · N) 2<br />
mit Di Bio(ana)<br />
obere Ausdruck ist stetig differenzierbar.<br />
Der Gradient ist<br />
βx<br />
+<br />
2 αx<br />
2βx<br />
− αx<br />
2βx<br />
, (8.6)<br />
: Rp<br />
≥0 → R≥0 ∀ i, angegeben. Wie bereits in 2.2.2 erwähnt wurde, der<br />
∇D i Bio(ana)( <br />
αi · (c<br />
N) = 0.5 ·<br />
T i · N) + βi · (c T i · N) 2<br />
βx<br />
<br />
αi + βi · 2 · (c T i · <br />
N)<br />
·<br />
βx<br />
mit ∇Di Bio(ana)<br />
Gradient komponentenweise stetig.<br />
· ci ,<br />
+<br />
αx<br />
2βx<br />
2 −0.5<br />
(8.7)<br />
: Rp<br />
≥0 → Rp ∀ i. Da (8.6) stetig differenzierbar ist, so ist der obere<br />
Aus Platzgründen wird die Hesse-Matrix ∇ 2 D i Bio(ana) ( N) hier nicht angegeben.<br />
8.3 Gradient und Hesse-Matrix der Zielfunktion<br />
In diesem Abschnitt wird der Gradient und die Hesse-Matrix der Zielfunktion angegeben.<br />
Die Zielfunktion wurde in Abschnitt 2.3 eingeführt und dort physikalisch,<br />
technisch und mathematisch diskutiert. Gradient und Hesse-Matrix der Zielfunktion<br />
werden jeweils für den Fall, dass mit der physikalischen, der RBW-gewichteten<br />
und mit dem analytischen Ausdruck für die RBW-gewichtete Dosis optimiert wird,<br />
angegeben. Gradient und Hesse-Matrix spielen bei den Verfahren zur Minimierung<br />
als auch bei der theoretischen Diskussion der Zielfunktion eine tragende Rolle. Wie<br />
bereits in 2.3.2 erwähnt wurde, beim Ableiten der Zielfunktion wird die Heaviside-<br />
Funktion Θ als konstanter Faktor behandelt.<br />
8.3.1 Gradient und Hesse-Matrix bei Optimierung der<br />
physikalischen Dosis<br />
Optimierung der physikalischen Dosis erfordert das Einsetzen von Di Phys für Di act in<br />
die Zielfunktion. Die Zielfunktion wird in diesem Fall mit χ2 Phys bezeichnet und hat<br />
83
8 Anhang<br />
folgende Gestalt:<br />
mit χ 2 Phys<br />
Der Gradient ist<br />
mit ∇χ 2 Phys<br />
χ 2 Phys( N) = <br />
: Rp≥0<br />
→ R≥0.<br />
<br />
Di pre − c T i · 2 N<br />
∆D<br />
i∈Target<br />
2 pre<br />
<br />
Di max − c T i · 2 N<br />
+ <br />
i∈OAR<br />
∇χ 2 Phys( N) = −2 <br />
: Rp<br />
≥0 → Rp .<br />
Die Hesse-Matrix ist<br />
− 2 <br />
∆D 2 max<br />
<br />
Di pre − c T i · <br />
N<br />
∆D<br />
i∈Target<br />
2 pre<br />
<br />
Di max − c T i · N<br />
i∈OAR<br />
∇ 2 χ 2 Phys( N) = 2 <br />
mit ∇ 2 χ 2 Phys ( N) ∈ R p×p .<br />
1<br />
∆D<br />
i∈Target<br />
2 pre<br />
+ 2 <br />
1<br />
∆D<br />
i∈OAR<br />
2 max<br />
∆D 2 max<br />
· ci · c T i<br />
· ci · c T i<br />
<br />
<br />
<br />
· Θ c T i · N − D i <br />
max<br />
· ci<br />
<br />
· ci · Θ c T i · N − D i <br />
max<br />
<br />
· Θ c T i · N − D i <br />
max<br />
8.3.2 Gradient und Hesse-Matrix bei Optimierung der<br />
RBW-gewichteten Dosis<br />
,<br />
,<br />
,<br />
(8.8)<br />
(8.9)<br />
(8.10)<br />
Optimierung der RBW-gewichteten Dosis erfordert das Einsetzen von Di Bio für Di act<br />
in die Zielfunktion. Die Zielfunktion wird in diesem Fall mit χ2 Bio bezeichnet und hat<br />
folgende Gestalt:<br />
84<br />
χ 2 Bio( N) = <br />
<br />
Di pre − Di Bio ( 2 N)<br />
∆D<br />
i∈Target<br />
2 pre<br />
<br />
Di max − Di Bio ( 2 N)<br />
+ <br />
i∈OAR<br />
∆D 2 max<br />
<br />
· Θ D i Bio( N) − D i <br />
max<br />
,<br />
(8.11)
mit χ 2 Bio<br />
: Rp≥0<br />
→ R≥0.<br />
Der Gradient ist<br />
∇χ 2 Bio( N) = −2 <br />
mit ∇χ 2 Bio<br />
− 2 <br />
<br />
Di pre − Di Bio ( <br />
N)<br />
∆D<br />
i∈Target<br />
2 pre<br />
<br />
Di max − Di Bio ( N)<br />
i∈OAR<br />
: Rp<br />
≥0 → Rp .<br />
Die Hesse-Matrix ist<br />
∇ 2 χ 2 Bio( N) = 2 <br />
⎡<br />
∆D 2 max<br />
⎣<br />
i∈Target<br />
∇Di Bio ( N) · ∇Di Bio ( N) T<br />
∆D2 pre<br />
+ 2 <br />
· Θ<br />
⎡<br />
mit ∇ 2 χ 2 Bio ( N) ∈ R p×p .<br />
⎣<br />
i∈OAR<br />
∇Di Bio ( N) · ∇Di Bio ( N) T<br />
∆D2 max<br />
<br />
D i Bio( N) − D i <br />
max ,<br />
<br />
8.4 Der Extremwertsatz von Weierstraß<br />
· ∇D i Bio( N)<br />
· ∇D i Bio( <br />
N) · Θ D i Bio( N) − D i <br />
max<br />
−<br />
−<br />
<br />
Di pre − Di Bio ( <br />
N)<br />
∆D2 pre<br />
<br />
Di max − Di Bio ( N)<br />
∆D 2 max<br />
<br />
,<br />
(8.12)<br />
· ∇ 2 D i Bio( N)<br />
· ∇ 2 D i Bio( N)<br />
8.3.3 Gradient und Hesse-Matrix bei Optimierung mit dem<br />
analytischen Ausdruck für die RBW-gewichtete Dosis<br />
⎤<br />
⎦<br />
⎤<br />
⎦<br />
(8.13)<br />
Bei Optimierung mit dem analytischen Ausdruck für die RBW-gewichtete Dosis<br />
muss Di Bio(ana) für Di act in die Zielfunktion eingesetzt werden. In diesem Fall wird<br />
die Zielfunktion mit χ2 Bio(ana) bezeichnet. Den Ausdruck χ2 Bio(ana) , den Gradienten<br />
∇χ2 Bio(ana) und die Hesse-Matrix ∇2χ2 Bio(ana) erhält man, wenn in χ2Bio , ∇χ2Bio und<br />
∇2χ2 Bio aus dem vorherigem Abschnitt 8.3.2 die Ausdrücke Di Bio , ∇Di Bio und ∇2Di Bio<br />
mit Di Bio(ana) , ∇Di Bio(ana) und ∇2Di Bio(ana) ersetzt werden.<br />
8.4 Der Extremwertsatz von Weierstraß<br />
Satz 8.1<br />
Es sei G ⊂ X, G nichtleer, eine kompakte Menge und f sei auf G eine stetige Funktion.<br />
Dann besitzt f auf G mindestens ein Optimum/Extremwert.<br />
Bemerkungen:<br />
85
8 Anhang<br />
• Der obige Satz ist in der Literatur in verschiedenen Versionen formuliert. Die<br />
obige Version richtet sich nach [GT97].<br />
• Häufig wird der obige Satz auch nur "Satz von Weierstraß" oder "Satz vom<br />
Maximum und Minimum einer Funktion" genannt.<br />
• Im endlichdimensionalen Raum ist die Kompaktheit einer Menge äquivalent<br />
zu ihrer Beschränktheit und Abgeschlossenheit. Diese Äquivalenz gilt nicht in<br />
unendlichdimensionalen Räumen [Trö09].<br />
• Der obige Satz liefert lediglich eine Aussage über die Existenz von mindestens<br />
einem Optimum. Über das Auffinden oder Eindeutigkeitsaussagen von<br />
optimalen Punkten müssen andere Techniken verwendet werden.<br />
Oftmals ist der Definitionsbereich G von f nicht kompakt. Der Satz von Weierstraß<br />
kann dennoch als Existenzkriterium für ein Minimum verwendet werden, wenn<br />
Niveau-Mengen betrachtet werden. Eine Niveau-Menge NM ist wie folgt definiert:<br />
Definition 8.2<br />
Sei G ⊂ R n , G nichtleer, f : G → R und x0 ∈ G. Die Menge<br />
heißt Niveau-Menge der Funktion f.<br />
NM(f, f(x0)) := {x ∈ G | f(x) ≤ f(x0)} (8.14)<br />
Jetzt kann der Satz von Weierstraß auf kompakte Niveau-Mengen angepasst werden.<br />
Satz 8.3<br />
Es sei G ⊂ R n , G nichtleer und f : G → R stetig auf G. Existiert ein x0 ∈ G, so<br />
dass die zugehörige Niveau-Menge<br />
NM(f, f(x0)) := {x ∈ G | f(x) ≤ f(x0)} (8.15)<br />
nichtleer und kompakt ist, dann besitzt f auf G mindestens ein globales Minimum.<br />
8.5 Unterhalbstetigkeit einer Funktion<br />
Die Halbstetigkeit einer Funktion ist eine Erweiterung des Begriffes der Stetigkeit<br />
einer Funktion. Funktionen, die unstetig sind, können unterhalb- oder oberhalbstetig<br />
sein. Bei der Minimierung einer reellwertigen Funktion spielt die Unterhalbstetigkeit<br />
der Funktion eine große Rolle. Da die Zielfunktion in dieser Arbeit minimiert werden<br />
soll, wird im folgenden nur die Unterhalbstetigkeit behandelt. Oft wird anstelle von<br />
Unterhalbstetigkeit der Begriff "nach unten halbstetig" oder "halbstetig von unten"<br />
verwendet.<br />
86
8.5 Unterhalbstetigkeit einer Funktion<br />
Es folgen zwei äquivalente Definitionen für unterhalbstetige Funktionen:<br />
Definition 8.4<br />
Sei X ein topologischer Raum, x0 ∈ X und f : X → R eine reellwertige Funktion.<br />
f heißt im Punkt x0 unterhalbstetig, wenn für jedes ɛ > 0 eine Umgebung U von x0<br />
existiert, so dass f(y) > f(x0) − ɛ für alle y ∈ U gilt.<br />
Definition 8.5<br />
Sei X ein topologischer Raum, x0 ∈ X und f : X → R eine reellwertige Funktion.<br />
Des Weiteren existiert in X eine beliebige Folge xn mit xn → x0. Die Funktion f ist<br />
unterhalbstetig in x0, falls<br />
lim inf f(xn) ≥ f(x0) (8.16)<br />
xn→x0<br />
gilt.<br />
Bei näherer Betrachtung der beiden obigen Definitionen erkennt man, dass bei einer<br />
unterhalbstetigen Funktion die Funktionswerte nicht nach unten springen können.<br />
Analog, wie bei der Stetigkeit einer Funktion, gilt:<br />
Definition 8.6<br />
Die Funktion f heißt unterhalbstetig auf X, wenn sie in jedem Punkt x0 ∈ X unterhalbstetig<br />
ist.<br />
Eigenschaften unterhalbstetiger Funktionen:<br />
• Eine Funktion f ist in einem Punkt x0 stetig, wenn sie in x0 sowohl unterhalbals<br />
auch oberhalbstetig ist.<br />
• Sind f und g in x0 unterhalbstetig, dann ist auch deren Summe f + g in x0<br />
unterhalbstetig.<br />
• Sind f und g nichtnegativ und in x0 unterhalbstetig, dann ist auch deren<br />
Produkt f · g in x0 unterhalbstetig.<br />
Die zweite Eigenschaft zur Addition unterhalbstetiger Funktionen kann über Definition<br />
8.5 leicht gezeigt werden. Aus der Definition von "lim inf" folgt:<br />
lim inf<br />
xn→x0<br />
(f(xn) + g(xn)) ≥ lim inf<br />
xn→x0<br />
f(xn) + lim inf<br />
xn→x0<br />
g(xn) ≥ f(x0) + g(x0) . (8.17)<br />
Analog kann die dritte Eigenschaft zur Multiplikation unterhalbstetiger Funktionen<br />
gezeigt werden.<br />
Abbildung 8.1 zeigt ein Beispiel für eine unstetige Funktion, die unterhalbstetig<br />
ist.<br />
87
8 Anhang<br />
f<br />
Abbildung 8.1: Beispiel einer unstetigen Funktion, die unterhalbstetig ist. Man sieht, dass die<br />
Funktion f an keiner Stelle nach unten springt. Der Sprung nach oben an der Stelle x0 verletzt die<br />
Bedingung der Unterhalbstetigkeit nicht.<br />
8.6 Radiale Unbeschränktheit einer Funktion<br />
Bei der Minimierung einer Funktion spielt die radiale Unbeschränktheit der Funktion<br />
eine bedeutende Rolle. Eine radial unbeschränkte Funktion ist wie folgt definiert:<br />
Definition 8.7<br />
Eine Funktion f : R n → R mit<br />
heißt radial unbeschränkt.<br />
Bemerkungen:<br />
lim f(x) = +∞ (8.18)<br />
||x||→∞<br />
• Manchmal wird eine radial unbeschränkte Funktion auch "koerziv" genannt.<br />
• Anschaulich bedeutet die radiale Unbeschränktheit einer Funktion, dass die<br />
Funktionswerte gegen unendlich gehen, wenn die Eingabewerte gegen unendlich<br />
gehen.<br />
• Sind die Funktionen f und g radial unbeschränkt, so ist auch deren Summe<br />
f + g radial unbeschränkt.<br />
8.7 Erweiterungen des Extremwertsatzes von<br />
Weierstraß<br />
In Abschnitt 8.4 ist die "Standardversion" des Extremwertsatzes von Weierstraß<br />
angegeben. Diese benötigt Stetigkeit der Funktion und Kompaktheit der Menge, auf<br />
der die Funktion betrachtet wird. Der Extremwertsatz von Weierstraß gilt auch unter<br />
schwächeren Voraussetzungen. Z.B. besitzt Satz 8.1 seine Gültigkeit, wenn die<br />
88
8.8 Eindeutigkeit eines Minimums<br />
Forderung der Stetigkeit von f durch Unterhalbstetigkeit ersetzt wird [Ste04]. Wenn<br />
zusätzlich die radiale Unbeschränktheit von f einbezogen wird, so kann der folgende<br />
Satz angegeben werden:<br />
Satz 8.8<br />
Die zulässige Menge G sei nichtleer und abgeschlossen, die Funktion f : G → R sei<br />
auf G unterhalbstetig und radial unbeschränkt, also<br />
lim<br />
||x||→∞, x∈G<br />
f(x) = +∞ . (8.19)<br />
Dann besitzt f auf G mindestens ein globales Minimum.<br />
8.8 Eindeutigkeit eines Minimums<br />
In der Regel werden Eindeutigkeitsaussagen für Minima von Optimierungsproblemen<br />
über Konvexitätseigenschaften der zulässigen Menge und Zielfunktion getroffen.<br />
Satz 8.9<br />
Sei G ⊂ R n eine konvexe Menge und f : G → R eine konvexe Funktion. Dann gilt:<br />
i) Jedes lokale Minimum von f auf G ist auch globales Minimum.<br />
ii) Ist f streng konvex, dann hat f auf G höchstens ein lokales Minimum und dieses<br />
ist dann zugleich das einzige globale Minimum.<br />
Bemerkungen:<br />
• Haüfig wird der Begriff strikt konvex anstelle von streng konvex verwendet.<br />
• Definitionen von konvexen Mengen und Funktion, als auch weitere Bemerkungen,<br />
Sätze und Eigenschaften von solchen, befinden sich z.B. in [GK02, Alt02,<br />
Ulb07].<br />
8.9 Exakte Schrittweitenbestimmung bei<br />
Optimierung der physikalischen Dosis<br />
Optimierung der linearen physikalischen Dosis bei Vernachlässigung des OAR-Terms<br />
in der Zielfunktion hat folgende Gestalt:<br />
χ 2 Phys( N) = <br />
i∈Target<br />
<br />
Di pre − c T i · 2 N<br />
∆D 2 pre<br />
, (8.20)<br />
89
8 Anhang<br />
mit χ 2 Phys : R p<br />
≥0 → R≥0. In diesem Fall kann die exakte Schrittweite µPhys (siehe<br />
Abschnitt 4.2) analytisch berechnet werden. Dafür ergibt sich ein streng konvexes<br />
quadratisches Optimierungsproblem. Das eindeutige µPhys muss dann die folgende<br />
notwendige Optimalitätsbedingung erster Ordnung erfüllen:<br />
dχ 2 Phys ( N + µPhys d)<br />
dµPhys<br />
= −2 <br />
i∈Target<br />
<br />
D i pre − c T i · ( N + µPhys d)<br />
∆D 2 pre<br />
<br />
·<br />
<br />
c T i · <br />
d = 0 .<br />
(8.21)<br />
Nach einigen analytischen Operationen kann nach dem µPhys eindeutig umgestellt<br />
werden:<br />
µPhys =<br />
⎛<br />
⎝ <br />
i∈Target<br />
<br />
Di pre − c T i · <br />
N · c T i · ⎞<br />
⎛<br />
d<br />
⎠ ⎜<br />
/ ⎝<br />
∆D 2 pre<br />
<br />
i∈Target<br />
<br />
c T i · d<br />
∆D 2 pre<br />
2<br />
⎞<br />
⎟<br />
⎠ . (8.22)<br />
Der Nenner in (8.22) darf nicht 0 werden.<br />
Diese Prozedur muss bei einem Linesearch-Verfahren in jedem Iterationsschritt<br />
k wiederholt werden. D.h., der Iterationsindex k wurde hier für µk, Nk und dk<br />
unterschlagen. Der genaue Rechenweg von (8.21) nach (8.22) findet sich in [Hor08].<br />
90
Literaturverzeichnis<br />
[A + 99] Bruce Alberts et al. Lehrbuch der Molekularen Zellbiologie. Wiley-VCH<br />
Verlag, 1. Auflage, 1999.<br />
[Alt02] Walter Alt. Nichtlineare Optimierung. Vieweg Verlag, 1. Auflage, 2002.<br />
[B + 90] Thomas Bortfeld et al. Methods of Image Reconstruction from Projections<br />
Applied to Conformation Radiotherapy. Physics in Medicine and<br />
Biology, 35(10):1423–1434, 1990.<br />
[B + 06] Christoph Bert et al. Treatment of Moving Targets with Scanned Ion Beams:<br />
A Comparison of Different Strategies. Medical Physics, 33(6):2049,<br />
2006.<br />
[BD11] Christoph Bert und Marco Durante. Motion in Radiotherapy: Particle<br />
Therapy. Physics in Medicine and Biology, 56(16):R113–R144, 2011.<br />
[Ber06] Christoph Bert. Bestrahlungsplanung für bewegte Zielvolumina in der<br />
Tumortherapie mit gescanntem Kohlenstoffstrahl. Dissertation, Technische<br />
Universität Darmstadt, 2006.<br />
[Bet30] Hans Bethe. Zur Theorie des Durchgangs schneller Korpuskularstrahlung<br />
durch Materie. Annalen der Physik, 5(5):325–400, 1930.<br />
[Blo33] Felix Bloch. Zur Bremsung rasch bewegter Teilchen beim Durchgang<br />
durch Materie. Annalen der Physik, 5(16):285–321, 1933.<br />
[Bra99] Siegmund Brandt. Datenanalyse. Spektrum Akademischer Verlag,<br />
4. Auflage, 1999.<br />
[Bro70] Charles George Broyden. The Convergence of a Class of Double-Rank<br />
Minimization Algorithms. Journal of the Institute of Mathematics and<br />
Its Applications, 6:76–90, 1970.<br />
[Bus09] Alwin Buschbacher. Nichtlineare Optimierung der Teilchenfluenz für die<br />
biologisch effektive Dosis in der Schwerionentherapie: Effiziente numerische<br />
Lösung auftretender Gleichungssysteme. Diplomarbeit, Hochschule<br />
Darmstadt, 2009.<br />
[D + 06] Jürgen Debus et al. Strahlentherapie. Springer Verlag, 1. Auflage, 2006.<br />
92
Literaturverzeichnis<br />
[Dav04] Tim Davis. Algorithm 832: UMFPACK - an Unsymmetric-Pattern Multifrontal<br />
Method. ACM Transactions on Mathematical Software, 30:196–<br />
199, 2004.<br />
[DL10] Marco Durante und Jay S. Loeffler. Charged Particles in Radiation<br />
Oncology. Nature Reviews - Clinical Oncology, 7(1):37–43, 2010.<br />
[E + 99] Wolfgang Enghardt et al. Positron Emission Tomography for Quality<br />
Assurance of Cancer Therapy with Light Ion Beams. Nuclear Physics<br />
A, 654:1047c–1050c, 1999.<br />
[EKS08] Thilo Elsässer, Michael Krämer und Michael Scholz. Accuracy of the<br />
Local Effect Model for the Prediction of Biological Effects of Carbon<br />
Ion Beams In-Vitro and In-Vivo. International Journal of Radiation<br />
Oncology*Biology*Physics, 71(3):866–872, 2008.<br />
[EMR96] Gisela Engeln-Müllges und Fritz Reutter. Numerik-Algorithmen. VDI<br />
Verlag, 8. Auflage, 1996.<br />
[F + 92] Brian P. Flannery et al. Numerical Recipes in C - The Art of Scientific<br />
Computing. Cambridge University Press, 2. Auflage, 1992.<br />
[Fle70] Roger Fletcher. A New Approach to Variable Metric Algorithms. Computer<br />
Journal, 13(3):317–322, 1970.<br />
[G + 08] Alexander Gemmel et al. Biological Dose Optimization with Multiple<br />
Ion Fields. Physics in Medicine and Biology, 53:6991–7012, 2008.<br />
[Gem09] Alexander Gemmel. Berechnung der RBW-gewichteten Dosis und biologische<br />
Dosimetrie für bewegte Zielvolumina in der Tumortherapie<br />
mit gescannten Kohlenstoffionen. Dissertation, Technische Universität<br />
Darmstadt, 2009.<br />
[GK02] Carl Geiger und Christian Kanzow. Theorie und Numerik restringierter<br />
Optimierungsaufgaben. Springer Verlag, 1. Auflage, 2002.<br />
[GM06] Christian Gerthsen und Dieter Meschede. Gerthsen Physik. Springer<br />
Verlag, 23. Auflage, 2006.<br />
[Gol70] Donald Goldfarb. A Family of Variable Metric Updates Derived by<br />
Variational Means. Mathematics of Computation, 24(109):23–26, 1970.<br />
[Grö04] Sven Oliver Grözinger. Volume Conformal Irradiation of Moving Target<br />
Volumes with Scanned Ion Beams. Dissertation, Technische Universität<br />
Darmstadt, 2004.<br />
93
Literaturverzeichnis<br />
[Gro01] Intensity Modulated Radiation Therapy Collaborative Working Group.<br />
Intensity-Modulated Radiotherapy: Current Status and Issues of Interest.<br />
International Journal of Radiation Oncology*Biology*Physics,<br />
51(4):880–914, 2001.<br />
[GT97] Christian Großmann und Johannes Terno. Numerik der Optimierung.<br />
B.G. Teubner Stuttgart Verlag, 2. Auflage, 1997.<br />
[H + 93] Thomas Haberer et al. Magnetic Scanning System for Heavy Ion Therapy.<br />
Nuclear Instruments and Methods in Physics Research, A330:296–<br />
305, 1993.<br />
[H + 04] Thomas Haberer et al. The Heidelberg Ion Therapy Center. Radiotherapy<br />
Oncology, 73:186–190, 2004.<br />
[Hac93] Wolfgang Hackbusch. Iterative Lösung großer schwachbesetzter Gleichungssysteme.<br />
B.G. Teubner Stuttgart Verlag, 2. Auflage, 1993.<br />
[Hal94] Eric J. Hall. Radiobiology for the Radiologist. J.B. Lippincott Company,<br />
4. Auflage, 1994.<br />
[HB97] Thomas Herrmann und Michael Baumann. Klinische Strahlenbiologie -<br />
kurz und bündig. Gustav Fischer Verlag, 3. Auflage, 1997.<br />
[HDK10] Michael Horcicka, Marco Durante und Michael Krämer. Particle Number<br />
Optimization Using the BFGS Method in Heavy-Ion Therapy. Report,<br />
<strong>GSI</strong> Helmholtzzentrum für Schwerionenforschung GmbH, 2010.<br />
[Heu83] Harro Heuser. Lehrbuch der Analysis - Teil 2. B.G. Teubner Stuttgart<br />
Verlag, 2. Auflage, 1983.<br />
[Heu84] Harro Heuser. Lehrbuch der Analysis - Teil 1. B.G. Teubner Stuttgart<br />
Verlag, 3. Auflage, 1984.<br />
[Heu92] Harro Heuser. Funktionalanalysis. B.G. Teubner Stuttgart Verlag,<br />
3. Auflage, 1992.<br />
[Hor79] Reiner Horst. Nichtlineare Optimierung. Carl Hanser Verlag, 1. Auflage,<br />
1979.<br />
[Hor08] Michael Horcicka. Mehrfelderoptimierung für die biologisch effektive Dosis<br />
in der Schwerionentherapie: Nichtlineare Methoden und numerische<br />
Analyse. Diplomarbeit, Hochschule Darmstadt, 2008.<br />
[J + 01] Oliver Jäkel et al. Treatment Planning for Heavy-Ion Radiotherapy: Clinical<br />
Implementation and Application. Physics in Medicine and Biology,<br />
46(4):1101–1116, 2001.<br />
94
Literaturverzeichnis<br />
[K + 00] Michael Krämer et al. Treatment Planning for Heavy-Ion Radiotherapy:<br />
Physical Beam Model and Dose Optimization. Physics in Medicine and<br />
Biology, 45(11):3299–3317, 2000.<br />
[KD10] Michael Krämer und Marco Durante. Ion Beam Transport Calculations<br />
and Treatment Plans in Particle Therapy. The European Physical<br />
Journal D, 60:195–202, 2010.<br />
[KK94] Michael Krämer und Gerhard Kraft. Calculations of Heavy-Ion Track<br />
Structure. Radiation and Environmental Biophysics, 33(2):91–109, 1994.<br />
[KKWS03] Michael Krämer, Wilma Kraft-Weyrather und Michael Scholz. The Increased<br />
Biological Effectiveness of Heavy Charged Particles: From Radiobiology<br />
to Treatment Planning. Technology in Cancer Research and<br />
Treatment, 2(5):427–436, 2003.<br />
[KP88] Hanno Krieger und Wolfgang Petzold. Strahlenphysik, Dosimetrie und<br />
Strahlenschutz. B.G. Teubner Stuttgart Verlag, 1988. Band 1 und 2.<br />
[Krä01] Michael Krämer. Treatment Planning for Heavy-Ion Radiotherapy: Biological<br />
Optimization of Multiple Beam Ports. Journal of Radiation Research,<br />
42(1):39–46, 2001.<br />
[Krä09] Michael Krämer. Swift Ions in Radiotherapy - Treatment Planning<br />
with TRiP98. Nuclear Instruments and Methods in Physics Research<br />
B, 267:989–992, 2009.<br />
[Kra00] Gerhard Kraft. Tumor Therapy with Heavy Charged Particles. Progress<br />
in Particle and Nuclear Physics, 45:473–544, 2000.<br />
[Kra08] Gerhard Kraft. Tumortherapie mit schweren Ionen. <strong>GSI</strong> Helmholtzzentrum<br />
für Schwerionenforschung GmbH, 2. Auflage, 2008.<br />
[Kre07] Erwin Kreyszig. Introductory Functional Analysis with Applications.<br />
Wiley Verlag, 3. Auflage, 2007.<br />
[KS00] Michael Krämer und Michael Scholz. Treatment Planning for Heavy-Ion<br />
Radiotherapy: Calculation and Optimization of Biologically Effective<br />
Dose. Physics in Medicine and Biology, 45(11):3319–3330, 2000.<br />
[KS06] Michael Krämer und Michael Scholz. Rapid Calculation of Biological Effects<br />
in Ion Radiotherapy. Physics in Medicine and Biology, 51(8):1959–<br />
1970, 2006.<br />
[Lev44] Kenneth Levenberg. A Method for the Solution of Certain Non-Linear<br />
Problems in Least Squares. The Quarterly of Applied Mathematics,<br />
2:164–168, 1944.<br />
95
Literaturverzeichnis<br />
[Mar63] Donald W. Marquardt. An Algorithm for Least-Squares Estimation of<br />
Nonlinear Parameters. Journal of the Society for Industrial and Applied<br />
Mathematics, 11(2):431–441, 1963.<br />
[Pag03] Harald Paganetti. Significance and Implementation of RBE Variations in<br />
Proton Beam Therapy. Technology in Cancer Research and Treatment,<br />
2(5):413–426, 2003.<br />
[RB10] Eike Rietzel und Christoph Bert. Respiratory Motion Management in<br />
Particle Therapy. Medical Physics, 37(2):449–460, 2010.<br />
[Saa03] Yousef Saad. Iterative Methods for Sparse Linear Systems. Society for<br />
Industrial and Applied Mathematics, 2. Auflage, 2003.<br />
[Sch93] Hans Rudolf Schwarz. Numerische <strong>Mathematik</strong>. B.G. Teubner Stuttgart<br />
Verlag, 3. Auflage, 1993.<br />
[Sch03] Michael Scholz. Effects of Ion Radiation on Cells and Tissues. Advances<br />
in Polymer Science, 162:95–155, 2003.<br />
[Sch06] Alexander Schmidt. Examinations on Multiple Field Optimization in<br />
Ion Therapy. Diplomarbeit, TU Darmstadt, 2006.<br />
[SE + 04] Daniela Schulz-Ertner et al. Results of Carbon Ion Radiotherapy in 152<br />
Patients. International Journal of Radiation Oncology*Biology*Physics,<br />
58(2):631–640, 2004.<br />
[SESE10] Dieter Schardt, Thilo Elsässer und Daniela Schulz-Ertner. Heavy-Ion<br />
Tumor Therapy: Physical and Radiobiological Benefits. Reviews of Modern<br />
Physics, 82(1):383–425, 2010.<br />
[Sha70] David Shanno. Conditioning of Quasi-Newton Methods for Function<br />
Minimization. Mathematics of Computation, 24:647–656, 1970.<br />
[SKD10] Emanuele Scifoni, Michael Krämer und Marco Durante. Oxygen Effect<br />
Implementation into TRiP98. Report, <strong>GSI</strong> Helmholtzzentrum für<br />
Schwerionenforschung GmbH, 2010.<br />
[Spe99] Peter Spellucci. Nichtlineare Optimierungsprobleme hoher Dimension -<br />
Stand der Forschung. Report, Technische Universität Darmstadt, 1999.<br />
[Ste04] Oliver Stein. Optimierung III (Nichtlineare Optimierung). Vorlesungsskript,<br />
Universität Duisburg-Essen, 2004.<br />
[Trö09] Fredi Tröltzsch. Optimale Steuerung partieller Differentialgleichungen.<br />
Vieweg+Teubner Verlag, 2. Auflage, 2009.<br />
[Ulb07] Stefan Ulbrich. Nichtlineare Optimierung. Vorlesungsskript, Technische<br />
Universität Darmstadt, 2007.<br />
96
Literaturverzeichnis<br />
[vN + 06] Cläre von Neubeck et al. A Multidimensional System for Biological<br />
Dosimetry. Report, Gesellschaft für Schwerionenforschung mbH, 2006.<br />
[W + 07] Andre Wambersie et al. The RBE Issues in Ion-Beam Therapy: Conclusions<br />
of a Joint IAEA/ICRU Working Group Regarding Quantities and<br />
Units. Radiation Prot. Dosimetry, 122:463–470, 2007.<br />
[Web96] Uli Weber. Volumenkonforme Bestrahlung mit Kohlenstoff-Ionen zur<br />
Vorbereitung einer Strahlentherapie. Dissertation, Universität Kassel,<br />
1996.<br />
[Wik11] Wikipedia. URL http://de.wikipedia.org/wiki/Krebs, 2011.<br />
[Wil46] R. R. Wilson. Radiological Use of Fast Protons. Radiology, 47:487–491,<br />
1946.<br />
[WK09] Uli Weber und Gerhard Kraft. Comparison of Carbon Ions Versus Protons.<br />
The Cancer Journal, 15(4):325–332, 2009.<br />
97
Danksagung<br />
Hier möchte ich mich bei den vielen Menschen bedanken, die zu dieser Master-Thesis<br />
beigetragen haben.<br />
Als erstes Danke ich Prof. Dr. Christian Meyer dafür, dass er mir die Möglichkeit<br />
gegeben hat, diese externe Master-Thesis anzufertigen. Des Weiteren danke ich<br />
ihm für die zahlreichen Ratschläge und Denkanstöße. Trotz der größeren Entfernung<br />
habe ich mich die ganze Zeit hervorragend betreut gefühlt.<br />
Bei Prof. Dr. Stefan Ulbrich bedanke ich mich herzlichst für die Übernahme der<br />
Korreferentschaft.<br />
Bei PD Dr. Michael Krämer bedanke ich mich für die Übergabe des interessanten<br />
Themas und für die Beantwortung meiner Fragen.<br />
Vielen Dank an Prof. Dr. Michael Gubitz, dass er mich im Jahre 2006 als Praktikanten<br />
an die <strong>GSI</strong> in die Abteilung Biophysik vermittelt hat. Ohne ihn wäre diese<br />
Arbeit nicht zustande gekommen.<br />
Dem ehemaligen Leiter und Gründer der Biophysik-Abteilung Prof. Dr. Gerhard<br />
Kraft danke ich, dass er mich im Jahre 2006 in seine Abteilung aufgenommen hat.<br />
Dem gegenwärtigem Leiter der Biophysik-Abteilung Prof. Dr. Marco Durante<br />
danke ich herzlichst, dass ich in seiner Abteilung als Werkstudent arbeiten durfte<br />
und diese Master-Thesis erstellen konnte.<br />
Bei den zahlreichen Zimmerkollegen über den längeren Zeitraum dieser Master-<br />
Thesis bedanke ich mich für die angenehme Büroatmosphäre. Besonders danke ich<br />
Alexander Helm, der während dieser Zeit treu mein Platznachbar war und für den<br />
Austausch mit ihm von Biologie- und Mathe-Themen.<br />
Der gesamten Biophysik-Gruppe danke ich für die angenehme Arbeitsatmosphäre<br />
in den letzten 5 1 Jahren. Diese tolle Zeit werde ich mein ganzes Leben lang nicht<br />
2<br />
vergessen!<br />
Abschließend ist es mir ein besonderes Anliegen mich bei meinen Eltern zu bedanken.<br />
An sie geht mein größter Dank, denn sie haben mir überhaupt das Studium<br />
der <strong>Mathematik</strong> ermöglicht.<br />
99
Erklärung<br />
Hiermit versichere ich, die vorliegende Master-Thesis ohne Hilfe Dritter, nur mit den<br />
angegebenen Quellen und Hilfsmitteln, angefertigt zu haben. Alle Stellen, die aus<br />
den Quellen entnommen wurden, sind als solche kenntlich gemacht worden. Diese<br />
Arbeit hat in gleicher Form noch keiner Prüfungsbehörde vorgelegen.<br />
Darmstadt, den 27. Oktober 2011.<br />
(Michael Horcicka)