24.04.2013 Aufrufe

Fachbereich Mathematik - GSI

Fachbereich Mathematik - GSI

Fachbereich Mathematik - GSI

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

Technische Universität Darmstadt<br />

- <strong>Fachbereich</strong> <strong>Mathematik</strong> -<br />

<strong>GSI</strong><br />

Helmholtzzentrum für Schwerionenforschung<br />

- Abteilung Biophysik -<br />

Master-Thesis<br />

Theorie und Numerik zur nichtlinearen<br />

Dosisoptimierung in der Schwerionentherapie<br />

Angefertigt von<br />

Michael Horcicka<br />

Referent: Prof. Dr. Christian Meyer<br />

Korreferent: Prof. Dr. Stefan Ulbrich<br />

Darmstadt 2011


Diese Arbeit wurde mit dem Textsatzsystem L ATEX erstellt.


Abstract<br />

In the <strong>GSI</strong> therapy pilot project from 1997 until 2008 about 450 cancer patients<br />

were successfully treated with carbon ions. Because of the promising healing rates<br />

the clinical radiotherapy facility HIT was opened in 2009. However, research for the<br />

heavy-ion therapy is still in progress at <strong>GSI</strong>.<br />

For the treatment planning the software TRiP is used. An essential part of the<br />

treatment planning ist the dose optimization. The aim of the dose optimization is<br />

to achieve a homogeneous target dose distribution as close as possible to the prescribed<br />

dose distribution by an appropriate sparing of healthy tissue and critical<br />

structures like the brainstem. These requirements can be mathematically expressed<br />

by an optimization problem, where the free optimization parameters are the particle<br />

numbers for the rasterspots. If biological effects are taken into account, the optimization<br />

problem leads to a nonlinear, finite dimensional and restricted minimization<br />

problem. A theoretical examination and a solution of the optimization problem is<br />

the core area of this master-thesis.<br />

By utilizing a special variant of the Weierstraß extreme value theorem, which<br />

requires the lower semi-continuity and radial unboundness of the objective function,<br />

the existence of a global minimum of the optimization problem can be proofed. Due<br />

to the nonconvexity of the objective funtion the uniqueness of a global minimum<br />

can not be proofed straightforward because standard techniques for such proofs can<br />

not be applied. A numerical approach, which indicates, that the minimum of the<br />

objective function is unique, is discussed. Furthermore, the objective function is<br />

approximated with an appropriate smooth function. This is necessary to derive the<br />

Karush-Kuhn-Tucker-conditions for the optimization problem.<br />

Due to the nonlinearity of the objective function the optimization problem can<br />

only be solved with numerical methods. For this purpose the Linesearch-Techniques<br />

method of steepest descent, conjugated gradients and the inverse BFGS-method were<br />

implemented and examined. Several variants of these numerical solvers are presented<br />

in this work. The convergence results show, that the Fletcher-Reeves variant of<br />

the conjugated gradient method has the best numerical properties. The results of<br />

the inverse BFGS-method are similar concerning the iteration steps but require by<br />

a factor of 1.5 more computation time. The method of steepest descent is slow<br />

concerning the iteration steps and computation time.<br />

The convergence results show, that currently the Fletcher-Reeves variant of the<br />

conjugated gradient method is the best algorithm for the optimization step in the<br />

treatment planning procedure. With this method complete patient plans can be<br />

optimized in an acceptable computation time. Furthermore, this method doesn’t<br />

require much memory space and is robust.<br />

3


Inhaltsverzeichnis<br />

Abbildungsverzeichnis 7<br />

Abkürzungsverzeichnis 8<br />

1 Einleitung 10<br />

1.1 Die Krankheit Krebs . . . . . . . . . . . . . . . . . . . . . . . . . . . 10<br />

1.2 Strahlentherapie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10<br />

1.3 Physikalische Grundlagen ionisierender Strahlung . . . . . . . . . . . 12<br />

1.4 Strahlenbiologische Grundlagen . . . . . . . . . . . . . . . . . . . . . 15<br />

1.5 Das Kohlenstoff-Therapieprojekt der <strong>GSI</strong> . . . . . . . . . . . . . . . . 17<br />

1.5.1 Technik der Therapie . . . . . . . . . . . . . . . . . . . . . . . 18<br />

1.5.2 Ablauf der Therapie . . . . . . . . . . . . . . . . . . . . . . . 20<br />

2 Optimierung der Dosis in der Schwerionentherapie 22<br />

2.1 Bestrahlungsplanung mit TRiP . . . . . . . . . . . . . . . . . . . . . 22<br />

2.2 Berechnung der Dosis . . . . . . . . . . . . . . . . . . . . . . . . . . . 25<br />

2.2.1 Berechnung der physikalischen Dosis . . . . . . . . . . . . . . 25<br />

2.2.2 Berechnung der RBW-gewichteten Dosis . . . . . . . . . . . . 27<br />

2.3 Mathematische Formulierung der Optimierung . . . . . . . . . . . . . 29<br />

2.3.1 Physikalische und technische Betrachtung . . . . . . . . . . . 31<br />

2.3.2 Mathematische Betrachtung . . . . . . . . . . . . . . . . . . . 32<br />

2.4 Experimentelle Verifikation . . . . . . . . . . . . . . . . . . . . . . . . 34<br />

3 Theoretische Betrachtung des Optimierungsproblems 36<br />

3.1 Stetigkeits- und Differenzierbarkeitseigenschaften der Zielfunktion . . 36<br />

3.2 Existenz und Eindeutigkeit eines Minimums . . . . . . . . . . . . . . 38<br />

3.2.1 Existenz eines Minimums . . . . . . . . . . . . . . . . . . . . . 38<br />

3.2.1.1 Unterhalbstetigkeit der Zielfunktion . . . . . . . . . 38<br />

3.2.1.2 Radiale Unbeschränktheit der Zielfunktion . . . . . . 40<br />

3.2.1.3 Anwendung auf den Extremwertsatz von Weierstraß 42<br />

3.2.2 Eindeutigkeit eines Minimums . . . . . . . . . . . . . . . . . . 42<br />

3.3 Glättung der Zielfunktion . . . . . . . . . . . . . . . . . . . . . . . . 43<br />

3.4 Karush-Kuhn-Tucker-Bedingungen . . . . . . . . . . . . . . . . . . . 45<br />

4 Nichtlineare Optimierung 49<br />

4.1 Numerische Minimierung mit Linesearch-Verfahren . . . . . . . . . . 49<br />

4.2 Schrittweitenstrategien . . . . . . . . . . . . . . . . . . . . . . . . . . 52<br />

4


Inhaltsverzeichnis<br />

4.2.1 Schrittweitenbestimmung über Dämpfung der Physik-Schrittweite<br />

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52<br />

4.2.2 Die Schrittweitenregel von Armijo . . . . . . . . . . . . . . . . 53<br />

4.3 Voroptimierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54<br />

4.4 Ressourcen, Daten und Bemerkungen zur Optimierung . . . . . . . . 55<br />

4.4.1 Verwendete Rechnerarchitektur . . . . . . . . . . . . . . . . . 55<br />

4.4.2 Verwendeter Patientenplan . . . . . . . . . . . . . . . . . . . . 55<br />

4.4.3 Bewertung der Algorithmen . . . . . . . . . . . . . . . . . . . 56<br />

4.4.4 Bemerkungen und Details zur Implementierung . . . . . . . . 56<br />

5 Gradientenverfahren und konjugiertes Gradientenverfahren 58<br />

5.1 Das Gradientenverfahren . . . . . . . . . . . . . . . . . . . . . . . . . 58<br />

5.2 Das konjugierte Gradientenverfahren . . . . . . . . . . . . . . . . . . 59<br />

5.3 Konvergenzergebnisse und Diskussion . . . . . . . . . . . . . . . . . . 60<br />

6 BFGS-Verfahren 63<br />

6.1 Das Newton-Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . 63<br />

6.2 Quasi-Newton-Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . 66<br />

6.3 Das BFGS-Update . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67<br />

6.4 Das inverse BFGS-Verfahren mit Armijo-Schrittweite und Winkeltest 69<br />

6.5 Konvergenzergebnisse und Diskussion . . . . . . . . . . . . . . . . . . 71<br />

6.6 Weitere implementierte und ausgewertete Varianten des inversen BFGS-<br />

Verfahrens und zusätzliche Bemerkungen . . . . . . . . . . . . . . . . 74<br />

7 Zusammenfassung und Ausblick 77<br />

7.1 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77<br />

7.2 Ausblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79<br />

8 Anhang 81<br />

8.1 Beschleunigeranlage der <strong>GSI</strong> . . . . . . . . . . . . . . . . . . . . . . . 81<br />

8.2 Gradient und Hesse-Matrix der Dosis . . . . . . . . . . . . . . . . . . 82<br />

8.2.1 Gradient und Hesse-Matrix der physikalischen Dosis . . . . . . 82<br />

8.2.2 Gradient und Hesse-Matrix der RBW-gewichteten Dosis . . . 82<br />

8.2.3 Gradient und Hesse-Matrix des analytischen Ausdrucks für die<br />

RBW-gewichtete Dosis . . . . . . . . . . . . . . . . . . . . . . 83<br />

8.3 Gradient und Hesse-Matrix der Zielfunktion . . . . . . . . . . . . . . 83<br />

8.3.1 Gradient und Hesse-Matrix bei Optimierung der physikalischen<br />

Dosis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83<br />

8.3.2 Gradient und Hesse-Matrix bei Optimierung der RBW-gewichteten<br />

Dosis . . . . . . . . . . . . . . . . . . . . . . . . . . 84<br />

8.3.3 Gradient und Hesse-Matrix bei Optimierung mit dem analytischen<br />

Ausdruck für die RBW-gewichtete Dosis . . . . . . . . 85<br />

8.4 Der Extremwertsatz von Weierstraß . . . . . . . . . . . . . . . . . . . 85<br />

8.5 Unterhalbstetigkeit einer Funktion . . . . . . . . . . . . . . . . . . . . 86<br />

5


Inhaltsverzeichnis<br />

8.6 Radiale Unbeschränktheit einer Funktion . . . . . . . . . . . . . . . . 88<br />

8.7 Erweiterungen des Extremwertsatzes von Weierstraß . . . . . . . . . . 88<br />

8.8 Eindeutigkeit eines Minimums . . . . . . . . . . . . . . . . . . . . . . 89<br />

8.9 Exakte Schrittweitenbestimmung bei Optimierung der physikalischen<br />

Dosis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89<br />

Literaturverzeichnis 92<br />

6


Abbildungsverzeichnis<br />

1.1 Überlagerung von Bestrahlungsfeldern bei der Photonentherapie . . . 11<br />

1.2 Dosisverteilung bei IMRT und Kohlenstofftherapie im Schädelinneren 12<br />

1.3 Tiefendosisprofil für Photonen, Protonen und 12 C in Wasser . . . . . 13<br />

1.4 Laterales Streuverhalten von Photonen-, Protonen- und 12 C-Strahlen<br />

in Wasser . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14<br />

1.5 Überlebenskurven von Zellen nach Röntgen- und Kohlenstoffbestrahlung<br />

mit verschiedenen RBW-Werten . . . . . . . . . . . . . . . . . . 15<br />

1.6 Vergleich der simulierten Bahnspuren von 12 C-Ionen und Röntgen mit<br />

der schematischen Darstellung einer DNA-Doppelhelix . . . . . . . . 16<br />

1.7 Illustration des Rasterscan-Verfahrens . . . . . . . . . . . . . . . . . . 17<br />

1.8 Darstellung einer ausgedehnten Bragg-Peak Zone im Tumorbereich . 18<br />

1.9 Schematische Darstellung der PET-Analyse . . . . . . . . . . . . . . 19<br />

1.10 Fixierter Patient im Therapieraum der <strong>GSI</strong> . . . . . . . . . . . . . . . 21<br />

1.11 Thermoplastische Maske zur Fixierung des Kopfes des Patientens . . 21<br />

2.1 CT-Scheibe des Patientenplanes #135 mit eingezeichnetem Target<br />

und Hirnstamm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23<br />

2.2 Modellhafte Darstellung eines Zielvolumens mit Isoenergieschichten<br />

und den dazugehörigen Rasterpunkten . . . . . . . . . . . . . . . . . 24<br />

2.3 Vergleich zweier optimierter Dosisverteilungen in einer CT-Scheibe . . 25<br />

2.4 Modellrechnung der physikalischen und RBW-gewichteten Dosis mit<br />

korrespondierenden Überlebensraten aus Zellexperimenten . . . . . . 27<br />

2.5 Foto des präparierten Biophantoms vor der Bestrahlung . . . . . . . . 34<br />

2.6 Vergleich von gemessenem Zellüberleben und berechnetem Zellüberleben<br />

mit TRiP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35<br />

3.1 Graphische Veranschaulichung der Heaviside-Funktion . . . . . . . . . 39<br />

3.2 Graphische Veranschaulichung der Glättung der Heaviside-Funktion . 44<br />

4.1 "Ideale" Skalierungswerte für die Physik-Schrittweite . . . . . . . . . 53<br />

5.1 Minimierung mit dem GRV und KGV als Funktion der Iterationen . 62<br />

5.2 Minimierung mit dem GRV und KGV als Funktion der Rechenzeit . . 62<br />

6.1 Minimierung mit BFGS und KGV als Funktion der Iterationen . . . . 73<br />

6.2 Minimierung mit BFGS und KGV als Funktion der Rechenzeit . . . . 73<br />

8.1 Beispiel einer unstetigen Funktion, die unterhalbstetig ist . . . . . . . 88<br />

7


Abkürzungsverzeichnis<br />

12C Atomkern des Kohlenstoffes mit 6 Protonen und 6 Neutronen<br />

16O Atomkern des Sauerstoffes mit 8 Protonen und 8 Neutronen<br />

BED Biologisch effektive Dosis<br />

BFGS BFGS-Verfahren: Optimierungsalgorithmus benannt nach seinen Entwicklern<br />

Broyden, Fletcher, Goldfarb und Shanno<br />

CT Computertomographie, Computertomogramm<br />

DKFZ Deutsches Krebsforschungszentrum<br />

EFO Einzelfeldoptimierung<br />

Feld Bestrahlungsfeld (bestrahlter Bereich aus einer Einstrahlrichtung)<br />

GRV Gradientenverfahren<br />

<strong>GSI</strong> <strong>GSI</strong> Helmholtzzentrum für Schwerionenforschung GmbH<br />

Gy SI-Einheit Gray[ J<br />

GyE<br />

] (Energiedosis verursacht durch Strahlung)<br />

kg<br />

Gray-Equivalent (Einheit der biologisch effektiven Dosis)<br />

Gy (RBW) Einheit der RBW-gewichteten Dosis<br />

HIT Heidelberger Ionenstrahl-Therapiezentrum<br />

IES Isoenergieschicht<br />

IMRT Intensitätsmodulierte Photonentherapie<br />

KGV Konjugiertes Gradientenverfahren<br />

KKT Karush-Kuhn-Tucker (meist KKT-Punkt, -Bedingungen oder -Theorie)<br />

LEM Local-Effect-Model (Biophysikalisches Modell zur RBW-Bestimmung)<br />

LET Linearer Energietransfer<br />

MFO Mehrfelderoptimierung<br />

min f Minimiere die Funktion f<br />

NDF Anzahl der Freiheitsgrade<br />

NV Newton-Verfahren<br />

OAR Organ-At-Risk (Risikoorgan)<br />

PET Positronen-Emissions-Tomographie<br />

RBW Relative biologische Wirksamkeit<br />

Target Zielvolumen bei der Bestrahlungsplanung<br />

TRiP Treatment Planning for Particles (Bestrahlungsplanungssoftware)<br />

u. d. N. unter der Nebenbedingung<br />

VOI Volume of Interest<br />

Voxel Volumenpixel in einer CT<br />

8


1 Einleitung<br />

1.1 Die Krankheit Krebs<br />

Jährlich wird die Anzahl der neudiagnostizierten Krebserkrankungen weltweit auf<br />

über 12 Millionen geschätzt. In einem Jahr sterben ca. 7.6 Millionen Menschen an<br />

den Folgen einer Krebserkrankung, davon ca. fünf Millionen in den Entwicklungsländern.<br />

Damit ist Krebs, nach den Herz-Kreislauferkrankungen, die zweithäufigste<br />

Todesursache. Experten schätzen, dass in den folgenden Jahren, auch bedingt durch<br />

den demografischen Wandel, die Zahl der Krebserkrankungen deutlich steigen wird.<br />

[Wik11]<br />

Unter dem Krankeitsbild Krebs versteht man eine bösartige Gewebeneubildung<br />

(Tumor) im menschlichen Körper. Krebszellen wachsen und teilen sich unkontrolliert,<br />

was zu einer Verdrängung oder Zerstörung des umliegenden Gewebes führen<br />

kann. Dabei handelt es sich immer um eine Störung vom genetisch geregelten Zellwachstum<br />

und Apoptose (selbstprogrammierter Zelltod). Krebs hat eine Vielzahl<br />

von Ursachen, prinzipiell können alle menschlichen Organe befallen sein.<br />

Eine Krebstherapie richtet sich nach Tumorart, Tumorgröße, Lokalisation des<br />

Tumors und dem Allgemeinzustand des Patienten. Als Therapieformen werden in<br />

der Regel Chemotherapie, operative Entfernung des Tumors und Strahlentherapie<br />

angewendet. Häufig werden diese drei Therapieformen miteinander kombiniert.<br />

Im Therapieprojekt des <strong>GSI</strong> Helmholtzzentrums für Schwerionenforschung GmbH<br />

(<strong>GSI</strong>) [Kra08] wurden in den meisten Fällen Gehirntumore behandelt. Bei diesem<br />

Pilotprojekt handelte es sich um eine neue Form der Strahlentherapie mit Teilchenstrahlung.<br />

Details zu dieser speziellen Methode werden im letzten Abschnitt dieses<br />

Kapitels beschrieben. Im nächsten Abschnitt werden die Grundlagen der Strahlentherapie,<br />

in Anwendung auf Kopf- und Nackentumore, näher dargestellt. Anschließend<br />

werden die physikalischen und biologischen Eigenschaften von Strahlung<br />

erläutert.<br />

1.2 Strahlentherapie<br />

Zur Strahlentherapie gehören zum Beispiel die Photonentherapie, Teilchentherapie<br />

oder Brachytherapie [D + 06]. Etwa jede zweite Tumorerkrankung wird mit einer<br />

Strahlentherapie behandelt. Das Ziel der Strahlentherapie ist den Tumor mit einer<br />

Dosis zu bestrahlen, die die Reparaturfähigkeit der Tumorzellen überschreitet<br />

[HB97]. Dabei soll das umliegende Normalgewebe bestmöglich geschont werden. Vor-<br />

10


1.2 Strahlentherapie<br />

Abbildung 1.1: Überlagerung von Bestrahlungsfeldern bei der Photonentherapie. Um mit einem<br />

Bestrahlungsfeld die vorgeschriebene Dosis (Anteil in Prozent) im Tumor (roter Bereich) zu deponieren,<br />

müsste im Eingangsbereich eine höhere Dosis erzeugt werden (linke Seite). Schon bei der<br />

Hinzunahme eines zweiten Feldes kann dieser nachteilige Effekt halbiert werden (rechte Seite).<br />

aussetzung für eine erfolgreiche Strahlentherapie ist ein Bestrahlungsplan, der für<br />

jeden Patienten individuell erstellt wird. Bei einer Bestrahlungsplanung werden in<br />

der Regel auf Basis einer dreidimensionalen Computertomographie (CT) die notwendigen<br />

Bestrahlungsparameter festgelegt. Die Gesamtdosis für den Tumor wird meistens<br />

auf tägliche Einzeldosen verteilt (Fraktionierung). Dabei wird die schlechtere<br />

Reparaturfähigkeit von Tumorzellen ausgenutzt. Eine gesamte Bestrahlungstherapie<br />

kann bis zu 30 Fraktionen betragen.<br />

Die konventionelle Form der Strahlentherapie ist die Photonentherapie. Photonen<br />

besitzen die Eigenschaft, dass wenige Millimeter nach dem Eintreten in Gewebe die<br />

Dosisdeposition ihr Maximum erreicht und anschließend exponentiell abfällt [KP88].<br />

Um bei der Tumorbestrahlung das umliegende Normalgewebe zu schonen, werden<br />

in tiefsitzenden Tumoren mehrere (6-12) Einstrahlrichtungen (sog. Bestrahlungsfelder)<br />

überlagert. In Abbildung 1.1 wird dies Anhand von zwei Bestrahlungsfeldern<br />

demonstriert. Die fortgeschrittenste Methode der Photonentherapie ist die Intensitätsmodulierte<br />

Photonentherapie (IMRT) [Gro01]. Hier wird mit speziell geformten<br />

Kompensatoren im Strahlweg gearbeitet, wodurch eine bessere Dosiskonformität im<br />

Zielvolumen erreicht werden kann.<br />

Bei der Teilchentherapie [DL10] (auch Partikeltherapie genannt) werden Protonen<br />

und Schwerionen 1 verwendet. Bei der Schwerionentherapie [SESE10] zeigten<br />

besonders 12 C-Ionen ideale Eigenschaften [Kra00]. Gegenwärtig wird Forschung betrieben,<br />

ob sich auch andere Teilchensorten, wie z.B. Helium-, Lithium- oder Sauerstoffionen,<br />

für die Teilchentherapie eignen. Teilchenstrahlen besitzen ein vorteilhaftes<br />

Tiefendosisprofil gegenüber Photonenstrahlen [Wil46]. Der Teilchenstrahl entfaltet<br />

erst am Ende seiner Reichweite ein scharfes Dosis-Maximum, während im Eingangskanal<br />

eine geringe Dosis appliziert wird. Dieses Phänomen wird als das Inverse<br />

Dosisprofil bezeichnet. Dadurch kann das Gewebe vor und nach dem Tumor überwiegend<br />

geschont werden. Desweiteren besitzen Teilchenstrahlen beim Eindringen<br />

in lebendes Gewebe eine höhere biologische Wirksamkeit gegenüber Photonen (ge-<br />

1 In der Strahlentherapie werden alle Ionen mit einer größeren Ordnungszahl als Wasserstoff als<br />

schwere Ionen bezeichnet.<br />

11


1 Einleitung<br />

Abbildung 1.2: Dosisverteilung erzeugt durch Kohlenstofftherapie mit zwei Bestrahlungsfeldern<br />

(rechts) und IMRT mit sieben Feldern (links). Die Farbskalierung reicht von rot, entsprechend<br />

100% der vorgeschriebenen Zieldosis, bis zu blau mit 10%. Mit beiden Methoden kann eine gute<br />

Dosisapplikation im Tumorbereich (weiße Kontur) erzielt werden. Die Dosisbelastung des gesunden<br />

Gewebes ist bei der Therapie mit Teilchen wesentlich geringer als bei Photonen.<br />

naueres in Abschnitt 1.4) [KKWS03]. In der Regel reichen bei der Teilchenstrahlung<br />

2-3 Bestrahlungsfelder aus, um die Dosis im Tumorvolumen zu verteilen. Einen Vergleich<br />

zwischen der Dosisverteilung bei IMRT und Kohlenstofftherapie zeigt Abbildung<br />

1.2. Damit die Teilchen genug Energie besitzen, um tiefer in Gewebe eindringen<br />

zu können, müssen sie in Teilchenbeschleunigern (Zyklotron, Synchrotron) auf hohe<br />

Geschwindigkeit gebracht werden. Dies ist ein Nachteil der Teilchentherapie, denn<br />

solche Beschleunigeranlagen stellen hohe technische und finanzielle Anforderungen.<br />

Hingegen werden bei der Photonentherapie lediglich Elektronen-Linearbeschleuniger<br />

benötigt.<br />

1.3 Physikalische Grundlagen ionisierender<br />

Strahlung<br />

Ionisierende Strahlung setzt beim Eintreten in Materie Elektronen aus den Atomhüllen<br />

frei (sog. Ionisation), so dass positiv geladene Ionen zurückbleiben. Ionisierende<br />

Strahlung wird in Teilchenstrahlung und elektromagnetische Strahlung unterteilt,<br />

wobei letztere auch Photonenstrahlung genannt wird. Messgröße für die applizierte<br />

Energiedosis D ist die SI-Einheit Gray (Gy), welche die absorbierte Energie E pro<br />

Masse m beschreibt:<br />

D[Gy] = dE<br />

dm<br />

= 1<br />

ρ<br />

dE<br />

dV<br />

, 1Gy = 1 J<br />

kg<br />

. (1.1)<br />

Hier ist ρ die Dichte und V das Volumen des bestrahlten Materials. Die Dosis, die aus<br />

Gleichung (1.1) resultiert, wird als physikalische oder absorbierte Dosis bezeichnet.<br />

12


1.3 Physikalische Grundlagen ionisierender Strahlung<br />

Abbildung 1.3: Tiefendosisprofil für Photonen, Protonen und 12 C in Wasser. Bei Photonen ist<br />

nach einem anfänglichen Anstieg ein exponentieller Abfall zu beobachten. Teilchenstrahlen deponieren<br />

am Anfang wenig Dosis und am Ende ihrer Reichweite das Dosismaximum (Bragg-Peak),<br />

welches bei 12 C noch ausgeprägter ist als bei Protonen. Die Lage des Bragg-Peaks kann durch die<br />

Anfangsenergie der Strahlen kontrolliert werden. Durch Projektilfragmente entsteht bei 12 C hinter<br />

dem Bragg-Peak noch ein kleiner Dosisanteil.<br />

Photonen, die auf Materie treffen, lösen unterschiedliche Prozesse aus, welche von<br />

der Energie der Photonen abhängen. Die fundamentalsten sind der Photoeffekt, der<br />

Compton-Effekt und die Paarbildung [GM06]. Die dabei entstehende Schwächung<br />

der Strahlungsintensität I ist durch das Beersche Absorptionsgesetz gegeben:<br />

I(x) = I0 · e −µx , (1.2)<br />

mit der Anfangsintensität I0, der Eindringtiefe x und Materialabsorptionskonstante<br />

µ. Die Tiefendosiskurve für Photonenstrahlung (siehe Abbildung 1.3) zeigt einen<br />

Anstieg im Bereich der ersten Zentimeter und erst anschließend einen exponentiellen<br />

Abfall. Der anfängliche Anstieg kann mit dem Aufbaueffekt erklärt werden, bei dem<br />

Sekundärelektronen vorwiegend in Vorwärtsrichtung emittiert werden, bis sich ein<br />

Gleichgewicht zwischen Energiedeposition und Produktion weiterer Sekundärelektronen<br />

einstellt.<br />

Teilchenstrahlen interagieren mit dem Targetmaterial hauptsächlich durch inelastische<br />

Kollisionen mit den Hüllenelektronen. Dabei erleiden die durchgehenden<br />

13


1 Einleitung<br />

Strahlaufweitung [mm]<br />

Photonen (21MV)<br />

12 C (270MeV/u)<br />

Protonen (148MeV/u)<br />

Eindringtiefe in Wasser [mm]<br />

Abbildung 1.4: Laterales Streuverhalten von Photonen-, Protonen- und 12 C-Strahlen in Wasser.<br />

Photonenstrahlen besitzen anfangs die größte Aufweitung, welche jedoch bei weiterem Eindringen<br />

wenig ansteigt. Protonen streuen bis zum dreifachen stärker als 12 C-Ionen. Abbildung aus [Web96].<br />

Teilchen pro Weglängeneinheit dx einen Energieverlust, der von der Bethe-Bloch-<br />

Formel [Bet30, Blo33] beschrieben wird:<br />

− dE<br />

dx = 4π e4z2 eff<br />

mev<br />

2 nZ<br />

<br />

2mev<br />

ln<br />

2 <br />

+ relativistische Korrekturen , (1.3)<br />

I<br />

wobei e die Elementarladung des Elektrons und me seine Ruhemasse, v die Teilchengeschwindigkeit,<br />

zeff die effektive Projektilladung, n die Dichte der Targetatome, Z<br />

die Atomnummer und I das Targetionisationspotential darstellen. Der Energieverlust<br />

ist bei hohen Geschwindigkeiten gering und steigt mit Geschwindigkeitsabnahme<br />

kontinuierlich an. Kurz bevor die Teilchen zum Ende ihrer Reichweite gelangen,<br />

kommt es zu einem starken Anstieg des Energieverlustes. Dabei erreicht die deponierte<br />

Dosis ein scharfes Maximum (Bragg-Peak) und fällt unmittelbar danach steil<br />

ab. Der Verlauf der Tiefendosisprofile wird von den Bragg-Kurven beschrieben. Die<br />

zugehörigen Bragg-Kurven für 12C-Strahlen und Protonenstrahlen sind in Abbildung<br />

1.3 zu sehen. Bei Schwerionen kommt es, im Gegensatz zu Protonen, zur Projektil-<br />

Fragmentation. Diese verursacht hinter dem Bragg-Peak den Fragmentschwanz.<br />

Häufig wird die Wirkung von Strahlung auf biologisches Gewebe mit dem linearen<br />

Energietransfer (LET) angegeben. Dieser beschreibt, wie viel Energie ein<br />

durchquerendes Teilchen pro Längeneinheit an das Material abgibt. Der LET wird<br />

in Kiloelektronenvolt pro Mikrometer gemessen und ist mit der Dosis verbunden<br />

über:<br />

D[Gy] = 1.6 · 10 −9 · dE<br />

<br />

keV<br />

<br />

g<br />

· ρ<br />

dx µm cm<br />

<br />

LET<br />

3<br />

−1 · F cm −2 , (1.4)<br />

mit der Materialdichte ρ und Teilchenfluenz F .<br />

14


1.4 Strahlenbiologische Grundlagen<br />

250 kV<br />

Abbildung 1.5: Überlebenskurven von Zellen nach der Bestrahlung mit Röntgenstrahlen bzw.<br />

Kohlenstoffionen in Abhängigkeit der Dosis. RBW-Werte sind für verschiedene prozentuale Überlebensanteile<br />

angegeben. Um ein Überleben von 10% zu erreichen muss hier mit Röntgenstrahlen,<br />

im Vergleich zu Kohlenstoffstrahlen, eine 4.2-fache physikalische Dosis appliziert werden. Bei steigender<br />

Dosis fällt die RBW. [Mit freundlicher Genehmigung Dr. W. Kraft-Weyrather].<br />

Das grundsätzlich unterschiedliche Tiefendosisprofil von Teilchenstrahlung gegenüber<br />

Photonenstrahlung ist für die Strahlentherapie von großer Bedeutung. Besonders<br />

der scharfe Bragg-Peak bei 12 C erlaubt eine konzentrierte Dosisapplikation im<br />

Tumor. Ein weiterer physikalischer Effekt, der in der Strahlentherapie berücksichtigt<br />

werden muss, ist die laterale Aufweitung des Strahlenbündels beim Eintreten<br />

in Materie (siehe Abb. 1.4). Die geringe Aufweitung des 12 C-Strahlenbündels ist ein<br />

weiterer Vorteil der Kohlenstofftherapie.<br />

1.4 Strahlenbiologische Grundlagen<br />

Beim Eintritt ionisierender Strahlung in biologisches Gewebe kommt es im mikroskopischen<br />

Bereich zur Schädigung der DNA (Desoxyribonukleinsäure). Die im Zellkern<br />

liegende DNA kann dabei so stark geschädigt werden, dass die zahlreichen Reparaturprozesse<br />

der Zelle nicht mehr greifen können und es kommt zur Apoptose (programmierter<br />

Zelltod) [A + 99]. Besonders eine hohe Anzahl an Doppelstrangbrüchen,<br />

in der DNA-Doppelhelix, führt zur Zellinaktivierung.<br />

Die Strahlenwirkung auf zelluläres Gewebe wird anhand von Überlebenskurven<br />

gemessen. Diese beschreiben die Wahrscheinlichkeit des Zellenüberlebens S als Funktion<br />

der absorbierten Dosis D. Messungen haben das folgende "linear-quadratische"<br />

Modell motiviert [Hal94]:<br />

S(D) = e −(αD+βD2 ) , α ≥ 0 , β ≥ 0 , (1.5)<br />

15


1 Einleitung<br />

z [nm]<br />

12 C-Ionen Röntgen<br />

x [nm]<br />

z [nm]<br />

x [nm]<br />

Abbildung 1.6: Vergleich der simulierten Bahnspuren von 12 C-Ionen und Röntgen mit der schematischen<br />

Darstellung einer DNA-Doppelhelix. Die farbigen Linien repräsentieren die Spuren der<br />

emittierten Sekundärelektronen. Die höhere Ionisationsdichte kann bei der Teilchenstrahlung deutlich<br />

beobachtet werden. Der dabei entstehende DNA-Schaden ist schwierig zu reparieren. Die geringe<br />

Ionisationsdichte von der Röntgenstrahlung verursacht meist reparable Einzelstrangbrüche.<br />

wobei die Konstanten α und β von der bestrahlten Zelllinie abhängen. Ein großes<br />

α-Verhältnis<br />

steht für ein geringes Reparaturvermögen der Zelllinie, während ein<br />

β<br />

kleines α-Verhältnis<br />

ein hohes Reparaturvermögen bedeutet.<br />

β<br />

Die gleiche absorbierte Dosis kann bei verschiedenen Strahlarten unterschiedliche<br />

biologische Effekte auslösen. Ein Maß dafür ist die relative biologische Wirksamkeit<br />

(RBW). Die RBW ist definiert als das Verhältnis der Dosis einer Bezugsstrahlung<br />

zu der Dosis einer zu vergleichenden Strahlung, wobei mit beiden Dosen die gleiche<br />

biologische Wirkung erreicht wird:<br />

RBW =<br />

DBezugsstrahlung<br />

Dzu vergleichende Strahlung<br />

<br />

<br />

<br />

Isoeffekt<br />

. (1.6)<br />

Verschiedene RBW-Werte von 12 C-Ionen, mit Röntgen als Bezugsstrahlung, können<br />

aus den entsprechenden Überlebenskurven in Abbildung 1.5 entnommen werden.<br />

Dabei ist stets eine RBW von > 1 zu beobachten. D.h., dass Kohlenstoff, bei gleicher<br />

physikalischer Dosis, eine höhere biologische Wirkung als Photonen besitzt. Dies<br />

kann unter anderem dadurch erklärt werden, dass die Bahnstruktur von Teilchenstrahlen<br />

eine höhere Ionisationsdichte aufweist, was zahlreiche Doppelstrangbrüche<br />

induziert (siehe Abb. 1.6) [KK94].<br />

Wegen der höheren biologischen Wirksamkeit können Tumorzellen mit 12 C-Ionen<br />

effizienter inaktiviert werden als mit Photonen oder Protonen. Dies ist ein weiterer<br />

Vorteil der Kohlenstofftherapie [WK09]. Da die RBW von vielen Eingangsparametern<br />

abhängt, wie z.B. Art der Strahlung, bestrahlter Gewebetyp, Dosis und Energie,<br />

ist die Berechnung sehr komplex. Dafür wurde an der <strong>GSI</strong> das Local-Effect-Model<br />

(LEM) entwickelt, mit dem die relevanten RBW-Werte bestimmt werden können.<br />

Auf das LEM wird in dieser Arbeit nicht näher eingegangen. Details befinden sich,<br />

neben zahlreichen anderen Veröffentlichungen, in [Sch03, EKS08, Gem09].<br />

16


1.5 Das Kohlenstoff-Therapieprojekt der <strong>GSI</strong><br />

Abbildung 1.7: Illustration des Rasterscan-Verfahrens. Der Teilchenstrahl wird von den Dipolmagneten<br />

vertikal und horizontal abgelenkt. Das Monitorsystem misst die Position und die Anzahl der<br />

durchquerenden Teilchen. Informationen aus einem ständigen Soll-Ist-Vergleich werden an die Magnete<br />

rückgekoppelt. Durch Energiemodulation des Beschleunigers werden die IESen des Tumors,<br />

beginnend mit der hintersten, mit Bragg-Peaks angesteuert. In einer IES erhält ein bestimmter Rasterpunkt<br />

(rot) Teilchenbeiträge von anderen Rasterpunkten. Dies wird bei dem Soll-Ist-Vergleich<br />

der Teilchenzahlen vollständig beachtet.<br />

1.5 Das Kohlenstoff-Therapieprojekt der <strong>GSI</strong><br />

Das Pilotprojekt der <strong>GSI</strong> entstand in enger Kooperation mit dem Forschungszentrum<br />

Rossendorf, dem Deutschen Krebsforschungszentrum (DKFZ) und dem Universitätsklinikum<br />

Heidelberg. Dabei handelte es sich um die weltweit erste intensitätsmodulierte<br />

Schwerionentherapie. Von 1997 bis 2008 wurden über 440 Patienten<br />

mit 12 C-Ionen bestrahlt. Dabei wurden meist strahlenresistente und tiefsitzende Tumorarten<br />

gewählt, die im Kopf- oder Nackenbereich lagen. Ab dem Jahr 2006 wurden<br />

auch Prostatakarzinome behandelt.<br />

Die Erfolgsquoten im <strong>GSI</strong>-Pilotprojekt waren so vielversprechend [SE + 04], dass<br />

diese neue Art der Tumortherapie in den klinischen Routinebetrieb übergehen soll.<br />

Im November 2009 nahm das Heidelberger Ionenstrahl-Therapiezentrum HIT [H + 04]<br />

seinen Betrieb auf. Gegenwärtig befinden sich in Kiel, Marburg und Pavia (Italien)<br />

Kohlenstoff-Protonen-Therapiezentren im Bau oder Erprobung und weltweit weitere<br />

in Planung. In den Strahlentherapiezentren sollen jährlich 1500-2000 Patienten<br />

behandelt werden.<br />

Obwohl die Patientenbestrahlung an das HIT übergegangen ist, ist die Schwerionentherapie<br />

weiterhin Gegenstand intensiver Forschung an der <strong>GSI</strong>. Neben Verbesserungen<br />

und Erweiterungen der physikalischen, biologischen und technischen<br />

Aspekte, sowie in der Bestrahlungsplanung, liegt der Fokus auf der Bestrahlung von<br />

17


1 Einleitung<br />

Relative Dosis [%]<br />

Ausgedehnter<br />

Bragg-Peak<br />

✛ Tumorzone ✲<br />

✟✟✟✟✟✟<br />

Eindringtiefe [cm]<br />

Abbildung 1.8: Überlagerung einzelner Bragg-Peaks (rote Kurven) zu einer resultierenden Dosis<br />

(blaue Kurve). In der Tumorzone kann mit dem ausgedehnten Bragg-Peak eine homogene Dosisverteilung<br />

erzielt werden. Die Dominanz des hintersten Bragg-Peaks ist dabei deutlich zu erkennen.<br />

bewegten Zielvolumina. Dies sind Tumore, die im Thorax oder Bauchbereich liegen,<br />

und sich unter Einfluss der Atmung und des Herzschlages bewegen. Näheres dazu<br />

ist z.B. in [Grö04, Ber06, RB10, B + 06] zu finden.<br />

1.5.1 Technik der Therapie<br />

Bei der <strong>GSI</strong> werden die Kohlenstoffionen in Ionenquellen erzeugt und anschließend<br />

in die Beschleunigeranlage injiziert. Nachdem die Teilchen dort hohe Geschwindigkeiten<br />

erreicht hatten (ca. 50% der Lichtgeschwindigkeit), wurden sie in den Therapieraum<br />

weitergeführt. Eine Grundrissskizze der Beschleunigeranlage der <strong>GSI</strong> und<br />

des Therapieraumes befindet sich im Anhang.<br />

Bei der Erfassung des Tumorvolumens wird es in Schichten gleicher Strahlreichweite,<br />

sog. Isoenergieschichten (IES), aufgeteilt. Jede IES wird mit einem Punkteraster<br />

diskretisiert. Damit alle Rasterpunkte einer IES mit dem Strahl abgetastet<br />

werden können, wurde an der <strong>GSI</strong> das Rasterscan-Verfahren [H + 93] entwickelt.<br />

Beim Rasterscannen wird das geladene Teilchenbündel von zwei Dipolmagneten<br />

(Scanmagnete), unter Einwirkung der Lorentz-Kraft [GM06], horizontal und vertikal<br />

abgelenkt. Abbildung 1.7 illustriert das Rasterscan-Verfahren. Nachdem in einem<br />

Rasterpunkt die vorher festgelegte Teilchenanzahl erreicht wurde, wird der<br />

Strahl weitergelenkt. Die Messung der Teilchenzahlen erfolgt mit einer Ionisationskammer.<br />

Strahlreichweite, und damit der Bragg-Peak, wird mit aktiver Energiemodulation<br />

des Beschleunigers gesteuert. Zuerst wird die hinterste IES bestrahlt,<br />

anschließend erfolgt eine Verringerung der Energiestufe um die vordere Scheibe zu<br />

bestrahlen. Eine homogene Dosis in der Tumorzone entsteht durch Überlagerung<br />

einzelner Bragg-Peaks unterschiedlicher Anfangsenergie (siehe Abb. 1.8). Die <strong>GSI</strong>-<br />

18


12C-Strahl ✏✏<br />

✏✏<br />

11C-Teilchen ✏<br />

1.5 Das Kohlenstoff-Therapieprojekt der <strong>GSI</strong><br />

Gammaquant<br />

Detektoren<br />

✑✑<br />

✑<br />

Abbildung 1.9: Schematische Darstellung der PET-Analyse. Oben: Fragmentation zwischen einem<br />

12 C-Teilchen und 16 O-Teilchen. Dabei kann es vorkommen, dass nach der Kollision ein radioaktives<br />

11 C-Teilchen entsteht. Flugrichtung und Geschwindigkeit des 11 C-Teilchens unterscheidet sich<br />

kaum zu der vom vorhergehenden 12 C-Teilchen. Unten: Durch Zerfall des 11 C-Teilchens am Endpunkt<br />

werden zwei Gammaquanten ausgesendet, die von den Detektoren gemessen werden. Durch<br />

Rückrechnung kann die Reichweite des ursprünglichen 12 C-Strahls im Patienten gemessen werden.<br />

Beschleunigeranlage stellt 253 verschiedene Energien (80MeV/u - 430MeV/u) des<br />

12 C-Strahls zur Verfügung, was einer wasseräquivalenten Reichweite von ca. 2-31cm<br />

entspricht. Des Weiteren können sieben Strahldurchmesser (4-12mm) eingestellt werden.<br />

Mit dieser Technik kann ein dünner Strahl präzise über das dreidimensionale<br />

Zielvolumen geführt werden.<br />

Ein Interlocksystem kontrollierte im Submillisekundenbereich den Bestrahlungsablauf<br />

und sorgte, bei einem Fehlverhalten, für einen sofortigen Abbruch der Bestrahlung.<br />

Zur Verifikation der Bestrahlung wurde die sog. Positronen-Emissions-Tomographie<br />

(PET) verwendet [E + 99]. Die PET bietet die Möglichkeit, ohne zusätzliche<br />

Dosisbelastung, den Strahl im Patienten zu verfolgen. Eine PET-Analyse fand nach<br />

jeder Bestrahlungsfraktion statt. Die PET basiert darauf, dass bei der Passage des<br />

12 C-Strahls durch das Gewebe ein kleiner Teil der 12 C-Teilchen in instabile 11 C-<br />

Isotope 2 umgewandelt wird. Die Reichweite des 11 C-Teilchens unterscheidet sich nur<br />

minimal zur Reichweite des 12 C-Teilchens, das 11 C-Teilchen zerfällt jedoch am Endpunkt.<br />

Beim Zerfall der 11 C-Teilchen entstehen β + -Emitter (Positronen 3 ). Durch<br />

Annihilation 4 der Positronen mit Elektronen werden Gammaquanten 5 ausgesendet,<br />

die von der PET-Kamera detektiert werden. Durch Rückrechnung kann dann die Position<br />

des Zerfalls des 11 C-Isotops, und damit die Strahlreichweite, bestimmt werden.<br />

2 Isotope sind Atome mit gleicher Protonenanzahl aber unterschiedlicher Neutronenanzahl.<br />

3 Das Positron ist das Antiteilchen des Elektrons (also positiv geladen).<br />

4 Unter Annihilation versteht man in der Teilchenphysik die Paarvernichtung eines Teilchens mit<br />

seinem Antiteilchen.<br />

5 Gammaquanten sind elektromagnetische Strahlen.<br />

19


1 Einleitung<br />

Eine schematische Darstellung der PET-Analyse zeigt Abbildung 1.9.<br />

1.5.2 Ablauf der Therapie<br />

Um eine präzise Bestrahlung zu erreichen wird der Patient vor dem Strahlaustrittsfenster<br />

fixiert (siehe Abbildung 1.10). Bei der Behandlung eines Schädel- oder Nackentumors<br />

wurde für die Fixierung, für jeden Patienten individuell, eine Kopfmaske<br />

aus selbsthärtendem Kunststoff angefertigt, wie sie in Abbildung 1.11 zu sehen ist.<br />

Die Maske wurde dann an der Patientenliege verschraubt. Bei der Therapie von Prostatakarzinomen<br />

wurde diese Technik dem Beckenbereich angepasst. Die Lagerung<br />

des Patienten wurde vor jeder Bestrahlungsfraktion mit zwei zueinander senkrechten<br />

Röntgenaufnahmen überprüft.<br />

Die Gesamtzeit, die für eine Fraktion benötigt wurde, lag bei ca. 30-40 Minuten.<br />

Die reine Bestrahlungszeit dauerte etwa 5-10 Minuten. Fixierung und Positionierung<br />

des Patienten nahmen die meiste Zeit in Anspruch. Bei Schädeltumoren wurden 20<br />

Fraktionen in 20 aufeinanderfolgenden Tagen verabreicht. Die Gesamtdosis einer<br />

Therapie lag dabei bei 60-70Gy. Bei Prostatakarzinomen wurden an der <strong>GSI</strong> 18Gy<br />

auf sechs Fraktionen verteilt. Eine Tagesdosis lag somit bei ca. 3Gy.<br />

Die Möglichkeit der Rotation des Patiententisches erlaubte einen Wechsel der<br />

Bestrahlungsfelder. In der Regel waren zwei gegenüberliegende Felder ausreichend,<br />

selten wurde noch ein drittes verwendet.<br />

20


Austrittsfenster<br />

des Strahls<br />

Fixierte<br />

Kopfmaske<br />

Patient<br />

1.5 Das Kohlenstoff-Therapieprojekt der <strong>GSI</strong><br />

Verstellbare<br />

Patientenliege<br />

Positionierbarer<br />

Tisch<br />

Abbildung 1.10: Fixierter Patient im Therapieraum der <strong>GSI</strong>. Die Kopfmaske ist an die Tischauflage<br />

direkt vor dem Strahlaustrittsfenster geschraubt. Der Tisch kann entlang der kreisförmigen<br />

Schiene im Boden rotiert werden. Damit kann ein automatischer Wechsel des Bestrahlungsfeldes<br />

stattfinden. Hinter der weißen Abschirmung über- und unterhalb des Patientens befindet sich die<br />

PET-Kamera. Mit dem "Buzzer" in der rechten Hand kann der Patient die Bestrahlung jederzeit<br />

eigenständig abbrechen.<br />

Abbildung 1.11: Thermoplastische Maske zur Fixierung des Kopfes des Patienten.<br />

21


2 Optimierung der Dosis in der<br />

Schwerionentherapie<br />

Dieses Kapitel widmet sich der Optimierung der Dosis in der Schwerionentherapie.<br />

Als erstes wird die Bestrahlungsplanungssoftware, die an der <strong>GSI</strong> entwickelt und<br />

für die Kohlenstofftherapie verwendet wurde, vorgestellt. In Abschnitt 2.2 werden<br />

Details zur Berechnung der Dosis geschildert. Abschnitt 2.3 geht ausführlich auf<br />

die mathematische Formulierung des Optimierungsproblems ein. Die theoretische<br />

Betrachtung und Lösung des Optimierungsproblems ist Schwerpunkt dieser Master-<br />

Thesis. Im letzten Abschnitt dieses Kapitels wird gezeigt, wie eine optimierte Dosisverteilung<br />

experimentell nachgewiesen werden kann.<br />

2.1 Bestrahlungsplanung mit TRiP<br />

Das Rasterscan-Verfahren erfordert eine präzise Vorberechnung mehrerer zehntausend<br />

Strahlpositionen, Strahlenergien und Teilchenzahlen, um die vom Arzt vorgeschriebene<br />

Dosisverteilung zu erreichen. Hierzu dient die Bestrahlungsplanungssoftware<br />

Treatment Planning for Particles (TRiP) [K + 00, J + 01]. Sie wurde an der <strong>GSI</strong><br />

für die intensitätsmodulierte Schwerionentherapie, in der Programmiersprache C,<br />

entwickelt. Des Weiteren wird TRiP auch zu Forschungszwecken eingesetzt. An der<br />

<strong>GSI</strong> ist TRiP selbst Forschungsgegenstand und wird stets weiterentwickelt.<br />

Bei der Erstellung eines Bestrahlungsplanes führt TRiP im wesentlichen vier Schritte<br />

aus:<br />

1. Die modifizierten CT-Daten des Patienten werden eingelesen.<br />

2. Im Target wird ein dreidimensionales Rastergitter generiert.<br />

3. Optimierung der Dosis. Dabei werden für jeden Rasterpunkt Teilchenfluenzen<br />

bestimmt, aus denen eine optimale Dosisverteilung resultiert.<br />

4. Eine Kontrolldatei für den Rasterscanner wird erstellt.<br />

Der genauere Ablauf der ersten drei Schritte wird im folgenden beschrieben.<br />

Die Auflösung eines CT’s ist 3mm in z-Richtung (Tiefe) und 1mm in x- bzw. y-<br />

Richtung. Eine solche Volumeneinheit wird Voxel (Volumenpixel) genannt und kann<br />

als Bildpunkt interpretiert werden. Bei der Dosisberechnung und -optimierung wird<br />

22


2.1 Bestrahlungsplanung mit TRiP<br />

Abbildung 2.1: CT-Scheibe des Patientenplanes #135. Tumor (rote Kontur) und Hirnstamm (grüne<br />

Kontur) wurden mit Konturen markiert. Vor der Bestrahlungsplanung wird jede CT-Scheibe<br />

auf diese Art und Weise bearbeitet.<br />

jedes Voxel mit einem Dosiswert belegt. Bevor TRiP die CT’s verarbeitet, werden<br />

von einem Medizin-Physiker die Volumes of Interest (VOI) bestimmt und in jeder<br />

CT-Scheibe mit einer Kontur umlegt. Die VOI’s umfassen Tumor (Target) und Organs<br />

at Risk (OAR). Bei einem OAR kann es sich z.B. um Hirnstamm, Chiasma<br />

oder Sehnerv handeln, welche bei der Bestrahlungsplanung besonders berücksichtigt<br />

werden müssen. Eine bearbeitete CT-Scheibe zeigt Abbildung 2.1.<br />

Die Anzahl der Bestrahlungsfelder und deren Richtungen werden bei der Bestrahlungsplanung<br />

manuell eingestellt. TRiP generiert, relativ zum Strahleintritt,<br />

in jedem Feld die Isoenergieschichten. In jeder IES wird ein Punkteraster gelegt<br />

und die x- bzw. y-Koordinaten der einzelnen Rasterpunkte werden berechnet. Die z-<br />

Koordinaten der Rasterpunkte werden über die Anfangsenergien des Strahls, welche<br />

aus den verfügbaren Beschleunigerenergien gewählt werden, bestimmt. Die Abstände<br />

der Rasterpunkte in x-,y- und z-Richtung können vom Benutzer definiert werden.<br />

Typische Abstände für die Therapie sind 2-3mm in alle drei Richtungen. Die Überlagerung<br />

der Rasterpunkte, aus allen Scheiben und Feldern, definiert ein 3D-Gitter<br />

im Target, welches bei der Bestrahlung abgefahren wird. In Abbilldung 2.2 ist das<br />

23


2 Optimierung der Dosis in der Schwerionentherapie<br />

Strahl<br />

✏ ✏✏✏✶<br />

y<br />

x<br />

Reichweite/Energie<br />

Abbildung 2.2: Modellhafte Darstellung eines Zielvolumens (Ellipsoid) mit Isoenergieschichten<br />

(gestrichelt) und den dazugehörigen Rasterpunkten. Die Größe der Rasterpunkte repräsentiert die<br />

benötigte Teilchenfluenz um eine optimierte Dosis zu erhalten. Die hinterste IES (aus Sicht des<br />

Strahls) bedarf der höchsten Teilchenfluenz. Wegen der Vorbestrahlung werden für die vorderste<br />

IES lediglich geringe Teilchenzahlen benötigt. [Mit freundlicher Genehmigung Dr. C. Bert].<br />

Modell eines Zielvolumens, mit Isoenergieschichten und den dazugehörigen Rasterpunkten,<br />

zu sehen.<br />

Ein wesentlicher Bestandteil der Bestrahlungsplanung ist der Optimierungsschritt.<br />

In diesem werden mit implementierten Algorithmen die Teilchenzahlen für mehrere<br />

zehntausend Rasterpunkte berechnet. Ziel der Optimierung ist eine adäquate Dosisverteilung<br />

zu erhalten bei tragbarem Zeit- und Speicheraufwand. Die Kriterien für<br />

eine gute Dosisverteilung sind die folgenden [B + 90]:<br />

z<br />

• Die applizierte Dosis im Target sollte sehr nahe an der vorgeschriebenen Dosis<br />

liegen.<br />

• Die Dosis sollte im Target homogen verteilt sein.<br />

• In jedem OAR sollte die festgelegte tolerierbare Dosisgrenze nicht überschritten<br />

werden.<br />

• In dem umliegenden Gewebe, welches an das Target angrenzt, sollte wenig<br />

Dosis appliziert werden.<br />

Mit der mathematischen Formulierung des Optimierungsproblems beschäftigt sich<br />

Abschnitt 2.3. Theoretische Diskussion und numerische Lösung des Optimierungsproblems<br />

sind Schwerpunkt dieser Master-Thesis. Davor behandelt der folgende Abschnitt<br />

noch Details zur Dosisberechnung.<br />

24


2.2 Berechnung der Dosis<br />

Abbildung 2.3: Vergleich zweier optimierten Dosisverteilungen in einer CT-Scheibe des Patientenplanes<br />

#135. Die Farbskalierung entspricht dem prozentualen Anteil der vorgeschriebenen Dosis.<br />

Da hier der Tumor (starke Kontur) um den Hirnstamm (schwache kreisförmige Kontur) herumwächst,<br />

handelt es sich um einen komplexen Fall. In beiden Fällen kann im Target eine gute<br />

Dosisverteilung beobachtet werden. Linkes Bild zeigt insgesamt dennoch eine unzufriedenstellende<br />

Dosisverteilung, da im Hirnstamm relativ viel Dosis appliziert wird. Durch Änderungen in der<br />

Bestrahlungsplanung und neuer Optimierung kann das gewünschte Resultat auf der rechten Seite<br />

erreicht werden.<br />

Als Ergebnis der Optimierung erzeugt TRiP einen Dosis-Würfel, der die dreidimensionale<br />

Dosisverteilung im CT enthält. Dabei enthält jedes Voxel einen Dosiswert.<br />

Für eine bessere Übersicht können Dosisverteilungen in den einzelnen CT-<br />

Scheiben betrachtet werden. Bevor ein Bestrahlungsplan für einen Patienten verwendet<br />

wird muss die Eignung des Plans überprüft werden. Dies geschieht, indem sich<br />

ein Arzt oder Medizin-Physiker die Dosisverteilung in jeder einzelnen CT-Schicht ansieht<br />

(siehe Abbildung 2.3). Bei deutlichen Abweichungen zu den oberen Kriterien<br />

müssen gegebenenfalls Optimierungsparameter, technische Einstellungen, Bestrahlungsgeometrien<br />

oder sonstiges geändert werden. Anschließend ist in der Regel eine<br />

Wiederholung der Optimierung notwendig.<br />

2.2 Berechnung der Dosis<br />

2.2.1 Berechnung der physikalischen Dosis<br />

Das folgende Strahlmodell, mit dem TRiP die physikalische Dosis (absorbierte Dosis)<br />

berechnet, wurde speziell für 12 C-Ionenstrahlen entwickelt. Die partielle Dosis, die<br />

ein einzelnes Strahlenbündel der Energie ES an Position r0 ∈ R 3 in Position r ∈ R 3<br />

appliziert, ist gegeben durch [K + 00]:<br />

D(ES, r)[Gy] = 1.6 · 10 −8 <br />

MeV<br />

· d(ES, z)<br />

gcm−2 <br />

1<br />

·<br />

2πσ<br />

<br />

Tiefenbeitrag<br />

2 [mm2 <br />

· exp −<br />

] r2<br />

2σ2 <br />

·N , (2.1)<br />

<br />

Lateralbeitrag<br />

wobei N die Anzahl der Teilchen, σ die Strahlbreite, r 2 = ||r − r0|| 2 2 der euklidische<br />

Abstand und d(ES, z) die eindimensionale Tiefendosisverteilung ist. Dabei<br />

25


2 Optimierung der Dosis in der Schwerionentherapie<br />

wird angenommen, dass der Strahl lateral ein gaußförmiges Profil besitzt. Die eindimensionale<br />

Tiefendosisverteilung d(ES, z) beschreibt, welche Dosis ein Strahl der<br />

Anfangsenergie ES in Abhängigkeit der Tiefe z deponiert. Die Berechnung erfolgt<br />

nach dem YIELD-Transportmodell. Dies wird detailiert in [K + 00] geschildert und<br />

ist vollständiger Bestandteil von TRiP.<br />

Die Gesamtdosis in einem CT-Voxel resultiert aus der Superposition von vielen<br />

Dosisbeiträgen, die sich aus den jeweiligen Einzelstrahlen gemäß (2.1) ergeben. Dabei<br />

repräsentiert jeder Rasterpunkt des Bestrahlungsplanes einen Einzelstrahl. In<br />

TRiP werden prinzipiell in jedem Voxel die Dosisbeiträge der Strahlenbündel aller<br />

Rasterpunkte aufsummiert. Dafür wird zu jedem Voxel i, von jedem Rasterpunkt j,<br />

ein Lateral- und ein Tiefenbeitrag berechnet. Der Wert, der die Stärke dieser Dosis-Korrelation<br />

angibt, wird mit cij bezeichnet. Mathematisch gesehen werden alle<br />

Korrelationen, zwischen allen Voxeln und Rasterpunkten, in einer Dosis-Korrelations-Matrix<br />

C zusammengefasst und cij sind dann dementsprechend die Matrixelemente:<br />

C ∈ R q×p<br />

≥0 , (cij)i=1,...,q ; j=1,...,p , (2.2)<br />

wobei q der größte Voxelindex und p der größte Rasterpunktindex ist. Diese Definition<br />

von q und p bleibt für den Rest dieser Master-Thesis bestehen. Die Zeilenanzahl<br />

der Dosis-Korrelations-Matrix ist also gleich der Anzahl der Voxel und die Spaltenanzahl<br />

ist gleich der Anzahl der Rasterpunkte im Bestrahlungsplan. Die Voxelanzahl<br />

q setzt sich hier aus allen Target- und OAR-Voxeln zusammen, denn nur diese gehen<br />

später in die Optimierung ein.<br />

Mit der Dosis-Korrelations-Matrix C kann dann die gesamte physikalische Dosis<br />

D i Phys , für alle Voxel i, als Funktion der Teilchenzahlen N aller Rasterpunkte, wie<br />

folgt berechnet werden:<br />

mit D i Phys<br />

D i Phys( N)[Gy] =<br />

p<br />

j=1<br />

cijNj = c T i · N , ci ∈ R p<br />

≥0 , N ∈ R p<br />

≥0 1 , (2.3)<br />

: Rp<br />

≥0 → R≥0 ∀ i. Die physikalische Dosis für ein Voxel i ergibt sich somit<br />

aus dem kanonischen Skalarprodukt der i-ten Zeile von C mit dem Teilchenzahlvektor<br />

N. Die Funktionalanalysis zeigt, dass ein Skalarprodukt stetig ist. 2 D.h., das<br />

Funktional D i Phys ist stetig für alle i. Linearität der physikalischen Dosis in N ist offensichtlich.<br />

Die Berechnung des Gradienten von (2.3), der später in der Optimierung<br />

benötigt wird, befindet sich im Anhang in Unterabschnitt 8.2.1.<br />

Da ein typischer Bestrahlungsplan mehrere zehntausend Rasterpunkte sowie Voxel<br />

beinhaltet, würde die Implementation der vollständigen Dosis-Korrelations-Matrix<br />

C zu einem großen Speicheraufwand führen. Ein Voxel i, welches lateral und in<br />

der Tiefe von einem Rasterpunkt j weit entfernt liegt, erhält von diesem einen vernachlässigbaren<br />

oder sogar gar keinen Beitrag. TRiP erlaubt die Einstellung eines<br />

1In Abschnitt 2.3 wird erklärt, warum der Teilchenzahlvektor N p<br />

im Raum R≥0 betrachtet wird.<br />

2Die Stetigkeit des Skalarproduktes folgt aus dem Folgenkriterium und kann mit der Cauchy-<br />

Schwarzschen-Ungleichung bewiesen werden [Heu92, Kre07].<br />

26


Dosis [Gy (RBW)]<br />

Überleben<br />

✻<br />

RBW<br />

❄<br />

Eindringtiefe [mm]<br />

2.2 Berechnung der Dosis<br />

RBW-g. Dosis<br />

Phys. Dosis<br />

Abbildung 2.4: Oben: Modellrechnung von TRiP mit zwei gegenüberliegenden Feldern. Physikalische<br />

und RBW-gewichtete Dosis sind als Funktion der Eindringtiefe aufgetragen. Die Kohlenstoffstrahlen<br />

variieren zwischen einer Anfangsenergie von 160 und 230MeV/u. Man beachte den starken<br />

Beitrag der RBW auf die RBW-gewichtete Dosis. Unten: Experimentell gemessenes (Punkte) und<br />

kalkuliertes Überleben (Linie) der Zellen, korrespondierend zu dem oberen Tiefendosisprofil. Die<br />

weißen und schwarzen Punkte repräsentieren die Ergebnisse von zwei unabhängigen Experimenten.<br />

Berechnetes und gemessenes Überleben ist in diesem Beispiel in guter Übereinstimmung. Abbildung<br />

aus [Krä01].<br />

Parameters ɛc, der eine obere Schranke darstellt, bis zu der die Dosis-Korrelations-<br />

Werte cij nicht beachtet werden. Dabei entsteht eine dünnbesetzte (schwachbesetzte)<br />

Matrix, die TRiP als Elementliste speichert. Bei der Wahl von ɛc = 2 · 10 −3 erhält<br />

durchschnittlich jedes Voxel von ca. 1000 Rasterpunkten Beiträge. Die Vernachlässigung<br />

der restlichen Rasterpunkte induziert einen geringen Dosisfehler von 0.5-1%,<br />

der in der Bestrahlungsplanung akzeptabel ist [G + 08]. Das Speichern der Elementliste<br />

kann bei größeren Bestrahlungsplänen dennoch mehrere Gigabytes erfordern.<br />

2.2.2 Berechnung der RBW-gewichteten Dosis<br />

Bei der Teilchentherapie müssen neben den physikalischen auch die biologischen<br />

Effekte der Teilchenstrahlung berücksichtigt werden. D.h., die RBW muss in die<br />

Bestrahlungsplanung integriert sein. Dies geschieht, indem die physikalische Dosis<br />

mit der RBW gewichtet (multipliziert) wird. Wie bereits erwähnt wurde, die RBW<br />

setzt sich in komplizierter Weise aus vielen physikalischen und biologischen Parametern<br />

zusammen. Durch die Komplexität des Bestrahlungsfeldes ändert sich die<br />

RBW von Punkt zu Punkt, also von Voxel zu Voxel, und kann deshalb nicht mit<br />

einem globalen Wert belegt werden. Im Gegensatz dazu besitzen Protonen nur eine<br />

schwach erhöhte biologische Wirksamkeit, die in der klinischen Anwendung mit ei-<br />

27


2 Optimierung der Dosis in der Schwerionentherapie<br />

ner konstanten RBW von 1.1 festgesetzt wird [Pag03]. Die Stärke des Beitrages der<br />

RBW zur physikalischen Dosis, im Falle von 12C-Ionen, zeigt Abbildung 2.4.<br />

Für die Berechnung der biologischen Effekte von 12C-Ionen ist das LEM in TRiP<br />

implementiert [KS00]. Über das LEM kann in jedem Voxel i, in Abhängigkeit des<br />

Teilchenzahlvektors N, die RBW bestimmt werden [Krä09]. Die RBW-gewichtete<br />

Dosis wird mit Di Bio bezeichnet und mit der Einheit Gy (RBW) angegeben. Für die<br />

RBW-gewichtete Dosis ergibt sich somit der folgende Ausdruck:<br />

mit D i Bio<br />

D i Bio( N)[Gy (RBW)] = D i Phys( N)<br />

<br />

Gleichung (2.3)<br />

· RBW i ( N) , N ∈ R p<br />

≥0<br />

: Rp<br />

≥0 → R≥0 ∀ i, wobei für Kohlenstoffteilchen stets die Beziehung<br />

, (2.4)<br />

RBW i ( N) ≥ 1 ∀ i , (2.5)<br />

mit RBW i<br />

: R p<br />

≥0 → R≥0 ∀ i, gilt. Gradient und Hesse-Matrix von (2.4) befinden<br />

sich im Anhang in 8.2.2. Oftmals wird in der Literatur die Bezeichnung "Biologisch<br />

Effektive Dosis" (BED), mit der Einheit GyE (Gray-Equivalent), für Di Bio verwendet.<br />

In der Veröffentlichung [W + 07] der internationalen Atomenergieorganisation (IAEA)<br />

wird der Begriff RBW-gewichtete Dosis mit der Einheit Gy (RBW) empfohlen, der<br />

in dieser Master-Thesis verwendet wird.<br />

Im weiteren Verlauf dieser Arbeit wird die RBW-gewichtete Dosis unter folgenden<br />

Voraussetzungen betrachtet:<br />

• Als Teilchensorte wird ausschließlich 12 C betrachtet.<br />

• Als Dosen werden nur therapierelevante Werte betrachtet. Diese liegen in einem<br />

Intervall von 0 bis ca. 10Gy (RBW).<br />

• Für die Berechnung der RBW wird die sogenannte "lowdose-approximation"<br />

verwendet. Mit dieser Methode können für therapierelevante Dosen die RBW-<br />

Werte schnell berechnet werden. Eine genauere Metheode ist der sog. "classical<br />

approach", der zwar exaktere RBW-Werte liefert, jedoch wesentlich zeitaufwändiger<br />

ist. Mit der "lowdose-approximation" wird, gegenüber dem "classical<br />

approach", lediglich ein tolerabler Fehler von 5% begangen. [KS06]<br />

Unter den oberen Voraussetzungen kann für die RBW-gewichtete Dosis, in guter Approximation,<br />

ein analytischer Ausdruck betrachtet werden. Dieser wird mit D i Bio(ana)<br />

bezeichnet und sieht wie folgt aus:<br />

28<br />

D i Bio(ana)( N)[Gy (RBW)] =<br />

<br />

αi · (c T i · N) + βi · (c T i · N) 2<br />

βx<br />

+<br />

2 αx<br />

2βx<br />

− αx<br />

, (2.6)<br />

2βx<br />

αx ∈ R>0 , βx ∈ R>0 , αi ∈ R>0 ∀ i , βi ∈ R>0 ∀ i , ci ∈ R p<br />

≥0 , N ∈ R p<br />

≥0


und D i Bio(ana)<br />

Bezeichnungen:<br />

: Rp<br />

≥0 → R≥0 ∀ i.<br />

2.3 Mathematische Formulierung der Optimierung<br />

αx und βx : alpha- und beta-Wert aus der Photon-Survival-Curve.<br />

αi und βi : alpha- und beta-Werte für jedes Voxel i.<br />

Diese werden mit dem LEM berechnet.<br />

ci : i-te Zeile aus der Dosis-Korrelations-Matrix C.<br />

N : Teilchenzahlvektor für alle Rasterpunkte.<br />

Eine genaue Herleitung des Ausdrucks (2.6) findet sich in [KS06]. Dass alle alphaoder<br />

beta-Werte gleich Null wären, würde den Fall repräsentieren, dass keine Strahlung<br />

auf Materie trifft, was im Hinblick auf die Therapie keinen Sinn ergeben würde.<br />

Unter der Wurzel befinden sich ausschließlich nichtnegative Werte, die addiert, multipliziert<br />

oder quadriert werden. Daher kann unter der Wurzel kein negativer Ausdruck<br />

entstehen. Das Funktional Di Bio(ana) ist stetig, da es sich um eine Verkettung<br />

handelt, in der alle Anteile stetig sind3 . In diesem Fall ist das Funktional sogar glatt,<br />

also stetig differenzierbar. Die Nichtlinearität von Di Bio(ana) bzgl. N ist offensichtlich,<br />

die Ableitungen befinden sich im Anhang in 8.2.3.<br />

2.3 Mathematische Formulierung der Optimierung<br />

Aufgabe der Optimierung ist die Bestimmung der Teilchenzahlen für alle Rasterpunkte<br />

im Bestrahlungsplan. Die daraus resultierende Dosisverteilung soll die Qualitätskriterien<br />

eines Bestrahlungsplanes (siehe Abschnitt 2.1) möglichst gut erfüllen.<br />

Die Optimierung ist der aufwendigste Teil in der Bestrahlungsplanung.<br />

Die mathematische Formulierung des Optimierungsproblems entspricht der Minimierung<br />

einer endlichdimensionalen nichtlinearen Zielfunktion. Die Idee dabei ist,<br />

die quadratischen Abweichungen, zwischen der vorgeschriebenen/tolerierbaren und<br />

tatsächlich erzeugten Dosis, in allen Target/OAR-Voxeln, zu minimieren. Dabei sind<br />

die Teilchenzahlen für alle Rasterpunkte die zu optimierenden Parameter.<br />

Dieser Abschnitt ist folgendermaßen unterteilt:<br />

1. Formulierung der Zielfunktion.<br />

2. Formulierung des Optimierungsproblems.<br />

3. Physikalische und technische Betrachtung des Optimierungsproblems.<br />

4. Mathematische Betrachtung des Optimierungsproblems.<br />

3 Aus der Analysis ist bekannt, dass eine Verkettung stetiger Funktionen stetig ist.<br />

29


2 Optimierung der Dosis in der Schwerionentherapie<br />

Den beiden letzten Punkten ist jeweils ein eigener Unterabschnitt gewidmet.<br />

Die Zielfunktion hat folgende Gestalt:<br />

χ 2 ( N) = <br />

mit χ2 : R p<br />

≥0 → R≥0.<br />

Bezeichnungen:<br />

<br />

Di pre − Di act( 2 N)<br />

∆D<br />

i∈Target<br />

2 pre<br />

<br />

Di max − Di act( 2 N)<br />

+ <br />

i∈OAR<br />

χ 2<br />

∆D 2 max<br />

<br />

· Θ D i act( N) − D i <br />

max<br />

,<br />

(2.7)<br />

: Bezeichnung der Zielfunktion<br />

N ∈ R p<br />

≥0 : Vektor, dessen j-te Komponente die Teilchenzahl<br />

für den j-ten Rasterpunkt enthält<br />

i ∈ Target/OAR, i = 1, . . . , q : Voxel aus dem Target/OAR-Volumen<br />

Bemerkungen:<br />

D i pre ∈ R≥0 : Vorgeschriebene Dosis im i-ten Target-Voxel<br />

D i max ∈ R≥0 : Maximale Dosisgrenze im i-ten OAR-Voxel<br />

D i act : R p<br />

≥0 → R≥0 : Tatsächlich erzeugte Dosis im Voxel i<br />

∆Dpre/max ∈ R>0 : Gewichtungsfaktor<br />

Θ : Heaviside-Funktion<br />

• Bei D i act handelt es sich um einen Platzhalter für eine Dosisfunktion aus Abschnitt<br />

2.2. "act" ist eine Abkürzung für das englische Wort "actual", mit D i act<br />

ist also die tatsächlich erzeugte Dosis gemeint.<br />

• Die genaue Definition der Heaviside-Funktion Θ wird im folgenden Unterabschnitt<br />

angegeben.<br />

• Die obigen Bezeichnungen für die Parameter der Zielfunktion gelten für den<br />

Rest dieser Master-Thesis. Die mathematischen Forderungen an die Parameter<br />

werden im weiteren Verlauf nicht mehr explizit angegeben.<br />

Das Optimierungsproblem lautet dann:<br />

min χ 2 ( N) , (2.8)<br />

u. d. N. Nj ≥ 0 ⇔ −Nj ≤ 0 ∀ j = 1, . . . , p . (2.9)<br />

Bemerkung: Mit "min" ist "minimiere" gemeint und "u. d. N." bedeutet "unter der<br />

Nebenbedingung".<br />

30


2.3 Mathematische Formulierung der Optimierung<br />

2.3.1 Physikalische und technische Betrachtung<br />

Im weiteren Verlauf folgt die physikalische und technische Betrachtung des Optimierungsproblems.<br />

• Die Zielfunktion setzt sich aus einer Target- und einer OAR-Summe zusammen.<br />

Letztere wird für jedes OAR im Bestrahlungsplan einmal hinzugefügt.<br />

Ein Bestrahlungsplan kann mehrere OAR’s enthalten (z.B. Auge links, Auge<br />

rechts, Sehnerv links, Sehnerv rechts, Chiasma, Hirnstamm, Rückenmark,<br />

etc.).<br />

• Bei Dmax handelt es sich um die maximal tolerierbare Dosisgrenze für das<br />

entsprechende OAR und wird stets als Anteil von Dpre angegeben:<br />

Dmax = dfrac · Dpre , dfrac ∈ [0.3 ; 0.7] . (2.10)<br />

Zu jedem OAR gehört ein eigenes dfrac.<br />

• Im Target werden in jedem Voxel Über- und Unterdosierungen mit quadratischen<br />

Abweichungen quantifiziert. Unterdosierungen in einem OAR spielen<br />

keine Rolle und können daher bei der Optimierung vernachlässigt werden. Dies<br />

wird mit der Heaviside-Funktion kontrolliert, die hier wie folgt definiert ist:<br />

<br />

Θ D i act( N) − D i <br />

max =<br />

<br />

1 : D i act( N) > D i max ,<br />

0 : D i act( N) ≤ D i max .<br />

(2.11)<br />

Weitere Betrachtungen der Heaviside-Funktion folgen im kommenden Unterabschnitt.<br />

• Die Gewichtungsfaktoren ∆Dpre und ∆Dmax kontrollieren den Einfluss der<br />

quadratischen Abweichungen. Damit eine Abweichung stärker gewichtet wird,<br />

werden beide Faktoren mit kleinen Werten von<br />

∆Dpre = 0.025 · Dpre bzw. ∆Dmax = 0.025 · Dmax (2.12)<br />

belegt. Durch (2.10) besteht zwischen ihnen stets die Größenbeziehung:<br />

∆Dmax < ∆Dpre . (2.13)<br />

Somit wird eine Abweichung im OAR "härter bestraft" als im Target.<br />

• In Abschnitt 2.1 wurden die vier Kriterien für eine gute Dosisverteilung gennant.<br />

Mit der obigen Zielfunktion werden nur die ersten drei Kriterien modelliert.<br />

Der vierte Punkt, dass die Dosis im umliegenden gesunden Gewebe,<br />

welches an das Target angrenzt, so niedrig wie möglich sein sollte, geht nicht<br />

in die Zielfunktion ein. Einbeziehung der Voxel aus dem umliegenden Gewebe<br />

würde den Optimierungsaufwand deutlich erhöhen. Falls doch Voxel aus diesem<br />

Bereich einbezogen werden sollen, so könnte bei der Bestrahlungsplanung<br />

im gesunden Gewebe ein "künstliches" OAR-Volumen definiert werden.<br />

31


2 Optimierung der Dosis in der Schwerionentherapie<br />

• In die Zielfunktion (2.7) sind alle Bestrahlungsfelder einbezogen. D.h., der Teilchenzahlvektor<br />

N setzt sich aus allen Rasterpunkten aus den entsprechenden<br />

Feldern zusammen. Somit werden alle Felder simultan optimiert. Diese Methode<br />

wird Mehrfelderoptimierung (MFO) genannt. Es gibt noch die Einzelfeldoptimierung<br />

(EFO), bei der die Felder einzeln und unabhängig voneinander<br />

optimiert werden. Bei der EFO wird ein anderer Ansatz für die Zielfunktion<br />

verwendet. In [G + 08] wurde gezeigt, dass mit der MFO, im Gegensatz zur<br />

EFO, bessere Optimierungsergebnisse erzielt werden können. Die EFO wird<br />

noch bei der Voroptimierung eine Rolle spielen, die in Abschnitt 4.3 beschrieben<br />

wird.<br />

• Ein Bestrahlungsplan besteht typischerweise aus mehreren zehntausend Voxeln<br />

als auch Rasterpunkten (bis zu 100000 bei sehr großen Bestrahlungsplänen).<br />

Bei Auswertung der Zielfunktion muss die RBW für jedes Voxel berechnet<br />

werden. Dabei handelt es sich um den zeitaufwändigsten Teil bei der Dosisberechnung.<br />

In dieser Arbeit wird für die RBW-Berechnung die schnelle<br />

"lowdose-approximation" verwendet. Dennoch ist die Auswertung der Zielfunktion<br />

relativ zeitaufwändig.<br />

• Bei der Optimierung ist der Gradient und die Hesse-Matrix der Zielfunktion<br />

von großer Bedeutung. Durch die hohe Dimension des Teilchenzahlvektors N<br />

entsteht für die Ableitungen ein großer Speicherbedarf. Dies gilt vor allem<br />

für die Hesse-Matrix. Dieser Speicheraufwand kommt zusätzlich zu dem der<br />

Dosis-Korrelations-Matrix C hinzu.<br />

• An dieser Stelle wird die "Anzahl der Freiheitsgrade" (NDF) eingeführt. NDF<br />

ist die Differenz zwischen der Anzahl der Voxel q und der Anzahl der Rasterpunkte<br />

p:<br />

NDF = q − p . (2.14)<br />

In der Regel sind bei der Bestrahlungsplanung mehr Target- und OAR-Voxel<br />

als Rasterpunkte enthalten. Damit ist NDF positiv. Die Verwendung von NDF<br />

wird im Unterabschnitt 4.4.3 erklärt.<br />

2.3.2 Mathematische Betrachtung<br />

Als erstes soll das Optimierungsproblem (2.8)-(2.9) klassifiziert werden. Dafür wird<br />

zuerst die zulässige Menge Z des Optimierungsproblems betrachtet. Diese wird von<br />

den Nebenbedingungen (2.9) beschrieben und sieht damit wie folgt aus:<br />

Z = R p<br />

≥0 . (2.15)<br />

Die Nebenbedingungen sind offensichtlich, da es keine negativen Teilchenzahlen für<br />

einen Rasterpunkt geben kann. Für die Klassifizierung spielen folgende Punkte eine<br />

Rolle:<br />

32


2.3 Mathematische Formulierung der Optimierung<br />

• Optimierung der RBW-gewichteten Dosis, diese ist relevant für die Therapie,<br />

verlangt das Einsetzen von D i Bio oder Di Bio(ana) für Di act in die Zielfunktion.<br />

Aus der Nichtlinearität der RBW-gewichteten Dosis folgt die Nichtlinearität<br />

der Zielfunktion in N und somit liegt ein nichtlineares Optimierungsproblem<br />

vor.<br />

• Z wird ausschließlich durch Ungleichungen beschrieben. Damit ist Z nicht der<br />

gesamte R p und hiermit ist ein ungleichungsrestringiertes Optimierungsproblem<br />

vorhanden.<br />

• Die Dimension des Optimierungsproblems ist p, also die Anzahl der Rasterpunkte<br />

im Bestrahlungsplan. Da p nicht unendlich werden kann handelt es<br />

sich um ein endlichdimensionales Optimierungsproblem.<br />

• Streng gesehen müsste das Optimierungsproblem als ganzzahliges Optimierungsproblem<br />

angesehen werden, da nur ganze Teilchen betrachtet werden<br />

können. Das Optimierungsproblem wird dennoch als kontinuierliches Optimierungsproblem<br />

(Optimierung mit reellen Zahlen) betrachtet. Ein ganzzahliges<br />

Optimierungsproblem gehört zum Teilgebiet der "Diskreten Optimierung",<br />

welche eine ganz andere und komplexere Herangehensweise als die kontinuierliche<br />

Optimierung ist. Die Teilchenzahlen für einen Rasterpunkt liegen in Bereichen<br />

von 5000 bis 500000. Bei so großen Zahlen kann das Optimierungsproblem<br />

als ein kontinuierliches angesehen werden und die Optimierungskomponenten<br />

können nach dem Optimierungsprozess gerundet werden. Dabei entsteht ein<br />

vernachlässigbarer Fehler.<br />

Bei dem Optimierungsproblem (2.8)-(2.9) handelt es sich somit um ein<br />

nichtlineares ungleichungsrestringiertes endlichdimensionales kontinuierliches<br />

Minimierungsproblem<br />

.<br />

Des Weiteren sind in der mathematischen Betrachtung noch folgende Punkte von<br />

Interesse:<br />

• Die zulässige Menge Z ist eine konvexe Menge. Die Diskussion, ob die Zielfunktion<br />

eine konvexe Funktion ist, und ob damit ein konvexes Optimierungsproblem<br />

vorliegt, findet in Unterabschnitt 3.2.2 statt. Konvexität eines Optimierungsproblems<br />

spielt im Hinblick auf Eindeutigkeitsaussagen über eine<br />

Lösung eine wesentliche Rolle.<br />

• Die Heaviside-Funktion ist im klassischen/starken Sinne nicht differenzierbar.<br />

Über die mathematische Theorie der Distributionen kann eine Ableitung<br />

mit der Diracschen Delta-Funktion angegeben werden. Im Rahmen der<br />

Optimierung wird dies nicht benötigt. Deshalb wird die Heaviside-Funktion<br />

33


2 Optimierung der Dosis in der Schwerionentherapie<br />

Abbildung 2.5: Foto des präparierten Biophantoms, welches direkt vor dem Strahlaustrittsfenster<br />

platziert ist. Auf den Stäbchen wachsen die Zellen, die in das Nährmedium (rote Flüssigkeit)<br />

eingetaucht sind.<br />

beim Differenzieren der Zielfunktion als konstanter Faktor behandelt. Gradient<br />

und Hesse-Matrix der Zielfunktion, die in der Optimierung eine essentielle<br />

Rolle spielen, befinden sich im Anhang in Abschnitt 8.3. Bei der Herleitung<br />

von notwendigen Optimalitätsbedingungen wird das Problem der nicht-<br />

Differenzierbarkeit mit einer lokalen Glättung der Zielfunktion umgangen.<br />

• Weitere Stetigkeits- und Differenzierbarkeitseigenschaften, als auch eine Glättung<br />

der Zielfunktion, werden in Kapitel 3 betrachtet.<br />

Im weiteren Verlauf dieser Arbeit liegt der Fokus auf der Lösung des Optimierungsproblems<br />

(2.8)-(2.9). Ziel ist es, in adäquater Rechenzeit, das Minimum der Zielfunktion<br />

zu ermitteln. In dem Minimum liegen die optimalen Teilchenzahlen, also:<br />

NOpt := Optimale Teilchenzahlen . (2.16)<br />

Dabei muss NOpt ein zulässiger Punkt sein, d.h. NOpt ∈ Z muss erfüllt sein.<br />

Das nächste Kapitel widmet sich der theoretischen Diskussion des Optimierungsproblems.<br />

Da die Zielfunktion nichtlinear in N ist, kann NOpt analytisch nicht bestimmt<br />

werden und muss mit iterativen Verfahren angenähert werden. Mit der allgemeinen<br />

Lösungsstrategie beschäftigt sich Kapitel 4. Auf die verwendeten Verfahren<br />

und deren Ergebnisse sowie numerische Bewertung geht Kapitel 5 und 6 ein.<br />

2.4 Experimentelle Verifikation<br />

An der <strong>GSI</strong> wurde ein sog. Biophantom entwickelt [vN + 06]. Abbildung 2.5 zeigt das<br />

Biophantom. Mit diesem kann über Messungen von Zellüberleben die Dosis in einem<br />

Bestrahlungsplan experimentell verifiziert werden.<br />

34


2.4 Experimentelle Verifikation<br />

Zellüberleben (Messung) Zellüberleben (TRiP)<br />

Abbildung 2.6: Vergleich von gemessenem Zellüberleben nach Bestrahlung mit 12 C-Ionen (linke<br />

Seite) und berechnetem Zellüberleben mit TRiP (rechte Seite). Die Ansicht ist von oben auf das<br />

Modell des Biophantoms. Auf der linken Seite repräsentiert ein Kästchen ein Stäbchen in dem Biophantom.<br />

Die Farbskalierung entspricht dem prozentualem Überleben in Abhängigkeit des Ortes.<br />

Hier handelt es sich um einen Bestrahlungsplan mit zwei Feldern, der eine komplexe Bestrahlungssituation<br />

simuliert. Das gemessene ist mit dem berechneten Zellüberleben in guter Übereinstimmung.<br />

Abbildung aus [Krä09].<br />

In dem Biophantom können auf Stäbchen Zellen kultiviert werden. Die Stäbchen<br />

sind senkrecht in einem Nährmedium platziert. Das präparierte Biophantom kann<br />

anschließend unter Therapiebedingungen bestrahlt werden. Nach der Bestrahlung<br />

wird an jedem einzelnen Stäbchen die Überlebensrate bestimmt. Aus dem Zellüberleben<br />

können Rückschlüsse über die Dosis, an der Stelle wo das Stäbchen in dem<br />

Biophantom platziert war, gemacht werden.<br />

Abbildung 2.6 zeigt Zellüberlebenswerte aus dem Biophantom im Vergleich mit<br />

einem optimierten Plan mit zwei Bestrahlungsfeldern. In diesem Beispiel handelt<br />

es sich um einen komplexen Plan, da sich zwischen dem Targetvolumen gesundes<br />

Gewebe befindet. Die Resultate zeigen, dass das gemessene Zellüberleben mit dem<br />

berechneten Zellüberleben von TRiP in guter Übereinstimmung ist.<br />

Näheres zum Biophantom und zur experimentellen Dosisverifikation befindet sich<br />

in [KD10, Krä09, G + 08].<br />

35


3 Theoretische Betrachtung des<br />

Optimierungsproblems<br />

In diesem Kapitel wird das Optimierungsproblem (2.8)-(2.9) theoretisch betrachtet.<br />

Eine theoretische Betrachtung des Optimierungsproblemes ist wichtig. Einerseits<br />

helfen die theoretischen Betrachtungen das Optimierungsproblem besser zu<br />

verstehen und andererseits sind die dabei gewonnenen Erkenntnisse später bei der<br />

numerischen Lösung des Optimierungsproblemes von Bedeutung.<br />

Im ersten Abschnitt werden von der Zielfunktion die Stetigkeits- und Differenzierbarkeitseigenschaften<br />

betrachtet, da diese im weiteren Verlauf eine bedeutende Rolle<br />

einnehmen. In Abschnitt 3.2 folgt die Diskussion der Existenz und Eindeutigkeit eines<br />

globalen Minimums des Optimierungsproblemes. Dabei muss eine Erweiterung<br />

des Extremwertsatzes von Weierstraß verwendet werden, die die Unterhalbstetigkeit<br />

und radiale Unbeschränktheit der Zielfunktion benötigt. Diese beiden Eigenschaften<br />

der Zielfunktion werden in diesem Kapitel bewiesen. Im letzten Abschnitt werden<br />

die Karush-Kuhn-Tucker-Bedingungen für das Optimierungsproblem angegeben, die<br />

die notwendige Optimalitätsbedingung erster Ordnung darstellen. Diese besitzen jedoch<br />

nur ihre Gültigkeit, wenn die Zielfunktion stetig-differenzierbar ist. Da dies<br />

nicht der Fall ist, wird vor der Herleitung der Karush-Kuhn-Tucker-Bedingungen<br />

die χ 2 -Funktion in Abschnitt 3.3 geeignet geglättet.<br />

3.1 Stetigkeits- und<br />

Differenzierbarkeitseigenschaften der<br />

Zielfunktion<br />

In diesem Abschnitt werden die Stetigkeits- und Differenzierbarkeitseigenschaften<br />

der Zielfunktion diskutiert. Diese Eigenschaften sind von großer Bedeutung bei der<br />

theoretischen Analyse des Optimierungsproblems (2.8)-(2.9). Dabei soll die Zielfunktion<br />

bei Optimierung mit dem analytischen Ausdruck für die RBW-gewichtete<br />

Dosis betrachtet werden. Dies erfordert das Einsetzen von Di Bio(ana) (siehe (2.6)) für<br />

Di act in der Zielfunktion. Die Zielfunktion wird dann mit χ2 Bio(ana) bezeichnet und<br />

36


hat folgende Gestalt:<br />

χ 2 Bio(ana)( N) = <br />

3.1 Stetigkeits- und Differenzierbarkeitseigenschaften der Zielfunktion<br />

<br />

Di pre − Di Bio(ana) ( 2 N)<br />

∆D<br />

i∈Target<br />

2 pre<br />

<br />

Di max − Di Bio(ana) ( 2 N)<br />

+ <br />

i∈OAR<br />

∆D 2 max<br />

<br />

· Θ D i Bio(ana)( N) − D i <br />

max<br />

,<br />

(3.1)<br />

mit χ2 Bio(ana) : Rp≥0<br />

→ R≥0.<br />

Zuerst wird die Stetigkeit von χ2 Bio(ana) betrachtet. Dabei wird der Target- und<br />

der OAR-Term seperat diskutiert. Anschließend folgt eine Zusammenfassung der<br />

Stetigkeitseigenschaften der gesamten χ2 Bio(ana) -Funktion mit Angabe der Differenzierbarkeitseigenschaften.<br />

Stetigkeitsbetrachtung des Target-Terms<br />

Es ist ausreichend, die Stetigkeit für ein Target-Voxel i zu zeigen, denn für jedes<br />

Target-Voxel i ist die Struktur im Target-Term die Gleiche. Ist die Stetigkeit für<br />

alle Target-Voxel i gezeigt, kann für den Target-Term die Eigenschaft angewendet<br />

werden, dass eine endliche Summe stetiger Funktionen stetig ist.<br />

Wie bereits in Abschnitt 2.2.2 erwähnt wurde, das Funktional Di Bio(ana) ist stetig<br />

für alle i. Di pre und ∆D2 pre sind Zahlen, die trivialerweise stetig sind. Die Differenz<br />

im Zähler ist auch stetig. Die Differenz im Quadrat kann als quadratische Funktion<br />

interpretiert werden, die ebenfalls stetig ist. Damit liegt in jedem Target-Voxel i eine<br />

stetige Funktion vor, denn es handelt sich um eine Verkettung von ausschließlich<br />

stetigen Teilen. Dies führt zur Stetigkeit des Target-Terms. 1<br />

Stetigkeitsbetrachtung des OAR-Terms<br />

Betrachtet man den OAR-Term ohne die Heaviside-Funktion Θ, dann gilt das Gleiche<br />

wie oben, es muss nur D i pre und ∆D 2 pre mit D i max und ∆D 2 max ersetzt werden.<br />

Da aber für jedes OAR-Voxel i die Heaviside-Funktion als Faktor vorkommt, ist der<br />

OAR-Term unstetig, da die Heaviside-Funktion eine Sprungfunktion ist.<br />

Zusammenfassung und Differenzierbarkeitseigenschaften<br />

Da der OAR-Term unstetig ist, ist die χ2 Bio(ana) -Funktion unstetig. Die Unstetigkeit<br />

wird ausschließlich durch die Heaviside-Funktion Θ induziert. Da die Heaviside-<br />

Funktion eine Sprungfunktion ist, ist die χ2 Bio(ana) -Funktion im klassischen Sinne<br />

nicht differenzierbar.<br />

1 Alle hier getroffenen Aussagen zur Stetigkeit sind z.B. in [Heu84] zu finden.<br />

37


3 Theoretische Betrachtung des Optimierungsproblems<br />

3.2 Existenz und Eindeutigkeit eines Minimums<br />

3.2.1 Existenz eines Minimums<br />

In diesem Unterabschnitt soll die Existenz eines globalen Minimums von dem Optimierungsproblem<br />

(2.8)-(2.9) gezeigt werden. Dabei wird die χ2 Bio(ana) -Funktion als<br />

Zielfunktion verwendet. Das Standardargument für die Existenz eines Minimums ist<br />

der Extremwertsatz von Weierstraß (siehe Satz 8.1 im Anhang). Dieser setzt die Stetigkeit<br />

der Funktion und Kompaktheit der Menge, auf der die Funktion betrachtet<br />

wird, voraus. Da die χ2 Bio(ana) -Funktion unstetig und die zulässige Menge (2.9) nicht<br />

kompakt ist, so kann nicht der Extremwertsatz von Weierstraß, weder in der Form<br />

in Satz 8.1 noch mit Betrachtung von Niveau-Mengen wie in Satz 8.3, als Existenzkriterium<br />

verwendet werden. Ist jedoch die Zielfunktion unterhalbstetig und radial<br />

unbeschränkt, kann die erweiterte Version des Extremwertsatzes von Weierstraß aus<br />

Abschnitt 8.7 angewendet werden. Dies ist das Ziel in diesem Unterabschnitt.<br />

Im Weiteren wird in 3.2.1.1 die Unterhalbstetigkeit und in 3.2.1.2 die radiale<br />

Unbeschränktheit der χ2 Bio(ana) -Funktion bewiesen. Mit diesen Ergebnissen wird dann<br />

in 3.2.1.3 die Existenz mindestens eines globalen Minimums gezeigt.<br />

3.2.1.1 Unterhalbstetigkeit der Zielfunktion<br />

An dieser Stelle soll gezeigt werden, dass die χ2 Bio(ana) -Funktion unterhalbstetig ist.<br />

Die dafür benötigten Definitionen, Eigenschaften und Veranschaulichungen zu unterhalbstetigen<br />

Funktionen befinden sich im Anhang in Abschnitt 8.5.<br />

Als erstes wird gezeigt, dass die Heaviside-Funktion Θ unterhalbstetig ist. Dabei<br />

genügt es, die Unterhalbstetigkeit für ein beliebiges OAR-Voxel i zu zeigen, denn<br />

die Struktur der Heaviside-Funktion ist in jedem OAR-Voxel die Gleiche. Für eine<br />

bessere Übersicht wird die Heaviside-Funktion hier nochmals angegeben:<br />

<br />

Θ D i Bio(ana)( N) − D i <br />

max =<br />

1 : D i Bio(ana) ( N) > D i max ,<br />

0 : D i Bio(ana) ( N) ≤ D i max .<br />

(3.2)<br />

Eine graphische Veranschaulichung der obigen Heaviside-Funktion zeigt Abbildung<br />

3.1.<br />

Satz 3.1<br />

Die äußere Heaviside-Funktion Θ mit der inneren Verkettung D i Bio(ana) ( N) − D i max<br />

in (3.2) ist unterhalbstetig.<br />

Beweis: Für das Argument der Heaviside-Funktion wird die Hilfsvariable ξ eingeführt,<br />

also:<br />

ξ := D i Bio(ana)( N) − D i max . (3.3)<br />

In diesem Beweis wird dann Θ(ξ) betrachtet. Man kann im weiteren Verlauf dieses<br />

Beweises mit der Substitution (3.3) arbeiten. Ist die Unterhalbstetigkeit für die<br />

38


3.2 Existenz und Eindeutigkeit eines Minimums<br />

Θ<br />

Abbildung 3.1: Graphische Veranschaulichung der Heaviside-Funktion aus (3.2) in Abhängigkeit<br />

der Hilfsvariable ξ. Die Heaviside-Funktion in dieser Form ist unterhalbstetig. Die Unterhalbstetigkeit<br />

ist unter anderem daran zu erkennen, dass die Funktion an keiner Stelle nach unten springt.<br />

aüßere Funktion Θ gezeigt, dann bleibt diese mit der inneren Verkettung unterhalbstetig,<br />

da der innere Teil D i Bio(ana) ( N) − D i max stetig ist. Eine unterhalbstetige<br />

Funktion mit einer inneren verkettet, wobei die innere Funktion stetig ist, bleibt<br />

unterhalbstetig. Die Heaviside-Funktion ist überall stetig mit Ausnahme der Stelle<br />

ξ = 0. Diese Stelle wird mit ξ0 bezeichnet. Sie repräsentiert den Fall:<br />

ξ0<br />

ξ0 := 0 =⇒ D i Bio(ana)( N) = D i max . (3.4)<br />

Wegen der Stetigkeit der Heaviside-Funktion außerhalb der Stelle ξ0 ist sie dort<br />

auch unterhalbstetig (siehe Eigenschaften in Abschnitt 8.5). Jetzt muss nur noch<br />

Unterhalbstetigkeit in ξ0 gezeigt werden und die Unterhalbstetigkeit der Heaviside-<br />

Funktion ist bewiesen. Unterhalbstetigkeit in ξ0 lässt sich dann aus Definition 8.4<br />

folgern. Für jedes ɛ > 0 existiert eine beliebige Umgebung U von ξ0, so dass<br />

Θ(y) > Θ(ξ0) − ɛ (3.5)<br />

für ein beliebiges y ∈ U gilt. Θ(y) kann nur die Werte 1 oder 0 annehmen und daraus<br />

können sich in (3.5) lediglich die beiden folgenden Fälle ergeben:<br />

1 > 0 − ɛ , (3.6)<br />

0 > 0 − ɛ . (3.7)<br />

Bei Betrachtung von Abbildung 3.1 sieht man, dass die Heaviside-Funktion aus<br />

(3.2) an keiner Stelle nach unten springt, was die anschauliche Bedeutung einer unterhalbstetigen<br />

Funktion ist.<br />

Aus der Unterhalbstetigkeit der Heaviside-Funktion in jedem OAR-Voxel i folgt:<br />

ξ<br />

<br />

39


3 Theoretische Betrachtung des Optimierungsproblems<br />

Satz 3.2<br />

Die Zielfunktion χ 2 Bio(ana)<br />

ist unterhalbstetig.<br />

Beweis: Hier kann mit den Eigenschaften unterhalbstetiger Funktionen aus Abschnitt<br />

8.5 argumentiert werden. Der Target-Term und der OAR-Term (ohne die<br />

Heaviside-Funktion Θ) sind unterhalbstetig, da diese stetig sind. Der gesamte OAR-<br />

Term ist unterhalbstetig, da dieser ein Produkt von zwei nichtnegativen und unterhalbstetigen<br />

Funktionen ist. Die χ2 Bio(ana) -Funktion ist damit eine Summe zweier<br />

unterhalbstetiger Funktionen, die wiederum unterhalbstetig ist.<br />

<br />

3.2.1.2 Radiale Unbeschränktheit der Zielfunktion<br />

Hier soll die radiale Unbeschränktheit der χ2 Bio(ana) -Funktion gezeigt werden. Die Definition<br />

einer radial unbeschränkten Funktion befindet sich im Anhang in Abschnitt<br />

8.6. Für die radiale Unbeschränktheit der χ2 Bio(ana) -Funktion wird noch der folgende<br />

Satz benötigt:<br />

Satz 3.3<br />

Der analytische Ausdruck für die RBW-gewichtete Dosis D i Bio(ana) ( N) aus (2.6) ist<br />

auf der zulässigen Menge Z radial unbeschränkt.<br />

Beweis: Der Beweis wird wieder für ein beliebiges Voxel i gezeigt, denn in jedem<br />

Voxel hat D i Bio(ana) ( N) die gleiche Struktur. Für die radiale Unbeschränktheit kön-<br />

nen in dem Ausdruck für D i Bio(ana) ( N) alle αx, βx, αi und βi vernachlässigt werden,<br />

da diese positive Konstanten sind. Daher kann man sich auf folgenden Ausdruck<br />

beschränken:<br />

D i Bio(ana)( N) =<br />

<br />

(c T i · N) + (c T i · N) 2 . (3.8)<br />

Als erstes soll der Ausdruck unter der Wurzel betrachtet werden, also:<br />

lim<br />

|| <br />

(c<br />

N||→∞<br />

T i · N) + (c T i · N) 2<br />

<br />

. (3.9)<br />

Aus den Gesetzen der Grenzwertbildung folgt:<br />

lim<br />

|| (c<br />

N||→∞<br />

T i · N) + lim<br />

|| (c<br />

N||→∞<br />

T i · N) 2<br />

. (3.10)<br />

Die Komponenten von c T i sind alle nichtnegativ und es gilt die Einschränkung N ∈<br />

R p<br />

≥0 . Man muss hier noch den Fall ausschließen, dass bei einem cT i alle Komponenten<br />

Null sind. c T i sind Zeilen aus der Dosis-Korrelations-Matrix C. Würden in den Zeilen<br />

alle Komponenten den Wert 0 haben, dann würde dass den Fall repräsentieren,<br />

dass keine Strahlung auf irgendeine Materie trifft, was im Hinblick auf die Therapie<br />

keinen Sinn ergeben würde. Daher werden in dem kanonischen Skalarprodukt c T i · N<br />

40


3.2 Existenz und Eindeutigkeit eines Minimums<br />

positive Zahlen miteinander multipliziert und addiert. Daraus folgt, wenn man N<br />

gegen unendlich laufen lässt:<br />

lim<br />

|| (c<br />

N||→∞<br />

T i · N) + lim<br />

|| (c<br />

N||→∞<br />

T i · N) 2 = ∞ + ∞ = ∞ . (3.11)<br />

Dieses Ergebnis und das streng monotone Wachstum der Wurzelfunktion ergibt:<br />

lim<br />

|| D<br />

N||→∞<br />

i Bio(ana)( N) = +∞ . (3.12)<br />

Damit ist der Satz bewiesen, denn aus der radialen Unbeschränktheit von D i Bio(ana)( N)<br />

folgt die radiale Unbeschränktheit von D i Bio(ana) ( N).<br />

<br />

Mit der radialen Unbeschränktheit von D i Bio(ana) ( N) kann nun der folgende Satz<br />

angegeben und bewiesen werden:<br />

Satz 3.4<br />

Die Zielfunktion χ 2 Bio(ana)<br />

ist radial unbeschränkt.<br />

Beweis: Da der OAR-Term eine nichtnegative Funktion ist, kann er bei der Betrachtung<br />

der radialen Unbeschränktheit der χ2 Bio(ana) -Funktion vernachlässigt werden<br />

und man kann sich auf folgenden Ausdruck beschränken:<br />

χ 2 Bio(ana)( N) = <br />

i∈Target<br />

<br />

Di pre − Di Bio(ana) ( 2 N)<br />

∆D 2 pre<br />

. (3.13)<br />

Aus der radialen Unbeschränktheit von χ2 Bio(ana) folgt die radiale Unbeschränktheit<br />

von χ2 Bio(ana) . Es ist ausreichend, die radiale Unbeschränktheit für ein Target-Voxel<br />

i zu zeigen, also für:<br />

<br />

Di pre − Di Bio(ana) ( 2 N)<br />

, (3.14)<br />

∆D 2 pre<br />

denn in jedem i liegt die gleiche Struktur vor. Da ∆D 2 pre eine positive Konstante<br />

ist, so ist der Ausdruck in (3.14) eine positive quadratische Funktion 2 , mit dem<br />

Argument<br />

D i pre − D i Bio(ana)( N) . (3.15)<br />

D i pre ist ebenfalls eine positive Konstante. Da D i Bio(ana) ( N) radial unbeschränkt ist<br />

und wegen der radialen Unbeschränktheit einer positiven quadratischen Funktion<br />

gilt:<br />

lim<br />

|| N||→∞<br />

<br />

Di pre − Di Bio(ana) ( 2 N)<br />

∆D 2 pre<br />

= +∞ . (3.16)<br />

2 Mit einer positiv quadratischen Funktion ist eine nach oben geöffnete Parabel gemeint.<br />

41


3 Theoretische Betrachtung des Optimierungsproblems<br />

Damit ist in jedem Target-Voxel i eine radial unbeschränkte Funktion vorhanden.<br />

Die Summe von radial unbeschränkten Funktionen ist wiederum radial unbeschränkt<br />

(siehe Bemerkungen in Abschnitt 8.6) und somit folgt:<br />

lim<br />

|| χ<br />

N||→∞<br />

2 Bio(ana)( N) = +∞ . (3.17)<br />

Da aus der radialen Unbeschränktheit von χ2 Bio(ana) die radiale Unbeschränktheit<br />

von χ2 Bio(ana) folgt, ist der Satz bewiesen.<br />

<br />

3.2.1.3 Anwendung auf den Extremwertsatz von Weierstraß<br />

Mit dem Ergebnis, dass die χ2 Bio(ana) -Funktion unterhalbstetig und radial unbeschränkt<br />

ist, kann folgende Existenzaussage getroffen und bewiesen werden:<br />

Satz 3.5<br />

Das Optimierungsproblem<br />

min χ 2 Bio(ana)( N) , (3.18)<br />

u. d. N.<br />

N ∈ Z = R p<br />

≥0<br />

, (3.19)<br />

besitzt mindestens ein globales Minimum auf der zulässigen Menge Z.<br />

Beweis: Hier kann der erweiterte Satz von Weierstraß (Satz 8.8) aus dem Anhang<br />

angewendet werden. Die zulässige Menge Z ist nichtleer und abgeschlossen. Des Weiteren<br />

ist die Zielfunktion χ2 Bio(ana) unterhalbstetig (Satz 3.2) und radial unbeschränkt<br />

(Satz 3.4) auf Z. Dies sind alle Forderungen, die in Satz 8.8 gestellt werden. Damit<br />

besitzt die χ2 Bio(ana) -Funktion mindestens ein globales Minimum auf Z.<br />

<br />

3.2.2 Eindeutigkeit eines Minimums<br />

Die iterativen Verfahren, die zur numerischen Lösung des Optimierungsproblems<br />

verwendet werden (siehe Abschnitt 4.1), können nur lokale Minima ermitteln. Da die<br />

Existenz mindestens eines Minimums gezeigt ist, ist es von großer Bedeutung, ob das<br />

Minimum eindeutig ist oder ob noch andere existieren können. Dies ist wichtig, denn<br />

bei mehreren Minima könnte der entsprechende Algorithmus bei unterschiedlichen<br />

Startpunkten gegen unterschiedliche Lösungen konvergieren.<br />

Ob ein lokales Minimum gleichzeitig globales Minimum ist, wird in der Regel<br />

über die Konvexität der Zielfunktion gezeigt. Für den Nachweis der Eindeutigkeit<br />

des Minimums wird die strengere Bedingung der strikten Konvexität benötigt. Der<br />

entsprechene Satz dazu befindet sich im Anhang in Abschnitt 8.8. Der Nachweis der<br />

strikten Konvexität einer Zielfunktion ist alles andere als trivial, da zum Beispiel<br />

die positive Definitheit der Hesse-Matrix der Zielfunktion auf der zulässigen Menge<br />

42


3.3 Glättung der Zielfunktion<br />

gezeigt werden muss3 . Bei hochgradig nichtlinearen Optimierungsproblemen ist dies<br />

oft nicht möglich.<br />

Ist die Zielfunktion nicht konvex, heißt es nicht notwendigerweise, dass mehrere<br />

Minima existieren müssen. Funktionen, die nicht konvex sind, können ein eindeutiges<br />

Minimum haben, der Nachweis davon ist allerdings noch schwieriger als im strikt<br />

konvexen Fall. Dies ist jedoch die Situation bei der χ2 Bio(ana) -Funktion. Im OAR-Term<br />

ist die Heaviside-Funktion enthalten, diese ist nicht konvex und damit ist dann auch<br />

im Optimierungsproblem die Zielfunktion χ 2 Bio(ana)<br />

nicht konvex. Aufgrund dieser<br />

komplexen Situation wird auf den Nachweis der Eindeutigkeit eines Minimums im<br />

weiteren verzichtet.<br />

In [Sch06] konnte gezeigt werden, dass ein iteratives Verfahren bei unterschiedlichen<br />

Sartwerten in das gleiche Minimum läuft. Dies ist zwar kein mathematischer<br />

Nachweis der Eindeutigkiet eines Minimums, lässt dies aber vermuten.<br />

3.3 Glättung der Zielfunktion<br />

Im nächsten Abschnitt soll für das Optimierungsproblem (2.8)-(2.9) die notwendige<br />

Optimalitätsbedingung erster Ordnung hergeleitet werden. Bei einem restringierten<br />

Optimierungsproblem sind das die bekannten Karush-Kuhn-Tucker-Bedingungen<br />

(KKT-Bedingungen). Diese besitzen jedoch nur ihre Gültigkeit, wenn die Zielfunktion<br />

stetig differenzierbar4 , also eine C1-Funktion, ist [GK02].<br />

Betrachtung der Stetigkeits- und Differenzierbarkeitseigenschaften der χ2 Bio(ana) -<br />

Funktion fand in Abschnitt 3.1 statt, mit dem Resultat, dass der Target-Term und<br />

der OAR-Term, ohne die Heaviside-Funktion Θ, stetig ist. Bei genauerem hinsehen<br />

erkennt man schnell, dass diese beiden Objekte auch stetig-differenzierbar sind,<br />

da sie sich ausschließlich aus stetig-differenzierbaren Teilen zusammensetzen. Lediglich<br />

die Heaviside-Funktion Θ ist nicht stetig, da diese eine Sprungfunktion ist. In<br />

diesem Abschnitt soll diese adäquat geglättet, also mit einer glatten Funktion approximiert,<br />

werden. Mit einer hinreichend5 guten Glättung der Heaviside-Funktion<br />

Θ kann eine hinreichend gute Approximation der χ2 Bio(ana) -Funktion erreicht werden,<br />

die stetig-differenzierbar ist. Für die geglättete Zielfunktion können dann anschließend<br />

im folgenden Abschnitt die KKT-Bedingungen hergeleitet werden.<br />

Es gibt mehrere Möglichkeiten, die Heaviside-Funktion Θ hinreichend gut zu glätten.<br />

Eine Möglichkeit wäre, sie mit einem Polynom, z.B. einem Polynom dritten Grades,<br />

zu glätten. In dieser Arbeit soll die Heaviside-Funktion Θ mit einer angepassten Tangens<br />

Hyperbolicus-Funktion geglättet werden, da sich diese dafür relativ gut eignet.<br />

Eine Tangens Hyperbolicus-Funktion ist glatt und damit stetig-differenzierbar.<br />

3 Der Nachweis der positiven Definitheit einer Matrix kann oft nur über die Eigenwerte gezeigt<br />

werden. Bei großen Matrizen ist die Eigenwertberechnung extrem aufwendig.<br />

4 Eine stetig differenzierbare Funktion besitzt die Eigenschaft, dass ihre Ableitung mindestens<br />

stetig ist.<br />

5 Mit hinreichend glatt ist gemeint, dass eine Funktion hinreichend oft differenzierbar ist.<br />

43


3 Theoretische Betrachtung des Optimierungsproblems<br />

a = 1<br />

a = 2<br />

a = 10<br />

Θ(x)<br />

1.0<br />

0.8<br />

0.6<br />

0.4<br />

0.2<br />

4 2 2 4<br />

0<br />

Abbildung 3.2: Graphische Veranschaulichung der Glättung der Heaviside-Funktion Θ(x). Die<br />

Heaviside-Funktion ist die rote Funktion, die Tangens Hyperbolicus-Funktionen werden von den<br />

anderen Farben repräsentiert. Es ist zu erkennen, dass die Heaviside-Funktion Θ(x) gut mit der<br />

tanh-Funktion aus (3.20) im glatten Sinne approximiert werden kann. Je größer der Parameter<br />

a > 0 gewählt wird, desto besser ist die Approximation der Heaviside-Funktion Θ(x). Bereits<br />

mit a = 10 erhält man eine relativ gute Approximation, da der Sprung an der Stelle x = 0 gut<br />

nachgestellt werden kann.<br />

Eine Heaviside-Funktion Θ(x), x ∈ R, kann mit folgender Funktion im glatten<br />

Sinne hinreichend gut approximiert werden:<br />

Θ(x) ≈ 1 1<br />

+ · tanh(a · x) =<br />

2 2<br />

1<br />

1 + e −2a·x , x ∈ R , a ∈ R>0 . (3.20)<br />

Je größer der Parameter a, desto besser ist diese Approximation, da der vertikale<br />

Sprung an der Stelle x = 0 besser nachgestellt werden kann (siehe Abbildung 3.2).<br />

Des weiteren gilt, wenn x = 0 vorausgesetzt wird:<br />

<br />

1 1<br />

Θ(x) = lim + · tanh(a · x) . (3.21)<br />

a→∞ 2 2<br />

Die Konvergenzgeschwindigkeit in (3.21) hängt von der Variablen x ab.<br />

Obiges kann dann einfach auf die Heaviside-Funktion Θ in der Zielfunktion<br />

aus (3.1) folgendermaßen übertragen werden:<br />

χ 2 Bio(ana)<br />

<br />

Θ D i Bio(ana)( N) − D i <br />

max ≈ 1 1<br />

<br />

+ · tanh a · D<br />

2 2 i Bio(ana)( N) − D i <br />

max<br />

x<br />

, (3.22)<br />

mit einem hinreichend großen a > 0. Jetzt ist es möglich eine hinreichend gute<br />

Approximation der Zielfunktion χ2 Bio(ana) mit einer stetig-differenzierbaren Funktion<br />

anzugeben. Die Approximierende wird mit χ2 Bio(glatt) bezeichnet und hat folgende<br />

44


Struktur:<br />

χ 2 Bio(glatt)( N) = <br />

+ <br />

i∈OAR<br />

mit χ 2 Bio(glatt)<br />

<br />

Di pre − Di Bio(ana) ( 2 N)<br />

∆D<br />

i∈Target<br />

2 pre<br />

<br />

Di max − Di Bio(ana) ( 2 N)<br />

∆D 2 max<br />

·<br />

3.4 Karush-Kuhn-Tucker-Bedingungen<br />

<br />

1 1<br />

<br />

+ · tanh a · D<br />

2 2 i Bio(ana)( N) − D i <br />

max<br />

<br />

: Rp<br />

≥0 → R≥0. Bei einem hinreichend großen a > 0 gilt dann:<br />

,<br />

(3.23)<br />

χ 2 Bio(ana)( N) ≈ χ 2 Bio(glatt)( N) . (3.24)<br />

Es ist offensichtlich, dass je größer der Parameter a > 0 gewählt wird, desto besser<br />

ist die Approximation in (3.24).<br />

Die χ2 Bio(glatt) -Funktion ist glatt, da sie ausschließlich aus glatten Teilen besteht.<br />

Eine Komposition von glatten Funktionen induziert wiederum eine glatte Funktion.<br />

Daher kann mindestens davon ausgegangen werden, dass die χ2 Bio(glatt) -Funktion<br />

stetig-differenzierbar ist, also dass mindestens<br />

und damit<br />

χ 2 Bio(glatt) ∈ C 1 ( N) (3.25)<br />

∇χ 2 Bio(glatt) ∈ C 0 ( N) p<br />

(3.26)<br />

gilt. Die Bedingungen (3.25) und (3.26) sind mathematisch ausreichend für die im<br />

folgenden stattfindende Herleitung und Diskussion der KKT-Bedingungen.<br />

3.4 Karush-Kuhn-Tucker-Bedingungen<br />

In der Optimierung spielen die notwendigen Optimalitätsbedingungen eine bedeutende<br />

Rolle. Notwendige Optimalitätsbedingungen sind Kriterien, die notwendigerweise<br />

von einem lokal optimalen Punkt NOpt erfüllt werden müssen.<br />

Bei der unrestringierten Optimierung ist die notwendige Optimalitätsbedingung<br />

erster Ordnung einfach. Diese ist nichts weiter, als das ein lokal optimaler Punkt<br />

NOpt stationär 6 sein muss, also dass folgendes gilt:<br />

∇χ 2 ( NOpt) = 0 . (3.27)<br />

Für die restringierte Optimierung kann die notwendige Optimalitätsbedingung erster<br />

Ordnung aus (3.27) nicht einfach so übernommen werden. Der Grund ist, dass bei<br />

der restringierten Optimierung lokal optimale Punkte nicht notwendigerweise (3.27)<br />

6 Mit Stationarität ist der geometrisch anschauliche Fall gemeint, dass in einem Punkt die Tangenten<br />

in alle möglichen Richtungen keine Steigung haben.<br />

45


3 Theoretische Betrachtung des Optimierungsproblems<br />

erfüllen müssen. Daher muss (3.27) geeignet erweitert werden, was zu den Karush-<br />

Kuhn-Tucker-Bedingungen (KKT-Bedingungen) führt.<br />

Bevor die KKT-Bedingungen hergeleitet werden, wird hier nochmals für eine bessere<br />

Übersicht das Optimierungsproblem aufgeschrieben. Dabei wird als Zielfunktion<br />

χ 2 Bio(glatt) betrachtet:<br />

min χ 2 Bio(glatt)( N) , (3.28)<br />

u. d. N. Nj ≥ 0 ⇔ −Nj ≤ 0 ∀ j = 1, . . . , p , (3.29)<br />

p ist der größte/letzte Index eines Rasterpunktes.<br />

Die KKT-Bedingungen lassen sich übersichtlicher mit der Lagrange-Funktion<br />

aufstellen. Zu dem obigen Optimierungsproblem (3.28)-(3.29) sieht die Lagrange-<br />

Funktion L wie folgt aus:<br />

L( N, λ) = χ 2 Bio(glatt)( N) +<br />

p<br />

λj · (−Nj) , (3.30)<br />

mit L : R p × R p → R. λ ist der sogenannte Lagrange-Multiplikator. Die Lagrange-<br />

Funktion fasst somit ein allgemeines Optimierungsproblem (also Zielfunktion und<br />

alle Nebenbedingungen) in einer Funktion L zusammen. Weiteres zur Lagrange-<br />

Funktion findet sich z.B. in [Ulb07, GK02].<br />

Mit Hilfe der Lagrange-Funktion L aus (3.30) können jetzt die KKT-Bedingungen<br />

angegeben werden:<br />

Karush-Kuhn-Tucker-Bedingungen zu (3.28)-(3.29)<br />

Es existiert ein ¯ λ ∈ R p mit<br />

1) −N Opt<br />

j<br />

j=1<br />

≤ 0 ∀ j = 1, . . . , p (Zulässigkeit) , (3.31)<br />

2) ∇ N L( NOpt, ¯ λ) = 0 (Multiplikatorregel) , (3.32)<br />

3) ¯ λ ≥ 0 , ¯ λ T · (− NOpt) = 0 (Komplementaritätsbedingung) . (3.33)<br />

1) ist offensichtlich und besagt nichts weiter, als dass alle Optimierungskomponenten<br />

in der zulässigen Menge (3.29) liegen müssen. Die Ungleichung in 3) ist komponentenweise<br />

zu verstehen. Der Ausdruck in 2)<br />

∇ N L( NOpt, ¯ λ) (3.34)<br />

ist der Gradient der Lagrange-Funktion bzgl. der Variablen N. Ausgeschrieben sieht<br />

dieser folgendermaßen aus:<br />

∇ N L( NOpt, ¯ λ) = ∇χ 2 Bio(glatt)( NOpt) − ¯ λ . (3.35)<br />

Mit den obigen KKT-Bedingungen kann jetzt für das Optimierungsproblem (3.28)-<br />

(3.29) die notwendige Optimalitätsbedingung erster Ordnung angegeben werden:<br />

46


3.4 Karush-Kuhn-Tucker-Bedingungen<br />

Satz 3.6<br />

Sei NOpt ein lokales Minimum des Optimierungsproblemes (3.28)-(3.29). Sind zudem<br />

die Zielfunktion und alle auftretenden Nebenbedingungen stetig-differenzierbar,<br />

dann gelten für NOpt die KKT-Bedingungen (3.31)-(3.33).<br />

Bemerkungen:<br />

• Das Resultat, dass die Zielfunktion (3.28) stetig-differenzierbar ist, befindet<br />

sich in Abschnitt 3.3. Dass die Nebenbedingungen (3.29) stetig-differenzierbar<br />

sind, ist trivial.<br />

• Ein Punkt NOpt, der (3.31)-(3.33) erfüllt, wird KKT-Punkt oder stationärer<br />

Punkt des Optimierungsproblems genannt.<br />

• Die KKT-Bedingungen können als eine Art der Abstraktion des geometrischen<br />

Begriffes der Stationarität interpretiert werden.<br />

• Das KKT-System kann, weil die Nebenbedingungen in (3.29) einfach sind, in<br />

die äquivalente und anschaulichere Form umformuliert werden:<br />

∇χ 2 Bio(glatt)( NOpt)j =<br />

<br />

0 falls − N Opt<br />

j<br />

≥ 0 sonst .<br />

< 0 ,<br />

(3.36)<br />

Bei der ersten Zeile in (3.36) ist die Optimierungskomponente j im strikt inneren<br />

der zulässigen Menge und bei der zweiten Zeile liegt die Optimierungskomponente<br />

j auf dem Rand der zulässigen Menge.<br />

(3.36) kann in einem numerischen Optimierungsverfahren, in leicht abgewandelter<br />

Form, als Abbruchkriterium verwendet werden. Dazu mehr am Ende<br />

von Abschnitt 4.1.<br />

• In der KKT-Theorie spielt der Begriff "Abadie Constraint Qualification" eine<br />

wesentliche Rolle. Dabei sind die Begriffe Tangentialkegel und Linearisierungskegel,<br />

als auch deren Beziehung zueinander, von großer Bedeutung. Die<br />

KKT-Bedingungen gelten nämlich nur, wenn für ein lokales Optimum NOpt<br />

die "Abadie Constraint Qualification" erfüllt ist. Bedingungen, die die "Abadie<br />

Constraint Qualification" sicherstellen, werden in der Optimierung als<br />

"Constraint Qualifications" bezeichnet, von denen mehrere existieren. Eine<br />

von den "Constraint Qualifications" ist, dass in einem nichtlinearen Optimierungsproblem<br />

alle auftretenden Nebenbedingungen linear sind. Dies ist bei<br />

dem Optimierungsproblem (3.28)-(3.29) der Fall und damit gilt die "Abadie<br />

Constraint Qualification" für ein lokales Minimum NOpt. Daher besitzen die<br />

KKT-Bedingungen (3.31)-(3.33) für das Optimierungsproblem (3.28)-(3.29)<br />

ihre Gültigkeit.<br />

47


3 Theoretische Betrachtung des Optimierungsproblems<br />

48<br />

Weiter soll hier auf die "Abadie Constraint Qualification" und "Constraint<br />

Qualifications" nicht eingegangen werden, da dies umfangreich ist und im weiteren<br />

Verlauf dieser Arbeit nicht mehr benötigt wird. Näheres dazu findet sich<br />

z.B in [Ulb07, GK02].


4 Nichtlineare Optimierung<br />

In diesem Kapitel wird das Wichtigste zur numerischen Lösung des Optimierungsproblems<br />

(2.8)-(2.9) zusammengefasst. Der erste Abschnitt gibt eine Einführung in<br />

die sogenannten Linesearch-Verfahren. Im darauffolgenden Abschnitt werden zwei<br />

Schrittweitenstrategien vorgestellt. In Abschnitt 4.3 wird die Voroptimierung erklärt.<br />

Diese ist wichtig, den das Ergebnis der Voroptimierung wird als Startpunkt<br />

für die Linesearch-Verfahren verwendet. Der letzte Abschnitt behandelt noch einige<br />

Details zur numerischen Optimierung, wie z.B. die verwendete Rechnerarchitektur<br />

und der verwendete Bestrahlungsplan, über die Bewertung der Verfahren und abschließend<br />

zwei Bemerkungen zur Implementierung der Verfahren.<br />

Bemerkung: Die Kapitel 4, 5 und 6 beschäftigen sich mit der numerischen Lösung des<br />

Optimierungsproblemes (2.8)-(2.9). Dabei wird ausschließlich die RBW-gewichtete<br />

Dosis optimiert. Die RBW-Werte werden in dieser Arbeit mit der ersten Version<br />

des LEMs, das LEM I, berechnet. Aus Platzgründen wird die Zielfunktion in den<br />

Kapiteln 4, 5 und 6 nicht mehr mit χ2 Bio(ana) oder χ2Bio bezeichnet, sondern nur noch<br />

mit χ2 .<br />

4.1 Numerische Minimierung mit<br />

Linesearch-Verfahren<br />

Die Nichtlinearität des Optimierungsproblemes (2.8)-(2.9) lässt keine analytische<br />

Lösung zu. Die einzige Möglichkeit, einen Lösungsvektor NOpt zu erhalten, ist eine<br />

Lösung mit numerischen Methoden. Da die Zielfunktion minimiert werden soll, ist<br />

es naheligend, mit einem Iterationsverfahren ein Abstiegsverfahren zu erzeugen. Bei<br />

einem Abstiegsverfahren erüllt eine Folge Nk, ausgehend von einem Startpunkt N0,<br />

die folgende Bedingung:<br />

χ 2 ( Nk+1) < χ 2 ( Nk) , k = 0, 1, 2, 3, . . . . (4.1)<br />

k ist der Iterationsindex des Verfahrens. Ziel ist es, dass die Folge Nk gegen ein<br />

NOpt konvergiert. Es gibt zwei Klassen von Abstiegsverfahren, die sogenannten<br />

Linesearch-Verfahren und die Trust-Region-Verfahren [Ulb07]. In dieser Arbeit werden<br />

nur Linesearch-Verfahren verwendet. Linesearch-Verfahren sind die klassischen<br />

Verfahren zur Lösung nichtlinearer Optimierungsaufgaben und sind bis jetzt besser<br />

untersucht. Trust-Region-Verfahren spielen eher bei neueren Verfahrenskonzepten<br />

eine Rolle [Alt02].<br />

49


4 Nichtlineare Optimierung<br />

Ein Linesearch-Verfahren verwendet bei der Berechnung von Nk+1 eine Abstiegsrichtung<br />

dk mit der Eigenschaft<br />

∇χ 2 ( Nk) T · dk < 0 , dk ∈ R p<br />

. (4.2)<br />

Bei dem Ausdruck in (4.2) handelt es sich um die Richtungsableitung der Funktion<br />

χ 2 an der Stelle Nk in Richtung dk. Ist diese Richtungsableitung negativ, dann heißt<br />

das, dass wenn man an der Stelle Nk in Richtung dk losläuft, man sich zumindest<br />

anfangs in der Zielfunktionstopologie nach unten bewegt. Des Weiteren wird noch<br />

eine Schrittweite µk benötigt, so dass<br />

gilt und die Abnahme<br />

χ 2 ( Nk + µk dk) < χ 2 ( Nk) , µk ∈ R>0 , (4.3)<br />

χ 2 ( Nk) − χ 2 ( Nk + µk dk) (4.4)<br />

ausreichend groß ist. Berechnung der Schrittweite wird als Schrittweitenbestimmung<br />

oder -steuerung bezeichnet. Auf diese wird im nächsten Abschnitt näher eingegangen.<br />

Bemerkung: Die mathematischen Forderungen k = 0, 1, 2, 3, . . ., dk ∈ R p und µk ∈<br />

R>0 gelten für den Rest dieser Arbeit und werden im weiteren Verlauf nicht mehr<br />

explizit angegeben.<br />

Ohne die Berechnung von Abstiegsrichtungen dk und Schrittweiten µk zu spezifizieren,<br />

hat ein Linesearch-Verfahren im allgemeinen folgende Verfahrensvorschrift:<br />

Algorithmus: Allgemeines Linesearch-Verfahren<br />

1. Wähle einen Startpunkt N0 und setze k := 0.<br />

2. Falls eine Abbruchbedingung erfüllt ist, dann steige mit der Lösung Nk aus.<br />

3. Bestimme eine Abstiegsrichtung dk.<br />

4. Berechne eine Schrittweite µk.<br />

5. Berechne einen neuen Teilchenzahlenvektor Nk+1 = Nk + µk dk.<br />

6. Setze k := k + 1 und gehe zurück zu Schritt 2.<br />

Bemerkungen:<br />

50<br />

• Sind die Abstiegsrichtungen dk hinreichend gut und die Schrittweiten µk realisieren<br />

einen ausreichenden Abstieg, dann ist in der Regel die Konvergenz eines<br />

Linesearch-Verfahrens gewährleistet.<br />

• Mit einem Linesearch-Verfahren können nur lokale Minima bestimmt werden.


4.1 Numerische Minimierung mit Linesearch-Verfahren<br />

Üblicherweise wird im zweiten Punkt des allgemeinen Linesearch-Verfahrens als<br />

Abbruchkriterium die Stationarität an der Stelle Nk getestet, also:<br />

∇χ 2 ( Nk) = 0 . (4.5)<br />

Dieses Abbruchkriterium ist zum einem numerisch nicht realisierbar und zum anderen<br />

kann es bei restringierten Optimierungsproblemen nicht verwendet werden, da in<br />

diesem Fall Minima nicht notwendigerweise (4.5) erfüllen müssen. Dieser Fall kann<br />

zum Beispiel eintreten, wenn das Minimum auf dem Rand der zulässigen Menge liegt.<br />

Dies wurde bereits in Abschnitt 3.4 angesprochen. Um unnötig lange Rechenzeiten<br />

zu vermeiden, können folgende Abbruchkriterien verwendet werden:<br />

• Die relative Änderung der Zielfunktionswerte unterscheidet in aufeinanderfolgenden<br />

Iterationsschritten einen bestimmten Wert:<br />

|χ 2 ( Nk−1) − χ 2 ( Nk)|<br />

χ 2 ( Nk−1)<br />

< ɛ1 , χ 2 ( Nk−1) = 0 ∀ k . (4.6)<br />

• Wenn der Abstand zwischen zweier aufeinanderfolgender Schritte einen bestimmten<br />

Wert unterschreitet:<br />

|| Nk−1 − Nk|| < ɛ2 . (4.7)<br />

Als Norm wird irgendeine von den p-Normen für endlichdimensionale Vektorräume<br />

R n verwendet. In der Regel wird p = 2 (Euklidische Norm) oder p = ∞<br />

(Maximumsnorm) bevorzugt.<br />

• Ein Abbruchtest, ob mit einem Verfahren ein stationärer Punkt erreicht wurde,<br />

muss wie folgt implementiert werden:<br />

∇χ 2 ( <br />

< ɛ3 falls (−Nk)j < 0 ,<br />

Nk)j =<br />

(4.8)<br />

≥ 0 sonst .<br />

Hierbei handelt es sich um eine numerische Umsetzung der KKT-Bedingungen<br />

aus (3.36).<br />

• Wird keines der oberen Abbruchkriterien erfüllt, dann steigt das Verfahren<br />

nach einer festgelegten Anzahl an Iterationsschritten aus.<br />

Bemerkungen:<br />

• Für ɛ1, ɛ2 und ɛ3 werden üblicherweise Werte aus dem Intervall [10 −2 , 10 −8 ]<br />

gewählt.<br />

• Die ersten zwei Abbruchbedingungen können erst ab der zweiten Iteration des<br />

Linesearch-Verfahrens geprüft werden.<br />

51


4 Nichtlineare Optimierung<br />

4.2 Schrittweitenstrategien<br />

Um konvergente Linesearch-Verfahren zu erhalten, müssen effiziente Schrittweiten 1<br />

berechnet werden. Es ist naheliegend, die Schrittweite µk über das eindimensionale<br />

Optimierungsproblem<br />

µk = argmin µ∈[0, µmax] χ 2 ( Nk + µ dk) , µmax ∈ (0, ∞] , (4.9)<br />

zu berechnen. Diese Schrittweite wird exakte Schrittweite genannt [Alt02]. In der<br />

Regel kann bei nichtlinearen Optimierungsproblemen die exakte Schrittweite analytisch<br />

nicht berechnet werden. Eine numerische Lösung ist prinzipiell möglich, jedoch<br />

zu zeitaufwendig.<br />

Im folgenden werden zwei Schrittweitenstrategien beschrieben, mit denen eine gute<br />

Näherung der exakten Schrittweite berechnet werden kann, ohne den Ausdruck<br />

(4.9) numerisch lösen zu müssen. Mit beiden Varianten kann viel Rechenzeit gespart<br />

werden.<br />

4.2.1 Schrittweitenbestimmung über Dämpfung der<br />

Physik-Schrittweite<br />

Vorab werden für diesen Unterabschnitt die folgenden Bezeichnungen eingeführt:<br />

• Exakte Schrittweite bei Optimierung der RBW-gewichteten Dosis := µBio.<br />

• Exakte Schrittweite bei Optimierung der physikalischen Dosis und Vernachlässigung<br />

des OAR-Terms := µPhys.<br />

Optimierung der RBW-gewichteten Dosis ist nichtlinear und das daraus resultierende<br />

eindimensionale Optimierungsproblem (4.9) für die exakte Schrittweite µBio kann<br />

analytisch nicht gelöst werden. Bei Optimierung der linearen physikalischen Dosis<br />

und Vernachlässigung des OAR-Terms in der Zielfunktion (OAR-Term muss wegen<br />

der Heaviside-Funktion weggelassen werden) liegt ein quadratisches Optimerungsproblem<br />

vor. In diesem Fall ergibt sich dann für (4.9) ebenfalls ein quadratisches<br />

Optimierungsproblem. Dieses ist sogar streng konvex und das eindeutige µPhys kann<br />

analytisch berechnet werden. Ziel ist es hier, über die Schrittweite µPhys durch Skalierung<br />

an eine gute Schrittweite µBio zu gelangen.<br />

Die genaue Berechnungsvorschrift von µPhys befindet sich im Anhang in Abschnitt<br />

8.9. Die Idee bei der hier beschriebenen Schrittweitenstrategie ist, µPhys zu berechnen<br />

und anschließend mit einem Faktor fµ zu skalieren um an eine gute Approximation<br />

von µBio zu gelangen. Die Approximation von µBio wird mit µBio bezeichnet und<br />

berechnet sich demnach wie folgt:<br />

µBio = fµ · µPhys , fµ ∈ R>0 . (4.10)<br />

1 Effiziente Schrittweiten implizieren sog. zulässige Schrittweiten. Die Definition von effizienten<br />

und zulässigen Schrittweiten findet sich z.B. in [Ulb07].<br />

52


fµ<br />

Dosis [Gy (RBW)]<br />

4.2 Schrittweitenstrategien<br />

Abbildung 4.1: "Ideale" Skalierungswerte fµ für µPhys in Abhängigkeit der vorgeschriebenen Dosis.<br />

Die Daten wurden aus zwei verschiedenen Patientenplänen mit zwei unterschiedlichen Methoden<br />

ermittelt. Die "Dreicek"-Daten wurden aus einem Patientenplan mit einem dynamischen Suchalgorithmus<br />

gewonnen. Dies ist detailliert in [Hor08] beschrieben. Die "Quadrat"-Daten wurden in<br />

einem anderen Patientenplan mit vielen statistischen Auswertungen ermittelt. Näheres hierzu ist in<br />

[Sch06] veröffentlicht. Die gute Übereinstimmung beider Datensätze und gute Konvergenzergebnisse<br />

mit diesen Daten in anderen Patientenplänen deuten auf deren allgemeine Gültigkeit. Deutlich<br />

ist zu erkennen, dass bei steigender vorgeschriebener Dosis der Skalierungsfaktor fµ erhöht werden<br />

sollte.<br />

Es hat sich gezeigt, dass ein guter Parameter fµ von der vorgeschriebenen Dosis<br />

Dpre abhängt. Zum Beispiel werden die besten Konvergenzergebnisse bei einer vorgeschriebenen<br />

Dosis von 3Gy (RBW) mit dem Dämpfungsfaktor fµ = 0.5 erreicht.<br />

Weitere "Idealwerte" von fµ zu verschiedenen vorgeschriebenen Dosen können aus<br />

Abbildung 4.1 entnommen werden. Weitere Details und die Beschaffung der Werte<br />

aus dieser Abbildung befinden sich in [Sch06] und [Hor08].<br />

4.2.2 Die Schrittweitenregel von Armijo<br />

Die Armijo-Regel ist ein einfach zu implementierendes Schrittweitenverfahren mit<br />

dem relativ schnell eine geeignete Schrittweite µk berechnet werden kann. Sie wird<br />

oft bei nichtlinearen Optimierungsproblemen zur Schrittweitensteuerung verwendet.<br />

Hier wird nur das Nötigste zur Armijo-Regel angegeben. Eine ausführlichere Behandlung<br />

findet sich z.B. in [Alt02, Ulb07].<br />

Armijo-Verfahren:<br />

Es wird eine hinreichend große Startschrittweite benötigt, die als µmax bezeichnet<br />

wird. Des Weiteren seien δ ∈ (0, 1) und γ ∈ (0, 1) fest gewählte Konstanten.<br />

Bestimme die größte Schrittweite µk ∈ {µmax, µmaxδ, µmaxδ 2 , . . .}, für welche die<br />

53


4 Nichtlineare Optimierung<br />

folgende Ungleichung erfüllt ist:<br />

Bemerkungen:<br />

χ 2 ( Nk) − χ 2 ( Nk + µk dk) ≥ −γµk∇χ 2 ( Nk) T · dk . (4.11)<br />

• Häufig wird für die Parameter δ = 0.5 und γ = 10 −2 gewählt [Alt02]. Beide<br />

Konstanten sind unabhängig von Nk und dk.<br />

• Bei bestimmten Voraussetzungen ist das Armijo-Verfahren wohldefiniert und<br />

liefert nach endlich vielen Schritten eine effiziente Schrittweite.<br />

• Die Startschrittweite µmax sollte hinreichend groß gewählt werden, da das<br />

Armijo-Verfahren die Schrittweite nur verkleinern kann.<br />

• Das Armijo-Verfahren greift in der Regel schnell, wenn für µmax eine gute<br />

Approximation der exakten Schrittweite gewählt wird.<br />

• Als Startschrittweite kann zum Beispiel µPhys oder µBio (siehe vorherigen Unterabschnitt)<br />

gewählt werden.<br />

• Die Schrittweite<br />

µmax,k = −<br />

∇χ 2 ( Nk) T · dk<br />

2(χ 2 ( Nk + dk) − χ 2 ( Nk) − ∇χ 2 ( Nk) T · dk)<br />

(4.12)<br />

ist eine Approximation der exakten Schrittweite und damit geeignet als Startschrittweite<br />

für das Armijo-Verfahren. Setzt man<br />

ϕk(µ) = χ 2 ( Nk + µ dk) , (4.13)<br />

mit ϕk : R≥0 → R≥0 ∀k, so ist die Schrittweite (4.12) die exakte Schrittweite<br />

des quadratischen Interpolationspolynomes von (4.13) durch die Punkte<br />

ϕ(0) = χ 2 ( Nk) , ϕ ′ (0) = ∇χ 2 ( Nk) T · dk , ϕ(1) = χ 2 ( Nk + dk) . (4.14)<br />

4.3 Voroptimierung<br />

Linesearch-Verfahren arbeiten ausgehend von einem Startpunkt N0. Generell hat<br />

die Wahl des Startvektors einen großen Einfluss auf das Konvergenzverhalten des<br />

entsprechenden Verfahrens. Sind bei einer Zielfunktion mehrere Minima vorhanden,<br />

dann läuft der Algorithmus in der Regel vom Startpunkt in das nächstgelegene Minimum.<br />

Je näher der Startvektor an einem Minimum liegt, desto schneller konvergiert<br />

in der Regel das Verfahren. Die besten Konvergenzergebnisse können erwartet werden,<br />

wenn der Startvektor eine gute Approximation des gesuchten Minimums ist,<br />

also:<br />

N0 ≈ NOpt . (4.15)<br />

54


4.4 Ressourcen, Daten und Bemerkungen zur Optimierung<br />

Da der Startvektor für das Konvergenzverhalten des Verfahrens von großer Bedeutung<br />

ist, wird er nicht willkürlich gewählt. Bevor die eigentliche Optimierung<br />

beginnt, ist in TRiP ein Voroptimierung implementiert, die einen geeigneten Startvektor<br />

N0 generiert. Die Voroptimierung läuft als Einzelfeldoptimierung ab, wo die<br />

Felder einzeln und unabhängig voneinander optimiert werden. Dabei werden OAR’s<br />

nicht berücksichtigt. Mit dem aus der Voroptimierung resultierendem Startvektor<br />

N0 kann bereits eine gute Dosisverteilung im Targetvolumen erzeugt werden, jedoch<br />

eine hohe Dosis in den OAR’s. Die Voroptimierung dauert in der Regel weniger als<br />

eine Minute. Details zur Voroptimierung finden sich in [G + 08, K + 00].<br />

4.4 Ressourcen, Daten und Bemerkungen zur<br />

Optimierung<br />

4.4.1 Verwendete Rechnerarchitektur<br />

Alle Berechnungen wurden mit einem IBM PS701 Blade Server Rechner auf einem<br />

3GHz Power7 Prozessor ausgeführt.<br />

4.4.2 Verwendeter Patientenplan<br />

Als Referenz für die Minimierungsergebnisse der χ 2 -Funktion wird der Patientenplan<br />

#135 verwendet. Eine bearbeitete CT-Scheibe dieses Patientenplans ist in Abbildung<br />

2.1 zu sehen. Neben dem Tumor (Targetvolumen) wird als OAR lediglich<br />

der Hirnstamm betrachtet. Dies ist ein vereinfachter Patientenplan, da bei der Bestrahlungsplanung<br />

oft mehrere OAR’s betrachtet werden müssen. Die Hinzunahme<br />

weiterer OAR’s ändert jedoch nicht die mathematische Struktur der Zielfunktion.<br />

Die vorgeschriebene Dosis D i pre wird in jedem Target-Voxel i auf 3Gy (RBW) gesetzt.<br />

Die maximale Dosisgrenze D i max wird für jedes OAR-Voxel i auf 1.5Gy (RBW)<br />

gesetzt. Dies sind typische Werte für einzelne Fraktionen in der Therapie. Minimierungsergebnisse<br />

in anderen Patientenplänen mit diesen Einstellungen sind alle ähnlich.<br />

Es folgen noch einige Daten zum hier verwendeten Patientenplan #135:<br />

Anzahl der Voxel im Targetvolumen : 19200<br />

Anzahl der Voxel im OAR-Volumen : 4400<br />

Anzahl der Rasterpunkte : 19600<br />

Anzahl der Bestrahlungsfelder : 2<br />

Speicher für die Dosis-Korrelations-Matrix : 440MB<br />

Bemerkung: Die Anzahl der Rasterpunkte in einem Patientenplan ist zugleich die<br />

Dimension des Optimierungsproblems p. Bei p = 19600, wie im oberen Beispiel,<br />

55


4 Nichtlineare Optimierung<br />

handelt es sich eher um einen kleineren Tumor. Bis zu 100000 Rasterpunkte als<br />

auch Voxel können in der Bestrahlungsplanung auftreten.<br />

4.4.3 Bewertung der Algorithmen<br />

In den folgenden Kapiteln werden verschiedene Linesearch-Verfahren auf das Optimierungsproblem<br />

(2.8)-(2.9) angewendet bei Verwendung des obigen Patientenplanes.<br />

Für die einzelnen Verfahren werden in dieser Arbeit die folgenden Bewertungsmaßstäbe<br />

betrachtet:<br />

• Minimierung der Zielfunktion als Funktion der Iterationsschritte.<br />

• Minimierung der Zielfunktion als Funktion der Rechenzeit.<br />

• Speicheranforderung des entsprechenden Verfahrens.<br />

Bei den Minimierungsplots werden auf der Ordinatenachse die Funktionswerte der<br />

χ 2 -Funktion dividiert durch die Anzahl der Freiheitsgrade, also NDF (siehe Unterabschnitt<br />

2.3.1), dargestellt. Dies kann als eine Art "Normierung" interpretiert<br />

werden. Des Weiteren wird die Ordinatenachse logarithmisch angezeigt.<br />

4.4.4 Bemerkungen und Details zur Implementierung<br />

Detektionslimit der Ionisationskammern<br />

Bei der Bestrahlung werden die Teilchenzahlen für die Rasterpunkte werden mit<br />

Ionisationskammern gemessen (siehe Abschnitt 1.5). Ionisationskammern besitzen<br />

ein unteres Detektionslimit. Unter dem Detektionslimit kann die genaue Anzahl der<br />

durchquerenden Teilchen nicht mehr sicher bestimmt werden. Das untere Detektionslimit,<br />

der bei <strong>GSI</strong> verwendeten Ionisationskammern, beträgt 5000. Dieses muss<br />

bei der Bestrahlungsplanung berücksichtigt werden und ist daher in TRiP eingearbeitet.<br />

[G + 08]<br />

In jedem Iterationsschritt werden am Ende neue Teilchenzahlen Nk+1 berechnet.<br />

Ist von dem neuen Teilchenzahlenvektor Nk+1 eine Komponente kleiner als 5000,<br />

dann wird diese auf 0 gesetzt. Im darauffolgenden Iterationsschritt besteht für die<br />

Komponente wieder die Möglichkeit auf mindestens 5000 zu gelangen. Es hat sich<br />

jedoch gezeigt, dass wenn eine Komponente während der Iteration auf 0 fällt, dass<br />

diese fast immer in den darauffolgenden Iterationsschritten unter 5000 bleibt. Auswertungen<br />

haben ergeben, dass von diesem Effekt weniger als 5% der Rasterpunkte<br />

(also Komponenten von Nk+1) betroffen sind [Sch06]. Daher würde sich eine Dimensionsverkleinerung<br />

des Optimierungsproblems, während dem Optimierungsprozess,<br />

um Rechenzeit zu sparen, nicht besonders lohnen.<br />

56


Abbruchkriterien für die Iteration<br />

4.4 Ressourcen, Daten und Bemerkungen zur Optimierung<br />

Am Ende von Abschnitt 4.1 werden mögliche numerische Abbruchkriterien für ein<br />

Linesearch-Verfahren genannt. Gegenwärtig ist in TRiP nur das erste implementiert,<br />

also (4.6). Dabei wird ɛ1 = 10 −8 gewählt. Die Abbruchschranke ɛ1 wird hier<br />

bewusst so klein gewählt, damit die Algorithmen länger "ausgereizt" werden und ihr<br />

Konvergenzverhalten kann in einem längeren Iterationsprozess beobachtet werden.<br />

Es ist geplant, in naher Zukunft, auch das zweite und dritte Abbruchkriterium, also<br />

(4.7) und (4.8), zu implementieren.<br />

Falls nicht anders erwähnt, wird die maximale Anzahl der Iterationsschritte auf<br />

100 gesetzt.<br />

57


5 Gradientenverfahren und<br />

konjugiertes<br />

Gradientenverfahren<br />

Dieses Kapitel beschäftigt sich mit den Gradientenverfahren. Abschnitt 5.1 geht auf<br />

das Gradientenverfahren ein und Abschnitt 5.2 auf das konjugierte Gradientenverfahren.<br />

Dabei werden Bemerkungen, Vor- und Nachteile und die Iterationsvorschrift<br />

der Verfahren angegeben. Im letzten Abschnitt dieses Kapitels werden die Minimierungsergebnisse,<br />

die mit beiden Verfahren erzielt werden, gezeigt und diskutiert.<br />

Bemerkung: Als Schrittweite wird beim Gradientenverfahren als auch beim konjugierten<br />

Gradientenverfahren die gedämpfte Physik-Schrittweite, also µBio, verwendet.<br />

D.h., es wird ein µPhys berechnet (siehe Abschnitt 8.9) und dieses wird mit einem<br />

Parameter fµ multipliziert. Genaueres zu dieser Schrittweitensteuerung findet sich<br />

in Unterabschnitt 4.2.1. Da als vorgeschriebene Dosis 3Gy (RBW) verwendet wird,<br />

so wird für den Dämpfungsfaktor fµ = 0.5 gewählt (siehe Abbildung 4.1). Eine Implementierung<br />

der Armijo-Schrittweite in das Gradientenverfahren und konjugierte<br />

Gradientenverfahren ist in naher Zukunft geplant.<br />

5.1 Das Gradientenverfahren<br />

Das Gradientenverfahren (GRV), auch Verfahren des steilsten Abstiegs genannt, ist<br />

ein klassisches Verfahren der nichtlinearen Optimierung. Das GRV macht in jedem<br />

Iterationsschritt einen Schritt in die Richtung des steilsten Abstiegs der Zielfunktion.<br />

Die Richtung des steilsten Abstiegs einer Funktion ist der negative Gradient der<br />

Funktion.<br />

Algorithmus: Gradientenverfahren (GRV)<br />

Da das GRV ein so einfacher und übersichtlicher Algorithmus ist, wird hier nicht die<br />

ganze Verfahrensvorschrift angegeben. Das GRV kann sehr einfach in das allgemeine<br />

Linesearch-Verfahren aus Abschnitt 4.1 eingebaut werden. Der einzige Punkt,<br />

der beachtet werden muss, ist, dass in jedem Iterationsschritt die Suchrichtung<br />

dk = −∇χ 2 ( Nk) verwendet wird.<br />

58


Bemerkungen:<br />

5.2 Das konjugierte Gradientenverfahren<br />

• Das GRV ist robust und einfach zu implementieren, weswegen es häufig in den<br />

Anwendungen benutzt wird.<br />

• Bei gewissen Voraussetzungen ist das GRV ein global konvergentes Verfahren 1<br />

[Ulb07].<br />

• Oftmals konvergiert das GRV langsam, da es sich dem Minimum mit einem<br />

Zick-Zack-Kurs nähert.<br />

• Der Betrag/Norm des Gradienten an einer Stelle Nk ist ein Maß für die Steigung<br />

der Funktion an dieser Stelle. Ist das Minimum in einer flachen Region<br />

lokalisiert, so ist das GRV dort ineffizient, de es in der Regel nur noch kleine<br />

Schritte macht. Auf der anderen Seite arbeitet das GRV im Einzugsgebiet<br />

relativ schnell.<br />

• Da das GRV lediglich mit dem Gradienten der Zielfunktion und einer Schrittweite<br />

arbeitet, müssen keine großen Speicherressourcen zur Verfügung gestellt<br />

werden.<br />

5.2 Das konjugierte Gradientenverfahren<br />

Bei dem konjugierten Gradientenverfahren (KGV), auch Verfahren konjugierter Richtungen<br />

genannt, handelt es sich um eine Modifizierung des Gradientenverfahrens.<br />

Die Idee der Verwendung von konjugierten Richtungen [Ste04] ist, dass die Information,<br />

über die Abstiegsrichtung aus dem vorherigen Iterationsschritt, in den neuen<br />

Schritt mitgenommen wird. Dadurch kann ein ausgeprägter Zick-Zack-Verlauf des<br />

Verfahrens vermieden werden und das Verfahren besitzt in der Regel bessere Konvergenzeigenschaften<br />

als das GRV. Die Struktur der Iterationsvorschrift ist etwas<br />

aufwändiger, jedoch kostet ein Schritt nicht viel mehr Rechenzeit als beim GRV.<br />

Algorithmus: Konjugiertes Gradientenverfahren (KGV)<br />

1. Wähle einen Startpunkt N0.<br />

2. Berechne h0 = d0 = −∇χ 2 ( N0).<br />

3. Setze k := 0.<br />

4. Bestimme eine Schrittweite µk.<br />

5. Berechne einen neuen Teilchenzahlenvektor Nk+1 = Nk + µk hk.<br />

6. Falls eine Abbruchbedingung erfüllt ist, dann steige aus.<br />

1 Unter globaler Konvergenz versteht man, dass ein Verfahren unabhängig vom Startpunkt zu<br />

einer Lösung hin konvergiert.<br />

59


5 Gradientenverfahren und konjugiertes Gradientenverfahren<br />

7. Berechne dk+1 = −∇χ 2 ( Nk+1).<br />

8. Berechne βk = dT k+1 · dk+1<br />

d T k · ,<br />

dk<br />

dT k · dk = 0, βk ∈ R≥0.<br />

9. Berechne hk+1 = dk+1 + βk hk.<br />

10. Setze k := k + 1 und gehe zurück zu Schritt 4.<br />

Bemerkungen:<br />

• Das KGV arbeitet lediglich mit Vektoren und Skalaren und ist daher nicht<br />

Speicheraufwändig. Daher eignet es sich, wie das GRV, für hochdimensionale<br />

Optimierungsprobleme.<br />

• Mit der gleichen Begründung wie beim GRV ist das KGV für Minima in flachen<br />

Regionen ineffizient.<br />

• Wird das βk wie in Schritt 8. berechnet, dann handelt es sich bei dem konjugierten<br />

Gradientenverfahren um die Variante nach "Fletcher-Reeves". Es existieren<br />

neben dieser Variante noch einige andere, wie z.B. die nach "Hestenes-<br />

Stiefel" oder "Polak-Ribiere". Bei den anderen Varianten wird das βk jeweils<br />

leicht abgeändert berechnet. Für nichtlineare Optimierungsprobleme erhält<br />

man jedoch meistens mit der "Fletcher-Reeves"-Variante die besten Konvergenzergebnisse<br />

[Alt02]. In [Bus09] wurde gezeigt, dass man bei der numerischen<br />

Lösung des Optimierungsproblems (2.8)-(2.9) mit der "Fletcher-<br />

Reeves"-Variante die besten Konvergenzergebnisse erhält.<br />

• Wie das GRV, so ist auch das KGV bei bestimmten Voraussetzungen ein global<br />

konvergentes Verfahren.<br />

5.3 Konvergenzergebnisse und Diskussion<br />

Abbildung 5.1 zeigt die Minimierung der χ 2 -Funktion mit dem GRV und KGV als<br />

Funktion der Iterationsschritte und Abbildung 5.2 als Funktion der Rechenzeit bei<br />

Verwendung des Patientenplanes #135 (genaueres zum Bestrahlungsplan befindet<br />

sich in Abschnitt 4.4.2).<br />

Bei der Minimierung der χ 2 -Funktion bzgl. der Iterationsschritte ist sowohl beim<br />

GRV als auch beim KGV ein typisches Verhalten dieser Verfahren zu beobachten.<br />

Die ersten 10-15 Iterationsschritte läuft die Minimierung mit größeren Schritten.<br />

Danach ist nur noch ein langsamer, streng monotoner, Abfall der χ 2 -Funktion zu<br />

beobachten. Diese Ergebnisse lassen vermuten, dass sich die Verfahren in den ersten<br />

10-15 Iterationsschritten im Einzugsgebiet befinden. Das Minimum scheint in<br />

einer eher flachen Region lokalisiert zu sein, in welche die Verfahren nach dem Einzugsgebiet<br />

eintreten. Von Anfang an arbeitet das KGV mit größeren Schritten zum<br />

60


5.3 Konvergenzergebnisse und Diskussion<br />

Minimum hin als das GRV. Für ein χ 2 -Level von 2.8, für welches das GRV 100 Iterationsschritte<br />

benötigt, braucht das KGV nur 17 Iterationsschritte. Dies lässt sich<br />

damit erklären, dass das KGV eine Modifizierung des GRVs ist und eine angepasstere<br />

Iterationsvorschrift besitzt. Das Abbruchkriterium (4.6) (siehe Abschnitt 4.4.4),<br />

mit ɛ1 = 10 −8 , wird mit beiden Verfahren nicht erfüllt.<br />

Bei der Minimierung der χ 2 -Funktion bzgl. der Rechenzeit ist der Verlauf sehr<br />

ähnlich wie in Abbildung 5.1. Dies lässt sich damit begründen, dass das GRV und das<br />

KGV für einen Iterationsschritt ungefähr die selbe Rechenzeit benötigen. Trotz der<br />

komplexeren Iterationssvorschrift ist der Mehraufwand beim KGV in einer Iteration,<br />

gegenüber dem des GRVs, gering. Für ein χ 2 -Level von 2.8, für welches das GRV<br />

ca. 1420 Sekunden benötigt, braucht das KGV lediglich ca. 240 Sekunden. Beide<br />

Verfahren benötigen zu ihrem Endpunkt (100. Iterationsschritt) ca. 1420 Sekunden.<br />

D.h., dass mit diesen Verfahren der Optimierungsschritt, in diesem Bestrahlungsplan<br />

und den gegebenen Einstellungen, weniger als eine halbe Stunde dauert.<br />

Bei der Minimierung der χ 2 -Funktion arbeitet das KGV bzgl. der Iterationsschritte<br />

als auch der Rechenzeit wesentlich effizienter als das GRV. Die Minimierung konnte<br />

mit dem KGV in den Iterationen als auch in der Rechenzeit um einen Faktor von<br />

fast sechs verschnellert werden. In anderen Patientenplänen konnte ein ähnlicher Effekt<br />

beobachtet werden. Beide Verfahren besitzen einen ähnlichen Speicheraufwand<br />

und somit ist hier das KGV dem GRV gegenüber deutlich im Vorteil.<br />

61


5 Gradientenverfahren und konjugiertes Gradientenverfahren<br />

χ 2<br />

✡ ✡✡✣<br />

KGV<br />

17 Schritte<br />

χ 2 -Level von ca. 2.8<br />

Iteration<br />

GRV<br />

100 Schritte<br />

❏<br />

❏❏❏❫<br />

Abbildung 5.1: Minimierung der χ 2 -Funktion mit dem GRV und KGV als Funktion der Iterationsschritte.<br />

Detaillierte Bildbeschreibung und Diskussion befindet sich im Text.<br />

χ 2<br />

✡ ✡✡✣<br />

KGV<br />

ca. 240s<br />

χ 2 -Level von ca. 2.8<br />

Zeit [s]<br />

GRV<br />

ca. 1420s<br />

❏<br />

❏<br />

❏❏❫<br />

Abbildung 5.2: Minimierung der χ 2 -Funktion mit dem GRV und KGV als Funktion der Rechenzeit.<br />

Detaillierte Bildbeschreibung und Diskussion befindet sich im Text.<br />

62


6 BFGS-Verfahren<br />

In diesem Kapitel wird das BFGS-Verfahren behandelt. Die Konvergenzergebnisse<br />

mit dem KGV sind zwar zufriedenstellend, es soll aber getestet werden, ob mit dem<br />

BFGS-Verfahren evtl. noch bessere Konvergenzergebnisse erreicht werden können.<br />

Der erste Abschnitt beschreibt das Newton-Verfahren. Das Newton-Verfahren ist<br />

wichtig für das Verständnis der Arbeitsweise des BFGS-Verfahrens. In Abschnitt 6.2<br />

wird das wichtigste zu den Quasi-Newton-Verfahren genannt, zu deren Klasse das<br />

BFGS-Verfahren gehört. In Abschnitt 6.3 geht es um das BFGS-Update, besonders<br />

um das inverse BFGS-Update, welches Kern des BFGS-Verfahrens ist. Die Iterationsvorschrift<br />

des BFGS-Verfahrens, mit der die besten Konvergenzergebnisse erzielt<br />

werden, wird detailliert in Abschnitt 6.4 geschildert. Anschließend werden die Konvergenzergebnisse<br />

des BFGS-Verfahrens diskutiert. Im letzten Abschnitt werden die<br />

weiteren Varianten des BFGS-Verfahrens genannt, die in TRiP implementiert und<br />

ausgewertet wurden.<br />

Bemerkung: In diesem Abschnitt spielt die zweite Ableitung der χ 2 -Funktion, also<br />

die Hesse-Matrix, eine bedeutende Rolle. Die Hesse-Matrix der Zielfunktion wird<br />

hier mit ∇ 2 χ 2 ( N) bezeichnet. Des Weiteren wird in diesem Abschnitt die Matrix H<br />

oft verwendet. Für beide Matrizen gilt die mathematische Forderung<br />

∇ 2 χ 2 ( N) ∧ H ∈ R p×p , (6.1)<br />

die im weiteren Verlauf nicht mehr explizit angegeben wird.<br />

6.1 Das Newton-Verfahren<br />

Das Newton-Verfahren (NV) spielt in der numerischen <strong>Mathematik</strong> als auch der<br />

nichtlinearen Optimierung eine bedeutende Rolle, da es lokal sehr gute Konvergenzeigenschaften<br />

besitzt. Das Bedeutende im NV ist die Newton-Richtung, die auch<br />

Grundlage für andere Suchrichtungen ist. Hier wird nur das vom NV behandelt, was<br />

später in dieser Arbeit benötigt wird. Details zum NV finden sich in nahezu allen<br />

Büchern zur numerischen <strong>Mathematik</strong> und nichtlinearen Optimierung.<br />

Die Arbeitsweise des NVs wird hier über einen anschaulicheren Ansatz motiviert.<br />

Eine Erklärung der Arbeitsweise über die Lösung eines nichtlinearen Gleichungssystemes<br />

findet sich z.B. in [Ulb07].<br />

Für die Minimierung der χ 2 -Funktion kann diese um den Punkt N0 (dieser wird<br />

nach Abschnitt 4.3 berechnet) mit einem Taylor-Polynom zweiten Grades approxi-<br />

63


6 BFGS-Verfahren<br />

miert werden:<br />

χ 2 ( N) ≈ Q( N) = χ 2 ( N0) + ( N − N0) T · ∇χ 2 ( N0)<br />

+ 1<br />

2 · ( N − N0) T · ∇ 2 χ 2 ( N0) · ( N − N0) .<br />

(6.2)<br />

Ist die Hesse-Matrix ∇ 2 χ 2 ( N0) positiv definit, so ist die Funktion Q( N) streng konvex<br />

und ihr eindeutiges Minimum kann analytisch folgendermaßen berechnet werden:<br />

NMin, Q := ∇Q( N) = 0 , (6.3)<br />

=⇒ ∇χ 2 ( N0) + ∇ 2 χ 2 ( N0) · ( N − N0) = 0 , (6.4)<br />

=⇒ NMin, Q = <br />

N0 − ∇ 2 χ 2 ( −1 N0) · ∇χ 2 ( N0) . (6.5)<br />

Bei (6.3) handelt es sich um die notwendige Optimalitätsbedingung 1. Ordnung.<br />

D.h., man sucht einen stationären Punkt der Funktion Q. Für den Fall, dass die<br />

Approximation in (6.2) gut ist, so liegt das Minimum NMin, Q näher an dem Minimum<br />

der χ2-Funktion als der Punkt N0. Durch wiederholtes Anwenden dieser Prozedur,<br />

immer ausgehend von dem neu erhaltenen Punkt, kann in den meisten Fällen die<br />

Näherung an das gesuchte Minimum NOpt stets verbessert werden. Daraus ergibt<br />

sich im NV der sogenannte Newton-Schritt:<br />

Nk+1 = <br />

Nk − ∇ 2 χ 2 ( −1 Nk) · ∇χ 2 ( Nk) . (6.6)<br />

<br />

Hier ist dk die sog. Newton-Richtung. Diese und der Newton-Schritt können leicht<br />

in das allgemeine Linesearch-Verfahren aus Kapitel 4.1 eingebaut werden.<br />

Bemerkungen:<br />

64<br />

• Bei der Anwendung auf ein Minimierungsproblem wird das NV manchmal<br />

auch "Minimierung mit quadratischer Form" genannt [Bra99].<br />

• Man ersetzt beim NV somit die Aufgabe der Minimierung der χ 2 -Funktion<br />

durch das einfachere quadratische Optimierungsproblem (6.3) und löst dieses<br />

analytisch. Ist die Hesse-Matrix ∇ 2 χ 2 ( Nk) positiv definit, dann liegt ein eindeutiges<br />

Minimum des quadratischen Problems vor und die Suchrichtung dk<br />

ist eine Abstiegsrichtung. Weiteres zu quadratischen Optimierungsproblemen<br />

findet sich z.B. in [Alt02, Ulb07].<br />

• Das NV, welches in diesem Abschnitt beschrieben wird, wird als "Standard"oder<br />

"gewöhnliches"-NV bezeichnet [Hor79]. Bei diesem wird die Schrittweite<br />

µk = 1∀k verwendet. In diesem Fall kann bei einer schlechten Wahl des<br />

Startpunktes N0 das NV sogar divergieren. Durch eine geeignete Schrittweitensteuerung<br />

kann globale Konvergenz (sog. Globalisierung des Verfahrens)<br />

erreicht werden.<br />

dk


6.1 Das Newton-Verfahren<br />

• Liegt der Startwert N0 nahe am Minimum der χ 2 -Funktion, dann konvergiert<br />

das NV in der Regel schnell. Bei bestimmten Voraussetzungen liegt sogar quadratische<br />

Konvergenz 1 vor [Ulb07]. Die guten Konvergenzeigenschaften erhält<br />

man allerdings nur in einer lokalen Umgebung des Minimums.<br />

• Nachteil des NVs ist, dass in jedem Iterationsschritt die Hesse-Matrix ∇ 2 χ 2 ( Nk)<br />

aufgestellt und gespeichert werden muss. Das Aufstellen der Hesse-Matrix kann<br />

viel Rechenzeit beanspruchen. Der Speicheraufwand kann bei hochdimensionalen<br />

Problemen mehrere Gigabytes erfordern.<br />

• Neben dem hier beschriebenen "Standard"-NV gibt es noch die Newton-artigen-Verfahren,<br />

die inexakten NV und die Quasi-Newton-Verfahren. Bei den<br />

Newton-artigen-Verfahren wird die Hesse-Matrix ∇ 2 χ 2 ( Nk) in jedem Iterationsschritt<br />

k approximiert. Der Begriff der inexakten NV wird weiter unten<br />

in diesem Abschnitt erklärt. Mit den Quasi-Newton-Verfahren, zu denen das<br />

BFGS-Verfahren gehört, beschäftigt sich der nächste Abschnitt ausführlicher.<br />

Die Berechnung der Newton-Richtung<br />

<br />

dk = − ∇ 2 χ 2 ( −1 Nk) · ∇χ 2 ( Nk) (6.7)<br />

erfordert in jedem Iterationsschritt k das Invertieren der Hesse-Matrix ∇ 2 χ 2 ( Nk)<br />

und die anschließende Multiplikation mit dem Gradienten ∇χ 2 ( Nk). Dieses Vorgehen<br />

wäre numerisch nicht sinnvoll, da das Invertieren einer Matrix mit einem großen<br />

Rechenaufwand verbunden ist [EMR96]. Daher wird der Ausdruck (6.7) in den folgenden<br />

überführt<br />

∇ 2 χ 2 ( Nk) · dk = −∇χ 2 ( Nk) , (6.8)<br />

der als Newton-Gleichung bezeichnet wird. Die Newton-Gleichung ist ein lineares<br />

Gleichungssystem mit der gleichen Ordnung wie die Dimension des Optimierungsproblems<br />

(hier also der Ordnung p). Die Koeffizientenmatrix ist die Hesse-Matrix<br />

der Zielfunktion und die rechte Seite der negative Gradient der Zielfunktion. Das<br />

Gleichungssystem (6.8) ist symmetrisch, da die Hesse-Matrix nach dem Satz von<br />

Schwarz symmetrisch ist [Heu83]. Wird das Gleichungssystem nur näherungsweise<br />

gelöst, dann handelt es sich um ein inexaktes NV. Dabei wird in der Regel die<br />

Konvergenzgeschwindigkeit des NVs niedriger, auf der anderen Seite kann viel Rechenzeit<br />

gespart werden. Für die Konvergenzordnung von inexakten NV als auch<br />

Newton-artigen-Verfahren spielt die Dennis-Moré-Bedingung eine fundamentale Rolle<br />

[Ulb07].<br />

Es gibt prinzipiell zwei Ansätze um ein lineares Gleichungssystem zu lösen, die<br />

direkten und iterativen Methoden/Verfahren [Sch93]. Die direkten Verfahren, z.B.<br />

1 Die Definition von quadratischer Konvergenz und anderen Konvergenzgeschwindigkeiten, wie<br />

z.B. die lineare oder superlinerae Konvergenz, findet sich in fast allen Lehrbüchern zur numerischen<br />

<strong>Mathematik</strong>.<br />

65


6 BFGS-Verfahren<br />

Cholesky-Zerlegung oder Gauß-Algorithmus, haben den Vorteil, dass sie eine exakte<br />

Lösung des Gleichungssystems liefern [F + 92]. Der Nachteil ist, dass die direkten<br />

Verfahren O(p 3 ) Punktoperationen benötigen und damit immer noch aufwendig<br />

sind. Bei den iterativen Verfahren eignen sich besonders die Krylov-Unterraum-<br />

Verfahren, wie z.B. das CG-Verfahren, für die Lösung der Gleichungssysteme [Hac93,<br />

Saa03]. Diese liefern zwar nur eine angenäherte Lösung, benötigen jedoch pro Iterationsschritt<br />

lediglich O(p) Punktoperationen. Werden bei den Krylov-Unterraum-<br />

Verfahren zusätzlich Vorkonditionierungstechniken angewendet, dann konvergieren<br />

die Verfahren meistens schnell. Es ist offensichtlich, dass je höher die Ordnung des<br />

Gleichungssystem ist, desto eher eignen sich die Krylov-Unterraum-Verfahren. Dabei<br />

muss jedoch eine Verringerung der Konvergenzgeschwindigkeit des NVs in kauf genommen<br />

werden. Diese haben zusätzlich den direkten Verfahren gegenüber den Vorteil,<br />

dass sie die Besetzungsstruktur der Koeffizientenmatrix, wie z.B. eine dünne Besetzungsstruktur,<br />

ausnutzen können. Zudem sind die Krylov-Unterraum-Verfahren<br />

robust und einfach zu implementieren.<br />

6.2 Quasi-Newton-Verfahren<br />

Wie bereits erwähnt wurde, die Berechnung der Newton-Richtung ist aufwendig. In<br />

jedem Iterationsschritt muss die Hesse-Matrix ∇ 2 χ 2 ( Nk) aufgestellt und invertiert<br />

werden oder statt der Invertierung kann das Gleichungssystem (6.8) gelöst werden.<br />

Bei den Newton-artigen-Verfahren werden geeignete Approximationen Hk der<br />

Hesse-Matrix verwendet, also:<br />

Hk ≈ ∇ 2 χ 2 ( Nk) . (6.9)<br />

Die Suchrichtung dk kann anschließend durch Lösung der Newton-artigen-Gleichung<br />

Hk · dk = −∇χ 2 ( Nk) (6.10)<br />

bestimmt werden.<br />

Die Idee bei den Quasi-Newton-Verfahren ist, dass ausgehend von einer symmetrischen<br />

und invertierbaren 2 Matrix H0 durch Updates die Matrizen Hk erzeugt<br />

werden. Das Update (auch als Aufdatierung bezeichnet) soll dabei durch eine Korrektur<br />

der aktuellen Matrix Hk berechnet werden, also:<br />

Hk+1 = Hk + Korrektur ∀k . (6.11)<br />

Damit können Informationen 3 aus der Matrix Hk an die neue Matrix Hk+1 weitergegeben<br />

werden.<br />

Eine fundamentale Rolle bei den Quasi-Newton-Verfahren spielt die Quasi-Newton-Gleichung:<br />

Hk+1 · ( Nk+1 − Nk) = ∇χ 2 ( Nk+1) − ∇χ 2 ( Nk) . (6.12)<br />

2 Invertierbare Matrizen werden auch reguläre Matrizen genannt.<br />

3 Die Matrizen Hk enthalten z.B. Informationen über die Krümmung der Zielfunktion.<br />

66


6.3 Das BFGS-Update<br />

Eine Herleitung und weiteres zu der Quasi-Newton-Gleichung findet man z.B. in<br />

[Ulb07]. Im weiteren Verlauf dieser Arbeit werden die folgenden Abkürzungen verwendet:<br />

sk = Nk+1 − Nk und yk = ∇χ 2 ( Nk+1) − ∇χ 2 ( Nk) , (6.13)<br />

mit sk ∈ R p und yk ∈ R p . Mit den oberen Abkürzungen kann die Quasi-Newton-<br />

Gleichung kompakter aufgeschrieben werden:<br />

Hk+1 · sk = yk . (6.14)<br />

Bei den Quasi-Newton-Verfahren beschränkt man sich bei den Aufdatierungsformeln<br />

auf folgende Abbildung:<br />

Hk+1 = Φ(Hk, sk, yk) , (6.15)<br />

mit Φ : R p×p × R p × R p → R p×p .<br />

Bemerkungen:<br />

• Als Startmatrix H0 wird oft die Einheitsmatrix I verwendet. Die Einheitsmatrix<br />

ist symmetrisch und positiv definit.<br />

• Bei einem guten Update sollte die Matrix Hk+1 symmetrisch, positiv definit<br />

und notwendigerweise die Quasi-Newton-Gleichung erfüllen.<br />

• Nach Möglichkeit sollte ein Update wenig Rechenaufwand erfordern.<br />

• Unter gewissen Voraussetzungen gilt<br />

lim<br />

k→∞ ||Hk+1 − Hk|| = 0 . (6.16)<br />

Ist (6.16) erfüllt, dann kann von dem entsprechenden Quasi-Newton-Verfahren,<br />

über die Dennis-Moré-Bedingung, superlineare Konvergenz gezeigt werden.<br />

Die Matrix Hk+1 in der Quasi-Newton-Gleichung ist nicht eindeutig bestimmt. Aus<br />

diesem Grund existieren mehrere Aufdatierungvarianten, wie z.B. das SR1-, DFPoder<br />

BFGS-Update. Das BFGS-Update ist das Bewährteste unter ihnen, da es sich<br />

in der Praxis als das numerisch effizienteste erwiesen hat. Daher wurde bis jetzt<br />

nur dieses in TRiP implementiert und ist Gegenstand im weiteren Verlauf dieses<br />

Kapitels.<br />

6.3 Das BFGS-Update<br />

Es wird nochmals an die Abkürzungen<br />

sk = Nk+1 − Nk und yk = ∇χ 2 ( Nk+1) − ∇χ 2 ( Nk) (6.17)<br />

67


6 BFGS-Verfahren<br />

erinnert. Das BFGS-Update wurde 1970 mit unterschiedlichen Ansätzen von Broyden,<br />

Fletcher, Goldfarb und Shanno unabhängig voneinander entwickelt [Bro70,<br />

Fle70, Gol70, Sha70]. Die BFGS-Aufdatierungsformel hat folgende Struktur:<br />

Hk+1 = Hk + yk · y T k<br />

y T k · sk<br />

Bemerkungen:<br />

− Hk · sk · (Hk · sk) T<br />

s T k · Hk · sk<br />

, y T k · sk = 0 , s T k · Hk · sk = 0 . (6.18)<br />

• Eine Herleitung der BFGS-Aufdatierungsformel findet man z.B. in [Alt02].<br />

• Es kann leicht gezeigt werden, dass die BFGS-Aufdatierungsformel die Quasi-<br />

Newton-Gleichung erfüllt.<br />

• Ist die Matrix Hk symmetrisch, positiv definit und gilt y T k · sk > 0, dann ist<br />

die Matrix Hk+1, die über (6.18) berechnet wurde, ebenfalls symmetrisch und<br />

positiv definit. Die resultierende Suchrichtung dk+1 ist dann eine Abstiegsrichtung.<br />

Wie beim NV kann auch bei einem Quasi-Newton-Verfahren die Suchrichtung dk,<br />

anstelle der Lösung der Gleichung (6.10), über Matrixinversion berechnet werden:<br />

dk = −H −1<br />

k · ∇χ 2 ( Nk) . (6.19)<br />

Damit wird mit H −1<br />

k eine gute Approximation der inversen Hesse-Matrix angestrebt:<br />

H −1<br />

k ≈<br />

<br />

∇ 2 χ 2 ( Nk)<br />

−1<br />

. (6.20)<br />

Der Vorteil beim BFGS-Update ist, dass neben den Updates der Matrix Hk auch<br />

Updates der inversen Matrix H −1<br />

k berechnet werden können. Über die "Sherman-<br />

Morrison-Woodbury-Formel" [GT97] kann aus (6.18) der folgende Ausdruck hergeleitet<br />

werden, der als inverser BFGS-Update bezeichnet wird:<br />

H −1<br />

k+1 = H−1<br />

k + (sk − H −1<br />

k · yk) · s T k + sk · (sk − H −1<br />

k · yk) T<br />

y T k · sk<br />

− (sk − H −1<br />

k · yk) T · yk<br />

(y T · (sk · s<br />

k · sk) 2<br />

T k ) , y T k · sk = 0 .<br />

(6.21)<br />

Hier kommt nun die Stärke des BFGS-Updates zur Geltung. Anstelle des Updates<br />

(6.18) kann der inverse Update (6.21) verwendet werden. Der Rechenaufwand dieser<br />

beiden Updates ist ungefähr der Gleiche. Nach dem inversen BFGS-Update kann<br />

über (6.19) (also lediglich eine Matrix-Vektor-Multiplikation) die Suchrichtung dk<br />

berechnet werden. Damit kann das Lösen eines linearen Gleichungssystemes oder<br />

eine Matrixinvertierung vollständig umgangen werden.<br />

Bemerkungen:<br />

68


6.4 Das inverse BFGS-Verfahren mit Armijo-Schrittweite und Winkeltest<br />

• Wird das inverse BFGS-Update verwendet, dann wird das Verfahren inverses<br />

BFGS-Verfahren genannt.<br />

• Beim inversen BFGS-Verfahren muss als Startmatrix anstelle von H0 eine inverse<br />

H −1<br />

0 vorgegeben werden. Es kann weiterhin als Startmatrix die Einheitsmatrix<br />

I verwendet werden, denn trivialerweise gilt:<br />

H0 = I =⇒ H −1<br />

0 = I . (6.22)<br />

• Die Auswertung der inversen BFGS-Aufdatierungsformel (6.21) benötigt O(p 2 )<br />

Punktoperationen [Alt02].<br />

6.4 Das inverse BFGS-Verfahren mit<br />

Armijo-Schrittweite und Winkeltest<br />

Unten wird die Iterationsvorschrift des BFGS-Verfahrens angegeben, die in TRiP<br />

implementiert ist. Dabei wird das inverse BFGS-Update verwendet und zur Schrittweitensteuerung<br />

wird das Armijo-Verfahren benutzt. Des Weiteren ist ein Winkeltest<br />

implementiert, der für das Konvergenzverhalten des Verfahrens eine große Rolle<br />

spielt und weiter unten näher betrachtet wird. Mit der angegeben Variante wurden<br />

die besten Ergebnisse beim BFGS-Verfahren erzielt. Die anderen Varianten, die<br />

ebenfalls in TRiP implementiert sind und ausgewertet wurden, werden in Abschnitt<br />

6.6 diskutiert.<br />

Algorithmus: BFGS-Verfahren (BFGS)<br />

1. Setze δ = 0.5, γ = 10 −2 und τ = 0.15.<br />

2. Wähle als Startmatrix H −1<br />

0 = I.<br />

3. Bestimme einen Startpunkt N0 und setze k := 0.<br />

4. Falls eine Abbruchbedingung erfüllt ist, dann steige mit der Lösung Nk aus.<br />

5. Berechne die BFGS-Suchrichtung d BFGS<br />

k<br />

6. Falls<br />

−∇χ2 ( Nk) T · dBFGS k<br />

||∇χ2 ( Nk)|| · || dBFGS k<br />

erfüllt ist, dann verwende als Suchrichtung<br />

= −H −1<br />

k · ∇χ 2 ( Nk).<br />

|| ≥ τ , ||∇χ2 ( Nk)|| ∧ || d BFGS<br />

k || = 0 , (6.23)<br />

dk = d BFGS<br />

k , (6.24)<br />

69


6 BFGS-Verfahren<br />

führe Schritt 7 aus und überspringe Schritt 8.<br />

Ist (6.23) nicht erfüllt, dann verwende als Suchrichtung<br />

und mache weiter mit Schritt 8.<br />

7. Berechne die Startschrittweite µmax,k über (4.12).<br />

dk = −∇χ 2 ( Nk) (6.25)<br />

8. Berechne die Startschrittweite µmax,k über µBio aus (4.10).<br />

9. Bestimme eine Schrittweite µk über das Armijo-Verfahren.<br />

10. Berechne einen neuen Teilchenzahlenvektor Nk+1 = Nk + µk dk.<br />

11. Berechne sk = Nk+1 − Nk und yk = ∇χ 2 ( Nk+1) − ∇χ 2 ( Nk).<br />

12. Berechne H −1<br />

k+1 nach dem inversen BFGS-Update (6.21).<br />

13. Setze k := k + 1 und gehe zurück zu Schritt 4.<br />

Bei (6.23) handelt es sich um den sogenannten Winkeltest. Dabei wird der Winkel<br />

zwischen dem negativen Gradienten der χ2-Funktion an der Stelle Nk und der<br />

BFGS-Suchrichtung dBFGS k berechnet. Der negative Gradient der Zielfunktion steht<br />

orthogonal auf den Höhenlinien. Ist der Winkel zwischen −∇χ2 ( Nk) und dBFGS k exakt<br />

90 ◦ , dann würde das den Fall repräsentieren, dass man mit der BFGS-Suchrichtung<br />

anfangs entlang der Höhenlinie läuft. In dem entsprechenden Iterationsschritt könnte<br />

dann die Zielfunktion nicht minimiert werden. Ist der Winkel nahe bei 90 ◦ (z.B.<br />

zwischen 80 ◦ und 90 ◦ ), würde man mit dem Schritt die Zielfunktion wahrscheinlich<br />

nur geringfügig minimieren können. Mit dem Winkeltest kann dies verhindert<br />

werden. Die Idee dabei ist, dass wenn die berechnete BFGS-Suchrichtung zu nahe<br />

an den Höhenlinien liegt, dass diese dann verworfen wird und in dem aktuellen Iterationsschritt<br />

der negative Gradient als Suchrichtung verwendet wird. Man ersetzt<br />

damit in einem Iterationsschritt den BFGS-Schritt mit einem Schritt des GRVs.<br />

In dem hier angegebenen BFGS-Algorithmus wird τ = 0.15 als kritischer Winkel-<br />

wert verwendet. Es gilt4 arccos(0.15) ≈ 81, 373. D.h., dass zwischen dem negativem<br />

Gradienten der Zielfunktion an der Stelle Nk und der BFGS-Suchrichtung dBFGS k ein<br />

Winkel von 81, 37◦ noch toleriert wird. Ist der Winkel größer (und damit ziemlich<br />

nahe an der entsprechenden Höhenlinie), dann wird die BFGS-Suchrichtung mit der<br />

Suchrichtung vom GRV überschrieben.<br />

Der Winkeltest ist bei Newton-artigen-Verfahren als auch bei Quasi-Newton-<br />

Verfahren sinnvoll, obwohl man ihn selten in der Literatur findet. Bei beiden Verfahren<br />

werden in jedem Iterationsschritt Approximationen für die Hesse-Matrix verwendet.<br />

Ist in einem Iterationsschritt die Approximation schlecht, dann kann die<br />

4 Für den Winkel φ zwischen den Vektoren v und w gilt:<br />

70<br />

〈v,w〉<br />

||v||·||w|| = cos φ.


6.5 Konvergenzergebnisse und Diskussion<br />

schlechte Approximation mit dem Winkeltest abgesichert werden. Anstelle eines<br />

Schrittes, in dem die schlecht approximierte Matrix verwertet wird, kann der Schritt<br />

mit dem robusten Gradientenverfahren ersetzt werden. Dies trägt zur allgemeinen<br />

Robustheit des Verfahrens bei und verbessert in der Regel auch die Konvergenzgeschwindigkeit.<br />

Neben dem hier beschriebenen Winkeltest gibt es noch den "allgemeinen<br />

Winkeltest", der in [Ulb07] beschrieben ist.<br />

Weitere Bemerkungen zum BFGS-Algorithmus:<br />

• Die Konstanten δ und γ werden für das Armijo-Verfahren verwendet.<br />

• Bei dem obigen BFGS-Verfahren wird als Startmatrix die Einheitsmatrix I<br />

verwendet. Daher ist der erste Schritt des Verfahrens ein Schritt des GRVs.<br />

• Die Wahl der Startschrittweite für das Armijo-Verfahren hängt von der letztendlich<br />

verwendeten Suchrichtung dk ab. Wird die BFGS-Suchrichtung verwendet,<br />

dann wird die Startschrittweite über das Minimum der quadratischen<br />

Interpolation (4.12) berechnet (Schritt 7 im BFGS-Algorithmus). Wird als<br />

Suchrichtung der negative Gradient verwendet, dann wird als Startschrittweite<br />

µBio aus (4.10) verwendet (Schritt 8 im BFGS-Algorithmus), da sich diese<br />

bereits bei dem GRV und KGV bewährt hat. Dies wird nochmals in Abschnitt<br />

6.6 aufgegriffen und näher erklärt.<br />

• Für allgemeine nichtlineare Zielfunktionen ist der Beweis der globalen Konvergenz<br />

des inversen BFGS-Verfahrens mit Armijo-Schrittweite ein offenes Problem<br />

5 . Ist die Zielfunktion auf einer Niveau-Menge gleichmäßig konvex, dann<br />

kann die globale Konvergenz gezeigt werden [Ulb07]. Ist die Hesse-Matrix der<br />

Zielfunktion in einer lokalen Umgebung eines Minimums Lipschitz-Stetig, dann<br />

konvergiert das Verfahren in dieser Umgebung superlinear.<br />

6.5 Konvergenzergebnisse und Diskussion<br />

Abbildung 6.1 zeigt die Minimierung der χ 2 -Funktion mit dem inversen BFGS-<br />

Verfahren, welches im vorherigen Abschnitt detailliert beschrieben wurde, als Funktion<br />

der Iterationsschritte. Diesmal wurden 150 Iterationsschritte zugelassen. Abbildung<br />

6.2 zeigt das entsprechende Ergebnis der Minimierung bzgl. der Rechenzeit.<br />

Für einen Vergleich werden die Ergebnisse mit denen des KGVs, da sich dieses gegenüber<br />

dem GRV sowohl in den Iterationsschritten als auch in der Rechenzeit als<br />

das bessere Verfahren gezeigt hatte, gegenübergestellt.<br />

Bei der Minimierung bzgl. der Iterationsschritte ist beim BFGS-Verfahren am<br />

Anfang ein relativ steiler Abfall der Funktionswerte der χ 2 -Funktion zu erkennen.<br />

5 Konvergenzuntersuchungen zu Quasi-Newton-Verfahren gestalten sich generell als sehr schwierig,<br />

da neben Approximationseigenschaften der Update-Matrizen Hk für die Aufdatierungen<br />

Störungsaussagen aus der linearen Algebra einbezogen werden müssen.<br />

71


6 BFGS-Verfahren<br />

Im weiteren Verlauf wird dieser Abfall stets flacher. Im Vergleich zum KGV arbeitet<br />

das BFGS-Verfahren im Einzugsgebiet schlechter. Nach dem Einzugsgebiet ist das<br />

BFGS-Verfahren effizienter als das KGV, da der Abfall der χ 2 -Funktionswerte steiler<br />

ist. Dies kann wahrscheinlich damit begründet werden, dass das BFGS-Verfahren<br />

Krümmungsinformationen der Zielfunktion verarbeitet und damit in der flachen Region<br />

besser arbeitet. Da jedoch das KGV im Einzugsgebiet deutlich effizienter ist,<br />

schafft es das BFGS-Verfahren auch nicht nach 150 Iterationsschritten das KGV zu<br />

überholen (besser zu minimieren). Beim 150 Iterationsschritt ist jedoch mit beiden<br />

Verfahren ein Level von ca. 0.9 der χ 2 -Funktion erreicht. Das Abbruchkriterium<br />

(4.6) (siehe Abschnitt 4.4.4), mit ɛ1 = 10 −8 , wird mit beiden Verfahren nicht erfüllt.<br />

Weitere Auswertungen haben ergeben, dass das inverse BFGS-Verfahren das KGV<br />

ca. im 180. Iterationsschritt überholt. Im weiteren Verlauf kann jedoch mit dem inversen<br />

BFGS-Verfahren nur noch eine wenig bessere Minimierung der χ 2 -Funktion<br />

errreicht werden. Dies liegt daran, dass sich beide Verfahren bereits in relativ niedrigen<br />

Bereichen befinden, in denen nicht mehr viel minimiert werden kann.<br />

Die Minimierung der χ 2 -Funktion bzgl. der Rechenzeit ist in Abbildung 6.2 zu<br />

sehen. Man sieht, dass das BFGS-Verfahren nicht wesentlich mehr Rechenzeit als<br />

das KGV benötigt, ein Unterschied ist jedoch sichtbar. Dies liegt daran, dass beim<br />

BFGS-Verfahren in jedem Iterationsschritt das Matrixupdate stattfindet. Das KGV<br />

benötigt bis zum Ende ca. 2100s. Das BFGS-Verfahren benötigt zu dem fast gleichen<br />

Endpunkt ca. 3250s. Dies ist ein Faktor von ca. 1.55 mehr Rechenzeit.<br />

Im Gesamturteil ist das KGV besser als das BFGS-Verfahren. Nach 150 Iterationsschritten<br />

ist zwar ein ähnliches Level der χ 2 -Funktion erreicht, das BFGS-<br />

Verfahren benötigt aber mehr Rechenzeit. Ein weiterer Nachteil des BFGS-Verfahrens<br />

gegenüber dem KGV ist, dass in jedem Iterationsschritt die Update-Matrix<br />

gespeichert werden muss. Schon bei dem "kleinen" Patientenplan #135 besitzt die<br />

Update-Matrix ca. 19600 2 Elemente. Werden die Matrixelemente in doppelter Genauigkeit<br />

abgespeichert (also in der Programmiersprache C im "double"-Format mit<br />

8 Byte pro Matrixelement), dann ergibt sich ein Speicheraufwand von ca. 2.9GB für<br />

die Update-Matrix. Z.B. bei einem Optimierungsproblem mit der Dimension von<br />

80000 beträgt der Speicheraufwand für die Update-Matrix ca. 47.7GB bei doppelter<br />

Genauigkeit, was eine hohe Anforderung ist.<br />

Auswertungen haben ergeben, dass die Hesse-Matrizen ∇ 2 χ 2 ( Nk), unabhängig<br />

von k, schwach besetzt sind. Ca. 80-90% der Werte sind 0 oder vernachlässigbar klein.<br />

Die restlichen Werte sind in Clustern durch die gesamte Matrix verteilt [Hor08].<br />

Auch wenn die Hesse-Matrizen ∇ 2 χ 2 ( Nk) schwach besetzt sind, sind die Update-<br />

Matrizen Hk in der Regel voll besetzt [Spe99]. Es ist schwieriger, mit einer vollbesetzten<br />

Matrix Hk die dünnbesetzte Matrix ∇ 2 χ 2 ( Nk) gut zu approximieren, was die<br />

Voraussetzung für ein gutes Konvergenzverhalten eines Quasi-Newton-Verfahrens<br />

ist. Dies könnte ein Grund sein, warum das inverse BFGS-Verfahren bzgl. der Iterationsschritte<br />

nicht effizienter als das KGV arbeitet.<br />

72


χ 2<br />

6.5 Konvergenzergebnisse und Diskussion<br />

Iteration<br />

Abbildung 6.1: Minimierung der χ 2 -Funktion mit dem BFGS-Verfahren und KGV als Funktion<br />

der Iterationsschritte. Detaillierte Bildbeschreibung und Diskussion befindet sich im Text.<br />

χ 2<br />

KGV<br />

ca. 2100s<br />

❏<br />

❏❏❏❏❏❏❫<br />

χ2-Level von ca. 0.9<br />

❏<br />

❏❏❫<br />

Zeit [s]<br />

BFGS<br />

ca. 3250s<br />

❏<br />

❏❏❏❫<br />

Abbildung 6.2: Minimierung der χ 2 -Funktion mit dem BFGS-Verfahren und KGV als Funktion<br />

der Rechenzeit. Detaillierte Bildbeschreibung und Diskussion befindet sich im Text.<br />

73


6 BFGS-Verfahren<br />

6.6 Weitere implementierte und ausgewertete<br />

Varianten des inversen BFGS-Verfahrens und<br />

zusätzliche Bemerkungen<br />

Der Vollständigkeit halber werden hier alle anderen Varianten des inversen BFGS-<br />

Verfahrens angegeben, die in TRiP implementiert und ausgewertet wurden. Die<br />

anderen Varianten haben schlechtere Ergebnisse geliefert als das inverse BFGS-<br />

Verfahren aus Abschnitt 6.4. Aus diesem Grund werden von den anderen Varianten<br />

an dieser Stelle keine Konvergenzergebnisse gezeigt. Des Weiteren werden in diesem<br />

Abschnitt zusätzliche Bemerkungen zum inversen BFGS-Verfahren aus Abschnitt<br />

6.4 gemacht.<br />

74<br />

• Bei allen Varianten des inversen BFGS-Verfahrens war der Winkeltest notwendig<br />

für ein gutes Konvergenzverhalten. D.h., dass im Verfahren öfters Suchrichtungen<br />

dBFGS k erzeugt wurden, die nahe an der Höhenlinie lagen. Ohne den<br />

Winkeltest war die Konvergenzgeschwindigkeit des entsprechenden inversen<br />

BFGS-Verfahrens sehr langsam (sogar wesentlich langsamer als beim GRV).<br />

[HDK10]<br />

• Beim Winkeltest wurden für den kritischen Winkelwert τ in allen inversen<br />

BFGS-Varianten Werte von 0.05, 0.1, 0.15, ...,0.5 getestet. In den meisten<br />

Fällen wurden mit τ = 0.15 die besten Konvergenzergebnisse erzielt. War der<br />

Wert kleiner, dann wurden BFGS-Suchrichtungen zugelassen, die zu nah an<br />

den Höhenlinien waren. Daraus folgte oft eine sehr geringe Minimierung der<br />

Zielfunktion. Bei größeren Werten für τ verhielt sich das Verfahren sehr ähnlich<br />

wie das GRV.<br />

• Wurde als Suchrichtung die BFGS-Suchrichtung verwendet, also<br />

dk = d BFGS<br />

k , (6.26)<br />

dann wurden die besten Konvergenzergebnisse erzielt, wenn die Startschrittweite<br />

µmax,k für das Armijo-Verfahren über das Minimum der quadratischen<br />

Interpolation (4.12) berechnet wurde. Näheres dazu im übernächsten Punkt.<br />

• Ergibt sich aus dem Winkeltest, dass die aktuelle Suchrichtung der negative<br />

Gradient ist, also:<br />

dk = −∇χ 2 ( Nk) , (6.27)<br />

dann werden die besten Konvergenzergebnisse erreicht, wenn die Startschrittweite<br />

µmax,k für das Armijo-Verfahren über µBio aus (4.10) berechnet wird.<br />

Näheres dazu im nächsten Punkt.<br />

• Auswertungen haben folgendes ergeben: Für die Norm der Suchrichtung über<br />

den negativen Gradienten gilt || − ∇χ2 ( Nk)|| < 1 ∀ k und für die Norm der<br />

BFGS-Suchrichtung gilt || dBFGS k || > 1 ∀ k. Es konnte beobachtet werden, dass


6.6 Weitere implementierte und ausgewertete Varianten des inversen<br />

BFGS-Verfahrens und zusätzliche Bemerkungen<br />

wenn die Norm der Suchrichtung klein ist, dass sich als Startschrittweite für<br />

das Armijo-Verfahren µBio besser eignet. Ist die Norm der Suchrichtung größer,<br />

dann eignet sich als Startschrittweite für das Armijo-Verfahren das Minimum<br />

aus der quadratischen Interpolation (4.12). Daher erhält man die besten Konvergenzergebnisse<br />

mit dem inversen BFGS-Verfahren, wenn die Startschrittweite<br />

für das Armijo-Verfahren vom Typen der Suchrichtung abhängt.<br />

Mit der Variante des inversen BFGS-Verfahrens aus Abschnitt 6.4 erhält man<br />

die besten Konvergenzergebnisse. Es konnte sogar beobachtet werden, dass<br />

mit dieser Variante dass Armijo-Verfahren in fast allen Iterationsschritten die<br />

Startschrittweite nicht verkleinern muss. Dies lässt folgendes vermuten: Falls in<br />

einem Iterationsschritt die Suchrichtung −∇χ2 ( Nk) verwendet wird, wird mit<br />

der Schrittweite µBio eine gute Approximation der exakten Schrittweite erzielt.<br />

Wird als Suchrichtung dBFGS k verwendet, dann erhält man über das Minimum<br />

der quadratischen Interpolation (4.12) eine gute Approximation der exakten<br />

Schrittweite. Dass die Startschrittweite des Armijo-Kriteriums (4.11) fast immer<br />

akzeptiert wird, spielt für die benötigte Gesamtrechenzeit des Verfahrens<br />

eine bedeutende Rolle. Es werden dann keine zusätzlichen Funktionsauswertungen<br />

benötigt. Diese sind hier relativ teuer, da bei einer Auswertung der<br />

χ2-Funktion die RBW-Werte berechnet werden müssen, was zeitaufwendig ist.<br />

• Wurden die Werte für die Startschrittweite für das Armijo-Verfahren manuell<br />

gewählt, z.B. µmax,k = 1, 2 oder 4, dann waren die Konvergenzergebnisse nicht<br />

schlecht aber auch nicht zufriedenstellend.<br />

• Bei der BFGS-Suchrichtung dBFGS k wurde für das Armijo-Verfahren als Startschrittweite<br />

die folgende implementiert:<br />

µmax,k = || Nk||<br />

|| dk||<br />

, || dk|| = 0 . (6.28)<br />

Auswertungen haben ergeben, dass diese Startschrittweite zu groß ist. Das<br />

Armijo-Verfahren musste die Startschrittweite oft (ca. 5-10) verkleinern. Durch<br />

die zusätzlichen Auswertungen der χ 2 -Funktion wird damit viel Rechenzeit<br />

beansprucht. Die Ergebnisse mit dieser Startschrittweite bzgl. der Iterationsschritte<br />

waren ähnlich wie in Abbildung 6.1. Durch die langen Rechenzeiten<br />

war das Ergebnis bzgl. der Rechenzeit relativ schlecht.<br />

Weitere Auswertungen haben ergeben, dass bei der Startschrittweite (6.28)<br />

die letztendlich akzeptierte Schrittweite ähnlich wie die Schrittweite aus dem<br />

Minimum der quadratischen Interpolation ist. Dies festigt die Vermutung, die<br />

schon weiter oben genannt wurde, dass mit der Schrittweite aus dem Minimum<br />

der quadratischen Interpolation (4.12) eine gute Approximation der exakten<br />

Schrittweite erzielt wird.<br />

• Für die Konstanten δ und γ im Armijo-Verfahren wurden in allen Varianten<br />

des inversen BFGS-Verfahrens verschiedene Werte überprüft. Es wur-<br />

75


6 BFGS-Verfahren<br />

76<br />

den jeweils, in Kombination miteinander, δ = 0.75, 0.66, 0.5, 0.33, 0.25 und<br />

γ = 10 −1 , 10 −2 , 10 −3 , . . . , 10 −5 ausprobiert. Die besten Konvergenzergebnisse<br />

wurden mit δ = 0.5 und γ = 10 −2 erzielt. Dies konnte in den meisten Varianten<br />

des inversen BFGS-Verfahrens beobachtet werden.<br />

• Restarts beim inversen BFGS-Verfahren (D.h., dass die Update-Matrix H −1<br />

k<br />

in einem gewissen Iterationsschritt k mit der Einheitsmatrix I "neu gestartet"<br />

wird [Alt02]) zeigten stets eine Verschlechterung der Konvergenzergebnisse.


7 Zusammenfassung und Ausblick<br />

7.1 Zusammenfassung<br />

Im Pilotprojket der <strong>GSI</strong> wurden von 1997 bis 2008 ca. 440 Tumorpatienten mit<br />

schweren Ionen unter Verwendung des Rasterscan-Verfahrens bestrahlt. Dabei wurden<br />

ausschließlich Kohlenstoffionen verwendet, da diese durch ihren scharfen Bragg-<br />

Peak und ihre hohe RBW besonders geeignete Eigenschaften besitzen. Die Erfolgsquoten<br />

von dieser neuartigen Strahlentherpaie waren so vielversprechend, dass seit<br />

2008 das dedizierte Heidelberger Ionenstrahl-Therapiezentrum HIT die Schwerionentherapie<br />

im klinischen Routinebetrieb weiterführt. Die Patiententherapie findet nur<br />

noch am HIT statt, dennoch ist die Schwerionentherapie weiterhin Gegenstand intensiver<br />

Forschung an der <strong>GSI</strong>.<br />

Für jeden Patienten muss vor der Bestrahlung ein individueller Bestrahlungsplan<br />

erstellt werden. Dafür wurde an der <strong>GSI</strong> die Bestrahlungsplanungssoftware<br />

TRiP entwickelt. Ein wesentlicher Bestandteil der Bestrahlungsplanung ist die Optimierung<br />

der Dosis. Das Ziel dabei ist eine homogene Dosisverteilung durch den<br />

Tumor zu erhalten, die nahe an der vorgeschriebenen Dosis liegt. Des Weiteren<br />

soll die resultierende Dosisverteilung im gesunden Gewebe so niedrig wie möglich<br />

sein und in kritischen Organen gewisse Dosis-Grenzwerte nicht überschreiten. Diese<br />

Kriterien können mathematisch in einem Optimierungsproblem formuliert werden.<br />

Werden biologische Effekte berücksichtigt, d.h. eine Einbeziehung der RBW, dann<br />

wird das Optimierungsproblem nichtlinear. Der Kerngedanke der Optimierung ist,<br />

dass die quadratischen Abweichungen zwischen vorgeschriebener Dosis und tatsächlich<br />

erzeugter Dosis in den Voxeln minimiert werden, was mit einem Zielfunktional<br />

modelliert wird. Dabei sind die Teilchenzahlen für die Rasterpunkte die freien und zu<br />

optimierenden Variablen. Eine mathematische Analyse des Optimierungsproblems<br />

ergibt, dass es sich um eine nichtlineare endlichdimensionale ungleichungsrestringierte<br />

Funktionalminimierung handelt. Die theoretische Betrachtung und numerische<br />

Lösung des Optimierungsproblemes waren Schwerpunkt dieser Master-Thesis.<br />

Nach der Beschreibung des Optimierungsproblemes wurde dieses theoretisch betrachtet.<br />

Eine Stetigkeitsuntersuchung der Zielfunktion ergab, dass diese wegen der<br />

vorkommenden Heaviside-Funktion nicht stetig ist. Für die Existenzuntersuchung<br />

konnte damit der Extremwertsatz von Weierstraß nicht angewendet werden, da dieser<br />

die Stetigkeit der Zielfunktion voraussetzt. Zudem ist die zulässige Menge des<br />

Optimierungsproblems nicht beschränkt, was eine weitere Voraussetzung des Extremwertsatzes<br />

von Weierstraß ist. Aus diesem Grund wurde für den Existenzbeweis<br />

eine Erweiterung des Extremwertsatzes von Weierstraß verwendet, die die Unter-<br />

77


7 Zusammenfassung und Ausblick<br />

halbstetigkeit und radiale Unbeschränktheit der Zielfunktion voraussetzt. Nach dem<br />

diese beiden Eigenschaften für das Zielfunktional bewiesen werden konnten, konnte<br />

die Existenz mindestens eines globalen Minimums des Optimierungsproblemes bewiesen<br />

werden. Die Eindeutigkeit eines globalen Minimums konnte nicht nachgewiesen<br />

werden, da die Zielfunktion nicht konvex ist. Damit können Standardtechniken,<br />

mit denen Eindeutigkeitsbeweise für Minima geführt werden, nicht angewendet werden.<br />

Des Weiteren wurde die Zielfunktion in dieser Arbeit mit einer angepassten<br />

Tangens Hyperbolicus-Funktion geglättet. Dies war notwendig, damit die Karush-<br />

Kuhn-Tucker-Bedingungen zu dem Optimierungsproblem angegeben werden konnten.<br />

Diese sind die notwendige Optimalitätsbedingung erster Ordnung und besitzen<br />

nur bei einer stetig-differenzierbaren Zielfunktion ihre Gültigkeit.<br />

Für die numerische Lösung des Optimierungsproblemes wurden Linesearch-Verfahren<br />

verwendet. Als erstes wurden diese allgemein eingeführt und deren Arbeitsweise<br />

geschildert. Als Schrittweitensteurung wurden in dieser Arbeit zwei Techniken<br />

verwendet. Bei der einen Technik wird eine skalierte Schrittweite von einem<br />

einfacheren linearen Optimierungsproblem verwendet, bei dem die biologischen<br />

Effekte vernachlässigt werden und die andere Technik ist die bekannte Armijo-<br />

Schrittweitensteuerung. Bei der Armijo-Schrittweite wurden unterschiedliche Startschrittweiten<br />

verwendet. Als Linesearch-Verfahren wurden in dieser Arbeit das Gradientenverfahren,<br />

das konjugierte Gradientenverfahren und das inverse BFGS-Verfahren<br />

in TRiP implementiert und ausgewertet. Deren Arbeitsweise, Vor- und Nachteile<br />

als auch diverse Varianten dieser Verfahren wurden diskutiert. Die besten Minimierungsergebnisse<br />

von den Varianten dieser Verfahren wurden bei Verwendung<br />

des Patientenplanes #135 bzgl. der Iterationsschritte als auch der Rechenzeit gegenübergestellt.<br />

Das Gradientenverfahren schneidet dabei am schlechtesten ab. Bzgl. der<br />

Iterationsschritte arbeiten das inverse BFGS-Verfahren und das konjugierte Gradientenverfahren<br />

ähnlich effizient. Wegen den benötigten Matrixupdates braucht jedoch<br />

das inverse BFGS-Verfahren ca. um einen Faktor von 1.5 mehr Rechenzeit als das<br />

konjugierte Gradientenverfahren. Obwohl beim inversen BFGS-Verfahren viele Varianten<br />

versucht wurden, konnten mit diesem keine besseren Konvergenzergebnisse<br />

als mit dem konjugierten Gradientenverfahren erzielt werden.<br />

In [Hor08] wurde die Levenberg-Marquardt-Minimierung [Lev44, Mar63] für die numerische<br />

Lösung des Optimierungsproblemes untersucht. Dabei konnte beobachtet<br />

werden, das dass Minimierungsergebnis bzgl. der Iterationsschritte sehr gut ist (sogar<br />

deutlich besser als beim konjugierten Gradientenverfahren). Da die auftretenden<br />

Gleichungssysteme in jedem Iterationsschritt mit dem Cholesky-Verfahren gelöst<br />

wurden, ist die Levenberg-Marquardt-Minimierung in dieser Variante extrem zeitaufwendig.<br />

Damit ist das konjugierte Gradientenverfahren im Gesamturteil immer<br />

noch geeigneter für die Optimierung in der Bestrahlungsplanung als diese Variante<br />

der Levenberg-Marquardt-Minimierung.<br />

In der Arbeit [Bus09] wurden die auftretenden linearen Gleichungssysteme in<br />

der Levenberg-Marquardt-Minimierung mit den Krylov-Unterraum-Verfahren gelöst.<br />

Dabei konnten die Rechenzeiten zwar signifikant verringert werden, die Ge-<br />

78


7.2 Ausblick<br />

samtrechenzeit der Levenberg-Marquardt-Minimierung war dennoch deutlich höher<br />

als beim konjugierten Gradientenverfahren.<br />

Ein weiterer Schwerpunkt der Arbeit [Bus09] war das konjugierte Gradientenverfahren.<br />

Dort wurden viele Varianten von diesem untersucht, wie z.B. die von Polak-<br />

Ribiere und Hestenes-Stiefel. Auch in der Arbeit [Bus09] hat sich gezeigt, dass die<br />

besten Konvergenzergebnisse bei der numerischen Lösung des Optimierungsproblemes<br />

mit der Fletcher-Reeves Variante des konjugierten Gradientenverfahrens erreicht<br />

werden.<br />

Der gegenwärtige Stand ist, dass bei der nichtlinearen Dosisoptimierung in der<br />

Schwerionentherapie die Fletcher-Reeves Variante des konjugierten Gradientenverfahrens<br />

das geeignetste Verfahren ist. Mit diesem Verfahren kann der Optimierungsschritt<br />

in der Bestrahlungsplanung in einer angemessen Zeit durchgeführt werden.<br />

Die gegenwärtigen Konvergenzergebnisse als auch die resultierenden Dosisverteilungen<br />

sind relativ zufriedenstellend. Des Weiteren eignet sich das konjugierte Gradientenverfahren,<br />

da es keine großen Speicherressourcen beansprucht und robust ist.<br />

7.2 Ausblick<br />

Folgende Ideen könnten in der Zukunft bei der nichtlinearen Dosisoptimierung eingebracht<br />

werden:<br />

• Es könnten Modifikationen an der Zielfunktion vorgenommen werden. Z.B.<br />

könnten Optimierungsergebnisse betrachtet werden, wenn als Zielfunktion die<br />

geglättete Zielfunktion aus (3.23) verwendet wird.<br />

• Für die numerische Lösung des Optimierungsproblemes könnten die sog. Innere-<br />

Punkte-Verfahren getestet werden.<br />

• Die auftretenden Gleichungssysteme bei der Levenberg-Marquardt-Minimierung<br />

könnten mit UMFPACK [Dav04] gelöst werden. Damit könnte das gute<br />

Konvergenzverhalten der Levenberg-Marquardt-Minimierung bzgl. der Iterationsschritte<br />

ausgenutzt werden. Mit UMFPACK können dünnbesetzte lineare<br />

Gleichungssysteme sehr schnell gelöst werden. Dabei werden Matrixpermutationen<br />

geschickt eingesetzt.<br />

• Beim KGV könnte eine Implementierung des Winkeltestes, ähnlich wie beim<br />

inversen BFGS-Verfahren, untersucht werden.<br />

• Beim KGV könnte die Armijo-Schrittweite und die Powell-Wolfe-Schrittweite<br />

eingebaut werden. Die Powell-Wolfe-Schrittweite ist eine Erweiterung der Armijo-Schrittweite.<br />

Diese kann die Startschrittweite auch vergrößern.<br />

• Beim BFGS-Verfahren könnte die Powell-Wolfe-Schrittweite implementiert werden.<br />

79


7 Zusammenfassung und Ausblick<br />

• Anstelle des BFGS-Updates könnte das Limited-Memory-BFGS-Update (L-<br />

BFGS) verwendet werden. Dabei werden nicht Updates der ganzen Matrix<br />

berechnet, sondern nur von den relevanten Matrixeinträgen. Mit dem L-BFGS-<br />

Verfahren kann viel Speicherplatz gespart werden.<br />

• Es könnten Auswertungen gemacht werden, wie bei der numerischen Lösung<br />

des Optimierungsproblemes die Linesearch-Verfahren geeignet miteinander<br />

kombiniert werden können. Beispielsweise könnte im Einzugsgebiet das KGV<br />

verwendet werden und in einem geeigneten Iterationsschritt könnte dann die<br />

Levenberg-Marquardt-Minimierung oder das inverse BFGS-Verfahren "eingeschaltet"<br />

werden.<br />

In Abschnitt 1.5 wurde erwähnt, dass die <strong>GSI</strong> an einer Weiterentwicklung der Schwerionentherapie<br />

arbeitet. Zwei Punkte bei der Erweiterung der Therapie, wo die Optimierung<br />

eine Rolle spielt, sind:<br />

80<br />

• Bei der Patientenbehandlung soll in Zukunft die adaptive Therapie angewendet<br />

werden. Hierbei soll z.B. der sogenannte Hypoxia-Effekt berücksichtigt<br />

werden. Dies erfordet eine neue Formulierung des Optimierungsproblemes. Des<br />

Weiteren wird dabei auch der LET optimiert. Näheres dazu findet sich z.B. in<br />

[SKD10].<br />

• Mit dem Schwerionenstrahl sollen auch Tumore bestrahlt werden, die im Thorax<br />

des Patienten liegen und sich unter Einfluss der Atmung und des Herzschlages<br />

bewegen. Dabei wird auch eine Optimierung der Dosis benötigt. Durch die<br />

Tumorbewegung wird die gesamte Bestrahlungsplanung wesentlich aufwendiger<br />

und komplexer als im statischen Fall, was auch zu einer aufwendigeren<br />

Optimierung führt. Weitere Details dazu, als auch zur Dosisoptimierung unter<br />

Einfluss der Bewegung, befindet sich in [BD11].


8 Anhang<br />

8.1 Beschleunigeranlage der <strong>GSI</strong><br />

Obere Abbildung zeigt den Grundriß der <strong>GSI</strong>-Beschleunigeranlage. Im linken Fenster<br />

sieht man die Vergrößerung des Therapieraumes, der sich im gelben Bereich befindet.<br />

Die wichtigsten Beschleunigerkomponenten für die Therapie an der <strong>GSI</strong> sind:<br />

1. Die Ionenquellen HLI: Hier werden die 12 C-Ionen erzeugt.<br />

2. Der Linearbeschleuniger UNILAC: Dient als Vorstufe der Beschleunigung.<br />

3. Der Schwerionensynchrotron SIS: In dem Kreisbeschleuniger werden die 12 C-<br />

Ionen auf die gewünschte Geschwindigkeit/Energie gebracht.<br />

81


8 Anhang<br />

8.2 Gradient und Hesse-Matrix der Dosis<br />

Hier wird der Gradient und die Hesse-Matrix für die physikalische, RBW-gewichtete<br />

und des analytischen Ausdrucks für die RBW-gewichtete Dosis angegeben. Gradient<br />

und Hesse-Matrix der entsprechenden Dosis werden besonders bei den Ableitungen<br />

der Zielfunktion benötigt (siehe nächsten Abschnitt). Die verschiedenen Dosistypen<br />

werden ausführlich in Abschnitt 2.2 behandelt. Dort sind auch die Bezeichnungen<br />

und mathematischen Forderungen für die vorkommenden Parameter angegeben. Diese<br />

werden hier in den Ableitungen nicht mehr angegeben.<br />

8.2.1 Gradient und Hesse-Matrix der physikalischen Dosis<br />

Hier werden die Ableitungen der physikalischen Dosis<br />

mit D i Phys<br />

Der Gradient ist<br />

mit ∇D i Phys<br />

: Rp<br />

≥0 → R≥0 ∀ i, angegeben.<br />

: Rp≥0<br />

→ Rp≥0<br />

∀ i.<br />

D i Phys( N) = c T i · N , (8.1)<br />

∇D i Phys( N) = ci , (8.2)<br />

Es ist offensichtlich, dass die Hesse-Matrix ∇ 2 D i Phys ( N) in jedem Voxel i die Nullmatrix<br />

ist.<br />

8.2.2 Gradient und Hesse-Matrix der RBW-gewichteten Dosis<br />

Hier werden die Ableitungen der RBW-gewichteten Dosis<br />

mit D i Bio<br />

Der Gradient ist<br />

mit ∇D i Bio<br />

: Rp<br />

≥0 → R≥0 ∀ i, angegeben.<br />

D i Bio( N) = D i Phys( N) · RBW i ( N) , (8.3)<br />

∇D i Bio( N) = ∇D i Phys( N) · RBW i ( N) + D i Phys( N) · ∇RBW i ( N) , (8.4)<br />

: Rp<br />

≥0 → Rp ∀ i.<br />

Die Hesse-Matrix ist<br />

∇ 2 D i Bio( N) = ∇D i Phys( N) · ∇RBW i ( N) T + ∇RBW i ( N) · ∇D i Phys( N) T<br />

mit ∇ 2 D i Bio ( N) ∈ R p×p ∀ i.<br />

82<br />

+ D i Phys( N) · ∇ 2 RBW i ( N) ,<br />

(8.5)


8.3 Gradient und Hesse-Matrix der Zielfunktion<br />

8.2.3 Gradient und Hesse-Matrix des analytischen Ausdrucks<br />

für die RBW-gewichtete Dosis<br />

Hier werden die Ableitungen des analytischen Ausdrucks für die RBW-gewichtete<br />

Dosis<br />

<br />

D i Bio(ana)( N) =<br />

αi · (c T i · N) + βi · (c T i · N) 2<br />

mit Di Bio(ana)<br />

obere Ausdruck ist stetig differenzierbar.<br />

Der Gradient ist<br />

βx<br />

+<br />

2 αx<br />

2βx<br />

− αx<br />

2βx<br />

, (8.6)<br />

: Rp<br />

≥0 → R≥0 ∀ i, angegeben. Wie bereits in 2.2.2 erwähnt wurde, der<br />

∇D i Bio(ana)( <br />

αi · (c<br />

N) = 0.5 ·<br />

T i · N) + βi · (c T i · N) 2<br />

βx<br />

<br />

αi + βi · 2 · (c T i · <br />

N)<br />

·<br />

βx<br />

mit ∇Di Bio(ana)<br />

Gradient komponentenweise stetig.<br />

· ci ,<br />

+<br />

αx<br />

2βx<br />

2 −0.5<br />

(8.7)<br />

: Rp<br />

≥0 → Rp ∀ i. Da (8.6) stetig differenzierbar ist, so ist der obere<br />

Aus Platzgründen wird die Hesse-Matrix ∇ 2 D i Bio(ana) ( N) hier nicht angegeben.<br />

8.3 Gradient und Hesse-Matrix der Zielfunktion<br />

In diesem Abschnitt wird der Gradient und die Hesse-Matrix der Zielfunktion angegeben.<br />

Die Zielfunktion wurde in Abschnitt 2.3 eingeführt und dort physikalisch,<br />

technisch und mathematisch diskutiert. Gradient und Hesse-Matrix der Zielfunktion<br />

werden jeweils für den Fall, dass mit der physikalischen, der RBW-gewichteten<br />

und mit dem analytischen Ausdruck für die RBW-gewichtete Dosis optimiert wird,<br />

angegeben. Gradient und Hesse-Matrix spielen bei den Verfahren zur Minimierung<br />

als auch bei der theoretischen Diskussion der Zielfunktion eine tragende Rolle. Wie<br />

bereits in 2.3.2 erwähnt wurde, beim Ableiten der Zielfunktion wird die Heaviside-<br />

Funktion Θ als konstanter Faktor behandelt.<br />

8.3.1 Gradient und Hesse-Matrix bei Optimierung der<br />

physikalischen Dosis<br />

Optimierung der physikalischen Dosis erfordert das Einsetzen von Di Phys für Di act in<br />

die Zielfunktion. Die Zielfunktion wird in diesem Fall mit χ2 Phys bezeichnet und hat<br />

83


8 Anhang<br />

folgende Gestalt:<br />

mit χ 2 Phys<br />

Der Gradient ist<br />

mit ∇χ 2 Phys<br />

χ 2 Phys( N) = <br />

: Rp≥0<br />

→ R≥0.<br />

<br />

Di pre − c T i · 2 N<br />

∆D<br />

i∈Target<br />

2 pre<br />

<br />

Di max − c T i · 2 N<br />

+ <br />

i∈OAR<br />

∇χ 2 Phys( N) = −2 <br />

: Rp<br />

≥0 → Rp .<br />

Die Hesse-Matrix ist<br />

− 2 <br />

∆D 2 max<br />

<br />

Di pre − c T i · <br />

N<br />

∆D<br />

i∈Target<br />

2 pre<br />

<br />

Di max − c T i · N<br />

i∈OAR<br />

∇ 2 χ 2 Phys( N) = 2 <br />

mit ∇ 2 χ 2 Phys ( N) ∈ R p×p .<br />

1<br />

∆D<br />

i∈Target<br />

2 pre<br />

+ 2 <br />

1<br />

∆D<br />

i∈OAR<br />

2 max<br />

∆D 2 max<br />

· ci · c T i<br />

· ci · c T i<br />

<br />

<br />

<br />

· Θ c T i · N − D i <br />

max<br />

· ci<br />

<br />

· ci · Θ c T i · N − D i <br />

max<br />

<br />

· Θ c T i · N − D i <br />

max<br />

8.3.2 Gradient und Hesse-Matrix bei Optimierung der<br />

RBW-gewichteten Dosis<br />

,<br />

,<br />

,<br />

(8.8)<br />

(8.9)<br />

(8.10)<br />

Optimierung der RBW-gewichteten Dosis erfordert das Einsetzen von Di Bio für Di act<br />

in die Zielfunktion. Die Zielfunktion wird in diesem Fall mit χ2 Bio bezeichnet und hat<br />

folgende Gestalt:<br />

84<br />

χ 2 Bio( N) = <br />

<br />

Di pre − Di Bio ( 2 N)<br />

∆D<br />

i∈Target<br />

2 pre<br />

<br />

Di max − Di Bio ( 2 N)<br />

+ <br />

i∈OAR<br />

∆D 2 max<br />

<br />

· Θ D i Bio( N) − D i <br />

max<br />

,<br />

(8.11)


mit χ 2 Bio<br />

: Rp≥0<br />

→ R≥0.<br />

Der Gradient ist<br />

∇χ 2 Bio( N) = −2 <br />

mit ∇χ 2 Bio<br />

− 2 <br />

<br />

Di pre − Di Bio ( <br />

N)<br />

∆D<br />

i∈Target<br />

2 pre<br />

<br />

Di max − Di Bio ( N)<br />

i∈OAR<br />

: Rp<br />

≥0 → Rp .<br />

Die Hesse-Matrix ist<br />

∇ 2 χ 2 Bio( N) = 2 <br />

⎡<br />

∆D 2 max<br />

⎣<br />

i∈Target<br />

∇Di Bio ( N) · ∇Di Bio ( N) T<br />

∆D2 pre<br />

+ 2 <br />

· Θ<br />

⎡<br />

mit ∇ 2 χ 2 Bio ( N) ∈ R p×p .<br />

⎣<br />

i∈OAR<br />

∇Di Bio ( N) · ∇Di Bio ( N) T<br />

∆D2 max<br />

<br />

D i Bio( N) − D i <br />

max ,<br />

<br />

8.4 Der Extremwertsatz von Weierstraß<br />

· ∇D i Bio( N)<br />

· ∇D i Bio( <br />

N) · Θ D i Bio( N) − D i <br />

max<br />

−<br />

−<br />

<br />

Di pre − Di Bio ( <br />

N)<br />

∆D2 pre<br />

<br />

Di max − Di Bio ( N)<br />

∆D 2 max<br />

<br />

,<br />

(8.12)<br />

· ∇ 2 D i Bio( N)<br />

· ∇ 2 D i Bio( N)<br />

8.3.3 Gradient und Hesse-Matrix bei Optimierung mit dem<br />

analytischen Ausdruck für die RBW-gewichtete Dosis<br />

⎤<br />

⎦<br />

⎤<br />

⎦<br />

(8.13)<br />

Bei Optimierung mit dem analytischen Ausdruck für die RBW-gewichtete Dosis<br />

muss Di Bio(ana) für Di act in die Zielfunktion eingesetzt werden. In diesem Fall wird<br />

die Zielfunktion mit χ2 Bio(ana) bezeichnet. Den Ausdruck χ2 Bio(ana) , den Gradienten<br />

∇χ2 Bio(ana) und die Hesse-Matrix ∇2χ2 Bio(ana) erhält man, wenn in χ2Bio , ∇χ2Bio und<br />

∇2χ2 Bio aus dem vorherigem Abschnitt 8.3.2 die Ausdrücke Di Bio , ∇Di Bio und ∇2Di Bio<br />

mit Di Bio(ana) , ∇Di Bio(ana) und ∇2Di Bio(ana) ersetzt werden.<br />

8.4 Der Extremwertsatz von Weierstraß<br />

Satz 8.1<br />

Es sei G ⊂ X, G nichtleer, eine kompakte Menge und f sei auf G eine stetige Funktion.<br />

Dann besitzt f auf G mindestens ein Optimum/Extremwert.<br />

Bemerkungen:<br />

85


8 Anhang<br />

• Der obige Satz ist in der Literatur in verschiedenen Versionen formuliert. Die<br />

obige Version richtet sich nach [GT97].<br />

• Häufig wird der obige Satz auch nur "Satz von Weierstraß" oder "Satz vom<br />

Maximum und Minimum einer Funktion" genannt.<br />

• Im endlichdimensionalen Raum ist die Kompaktheit einer Menge äquivalent<br />

zu ihrer Beschränktheit und Abgeschlossenheit. Diese Äquivalenz gilt nicht in<br />

unendlichdimensionalen Räumen [Trö09].<br />

• Der obige Satz liefert lediglich eine Aussage über die Existenz von mindestens<br />

einem Optimum. Über das Auffinden oder Eindeutigkeitsaussagen von<br />

optimalen Punkten müssen andere Techniken verwendet werden.<br />

Oftmals ist der Definitionsbereich G von f nicht kompakt. Der Satz von Weierstraß<br />

kann dennoch als Existenzkriterium für ein Minimum verwendet werden, wenn<br />

Niveau-Mengen betrachtet werden. Eine Niveau-Menge NM ist wie folgt definiert:<br />

Definition 8.2<br />

Sei G ⊂ R n , G nichtleer, f : G → R und x0 ∈ G. Die Menge<br />

heißt Niveau-Menge der Funktion f.<br />

NM(f, f(x0)) := {x ∈ G | f(x) ≤ f(x0)} (8.14)<br />

Jetzt kann der Satz von Weierstraß auf kompakte Niveau-Mengen angepasst werden.<br />

Satz 8.3<br />

Es sei G ⊂ R n , G nichtleer und f : G → R stetig auf G. Existiert ein x0 ∈ G, so<br />

dass die zugehörige Niveau-Menge<br />

NM(f, f(x0)) := {x ∈ G | f(x) ≤ f(x0)} (8.15)<br />

nichtleer und kompakt ist, dann besitzt f auf G mindestens ein globales Minimum.<br />

8.5 Unterhalbstetigkeit einer Funktion<br />

Die Halbstetigkeit einer Funktion ist eine Erweiterung des Begriffes der Stetigkeit<br />

einer Funktion. Funktionen, die unstetig sind, können unterhalb- oder oberhalbstetig<br />

sein. Bei der Minimierung einer reellwertigen Funktion spielt die Unterhalbstetigkeit<br />

der Funktion eine große Rolle. Da die Zielfunktion in dieser Arbeit minimiert werden<br />

soll, wird im folgenden nur die Unterhalbstetigkeit behandelt. Oft wird anstelle von<br />

Unterhalbstetigkeit der Begriff "nach unten halbstetig" oder "halbstetig von unten"<br />

verwendet.<br />

86


8.5 Unterhalbstetigkeit einer Funktion<br />

Es folgen zwei äquivalente Definitionen für unterhalbstetige Funktionen:<br />

Definition 8.4<br />

Sei X ein topologischer Raum, x0 ∈ X und f : X → R eine reellwertige Funktion.<br />

f heißt im Punkt x0 unterhalbstetig, wenn für jedes ɛ > 0 eine Umgebung U von x0<br />

existiert, so dass f(y) > f(x0) − ɛ für alle y ∈ U gilt.<br />

Definition 8.5<br />

Sei X ein topologischer Raum, x0 ∈ X und f : X → R eine reellwertige Funktion.<br />

Des Weiteren existiert in X eine beliebige Folge xn mit xn → x0. Die Funktion f ist<br />

unterhalbstetig in x0, falls<br />

lim inf f(xn) ≥ f(x0) (8.16)<br />

xn→x0<br />

gilt.<br />

Bei näherer Betrachtung der beiden obigen Definitionen erkennt man, dass bei einer<br />

unterhalbstetigen Funktion die Funktionswerte nicht nach unten springen können.<br />

Analog, wie bei der Stetigkeit einer Funktion, gilt:<br />

Definition 8.6<br />

Die Funktion f heißt unterhalbstetig auf X, wenn sie in jedem Punkt x0 ∈ X unterhalbstetig<br />

ist.<br />

Eigenschaften unterhalbstetiger Funktionen:<br />

• Eine Funktion f ist in einem Punkt x0 stetig, wenn sie in x0 sowohl unterhalbals<br />

auch oberhalbstetig ist.<br />

• Sind f und g in x0 unterhalbstetig, dann ist auch deren Summe f + g in x0<br />

unterhalbstetig.<br />

• Sind f und g nichtnegativ und in x0 unterhalbstetig, dann ist auch deren<br />

Produkt f · g in x0 unterhalbstetig.<br />

Die zweite Eigenschaft zur Addition unterhalbstetiger Funktionen kann über Definition<br />

8.5 leicht gezeigt werden. Aus der Definition von "lim inf" folgt:<br />

lim inf<br />

xn→x0<br />

(f(xn) + g(xn)) ≥ lim inf<br />

xn→x0<br />

f(xn) + lim inf<br />

xn→x0<br />

g(xn) ≥ f(x0) + g(x0) . (8.17)<br />

Analog kann die dritte Eigenschaft zur Multiplikation unterhalbstetiger Funktionen<br />

gezeigt werden.<br />

Abbildung 8.1 zeigt ein Beispiel für eine unstetige Funktion, die unterhalbstetig<br />

ist.<br />

87


8 Anhang<br />

f<br />

Abbildung 8.1: Beispiel einer unstetigen Funktion, die unterhalbstetig ist. Man sieht, dass die<br />

Funktion f an keiner Stelle nach unten springt. Der Sprung nach oben an der Stelle x0 verletzt die<br />

Bedingung der Unterhalbstetigkeit nicht.<br />

8.6 Radiale Unbeschränktheit einer Funktion<br />

Bei der Minimierung einer Funktion spielt die radiale Unbeschränktheit der Funktion<br />

eine bedeutende Rolle. Eine radial unbeschränkte Funktion ist wie folgt definiert:<br />

Definition 8.7<br />

Eine Funktion f : R n → R mit<br />

heißt radial unbeschränkt.<br />

Bemerkungen:<br />

lim f(x) = +∞ (8.18)<br />

||x||→∞<br />

• Manchmal wird eine radial unbeschränkte Funktion auch "koerziv" genannt.<br />

• Anschaulich bedeutet die radiale Unbeschränktheit einer Funktion, dass die<br />

Funktionswerte gegen unendlich gehen, wenn die Eingabewerte gegen unendlich<br />

gehen.<br />

• Sind die Funktionen f und g radial unbeschränkt, so ist auch deren Summe<br />

f + g radial unbeschränkt.<br />

8.7 Erweiterungen des Extremwertsatzes von<br />

Weierstraß<br />

In Abschnitt 8.4 ist die "Standardversion" des Extremwertsatzes von Weierstraß<br />

angegeben. Diese benötigt Stetigkeit der Funktion und Kompaktheit der Menge, auf<br />

der die Funktion betrachtet wird. Der Extremwertsatz von Weierstraß gilt auch unter<br />

schwächeren Voraussetzungen. Z.B. besitzt Satz 8.1 seine Gültigkeit, wenn die<br />

88


8.8 Eindeutigkeit eines Minimums<br />

Forderung der Stetigkeit von f durch Unterhalbstetigkeit ersetzt wird [Ste04]. Wenn<br />

zusätzlich die radiale Unbeschränktheit von f einbezogen wird, so kann der folgende<br />

Satz angegeben werden:<br />

Satz 8.8<br />

Die zulässige Menge G sei nichtleer und abgeschlossen, die Funktion f : G → R sei<br />

auf G unterhalbstetig und radial unbeschränkt, also<br />

lim<br />

||x||→∞, x∈G<br />

f(x) = +∞ . (8.19)<br />

Dann besitzt f auf G mindestens ein globales Minimum.<br />

8.8 Eindeutigkeit eines Minimums<br />

In der Regel werden Eindeutigkeitsaussagen für Minima von Optimierungsproblemen<br />

über Konvexitätseigenschaften der zulässigen Menge und Zielfunktion getroffen.<br />

Satz 8.9<br />

Sei G ⊂ R n eine konvexe Menge und f : G → R eine konvexe Funktion. Dann gilt:<br />

i) Jedes lokale Minimum von f auf G ist auch globales Minimum.<br />

ii) Ist f streng konvex, dann hat f auf G höchstens ein lokales Minimum und dieses<br />

ist dann zugleich das einzige globale Minimum.<br />

Bemerkungen:<br />

• Haüfig wird der Begriff strikt konvex anstelle von streng konvex verwendet.<br />

• Definitionen von konvexen Mengen und Funktion, als auch weitere Bemerkungen,<br />

Sätze und Eigenschaften von solchen, befinden sich z.B. in [GK02, Alt02,<br />

Ulb07].<br />

8.9 Exakte Schrittweitenbestimmung bei<br />

Optimierung der physikalischen Dosis<br />

Optimierung der linearen physikalischen Dosis bei Vernachlässigung des OAR-Terms<br />

in der Zielfunktion hat folgende Gestalt:<br />

χ 2 Phys( N) = <br />

i∈Target<br />

<br />

Di pre − c T i · 2 N<br />

∆D 2 pre<br />

, (8.20)<br />

89


8 Anhang<br />

mit χ 2 Phys : R p<br />

≥0 → R≥0. In diesem Fall kann die exakte Schrittweite µPhys (siehe<br />

Abschnitt 4.2) analytisch berechnet werden. Dafür ergibt sich ein streng konvexes<br />

quadratisches Optimierungsproblem. Das eindeutige µPhys muss dann die folgende<br />

notwendige Optimalitätsbedingung erster Ordnung erfüllen:<br />

dχ 2 Phys ( N + µPhys d)<br />

dµPhys<br />

= −2 <br />

i∈Target<br />

<br />

D i pre − c T i · ( N + µPhys d)<br />

∆D 2 pre<br />

<br />

·<br />

<br />

c T i · <br />

d = 0 .<br />

(8.21)<br />

Nach einigen analytischen Operationen kann nach dem µPhys eindeutig umgestellt<br />

werden:<br />

µPhys =<br />

⎛<br />

⎝ <br />

i∈Target<br />

<br />

Di pre − c T i · <br />

N · c T i · ⎞<br />

⎛<br />

d<br />

⎠ ⎜<br />

/ ⎝<br />

∆D 2 pre<br />

<br />

i∈Target<br />

<br />

c T i · d<br />

∆D 2 pre<br />

2<br />

⎞<br />

⎟<br />

⎠ . (8.22)<br />

Der Nenner in (8.22) darf nicht 0 werden.<br />

Diese Prozedur muss bei einem Linesearch-Verfahren in jedem Iterationsschritt<br />

k wiederholt werden. D.h., der Iterationsindex k wurde hier für µk, Nk und dk<br />

unterschlagen. Der genaue Rechenweg von (8.21) nach (8.22) findet sich in [Hor08].<br />

90


Literaturverzeichnis<br />

[A + 99] Bruce Alberts et al. Lehrbuch der Molekularen Zellbiologie. Wiley-VCH<br />

Verlag, 1. Auflage, 1999.<br />

[Alt02] Walter Alt. Nichtlineare Optimierung. Vieweg Verlag, 1. Auflage, 2002.<br />

[B + 90] Thomas Bortfeld et al. Methods of Image Reconstruction from Projections<br />

Applied to Conformation Radiotherapy. Physics in Medicine and<br />

Biology, 35(10):1423–1434, 1990.<br />

[B + 06] Christoph Bert et al. Treatment of Moving Targets with Scanned Ion Beams:<br />

A Comparison of Different Strategies. Medical Physics, 33(6):2049,<br />

2006.<br />

[BD11] Christoph Bert und Marco Durante. Motion in Radiotherapy: Particle<br />

Therapy. Physics in Medicine and Biology, 56(16):R113–R144, 2011.<br />

[Ber06] Christoph Bert. Bestrahlungsplanung für bewegte Zielvolumina in der<br />

Tumortherapie mit gescanntem Kohlenstoffstrahl. Dissertation, Technische<br />

Universität Darmstadt, 2006.<br />

[Bet30] Hans Bethe. Zur Theorie des Durchgangs schneller Korpuskularstrahlung<br />

durch Materie. Annalen der Physik, 5(5):325–400, 1930.<br />

[Blo33] Felix Bloch. Zur Bremsung rasch bewegter Teilchen beim Durchgang<br />

durch Materie. Annalen der Physik, 5(16):285–321, 1933.<br />

[Bra99] Siegmund Brandt. Datenanalyse. Spektrum Akademischer Verlag,<br />

4. Auflage, 1999.<br />

[Bro70] Charles George Broyden. The Convergence of a Class of Double-Rank<br />

Minimization Algorithms. Journal of the Institute of Mathematics and<br />

Its Applications, 6:76–90, 1970.<br />

[Bus09] Alwin Buschbacher. Nichtlineare Optimierung der Teilchenfluenz für die<br />

biologisch effektive Dosis in der Schwerionentherapie: Effiziente numerische<br />

Lösung auftretender Gleichungssysteme. Diplomarbeit, Hochschule<br />

Darmstadt, 2009.<br />

[D + 06] Jürgen Debus et al. Strahlentherapie. Springer Verlag, 1. Auflage, 2006.<br />

92


Literaturverzeichnis<br />

[Dav04] Tim Davis. Algorithm 832: UMFPACK - an Unsymmetric-Pattern Multifrontal<br />

Method. ACM Transactions on Mathematical Software, 30:196–<br />

199, 2004.<br />

[DL10] Marco Durante und Jay S. Loeffler. Charged Particles in Radiation<br />

Oncology. Nature Reviews - Clinical Oncology, 7(1):37–43, 2010.<br />

[E + 99] Wolfgang Enghardt et al. Positron Emission Tomography for Quality<br />

Assurance of Cancer Therapy with Light Ion Beams. Nuclear Physics<br />

A, 654:1047c–1050c, 1999.<br />

[EKS08] Thilo Elsässer, Michael Krämer und Michael Scholz. Accuracy of the<br />

Local Effect Model for the Prediction of Biological Effects of Carbon<br />

Ion Beams In-Vitro and In-Vivo. International Journal of Radiation<br />

Oncology*Biology*Physics, 71(3):866–872, 2008.<br />

[EMR96] Gisela Engeln-Müllges und Fritz Reutter. Numerik-Algorithmen. VDI<br />

Verlag, 8. Auflage, 1996.<br />

[F + 92] Brian P. Flannery et al. Numerical Recipes in C - The Art of Scientific<br />

Computing. Cambridge University Press, 2. Auflage, 1992.<br />

[Fle70] Roger Fletcher. A New Approach to Variable Metric Algorithms. Computer<br />

Journal, 13(3):317–322, 1970.<br />

[G + 08] Alexander Gemmel et al. Biological Dose Optimization with Multiple<br />

Ion Fields. Physics in Medicine and Biology, 53:6991–7012, 2008.<br />

[Gem09] Alexander Gemmel. Berechnung der RBW-gewichteten Dosis und biologische<br />

Dosimetrie für bewegte Zielvolumina in der Tumortherapie<br />

mit gescannten Kohlenstoffionen. Dissertation, Technische Universität<br />

Darmstadt, 2009.<br />

[GK02] Carl Geiger und Christian Kanzow. Theorie und Numerik restringierter<br />

Optimierungsaufgaben. Springer Verlag, 1. Auflage, 2002.<br />

[GM06] Christian Gerthsen und Dieter Meschede. Gerthsen Physik. Springer<br />

Verlag, 23. Auflage, 2006.<br />

[Gol70] Donald Goldfarb. A Family of Variable Metric Updates Derived by<br />

Variational Means. Mathematics of Computation, 24(109):23–26, 1970.<br />

[Grö04] Sven Oliver Grözinger. Volume Conformal Irradiation of Moving Target<br />

Volumes with Scanned Ion Beams. Dissertation, Technische Universität<br />

Darmstadt, 2004.<br />

93


Literaturverzeichnis<br />

[Gro01] Intensity Modulated Radiation Therapy Collaborative Working Group.<br />

Intensity-Modulated Radiotherapy: Current Status and Issues of Interest.<br />

International Journal of Radiation Oncology*Biology*Physics,<br />

51(4):880–914, 2001.<br />

[GT97] Christian Großmann und Johannes Terno. Numerik der Optimierung.<br />

B.G. Teubner Stuttgart Verlag, 2. Auflage, 1997.<br />

[H + 93] Thomas Haberer et al. Magnetic Scanning System for Heavy Ion Therapy.<br />

Nuclear Instruments and Methods in Physics Research, A330:296–<br />

305, 1993.<br />

[H + 04] Thomas Haberer et al. The Heidelberg Ion Therapy Center. Radiotherapy<br />

Oncology, 73:186–190, 2004.<br />

[Hac93] Wolfgang Hackbusch. Iterative Lösung großer schwachbesetzter Gleichungssysteme.<br />

B.G. Teubner Stuttgart Verlag, 2. Auflage, 1993.<br />

[Hal94] Eric J. Hall. Radiobiology for the Radiologist. J.B. Lippincott Company,<br />

4. Auflage, 1994.<br />

[HB97] Thomas Herrmann und Michael Baumann. Klinische Strahlenbiologie -<br />

kurz und bündig. Gustav Fischer Verlag, 3. Auflage, 1997.<br />

[HDK10] Michael Horcicka, Marco Durante und Michael Krämer. Particle Number<br />

Optimization Using the BFGS Method in Heavy-Ion Therapy. Report,<br />

<strong>GSI</strong> Helmholtzzentrum für Schwerionenforschung GmbH, 2010.<br />

[Heu83] Harro Heuser. Lehrbuch der Analysis - Teil 2. B.G. Teubner Stuttgart<br />

Verlag, 2. Auflage, 1983.<br />

[Heu84] Harro Heuser. Lehrbuch der Analysis - Teil 1. B.G. Teubner Stuttgart<br />

Verlag, 3. Auflage, 1984.<br />

[Heu92] Harro Heuser. Funktionalanalysis. B.G. Teubner Stuttgart Verlag,<br />

3. Auflage, 1992.<br />

[Hor79] Reiner Horst. Nichtlineare Optimierung. Carl Hanser Verlag, 1. Auflage,<br />

1979.<br />

[Hor08] Michael Horcicka. Mehrfelderoptimierung für die biologisch effektive Dosis<br />

in der Schwerionentherapie: Nichtlineare Methoden und numerische<br />

Analyse. Diplomarbeit, Hochschule Darmstadt, 2008.<br />

[J + 01] Oliver Jäkel et al. Treatment Planning for Heavy-Ion Radiotherapy: Clinical<br />

Implementation and Application. Physics in Medicine and Biology,<br />

46(4):1101–1116, 2001.<br />

94


Literaturverzeichnis<br />

[K + 00] Michael Krämer et al. Treatment Planning for Heavy-Ion Radiotherapy:<br />

Physical Beam Model and Dose Optimization. Physics in Medicine and<br />

Biology, 45(11):3299–3317, 2000.<br />

[KD10] Michael Krämer und Marco Durante. Ion Beam Transport Calculations<br />

and Treatment Plans in Particle Therapy. The European Physical<br />

Journal D, 60:195–202, 2010.<br />

[KK94] Michael Krämer und Gerhard Kraft. Calculations of Heavy-Ion Track<br />

Structure. Radiation and Environmental Biophysics, 33(2):91–109, 1994.<br />

[KKWS03] Michael Krämer, Wilma Kraft-Weyrather und Michael Scholz. The Increased<br />

Biological Effectiveness of Heavy Charged Particles: From Radiobiology<br />

to Treatment Planning. Technology in Cancer Research and<br />

Treatment, 2(5):427–436, 2003.<br />

[KP88] Hanno Krieger und Wolfgang Petzold. Strahlenphysik, Dosimetrie und<br />

Strahlenschutz. B.G. Teubner Stuttgart Verlag, 1988. Band 1 und 2.<br />

[Krä01] Michael Krämer. Treatment Planning for Heavy-Ion Radiotherapy: Biological<br />

Optimization of Multiple Beam Ports. Journal of Radiation Research,<br />

42(1):39–46, 2001.<br />

[Krä09] Michael Krämer. Swift Ions in Radiotherapy - Treatment Planning<br />

with TRiP98. Nuclear Instruments and Methods in Physics Research<br />

B, 267:989–992, 2009.<br />

[Kra00] Gerhard Kraft. Tumor Therapy with Heavy Charged Particles. Progress<br />

in Particle and Nuclear Physics, 45:473–544, 2000.<br />

[Kra08] Gerhard Kraft. Tumortherapie mit schweren Ionen. <strong>GSI</strong> Helmholtzzentrum<br />

für Schwerionenforschung GmbH, 2. Auflage, 2008.<br />

[Kre07] Erwin Kreyszig. Introductory Functional Analysis with Applications.<br />

Wiley Verlag, 3. Auflage, 2007.<br />

[KS00] Michael Krämer und Michael Scholz. Treatment Planning for Heavy-Ion<br />

Radiotherapy: Calculation and Optimization of Biologically Effective<br />

Dose. Physics in Medicine and Biology, 45(11):3319–3330, 2000.<br />

[KS06] Michael Krämer und Michael Scholz. Rapid Calculation of Biological Effects<br />

in Ion Radiotherapy. Physics in Medicine and Biology, 51(8):1959–<br />

1970, 2006.<br />

[Lev44] Kenneth Levenberg. A Method for the Solution of Certain Non-Linear<br />

Problems in Least Squares. The Quarterly of Applied Mathematics,<br />

2:164–168, 1944.<br />

95


Literaturverzeichnis<br />

[Mar63] Donald W. Marquardt. An Algorithm for Least-Squares Estimation of<br />

Nonlinear Parameters. Journal of the Society for Industrial and Applied<br />

Mathematics, 11(2):431–441, 1963.<br />

[Pag03] Harald Paganetti. Significance and Implementation of RBE Variations in<br />

Proton Beam Therapy. Technology in Cancer Research and Treatment,<br />

2(5):413–426, 2003.<br />

[RB10] Eike Rietzel und Christoph Bert. Respiratory Motion Management in<br />

Particle Therapy. Medical Physics, 37(2):449–460, 2010.<br />

[Saa03] Yousef Saad. Iterative Methods for Sparse Linear Systems. Society for<br />

Industrial and Applied Mathematics, 2. Auflage, 2003.<br />

[Sch93] Hans Rudolf Schwarz. Numerische <strong>Mathematik</strong>. B.G. Teubner Stuttgart<br />

Verlag, 3. Auflage, 1993.<br />

[Sch03] Michael Scholz. Effects of Ion Radiation on Cells and Tissues. Advances<br />

in Polymer Science, 162:95–155, 2003.<br />

[Sch06] Alexander Schmidt. Examinations on Multiple Field Optimization in<br />

Ion Therapy. Diplomarbeit, TU Darmstadt, 2006.<br />

[SE + 04] Daniela Schulz-Ertner et al. Results of Carbon Ion Radiotherapy in 152<br />

Patients. International Journal of Radiation Oncology*Biology*Physics,<br />

58(2):631–640, 2004.<br />

[SESE10] Dieter Schardt, Thilo Elsässer und Daniela Schulz-Ertner. Heavy-Ion<br />

Tumor Therapy: Physical and Radiobiological Benefits. Reviews of Modern<br />

Physics, 82(1):383–425, 2010.<br />

[Sha70] David Shanno. Conditioning of Quasi-Newton Methods for Function<br />

Minimization. Mathematics of Computation, 24:647–656, 1970.<br />

[SKD10] Emanuele Scifoni, Michael Krämer und Marco Durante. Oxygen Effect<br />

Implementation into TRiP98. Report, <strong>GSI</strong> Helmholtzzentrum für<br />

Schwerionenforschung GmbH, 2010.<br />

[Spe99] Peter Spellucci. Nichtlineare Optimierungsprobleme hoher Dimension -<br />

Stand der Forschung. Report, Technische Universität Darmstadt, 1999.<br />

[Ste04] Oliver Stein. Optimierung III (Nichtlineare Optimierung). Vorlesungsskript,<br />

Universität Duisburg-Essen, 2004.<br />

[Trö09] Fredi Tröltzsch. Optimale Steuerung partieller Differentialgleichungen.<br />

Vieweg+Teubner Verlag, 2. Auflage, 2009.<br />

[Ulb07] Stefan Ulbrich. Nichtlineare Optimierung. Vorlesungsskript, Technische<br />

Universität Darmstadt, 2007.<br />

96


Literaturverzeichnis<br />

[vN + 06] Cläre von Neubeck et al. A Multidimensional System for Biological<br />

Dosimetry. Report, Gesellschaft für Schwerionenforschung mbH, 2006.<br />

[W + 07] Andre Wambersie et al. The RBE Issues in Ion-Beam Therapy: Conclusions<br />

of a Joint IAEA/ICRU Working Group Regarding Quantities and<br />

Units. Radiation Prot. Dosimetry, 122:463–470, 2007.<br />

[Web96] Uli Weber. Volumenkonforme Bestrahlung mit Kohlenstoff-Ionen zur<br />

Vorbereitung einer Strahlentherapie. Dissertation, Universität Kassel,<br />

1996.<br />

[Wik11] Wikipedia. URL http://de.wikipedia.org/wiki/Krebs, 2011.<br />

[Wil46] R. R. Wilson. Radiological Use of Fast Protons. Radiology, 47:487–491,<br />

1946.<br />

[WK09] Uli Weber und Gerhard Kraft. Comparison of Carbon Ions Versus Protons.<br />

The Cancer Journal, 15(4):325–332, 2009.<br />

97


Danksagung<br />

Hier möchte ich mich bei den vielen Menschen bedanken, die zu dieser Master-Thesis<br />

beigetragen haben.<br />

Als erstes Danke ich Prof. Dr. Christian Meyer dafür, dass er mir die Möglichkeit<br />

gegeben hat, diese externe Master-Thesis anzufertigen. Des Weiteren danke ich<br />

ihm für die zahlreichen Ratschläge und Denkanstöße. Trotz der größeren Entfernung<br />

habe ich mich die ganze Zeit hervorragend betreut gefühlt.<br />

Bei Prof. Dr. Stefan Ulbrich bedanke ich mich herzlichst für die Übernahme der<br />

Korreferentschaft.<br />

Bei PD Dr. Michael Krämer bedanke ich mich für die Übergabe des interessanten<br />

Themas und für die Beantwortung meiner Fragen.<br />

Vielen Dank an Prof. Dr. Michael Gubitz, dass er mich im Jahre 2006 als Praktikanten<br />

an die <strong>GSI</strong> in die Abteilung Biophysik vermittelt hat. Ohne ihn wäre diese<br />

Arbeit nicht zustande gekommen.<br />

Dem ehemaligen Leiter und Gründer der Biophysik-Abteilung Prof. Dr. Gerhard<br />

Kraft danke ich, dass er mich im Jahre 2006 in seine Abteilung aufgenommen hat.<br />

Dem gegenwärtigem Leiter der Biophysik-Abteilung Prof. Dr. Marco Durante<br />

danke ich herzlichst, dass ich in seiner Abteilung als Werkstudent arbeiten durfte<br />

und diese Master-Thesis erstellen konnte.<br />

Bei den zahlreichen Zimmerkollegen über den längeren Zeitraum dieser Master-<br />

Thesis bedanke ich mich für die angenehme Büroatmosphäre. Besonders danke ich<br />

Alexander Helm, der während dieser Zeit treu mein Platznachbar war und für den<br />

Austausch mit ihm von Biologie- und Mathe-Themen.<br />

Der gesamten Biophysik-Gruppe danke ich für die angenehme Arbeitsatmosphäre<br />

in den letzten 5 1 Jahren. Diese tolle Zeit werde ich mein ganzes Leben lang nicht<br />

2<br />

vergessen!<br />

Abschließend ist es mir ein besonderes Anliegen mich bei meinen Eltern zu bedanken.<br />

An sie geht mein größter Dank, denn sie haben mir überhaupt das Studium<br />

der <strong>Mathematik</strong> ermöglicht.<br />

99


Erklärung<br />

Hiermit versichere ich, die vorliegende Master-Thesis ohne Hilfe Dritter, nur mit den<br />

angegebenen Quellen und Hilfsmitteln, angefertigt zu haben. Alle Stellen, die aus<br />

den Quellen entnommen wurden, sind als solche kenntlich gemacht worden. Diese<br />

Arbeit hat in gleicher Form noch keiner Prüfungsbehörde vorgelegen.<br />

Darmstadt, den 27. Oktober 2011.<br />

(Michael Horcicka)

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!