17.01.2014 Aufrufe

Die Methode der kleinsten absoluten Abweichungen in linearen ...

Die Methode der kleinsten absoluten Abweichungen in linearen ...

Die Methode der kleinsten absoluten Abweichungen in linearen ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

<strong>Die</strong> <strong>Methode</strong> <strong>der</strong> <strong>kle<strong>in</strong>sten</strong> <strong>absoluten</strong><br />

<strong>Abweichungen</strong> <strong>in</strong> l<strong>in</strong>earen Modellen mit<br />

latenten Klassen und Ausreiÿern<br />

E<strong>in</strong>e statistische Rechtfertigung <strong>der</strong> <strong>Methode</strong> und<br />

Lösungsansätze aus <strong>der</strong> Standortplanung<br />

Diplomarbeit<br />

vorgelegt von<br />

Robert Schieweck<br />

aus<br />

Berl<strong>in</strong><br />

angefertigt<br />

im Institut für Numerische und Angewandte Mathematik<br />

<strong>der</strong> Georg-August-Universität zu Gött<strong>in</strong>gen<br />

2010


Inhaltsverzeichnis<br />

1 E<strong>in</strong>leitung 5<br />

2 Statistische Motivation <strong>der</strong> LAD-<strong>Methode</strong> 10<br />

2.1 E<strong>in</strong>ordnung des TLAD-Schätzers . . . . . . . . . . . . . . . . . . . . . . . 10<br />

2.2 Statistische Gundlagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12<br />

2.3 Maximum-Likelihood-Eigenschaft . . . . . . . . . . . . . . . . . . . . . . . 13<br />

2.4 Asymptotische Eigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . 19<br />

2.5 <strong>Die</strong> latent-class Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . 22<br />

3 Platzierung e<strong>in</strong>er Geraden 28<br />

3.1 Problemstellung und Eigenschaften . . . . . . . . . . . . . . . . . . . . . . 28<br />

3.1.1 Komb<strong>in</strong>atorische und or<strong>der</strong>ed-median-Formulierung . . . . . . . . . 28<br />

3.1.2 Existenz und Nicht-E<strong>in</strong>deutigkeit . . . . . . . . . . . . . . . . . . . 31<br />

3.2 <strong>Die</strong> geometrische Dualität . . . . . . . . . . . . . . . . . . . . . . . . . . . 34<br />

3.3 E<strong>in</strong>e endliche Kandidatenmenge für (TLAD) . . . . . . . . . . . . . . . . . 41<br />

4 Platzierung mehrerer Geraden 52<br />

4.1 Problemstellung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52<br />

4.2 NP-Vollständigkeit <strong>der</strong> Geradenplatzierung . . . . . . . . . . . . . . . . . 53<br />

4.3 Spezielle Lösungen und Existenzaussagen . . . . . . . . . . . . . . . . . . 57<br />

4.4 E<strong>in</strong>e endliche Kandidatenmenge für (K-TLAD) . . . . . . . . . . . . . . . 60<br />

5 Algorithmen 63<br />

5.1 Formulierung als l<strong>in</strong>eares und gemischt-ganzzahliges l<strong>in</strong>eares Programm . 63<br />

5.2 Der FastTLE-Algorithmus . . . . . . . . . . . . . . . . . . . . . . . . . . . 69<br />

5.3 Der FDS-Algorithmus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73<br />

5.4 Vergleich <strong>der</strong> Algorithmen . . . . . . . . . . . . . . . . . . . . . . . . . . . 74<br />

6 Ausblick 80<br />

Abbildungsverzeichnis 83<br />

Literaturverzeichnis 84<br />

Danksagung 87<br />

3


1 E<strong>in</strong>leitung<br />

In <strong>der</strong> Statistik ist man häug an e<strong>in</strong>em l<strong>in</strong>earen Zusammenhang zwischen reellen Daten<br />

<strong>in</strong>teressiert, also an e<strong>in</strong>em Zusammenhang <strong>der</strong> Form<br />

Y = Xβ + ɛ (1.1)<br />

mit e<strong>in</strong>er Designmatrix X ∈ R n×p , e<strong>in</strong>em Parametervektor β ∈ R p und e<strong>in</strong>em n-<br />

dimensionalen Zufallsvektor ɛ. <strong>Die</strong> Designmatrix X = (x i,j ) i,j=0,...,p−1 enthält <strong>in</strong> <strong>der</strong><br />

ersten Spalte nur E<strong>in</strong>sen, also x 1,0 = . . . = x n,0 = 1, und hat ansonsten reelle E<strong>in</strong>träge.<br />

(x i,1 , . . . , x i,p−1 ) geben für i = 1, . . . , n verschiedene Realisationen <strong>der</strong> sogenannten<br />

unabhängigen Variablen an und Y = (Y 1 , . . . , Y n ) t ist die abhängige Variable, die sich<br />

aus den unabhängigen durch e<strong>in</strong>en mit dem Fehler ɛ behafteten l<strong>in</strong>earen Zusammenhang<br />

erklären lässt. Man nimmt an, dass <strong>der</strong> Fehler unabhängig von <strong>der</strong> Beobachtung immer<br />

die gleiche Form hat, also unabhängig identisch verteilte ɛ 1 , . . . , ɛ n , und dass man ke<strong>in</strong>en<br />

systematischen Fehler macht, also E(ɛ) = 0 und somit E(Y ) = Xβ. Auÿerdem setzt<br />

man häug V(ɛ i ) < ∞ voraus, um mehr statistische Mittel zur Lösung des Problems zur<br />

Verfügung zu haben. E<strong>in</strong> solches Modell nennt man multiple l<strong>in</strong>eare Regression.<br />

In dieser Arbeit wird <strong>der</strong> E<strong>in</strong>fachheit halber nur <strong>der</strong> Fall p = 2 betrachtet. Damit vere<strong>in</strong>facht<br />

sich die Modellgleichung (1.1) zu<br />

Y i = β 0 + β 1 x i + ɛ i ∀ i = 1, . . . , n (1.2)<br />

mit zwei reellen Parametern β 0 und β 1 . Das Modell beschreibt also e<strong>in</strong>e Gerade und heiÿt<br />

e<strong>in</strong>fache l<strong>in</strong>eare Regression.<br />

<strong>Die</strong> Aufgabe <strong>der</strong> Regression besteht nun dar<strong>in</strong>, zu gegebenen Realisationen (x i , y i ), i =<br />

1, . . . , n die unbekannten Parameter β 0 und β 1 möglichst gut zu schätzen. Das heiÿt,<br />

die Modellgleichung (1.2) soll für die geschätzten Parameter ˆβ 0 und ˆβ 1 möglichst genau<br />

erfüllt se<strong>in</strong>:<br />

y i ≈ ˆβ 0 + ˆβ 1 x i ∀ i = 1, . . . , n.<br />

E<strong>in</strong> weit verbreitetes Verfahren dafür ist die <strong>Methode</strong> <strong>der</strong> <strong>kle<strong>in</strong>sten</strong> Quadrate, die zum ersten<br />

Mal 1805 vom französischen Mathematiker Adrien-Marie Legendre publiziert wurde<br />

5


1 E<strong>in</strong>leitung<br />

[6], [18]. Dabei werden ˆβ 0 und ˆβ 1 so gewählt, dass die sogenannte Summe <strong>der</strong> quadratischen<br />

Residuen<br />

n∑<br />

(y i − β 0 − β 1 x i ) 2<br />

i=1<br />

<strong>in</strong> β 0 und β 1 m<strong>in</strong>imiert wird. Den so erhaltenen Schätzer für die Regressionsgerade nennt<br />

man Kle<strong>in</strong>ste-Quadrate-Schätzer (least squares estimator, LSE). <strong>Die</strong>ser Schätzer hat viele<br />

angenehme Eigenschaften (siehe Kapitel 2), was auch <strong>der</strong> Grund für se<strong>in</strong>e Beliebtheit ist.<br />

Allerd<strong>in</strong>gs hat er auch e<strong>in</strong>en entscheidenden Nachteil: Er ist extrem anfällig gegen Punkte,<br />

die nicht <strong>der</strong> Modellgleichung folgen, sogenannte Ausreiÿer. Daher ist für bestimmte<br />

Anwendungen, bei denen das Auftreten solcher Ausreiÿer absehbar ist, e<strong>in</strong> robusterer<br />

Schätzer nötig. E<strong>in</strong> robusterer Schätzer ist <strong>der</strong> Kle<strong>in</strong>ste-Absolute-<strong>Abweichungen</strong>-Schätzer<br />

(least absolute deviations estimator, LAD). Er m<strong>in</strong>imiert<br />

n∑<br />

|y i − β 0 − β 1 x i |<br />

i=1<br />

<strong>in</strong> β 0 und β 1 . Aber auch dieser reicht häug nicht aus, um den E<strong>in</strong>uss <strong>der</strong> Ausreiÿer<br />

genügend zu kontrollieren. Er fängt zwar den E<strong>in</strong>uss e<strong>in</strong>er Fehlannahme <strong>in</strong> <strong>der</strong><br />

Fehlerverteilung gut ab, beson<strong>der</strong>s bei heavy-tail Verteilungen, die viel Wahrsche<strong>in</strong>lichkeitsmasse<br />

weit entfernt vom Mittelwert aufweisen [28]. Das bedeutet e<strong>in</strong>e Robustheit <strong>in</strong><br />

<strong>der</strong> y-Koord<strong>in</strong>ate <strong>der</strong> Messpunkte. Starke <strong>Abweichungen</strong> <strong>in</strong> <strong>der</strong> x-Koord<strong>in</strong>ate, sogenannte<br />

Hebelpunkte (leverage po<strong>in</strong>ts), können jedoch mit dem LAD-Schätzer nicht eektiv<br />

behandelt werden [28]. Um hier e<strong>in</strong>e höhere Robustheit zu erzielen, werden die Daten<br />

getrimmt, das heiÿt, man nimmt an, dass e<strong>in</strong>e gewisse Anzahl n − m mit 0 < m ≤ n <strong>der</strong><br />

Daten Ausreiÿer s<strong>in</strong>d. Welche das genau s<strong>in</strong>d, muss während <strong>der</strong> Schätzung bestimmt<br />

werden. In Komb<strong>in</strong>ation mit dem LAD-Schätzer wird dann die Funktion<br />

m∑<br />

|y (i) − β 0 − β 1 x (i) | (1.3)<br />

i=1<br />

<strong>in</strong> β 0 und β 1 m<strong>in</strong>imiert, wobei die Permutation (·) von β 0 und β 1 abhängt und die Beträge<br />

aufsteigend sortiert. <strong>Die</strong>sen Schätzer nennt man TLAD-Schätzer (trimmed least absolute<br />

deviations). So wird auch e<strong>in</strong>e Robustheit gegen Hebelpunkte erzielt, da sie als Auÿreiÿer<br />

identiziert werden können. Man spricht hier auch von Ausreiÿer-resistenter Statistik,<br />

während <strong>der</strong> Begri <strong>der</strong> Robustheit <strong>in</strong> <strong>der</strong> Literatur ursprünglich für Unempndlichkeit<br />

gegen Fehlerverteilungen mit heavy-tails, also im S<strong>in</strong>ne e<strong>in</strong>er Verteilungs-Robustheit,<br />

verwendet wurde [12, S. 4]. In dieser Arbeit wird <strong>der</strong> E<strong>in</strong>fachheit halber nur <strong>der</strong> Begri<br />

robust ganz allgeme<strong>in</strong> für die Unempndlichkeit gegen <strong>Abweichungen</strong> von den Modellannahmen<br />

verwendet, seien es heavy-tailed Verteilungen o<strong>der</strong> Ausreiÿer. Ohneh<strong>in</strong> s<strong>in</strong>d<br />

viele statistische Verfahren entwe<strong>der</strong> robust und resistent o<strong>der</strong> ke<strong>in</strong>es von beidem [12, S.<br />

4].<br />

6


In <strong>der</strong> Anwendung ist auÿerdem die Modellierung durch e<strong>in</strong>en e<strong>in</strong>zelnen l<strong>in</strong>earen Zusammenhang<br />

häug nicht ausreichend. Es kann vorkommen, dass die Beobachtungen <strong>in</strong><br />

verschiedene Klassen zerfallen und <strong>in</strong> je<strong>der</strong> Klasse e<strong>in</strong>em eigenen l<strong>in</strong>earen Zusammenhang<br />

folgen. Dabei ist aber die Zugehörigkeit e<strong>in</strong>er Beobachtung zu e<strong>in</strong>er Klasse unbekannt. E<strong>in</strong><br />

Beispiel: An e<strong>in</strong>er Personengruppe wird e<strong>in</strong> neues Medikament getestet, dessen Wirkung<br />

proportional zur Dosierung steigt. Es liegt also e<strong>in</strong>e l<strong>in</strong>eare Abhängigkeit <strong>der</strong> Wirkung<br />

von <strong>der</strong> Dosierung vor. Nun können aber Faktoren wie Vorerkrankungen bestimmter Testpersonen<br />

die Wirkung des Medikaments bee<strong>in</strong>ussen, vielleicht sogar umkehren. Wenn<br />

Krankheitsdauer A<br />

3.5 4.0 4.5 5.0 5.5 6.0 6.5<br />

●<br />

●<br />

● ●<br />

●<br />

●<br />

●<br />

● ●<br />

● ●<br />

● ●<br />

●<br />

●<br />

●<br />

● ●<br />

● ●<br />

● ●<br />

● ●<br />

● ●<br />

●<br />

● ●<br />

●<br />

●<br />

●<br />

● ●<br />

●<br />

● ●<br />

●<br />

● ●<br />

● ●<br />

●<br />

●<br />

Modellgeraden<br />

Schätzung<br />

●<br />

●<br />

● ●<br />

●●<br />

●<br />

● ●<br />

●<br />

●<br />

●<br />

● ●<br />

●<br />

0.0 0.5 1.0 1.5 2.0 2.5 3.0<br />

Dosierung<br />

Abbildung 1.1: Kreise: 70 Patienten leiden unter Erkrankung B und das verabreichte Medikament<br />

verlängert Krankheit A;<br />

Dreiecke: 50 Patienten haben ke<strong>in</strong>e Vorerkrankung, ihnen hilft das<br />

Medikament<br />

diese Faktoren unbekannt s<strong>in</strong>d, bestimmen sie die sogenannten latenten Klassen, <strong>in</strong> die<br />

die Beobachtungen zerfallen. In diesem Fall sucht man für jede <strong>der</strong> a priori unbekannten<br />

Klassen e<strong>in</strong>e Regressionsgerade. Sucht man im obigen Medikamentenbeispiel nur e<strong>in</strong>e<br />

e<strong>in</strong>zige Gerade, könnte man e<strong>in</strong>en systematischen Fehler wie <strong>in</strong> Abbildung 1.1 machen.<br />

7


1 E<strong>in</strong>leitung<br />

Hier wird die Wirkung e<strong>in</strong>es Medikaments auf die Krankheitsdauer <strong>der</strong> Krankheit A untersucht.<br />

E<strong>in</strong>ige <strong>der</strong> Testpersonen leiden aber auch unter Krankheit B, an<strong>der</strong>e h<strong>in</strong>gegen<br />

nicht. <strong>Die</strong>se Tatsache ist dem Untersuchungsteam unglücklicherweise nicht bekannt, also<br />

zerfallen die Patienten <strong>in</strong> die Klassen hat Krankheit B und hat Krankheit B nicht,<br />

die für das Untersuchungsteam nicht zu erkennen, also latent s<strong>in</strong>d. Mit Hilfe <strong>der</strong> l<strong>in</strong>earen<br />

Regression wird festgestellt, dass das Medikament ke<strong>in</strong>e son<strong>der</strong>lich groÿe Wirkung hat.<br />

Richtig wäre aber, mehrere Geraden zu platzieren und mit Hilfe e<strong>in</strong>es latent class models<br />

festzustellen, dass sehr wohl e<strong>in</strong>e Wirkung gegeben ist, aber <strong>in</strong> Abhängigkeit von <strong>der</strong><br />

unbekannten Vorerkrankung.<br />

In dieser Arbeit soll die Bestimmung robuster Regressiongeraden bei latenten Klassen<br />

durch die <strong>Methode</strong> <strong>der</strong> <strong>kle<strong>in</strong>sten</strong> <strong>absoluten</strong> <strong>Abweichungen</strong> als Optimierungsproblem <strong>der</strong><br />

Standortplanung untersucht werden. Es wird also e<strong>in</strong>e Anzahl von K Geraden platziert,<br />

die e<strong>in</strong>e gegebene Menge von n Punkten möglichst gut approximieren soll. Als Maÿ für<br />

die Güte <strong>der</strong> Approximation dient <strong>der</strong> vertikale Abstand |y − β 0 − β 1 x| e<strong>in</strong>es Punktes<br />

(x, y) ∈ R 2 von <strong>der</strong> Geraden {(x ′ , y ′ ) ∈ R 2 : y ′ = β 0 + β 1 x ′ }. Es sollen mögliche Ausreiÿer<br />

berücksichtigt werden, <strong>in</strong>dem die Daten getrimmt werden und nur m Punkte als<br />

Modellpunkte angesehen werden, also als Punkte, die ke<strong>in</strong>e Ausreiÿer s<strong>in</strong>d. Damit ist <strong>der</strong><br />

Ausdruck<br />

m∑<br />

m<strong>in</strong> |y (i) − β 1k x (i) − β 0k | (1.4)<br />

k=1,...,K<br />

i=1<br />

<strong>in</strong> den Parametern β 0k , β 1k , k = 1, . . . , K <strong>der</strong> Geraden zu m<strong>in</strong>imieren. <strong>Die</strong> Permutation<br />

(·) sortiert die Summanden aufsteigend. Dabei sollen K ∈ N und m mit 0 < m ≤ n feste<br />

Parameter des Problems se<strong>in</strong>. <strong>Die</strong> Bestimmung e<strong>in</strong>er optimalen Zahl K opt an Geraden<br />

und e<strong>in</strong>er optimalen Zahl m opt an Modellpunkten soll nicht behandelt werden.<br />

In Kapitel 2 wird zunächst die Verwendung <strong>der</strong> <strong>absoluten</strong> <strong>Abweichungen</strong> im Gegensatz<br />

zur verbreiteteren Verwendung <strong>der</strong> Kle<strong>in</strong>ste-Quadrate-<strong>Methode</strong> gerechtfertigt. <strong>Die</strong><br />

Begrie LAD-<strong>Methode</strong> und und LS-<strong>Methode</strong> werden zur Unterscheidung <strong>der</strong> beiden Verfahren<br />

im H<strong>in</strong>blick auf die verwendete Abstandsfunktion benutzt, unabhängig davon, ob<br />

getrimmt wird o<strong>der</strong> nicht, und auch unabhäng<strong>in</strong>g vom Vorhandense<strong>in</strong> latenter Klassen<br />

(siehe auch Tabelle 1.1). Dann werden <strong>in</strong> Kapitel 3 für den Spezialfall K = 1 Bed<strong>in</strong>gungen<br />

für die Existenz von optimalen Geraden und e<strong>in</strong>e endliche Kandidatenmenge hergeleitet.<br />

<strong>Die</strong> Kandidatenmenge liefert auch e<strong>in</strong>en Algorithmus zum Lösen des Problems. In<br />

Kapitel 4 werden e<strong>in</strong>ige dieser Ergebnisse auf die Platzierung mehrerer Geraden verallgeme<strong>in</strong>ert,<br />

<strong>in</strong>sbeson<strong>der</strong>e die endliche Kandidatenmenge, die wie<strong>der</strong>um e<strong>in</strong> Lösungsverfahren<br />

liefert. Es wird aber auch die NP-Vollständigkeit des Problems gezeigt, die e<strong>in</strong>e eziente<br />

Platzierung mehrerer Geraden verh<strong>in</strong><strong>der</strong>t. Kapitel 5 beschreibt e<strong>in</strong>ige Lösungsverfahren<br />

für das Problem. Es werden Formulierungen als mathematische Programme zur Lösung<br />

mit e<strong>in</strong>em Solver angegeben. Der FastTLE-Algorithmus von Neykov u. a. [24] wird kurz<br />

8


erläutert und durch e<strong>in</strong>e Simulation mit <strong>der</strong> <strong>Methode</strong> des Durchprobierens <strong>der</strong> Kandidatenmenge<br />

verglichen. Schlieÿlich liefert Kapitel 6 e<strong>in</strong>en Ausblick über e<strong>in</strong>ige oene<br />

Fragestellungen und Möglichkeiten, die LAD-<strong>Methode</strong> zu verbessern.<br />

Abkürzung<br />

LAD<br />

LS<br />

T...<br />

K-...<br />

LP<br />

QP<br />

MIP<br />

Bedeutung<br />

least absolute deviations<br />

zeigt die Verwendung des Betrages als Abstandsfunktion an<br />

z. B. (LAD): Problem <strong>der</strong> Platzierung e<strong>in</strong>er Geraden mit Beträgen<br />

least squares<br />

zeigt die Verwendung <strong>der</strong> Residuenquadrate als Abstandsfunktion an<br />

trimmed<br />

zeig an, dass getrimmt wird<br />

z. B. (TLAD) bzw. (LTS): Geradenplatzierung mit Beträgen<br />

bzw. Quadraten unter Berücksichtigung von Ausreiÿern<br />

zeigt die Verwendung von mehreren, nämlich K Geraden an<br />

z. B. (K-TLAD): wie (TLAD), aber mit mehreren Geraden<br />

weist auf e<strong>in</strong> l<strong>in</strong>eares Programm h<strong>in</strong><br />

weist auf e<strong>in</strong> quadratisches Programm h<strong>in</strong><br />

weist auf e<strong>in</strong> mixed <strong>in</strong>teger programm<br />

bzw. gemischt-ganzzahliges l<strong>in</strong>eares Programm h<strong>in</strong><br />

Tabelle 1.1: Übersicht über die <strong>in</strong> dieser Arbeit verwendeten Abkürzungen<br />

9


2 Statistische Motivation <strong>der</strong> LAD-<strong>Methode</strong><br />

In diesem Kapitel werden e<strong>in</strong>ige statistische Eigenschaften des LAD-Schätzers behandelt,<br />

um sicherzustellen, dass sich se<strong>in</strong>e weitere Untersuchung lohnt, und um E<strong>in</strong>satzgebiete<br />

aufzuzeigen, <strong>in</strong> denen er dem klassischen LSE überlegen ist. Insbeson<strong>der</strong>e s<strong>in</strong>d wir daran<br />

<strong>in</strong>teressiert, klassische Eigenschaften <strong>der</strong> LS- auf die LAD-<strong>Methode</strong> zu übertragen und<br />

zusätzlich ihre Robustheit sicherzustellen. Zuerst ordnen wir die <strong>Methode</strong> jedoch <strong>in</strong> den<br />

historischen Kontext e<strong>in</strong>.<br />

2.1 E<strong>in</strong>ordnung des TLAD-Schätzers<br />

Robuste Statistik wird schon seit über zwei Jahrhun<strong>der</strong>ten praktiziert, so publizierte<br />

Daniel Bernoulli 1977 <strong>in</strong> den Acta Academiae Scientiarum Petropolitanae e<strong>in</strong>en Artikel<br />

mit dem Namen Dijudicatio maxime probabilis plurium observationum discrepantium<br />

atque verisimillima <strong>in</strong>ductio <strong>in</strong>de formanda, frei übersetzt <strong>Die</strong><br />

wahrsche<strong>in</strong>lichste Entscheidung unter mehreren wi<strong>der</strong>sprüchlichen Beobachtungen und<br />

die daraus am wahrsche<strong>in</strong>lichsten abzuleitenden Folgerungen.<br />

E<strong>in</strong>ige Jahre später äuÿerte sich Legendre im Zusammenhang mit <strong>der</strong> E<strong>in</strong>führung <strong>der</strong><br />

<strong>Methode</strong> <strong>der</strong> <strong>kle<strong>in</strong>sten</strong> Quadrate zur Regression folgen<strong>der</strong>maÿen über allzu groÿe Fehler<br />

[18, S. 74]:<br />

Si parmi ces erreurs il s'en trouve que l'on juge trop grandes pour être<br />

admises, alors on rejettera les équations qui ont produit ces erreurs, comme<br />

venant d'expériences trop défectueuses, et on déterm<strong>in</strong>era les <strong>in</strong>connues par<br />

le moyen des équations restantes, qui alors donneront des erreurs beaucoup<br />

mo<strong>in</strong>dres.<br />

Auf deutsch:<br />

Wenn unter diesen Fehlern e<strong>in</strong>ige s<strong>in</strong>d, die man für zu groÿ hält, um sie<br />

zuzulassen, wird man folglich die Gleichungen, die diese Fehler verursacht haben,<br />

verwerfen, da sie aus zu fehlerhaften Experimenten hervorgegangen s<strong>in</strong>d,<br />

10


2.1 E<strong>in</strong>ordnung des TLAD-Schätzers<br />

und man wird die Unbekannten mithilfe <strong>der</strong> übrig gebliebenen Gleichungen<br />

bestimmen, die dann viel kle<strong>in</strong>ere Fehler ergeben werden 1 .<br />

<strong>Die</strong> Vorgehensweise von Legendre er<strong>in</strong>nert e<strong>in</strong> wenig an e<strong>in</strong>e Art iterative Verbesserung:<br />

Bestimme e<strong>in</strong>e Regressionsgerade aus allen Beobachtungen, verwirf dann diejenigen mit<br />

groÿen Fehlern. <strong>Die</strong>s könnte man nun wie<strong>der</strong>holen, um zum<strong>in</strong>dest e<strong>in</strong>e lokal beste Lösung<br />

des Problems zu nden. Sie deutet jedoch auch schon auf das Trimmen h<strong>in</strong>, das formal<br />

für die Regression erst <strong>in</strong> den 1980er Jahren zum Beispiel von Rousseeuw [28] durch<br />

die E<strong>in</strong>führung des LTS-Schätzers (least trimmed squares) beschrieben wurde. Da sich<br />

das Trimmen durch Sortieren <strong>der</strong> Fehler und Aufsummieren <strong>der</strong> <strong>kle<strong>in</strong>sten</strong> bewerkstelligen<br />

lässt, ist <strong>der</strong> LTS-Schätzer als L<strong>in</strong>earkomb<strong>in</strong>ation <strong>der</strong> Ordungsstatistik <strong>der</strong> Fehler<br />

darstellbar und fällt somit <strong>in</strong> die Kategorie <strong>der</strong> L-Schätzer.<br />

<strong>Die</strong> Idee, den Absolutbetrag anstelle des Quadrats <strong>der</strong> Residuen zu verwenden, geht auf<br />

Edgeworth im Jahre 1887 zurück [28], <strong>der</strong> mit dem langsameren Wachsen des Betrages<br />

dessen Robustheit begründete. <strong>Die</strong>se <strong>Methode</strong> liefert beson<strong>der</strong>s verteilungsrobuste<br />

Schätzer, die auch bei Fehlerverteilungen mit heavy tails gute Ergebnisse liefern. <strong>Die</strong><br />

Verwendung des Betrags wird häug als L1-Regression bezeichnet, die <strong>der</strong> Quadrate als<br />

L2-Regression. Beide fallen <strong>in</strong> die Klasse <strong>der</strong> M-Schätzer [11], die auch den klassischen<br />

Maximum-Likelihood-Ansatz generalisieren. Bei den M-Schätzern wird nicht die negative<br />

Loglikelihoodfunktion m<strong>in</strong>imiert wie bei den Maximum-Likelihood-Schätzern, son<strong>der</strong>n<br />

e<strong>in</strong> Term <strong>der</strong> Form<br />

n∑<br />

ρ(y i − β 1 x i − β 0 ),<br />

i=1<br />

wobei ρ e<strong>in</strong>e symmetrische Funktion mit e<strong>in</strong>em e<strong>in</strong>zigen M<strong>in</strong>imum bei Null ist.<br />

Der TLAD-Schätzer komb<strong>in</strong>iert beide Ansätze, verwendet also den robusteren Betrag als<br />

Maÿ für die Fehler und verwirft zusätzlich die Beobachtungen mit den gröÿten Fehlern.<br />

Es wird also<br />

m∑<br />

m<strong>in</strong> |y (i) − β 1k x (i) − β 0k | (2.1)<br />

k=1,...,K<br />

i=1<br />

<strong>in</strong> Achsenabschnitt und Steigung β 0k , β 1k von K Geraden m<strong>in</strong>imiert. <strong>Die</strong>s ist für K = 1<br />

e<strong>in</strong> sogenannter trimmed likelihood estimator (TLE) nach Neykov u. a. [24], denn er hat<br />

die Form<br />

arg max<br />

θ<br />

m∑<br />

f θ (z (i) ),<br />

i=1<br />

wobei θ <strong>der</strong> Paramtervektor ist, <strong>der</strong> die gesuchte Gerade beschreibt, f die von θ abhängige<br />

Wahrsche<strong>in</strong>lichkeitsdichte und (·) e<strong>in</strong>e auch von θ abhängige Permutation, die die<br />

1<br />

Übersetzung aus dem Französischen von Gerd Schieweck<br />

11


2 Statistische Motivation <strong>der</strong> LAD-<strong>Methode</strong><br />

Werte <strong>der</strong> Dichte absteigend sortiert. <strong>Die</strong> Klassikation als MLE wird <strong>in</strong> Abschnitt 2.3<br />

genauer begründet. Für K > 1 bleibt die Frage nach <strong>der</strong> Klassikation als TLE im<br />

Rahmen dieser Arbeit lei<strong>der</strong> oen.<br />

Auch <strong>der</strong> LTS-Schätzer (least trimmed squares), <strong>der</strong> analog zum TLAD die Funktion<br />

m∑<br />

m<strong>in</strong> (y (i) − β 1k x (i) − β 0k ) 2<br />

k=1,...,K<br />

i=1<br />

m<strong>in</strong>imiert, ist für K = 1 aus den gleichen Gründen e<strong>in</strong> TLE und für ihn ist <strong>in</strong> Neykov u. a.<br />

[24] e<strong>in</strong>e Heuristik angegeben, <strong>der</strong> FastTLE-Algorithmus, <strong>der</strong> auf den EM-Algorithmus<br />

aufbaut. Das Verfahren ist auch für K > 1 e<strong>in</strong>e heuristische <strong>Methode</strong> zur Bestimmung<br />

von ML-Schätzern unter normalverteilten Fehlern. Es wird <strong>in</strong> Abschnitt 5.2 genauer<br />

beschrieben.<br />

Es gibt noch weitere robuste Schätzer für l<strong>in</strong>eare Modelle, zum Beispiel den LMS-Schätzer<br />

(least median of squares). E<strong>in</strong>e Übersicht zur robusten Regression ist <strong>in</strong> Rousseeuw und<br />

Leroy [28] zu nden. Allgeme<strong>in</strong>eres zur robusten Statistik und ihrer neueren Entwicklung<br />

kann Huber und Ronchetti [12] entnommen werden. E<strong>in</strong>en historischen Überblick über<br />

ihre Anfänge liefert Stigler [33].<br />

2.2 Statistische Gundlagen<br />

Zuerst benötigen wir die Begrie des statistischen Modells und des Schätzers. Hier wird<br />

nur e<strong>in</strong> grober Überblick mit dem Nötigsten zum Verständnis dieser Arbeit gegeben.<br />

Denition 2.1 (Statistisches Modell). Sei Z e<strong>in</strong>e Zufallsvariable o<strong>der</strong> e<strong>in</strong> Zufallsvektor<br />

mit Werten <strong>in</strong> X und unbekannter Verteilung P Z auf X . Nimmt man an, dass<br />

P Z ∈ P = {P θ : θ ∈ Θ},<br />

so nennt man das Paar (X , P) e<strong>in</strong> statistisches Modell. Es s<strong>in</strong>d P θ Verteilungen auf X<br />

für alle θ ∈ Θ und Θ heiÿt Parameterraum, e<strong>in</strong> Element θ ∈ Θ heiÿt Parameter. X ist<br />

<strong>der</strong> Stichprobenraum.<br />

Bemerkung 2.2. Haben alle Verteilungen P θ e<strong>in</strong>e Dichte p θ , bezeichnet man manchmal<br />

auch (X , {p θ : θ ∈ Θ}) als statistisches Modell.<br />

<strong>Die</strong>se Denition ist e<strong>in</strong>e Vere<strong>in</strong>fachung, die für unsere Zwecke hier jedoch ausreicht.<br />

Streng genommen gehört zu e<strong>in</strong>em statistischen Modell auch noch e<strong>in</strong>e σ-Algebra. Hier<br />

12


2.3 Maximum-Likelihood-Eigenschaft<br />

werden wir uns aber auf den Fall X = R n und Θ = R k beschränken und stillschweigend<br />

mit <strong>der</strong> Borelschen σ-Algebra arbeiten. Ziel <strong>der</strong> Schätztheorie ist nun, aufgrund von<br />

Realisationen z 1 , . . . , z n von Z den wahren Parameter θ mit P θ = P Z durch e<strong>in</strong> ˆθ ∈ Θ<br />

zu schätzen.<br />

Denition 2.3 (Schätzer, [8]). Sei (X , P) e<strong>in</strong> statistisches Modell für die Verteilung<br />

e<strong>in</strong>er Zufallsvariablen Z mit Parameterraum Θ. Sei weiterh<strong>in</strong> g : Θ → Γ e<strong>in</strong>e Abbildung.<br />

Dann heiÿt e<strong>in</strong>e Abbildung t : X → Γ bzw. die Zufallsvariable T = t(Z) e<strong>in</strong> Schätzer für<br />

g(θ).<br />

Bemerkung 2.4. Man schätzt also im Fall Γ = Θ und g = id Θ den wahren Parameter<br />

<strong>der</strong> Verteilung P Z = P θ . <strong>Die</strong>ser Fall soll hier behandelt werden.<br />

Da nach dieser Denition ke<strong>in</strong>e beson<strong>der</strong>en Eigenschaften für die Abbildung t bzw. die<br />

Zufallsvariable T gefor<strong>der</strong>t werden, kann jede Abbildung e<strong>in</strong> Schätzer se<strong>in</strong>. Das Schätzen<br />

kann sogar unabhängig von den Realisationen von Z erfolgen, wenn t konstant ist. Das ist<br />

im Allgeme<strong>in</strong>en natürlich nicht wünschenswert und so ist man nur an guten Schätzern mit<br />

bestimmten Eigenschaften <strong>in</strong>teressiert, die gewährleisten, dass e<strong>in</strong>e Schätzung s<strong>in</strong>nvoll ist.<br />

<strong>Die</strong>se werden im Folgenden behandelt und für den LAD-Schätzer beschrieben.<br />

Für weitere Information zum Schätzen und zur Statistik im Allgeme<strong>in</strong>en sei auf Dehl<strong>in</strong>g<br />

und Haupt [6] verwiesen, da e<strong>in</strong>e ausführlichere Behandlung <strong>der</strong> Grundlagen im Rahmen<br />

dieser Arbeit zu weit führen würde.<br />

2.3 Maximum-Likelihood-Eigenschaft<br />

E<strong>in</strong>e wichtige Eigenschaft von Schätzern ist die Maximum-Likelihood-Eigenschaft o<strong>der</strong><br />

kurz ML-Eigenschaft. Solche ML-Schätzer s<strong>in</strong>d für gegebene Beobachtungen beson<strong>der</strong>s<br />

wahrsche<strong>in</strong>lich und man kann daher hoen, mit ihnen das Modell möglichst gut zu beschreiben.<br />

Formal s<strong>in</strong>d sie folgen<strong>der</strong>maÿen deniert.<br />

Denition 2.5 (Maximum Likelihood, [8]). Gegeben sei e<strong>in</strong> statistisches Modell (X , P)<br />

mit e<strong>in</strong>er Familie von Verteilungen P = {P θ : θ ∈ Θ} für die Verteilung P Z e<strong>in</strong>er Zufallsvariablen<br />

Z. Sei p θ die Dichte von P θ für alle θ ∈ Θ. Dann ist die Likelihoodfunktion<br />

L z : θ → R,<br />

L z (θ) = p θ (z)<br />

und e<strong>in</strong> Schätzer ˆθ : X → Θ heiÿt Maximum-Likelihood-Schätzer, wenn L z (θ) für alle<br />

z ∈ X durch E<strong>in</strong>setzen von ˆθ(z) maximal wird.<br />

13


2 Statistische Motivation <strong>der</strong> LAD-<strong>Methode</strong><br />

Bemerkung 2.6. Auf e<strong>in</strong>em diskreten Raum ist p θ die Wahrsche<strong>in</strong>lichkeitsfunktion.<br />

<strong>Die</strong>ser Fall tritt hier aber nicht auf. Auÿerdem verwendet man häug auch die Loglikelihoodfunktion<br />

l z : θ → R, l z (θ) = log L z (θ) = log p θ (z)<br />

anstelle <strong>der</strong> Likelihoodfunktion. Da <strong>der</strong> Logarithmus streng monoton wächst, haben L z<br />

und l z dieselben Maximierer.<br />

Wir betrachten nun die Modellgleichung (1.2) aus <strong>der</strong> E<strong>in</strong>leitung genauer: Gegeben seien<br />

Beobachtungen (x 1 , y 1 ), . . . , (x n , y n ), von denen angenommen wird, dass sie e<strong>in</strong>em<br />

e<strong>in</strong>fachen l<strong>in</strong>earen Modell <strong>der</strong> Form<br />

Y i = β 0 + β 1 x i + ɛ i<br />

für i = 1, . . . , n<br />

mit unbekannten Parametern (β 0 , β 1 ) folgen. <strong>Die</strong> ɛ i seien unabhängig identisch verteilte<br />

Fehler mit Erwartungswert E(ɛ i ) = 0 für i = 1, . . . , n und unbekannter Varianz V(ɛ 1 ) =<br />

. . . = V(ɛ n ) < ∞.<br />

Als Erstes leiten wir aus <strong>der</strong> Modellgleichung das Modell ab. Der Stichprobenraum ist<br />

X = R n , denn nur die y i werden als zufällig erzeugt angesehen, während die x i vorher<br />

festgelegte Messstellen s<strong>in</strong>d. <strong>Die</strong> unbekannten Paramter s<strong>in</strong>d β 0 , β 1 und σ, also ist<br />

Θ = {θ = (β 0 , β 1 , σ) : β 0 , β 1 , σ ∈ R, σ > 0}<br />

<strong>der</strong> Parameterraum. <strong>Die</strong> Menge P <strong>der</strong> möglichen Verteilungen und damit die Form des<br />

gesamten Modells (X , P) hängt nun von <strong>der</strong> Verteilung <strong>der</strong> Fehler ɛ 1 , . . . , ɛ n ab. Häug<br />

i.i.d.<br />

nimmt man ɛ 1 , . . . , ɛ n ∼ N (0, σ 2 ) an. Dann s<strong>in</strong>d die möglichen Verteilungen diejenigen,<br />

die e<strong>in</strong>e Dichte <strong>der</strong> Form<br />

n∏<br />

n∏ 1<br />

φ θ (y i |x i ) = √ exp<br />

(− (y i − β 0 − β 1 x i ) 2 )<br />

2σ 2σ<br />

haben.<br />

i=1<br />

i=1<br />

Für diesen Fall s<strong>in</strong>d die ML-Schätzer bekannt und gegeben durch<br />

∑ n<br />

ˆβ 1 LSE i=1<br />

=<br />

(x i − x)(y i − y)<br />

∑ n<br />

i=1 (x und<br />

i − x) 2 ˆβLSE<br />

LSE<br />

0 = y − ˆβ 1 x.<br />

Dabei s<strong>in</strong>d<br />

x = 1 n<br />

n∑<br />

x i bzw. y = 1 n<br />

i=1<br />

n∑<br />

i=1<br />

y i<br />

14


2.3 Maximum-Likelihood-Eigenschaft<br />

die Mittelwerte <strong>der</strong> Beobachtungen <strong>in</strong> <strong>der</strong> x- bzw. y-Koord<strong>in</strong>ate. <strong>Die</strong>se Schätzer existieren<br />

immer, wenn n ≥ 2 und es i, j ∈ {1, . . . , n} gibt mit x i ≠ x j . Im Falle ihrer Existenz<br />

LSE LSE<br />

s<strong>in</strong>d die Schätzer e<strong>in</strong>deutig ([8]). Man nennt ( ˆβ 0 , ˆβ 0 ) auch den Kle<strong>in</strong>ste-Quadrate-<br />

Schätzer o<strong>der</strong> LSE (least squares estimator), da er die Summe <strong>der</strong> quadratischen Abstände<br />

n∑<br />

(y i − (β 0 + β 1 x i )) 2<br />

i=1<br />

m<strong>in</strong>imiert. Er lässt sich oenbar <strong>in</strong> l<strong>in</strong>earer Zeit, also sehr schnell berechnen. Der zugehörige<br />

Streuparameter σ ergibt sich im Fall normalverteilter Fehler nach <strong>der</strong> ML-<strong>Methode</strong><br />

zu<br />

(ˆσ LSE ) 2 = 1 n<br />

n∑<br />

(y i −<br />

i=1<br />

LSE LSE<br />

ˆβ 0 − ˆβ 1 x i ) 2 .<br />

Der LAD-Schätzer ist jedoch unter bestimmten Voraussetzungen auch e<strong>in</strong> ML-Schätzer,<br />

und zwar wenn die Fehler unabhängig identisch Laplace-verteilt s<strong>in</strong>d [6], also wenn<br />

i.i.d.<br />

ɛ 1 , . . . , ɛ n ∼ L(0, 2σ 2 ). <strong>Die</strong> Dichte <strong>der</strong> stetigen Laplace- o<strong>der</strong> Doppelexponentialverteilung<br />

L(µ, 2σ 2 ) auf R ist gegeben durch<br />

f(t) = 1 ( )<br />

2σ exp |t − µ|<br />

−<br />

σ<br />

mit Parametern µ ∈ R und σ > 0.<br />

f(t)<br />

1<br />

−1 1<br />

t<br />

Abbildung 2.1: Dichte <strong>der</strong> Laplace-Verteilung L(0, 2σ 2 ) (durchgezogen) und <strong>der</strong> Normalverteilung<br />

N (0, σ 2 ) (gestrichelt) mit σ = 1 2<br />

Sie ist nicht zu verwechseln mit <strong>der</strong> Gleichverteilung auf e<strong>in</strong>er endlichen Menge, die auch<br />

als Laplace-Verteilung bezeichnet wird. E<strong>in</strong>e Zufallsvariable X ∼ L(µ, 2σ 2 ) hat e<strong>in</strong>en<br />

Erwartungswert von E(X) = µ und e<strong>in</strong>e Varianz von V(X) = 2σ 2 .<br />

15


2 Statistische Motivation <strong>der</strong> LAD-<strong>Methode</strong><br />

Lemma 2.7 (ML-Eigenschaft des LAD-Schätzers). Für Beobachtungen (x 1 , y 1 ), . . . , (x n , y n )<br />

e<strong>in</strong>es l<strong>in</strong>earen Modells<br />

Y i = β 0 + β 1 x i + ɛ i<br />

für i = 1, . . . , n<br />

i.i.d.<br />

mit Fehlern ɛ 1 , . . . , ɛ n ∼ L(0, 2σ 2 ) und unbekannten Parametern β 0 , β 1 , σ 2 s<strong>in</strong>d die<br />

LAD<br />

LAD<br />

ML-Schätzer ˆβ 0 bzw. ˆβ 1 für β 0 bzw. β 1 genau die M<strong>in</strong>imierer von<br />

(LAD)<br />

<strong>Die</strong>se Schätzer heiÿen LAD-Schätzer.<br />

m<strong>in</strong><br />

β 0 ,β 1 ∈R<br />

n∑<br />

|y i − β 0 − β 1 x i |.<br />

i=1<br />

Beweis. Da die ɛ 1 , . . . , ɛ n unabhängig s<strong>in</strong>d, s<strong>in</strong>d auch die Y 1 , . . . , Y n unabhängig. Damit<br />

hat ihre geme<strong>in</strong>same Dichte Produktform:<br />

f β0 ,β 1 ,σ(y 1 , . . . , y n |x 1 , . . . , x n ) =<br />

n∏<br />

i=1<br />

(<br />

1<br />

2σ exp − |y )<br />

i − β 0 − β 1 x i |<br />

σ<br />

= 1<br />

2 n σ n exp (− 1 σ<br />

<strong>Die</strong> Loglikelihood-Funktion ist dann gegeben durch<br />

)<br />

n∑<br />

|y i − β 0 − β 1 x i |<br />

i=1<br />

log(f β0 ,β 1 ,σ(y 1 , . . . , y n |x 1 , . . . , x n )) = − 1 σ<br />

n∑<br />

(|y i − β 0 − β 1 x i |) − n log (2σ) . (2.2)<br />

i=1<br />

<strong>Die</strong>ser Ausdruck wird für alle σ > 0 genau dann maximal, wenn ∑ n<br />

i=1 |y i − β 0 − β 1 x i |<br />

m<strong>in</strong>imal wird.<br />

<strong>Die</strong>ses Lemma ist e<strong>in</strong>e Verallgeme<strong>in</strong>erung e<strong>in</strong>er Aussage aus [6, S. 239].<br />

LAD LAD<br />

Durch E<strong>in</strong>setzen <strong>der</strong> ML-Schätzer ˆβ 0 , ˆβ 1 <strong>in</strong> die Loglikelihoodfunktion (2.2) und<br />

Nullsetzen <strong>der</strong> Ableitung nach σ erhält man auch für diesen Parameter den ML-Schätzer:<br />

⇐⇒<br />

0 = (ˆσ LAD ) −2 n∑<br />

ˆσ LAD = 1 n<br />

n∑<br />

|y i −<br />

i=1<br />

i=1<br />

(<br />

)<br />

LAD LAD<br />

|y i − ˆβ 0 − ˆβ 1 x i | −<br />

n<br />

ˆσ LAD<br />

LAD LAD<br />

ˆβ 0 − ˆβ 1 x i | (2.3)<br />

16


2.3 Maximum-Likelihood-Eigenschaft<br />

Dass das tatsächlich e<strong>in</strong> Maximum ist, sieht man, <strong>in</strong>dem man sich klar macht, dass die<br />

Loglikelihoodfunktion für σ → 0 und σ → ∞ nach unten unbeschränkt ist.<br />

Es ist an Abbildung 2.1 schon erkennbar, dass die Annahme Laplace-verteilter Fehler robustere<br />

Schätzer hervorbr<strong>in</strong>gt als die Annahme normalverteilter Fehler (siehe Basset und<br />

Koenker [2]), denn die Laplaceverteilung konzentriert weniger Wahrsche<strong>in</strong>lichkeitsmasse<br />

direkt im Zentrum als die Normalverteilung (siehe Abb. 2.2).<br />

y<br />

0.5 1.0 1.5 2.0 2.5 3.0 3.5<br />

y<br />

0.5 1.0 1.5 2.0 2.5 3.0 3.5<br />

1.0 1.5 2.0 2.5 3.0<br />

x<br />

1.0 1.5 2.0 2.5 3.0<br />

x<br />

Abbildung 2.2: L<strong>in</strong>eare Modelle mit <strong>der</strong> Modellgleichung Y i = 0+x i +ɛ i für i = 1, . . . , 500;<br />

i.i.d.<br />

l<strong>in</strong>ks: ɛ 1 , . . . , ɛ n ∼ N (0, σ 2 i.i.d.<br />

); rechts: ɛ 1 , . . . , ɛ n ∼ L(0, 2σ 2 );<br />

<strong>in</strong> beiden Fällen: σ = 0.1<br />

Genauer fällt sie nach auÿen nur <strong>in</strong> <strong>der</strong> Gröÿenordnung exp −|x| ab und damit nicht so<br />

schnell wie die Normalverteilung mit <strong>der</strong> Gröÿenordnung exp(−x 2 ). Das bedeutet, dass<br />

schon im Modell die Wahrsche<strong>in</strong>lichkeit <strong>der</strong> Existenz von Punkten <strong>in</strong> gröÿerer Entfernung<br />

vom Erwartungswert durch die Verwendung Laplace-verteilter Fehler steigt. Damit haben<br />

die Ausreiÿer e<strong>in</strong>en weniger groÿen E<strong>in</strong>uss auf die Likelihoodfunktion und bee<strong>in</strong>ussen<br />

die Schätzung nicht so stark. Das ist <strong>in</strong> Abbildung 2.3 zu erkennen: Der LAD-Schätzer<br />

folgt viel besser <strong>der</strong> Geraden, die durch die Modellpunkte beschrieben wird, als <strong>der</strong> LSE,<br />

<strong>der</strong> durch die Ausreiÿer abgelenkt wird.<br />

17


2 Statistische Motivation <strong>der</strong> LAD-<strong>Methode</strong><br />

y<br />

−1 0 1 2 3<br />

●<br />

● ●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

● ●●<br />

● ●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

● ●<br />

● ● ●<br />

●<br />

●<br />

● ● ●<br />

●<br />

●<br />

●<br />

●<br />

●●<br />

●<br />

●<br />

●<br />

●<br />

● ●<br />

● ●<br />

●<br />

●<br />

●<br />

● ●<br />

● ●<br />

●<br />

●<br />

●<br />

LAD<br />

LSE<br />

Modell<br />

Ausreißer<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

−1 0 1 2 3<br />

x<br />

Abbildung 2.3: Kreise: 80 Punkte <strong>der</strong> Modellgleichung Y i = 1+ 1 2 x i.i.d.<br />

i +ɛ i mit ɛ 1 , . . . , ɛ n ∼<br />

N (0, 0.2 2 );<br />

Dreiecke: 40 Ausreiÿer auf [−1, 3] × [0, 3] gleichverteilt.<br />

18


2.4 Asymptotische Eigenschaften<br />

2.4 Asymptotische Eigenschaften<br />

Da e<strong>in</strong>zelne Beobachtungen <strong>in</strong> <strong>der</strong> Statistik aufgrund ihrer stochastischen Natur starken<br />

Schwankungen unterliegen können, sollten statistische Analysen auf e<strong>in</strong>er ausreichend<br />

groÿen Datengrundlage aufbauen. <strong>Die</strong>s gilt auch für Schätzer wie den LAD. In diesem<br />

Abschnitt wird gezeigt, dass er zwei wichtige Eigenschaften hat, die gewährleisten, dass<br />

er bei groÿer Datenmenge also e<strong>in</strong>er groÿen Anzahl Beobachtungen (x i , y i ) tatsächlich<br />

gute Ergebnisse liefert, vorausgesetzt natürlich, das Modell ist korrekt. Denition 2.8 gibt<br />

e<strong>in</strong>e <strong>der</strong> Eigenschaften an.<br />

Denition 2.8 (Schwache Konsistenz, [8]). Sei (T n ) n∈N e<strong>in</strong>e Folge von Schätzern für<br />

statistische Modelle (X n , P n ), die alle denselben normierten Parameterraum Θ haben und<br />

P n = { ⊗ n<br />

i=1 P θ, θ ∈ Θ}. <strong>Die</strong> Folge <strong>der</strong> Schätzer heiÿt konsistent für θ, falls<br />

‖T n − θ‖ P −→ 0<br />

∀ θ ∈ Θ<br />

<strong>in</strong> Wahrsche<strong>in</strong>lichkeit konvergiert, also<br />

P (‖T n − θ‖ ≤ ɛ) n→∞ −−−→ 1 ∀ θ ∈ Θ.<br />

Es ist wie <strong>in</strong> Denition 2.3 auch die Denition von Konsistenz für Funktionen g(θ) anstatt<br />

nur θ möglich, das wird hier aber nicht gebraucht.<br />

<strong>Die</strong> Konsistenz des LAD-Schätzers folgern wir aus e<strong>in</strong>er stärkeren Eigenschaft, die ebenfalls<br />

wichtig für Schätzer ist, <strong>der</strong> asymptotischen Normalität. <strong>Die</strong>se besagt, dass sich die<br />

Verteilung <strong>der</strong> <strong>absoluten</strong> <strong>Abweichungen</strong> <strong>der</strong> geschätzten Parameter ˆβ 0 bzw. ˆβ 1 von den<br />

wahren Werten β 0 bzw. β 1 bei Multiplikation mit e<strong>in</strong>em geeigneten Faktor für groÿe<br />

Stichproben e<strong>in</strong>er Normalverteilung annähert.<br />

Satz 2.9 (Asymptotische Normalität des LAD-Schätzers Basset und Koenker [2]). Sei<br />

e<strong>in</strong> Modell <strong>der</strong> Form<br />

Y i = β 0 + β 1 x i + ɛ i ∀ i = 1, 2, 3, . . .<br />

gegeben mit wahren Parametern β = (β 0 , β 1 ). Sei ˆβ n = ( ˆβ 0 n, ˆβ 1 n ) <strong>der</strong> LAD-Schätzer für<br />

Y 1 , . . . , Y n und die Fehler ɛ 1 , ɛ 2 , ɛ 3 . . . seien unabhängig identisch verteilt mit stetiger Verteilungsfunktion<br />

F , die e<strong>in</strong>e <strong>in</strong> 0 positive und stetige Dichte f besitzt und <strong>der</strong>en Median<br />

verschw<strong>in</strong>det, also F −1 ( 1 2 ) = 0. <strong>Die</strong> Stellen x 1, x 2 , x 3 , . . . seien fest und X n sei die Designmatrix<br />

für i = 1, . . . , n wie <strong>in</strong> (1.1). Weiterh<strong>in</strong> gelte<br />

1<br />

lim<br />

n→∞ n Xt nX n = Q<br />

19


2 Statistische Motivation <strong>der</strong> LAD-<strong>Methode</strong><br />

mit e<strong>in</strong>er positiv deniten Matrix Q ∈ R 2×2 . Dann konvergiert<br />

2f(0) √ n( ˆβ n − β)<br />

D<br />

−→ Z ∼ N (0, Q −1 )<br />

<strong>in</strong> Verteilung gegen e<strong>in</strong>en 2-dimensional normalverteilten Zufallsvektor.<br />

Bemerkung. Konvergenz <strong>in</strong> Verteilung bei Zufallsvariablen, <strong>in</strong> Formeln Z n<br />

n → ∞, bedeutet<br />

D −→ Z für<br />

lim F n(x) = F (x) ∀ x : F (x) ist stetig <strong>in</strong> x (2.4)<br />

n→∞<br />

mit den Verteilungsfunktionen F n von Z n für alle n ∈ N und F von Z [8].<br />

<strong>Die</strong>ser Satz wurde von Basset und Koenker <strong>in</strong> [2] <strong>in</strong> e<strong>in</strong>er allgeme<strong>in</strong>eren Form auch für<br />

die multiple l<strong>in</strong>eare Regression und nicht nur für die e<strong>in</strong>fache bewiesen. E<strong>in</strong>e Zusammenfassung<br />

dieser Ergebnisse und weiterer Voraussetzungen für diese Asymptotik nden sich<br />

<strong>in</strong> Pollard [26]. Es ist noch zu bemerken, dass Satz 2.9 für Regressiongeraden durch den<br />

Ursprung schon 1818 von Laplace bewiesen wurde [17].<br />

Verteilungen, die die Voraussetzungen des Satzes erfüllen, s<strong>in</strong>d zum Beispiel die Normalund<br />

die Laplaceverteilung, da sie e<strong>in</strong>e auf den ganzen reellen Zahlen stetige Dichte und<br />

Median Null haben. Das heiÿt, obwohl <strong>der</strong> LSE bei normalverteilten Fehlern <strong>der</strong> ML-<br />

Schätzer für die Regression ist, ist dem LAD-Schätzer bei <strong>der</strong> Anwesenheit von Ausreiÿern<br />

<strong>der</strong> Vorzug zu geben, falls die Stichprobe groÿ genug ist. Denn dann liefert er<br />

aufgrund <strong>der</strong> asymptotischen Normalität und <strong>der</strong> Konsistenz aus dem nächsten Korollar<br />

gute Ergebnisse.<br />

Korollar 2.10 (Schwache Konsistenz des LAD-Schätzers). Für e<strong>in</strong> Modell wie <strong>in</strong> Satz<br />

2.9 ist <strong>der</strong> LAD-Schätzer schwach konsistent.<br />

Beweis. Sei ˆβ n = ( ˆβ n 0 , ˆβ n 1 ) die Folge <strong>der</strong> LAD-Schätzer. Wir zeigen, dass die Folge ˆβ n 0<br />

konsistent für β 0 ist. Der Beweis geht dann analog für β 1 und man hat zusammen die<br />

Konsistenz von ˆβ n . Dazu wird Denition 2.8 geprüft, <strong>in</strong>dem zu e<strong>in</strong>em vorgegebenen δ > 0<br />

und ε > 0 e<strong>in</strong> N angegeben wird, so dass<br />

P (| ˆβ n 0 − β 0 | ≤ ε) ≥ 1 − δ ∀ n ≥ N.<br />

Sei F n die Verteilungsfunktion von √ n| ˆβ n 0 − β 0|. <strong>Die</strong> Zufallsvariablen √ n| ˆβ 0 − β 0 | folgen<br />

e<strong>in</strong>er Marg<strong>in</strong>alverteilung von ‖ ˆβ n − β‖ und s<strong>in</strong>d daher nach Satz 2.9 asymptotisch<br />

N (0, σ 2 )-normalverteilt mit geeignetem σ nach [8]. <strong>Die</strong> zugehörige Verteilungsfunktion<br />

sei mit Φ bezeichnet. Seien nun δ und ε gegeben. Wähle dann t so, dass<br />

Φ(t) − Φ(−t) = 2Φ(t) − 1 = 1 − δ 2 . (2.5)<br />

20


2.4 Asymptotische Eigenschaften<br />

Das ist möglich, da Φ stetig und e<strong>in</strong>e Verteilungsfunktion ist. Dann gilt für √ nε ≥ t bzw.<br />

n ≥ t2<br />

ε 2 P (| ˆβ n 0 − β 0 | ≤ ε) = P ( √ n| ˆβ n 0 − β 0 | ≤ √ nε) (2.6)<br />

= P ( √ n( ˆβ n 0 − β 0 ) ≤ √ nε) − P ( √ n( ˆβ n 0 − β 0 ) < − √ nε)<br />

≥ P ( √ n( ˆβ n 0 − β 0 ) ≤ t) − P ( √ n( ˆβ n 0 − β 0 ) < −t)<br />

≥ P ( √ n( ˆβ n 0 − β 0 ) ≤ t) − P ( √ n( ˆβ n 0 − β 0 ) ≤ −t)<br />

= F n (t) − F n (−t) ∀ n ≥ ⌈ t 2 /ε 2⌉ .<br />

Auÿerdem kann man nach Satz 2.9 N 1 , N 2 wegen <strong>der</strong> Konvergenz <strong>in</strong> Verteilung nach (2.4)<br />

groÿ genug wählen, so dass<br />

|F n (t) − Φ(t)| ≤ δ 4<br />

|F n (−t) − Φ(−t)| ≤ δ 4<br />

∀ n ≥ N 1 , (2.7)<br />

∀ n ≥ N 2 .<br />

Mit N = max( ⌈ t 2 /ε 2⌉ , N 1 , N 2 ) hat man dann für alle n ≥ N<br />

P (| ˆβ 0 n − β 0 | ≤ ε) (2.6)<br />

≥ F n (t) − F n (−t) (2.7)<br />

≥ Φ(t) − δ 4 − Φ(−t) − δ (2.5)<br />

= 1 − δ<br />

4<br />

und somit die schwache Konsistenz<br />

lim P (| ˆβ n<br />

n→∞<br />

0 − β 0 | ≤ ε) = 1 ∀ ε > 0.<br />

Es bleibt noch zu klären, wie stark die Voraussetzungen von Satz 2.9 s<strong>in</strong>d. Insbeson<strong>der</strong>e<br />

1<br />

die Frage nach <strong>der</strong> positiven Denitheit von Q = lim n→∞ n Xt nX n ist zu untersuchen. Da<br />

man <strong>in</strong> <strong>der</strong> Praxis meist endliche Stichproben betrachtet, lässt sich das auf die Aufgabe<br />

reduzieren, gegebene x 1 , . . . , x n so zu e<strong>in</strong>er Folge (x i ) i∈N fortzusetzen, dass<br />

⎛ ⎞<br />

( ) 1 x 1<br />

1 · · · 1 ⎜ ⎟<br />

lim<br />

⎝<br />

i→∞ x 1 · · · x i<br />

. . ⎠ = Q<br />

} {{ } 1 x i<br />

=Xi<br />

t } {{ }<br />

X i<br />

21


2 Statistische Motivation <strong>der</strong> LAD-<strong>Methode</strong><br />

mit e<strong>in</strong>er positiv deniten Matrix Q. Da die x i hier determ<strong>in</strong>istisch s<strong>in</strong>d, können sie als<br />

frei wählbare Messstellen angesehen werden. Betrachte nun<br />

⎛<br />

⎞<br />

i∑<br />

i x j<br />

Xi t j=1<br />

X i =<br />

.<br />

⎜ i∑ i∑ ⎟<br />

⎝<br />

⎠<br />

<strong>Die</strong>se Matrix ist genau dann positiv denit, wenn ihre Hauptm<strong>in</strong>oren<br />

⎛ ⎞2<br />

i∑<br />

i∑<br />

i > 0 und i x 2 j − ⎝ x j<br />

⎠ > 0<br />

j=1<br />

j=1<br />

s<strong>in</strong>d. <strong>Die</strong> erste Ungleichung ist für alle i erfüllt, für die zweite muss x 1 , . . . , x n für i > n<br />

geeignet fortgesetzt werden. Ist die Ungleichung für i = n erfüllt, setze x j = 0 für alle<br />

j > n, ansonsten gilt n ∑ n<br />

j=1 x2 j − (∑ n<br />

j=1 x j) 2 + C > 0 mit e<strong>in</strong>er Konstanten C, ohne<br />

E<strong>in</strong>schränkung sei C > 1. Wähle dann zum Beispiel x n+1 = C, x n+2 = −C und x j = 0<br />

für alle j > n + 2. Dann ist<br />

⎛ ⎞2<br />

⎛ ⎞2<br />

⎛ ⎞2<br />

i∑<br />

i∑<br />

n+2<br />

∑<br />

n+2<br />

∑<br />

n∑<br />

n∑<br />

i x 2 j − ⎝ x j<br />

⎠ = i x 2 j − ⎝ x j<br />

⎠ > n x 2 j + 2C 2 − ⎝ x j<br />

⎠ > 0<br />

j=1<br />

j=1<br />

j=1<br />

j=1<br />

für alle i > n + 2. Damit hat die Matrix Q nur positive Hauptm<strong>in</strong>oren und ist positiv<br />

denit. <strong>Die</strong> Voraussetzungen des Satzes 2.9 an die x i wird damit zu e<strong>in</strong>er technischen<br />

Voraussetzung zur Führung des Beweises, die sich <strong>in</strong> <strong>der</strong> Praxis nicht auswirkt.<br />

x j<br />

j=1<br />

x 2 j<br />

j=1<br />

j=1<br />

j=1<br />

2.5 <strong>Die</strong> latent-class Regression<br />

Wie schon <strong>in</strong> <strong>der</strong> E<strong>in</strong>leitung beschrieben, folgen die Beobachtungen bei e<strong>in</strong>er latent-class<br />

Regression nicht e<strong>in</strong>er e<strong>in</strong>zelnen Regressiongeraden, son<strong>der</strong>n zerfallen <strong>in</strong> K Klassen, die<br />

alle ihre eigene Regressiongerade haben. Damit wird die Modellgleichung zu<br />

Y ik = β 0k + β 1k x ik + ɛ ik ∀ i = 1, . . . , n k und ∀ k = 1, . . . , K,<br />

wobei sich die die Gesamtzahl <strong>der</strong> Beobachtungen zu n = n 1 + . . . + n K summiert und<br />

die Parameter β 0k und β 1k <strong>in</strong>nerhalb e<strong>in</strong>er Klasse k gleich s<strong>in</strong>d. Ebenso ist die Verteilung<br />

<strong>der</strong> Fehler <strong>in</strong>nerhalb e<strong>in</strong>er Klasse gleich:<br />

ɛ 1k , . . . , ɛ nk k ∼ F k ∀ k = 1, . . . , K.<br />

22


2.5 <strong>Die</strong> latent-class Regression<br />

Auÿerdem nimmt man wie<strong>der</strong> an, dass die Fehler die gleichen Voraussetzungen wie bei<br />

<strong>der</strong> normalen Regression erfüllen. <strong>Die</strong> Zugehörigkeit <strong>der</strong> Beobachtungen zu den Klassen<br />

ist a priori unbekannt und die Klassen haben jeweils e<strong>in</strong>e bestimmte Wahrsche<strong>in</strong>lichkeit.<br />

Innerhalb e<strong>in</strong>er Klasse hat man dieselben Annahmen wie bei <strong>der</strong> e<strong>in</strong>fachen l<strong>in</strong>earen Regression.<br />

Hier müssen also nicht nur die beiden Parameter e<strong>in</strong>er Geraden, son<strong>der</strong>n die<br />

2K Parameter von K nicht-vertikalen Geraden geschätzt werden und zusätzlich noch die<br />

Klasse je<strong>der</strong> Beobachtung und die Mischungsverhältnisse <strong>der</strong> Klassen. Man kann sogar<br />

K als unbekannt annehmen und ebenfalls schätzen, das ist aber nicht Gegenstand dieser<br />

Arbeit.<br />

Man führt nun Variablen π ik für i = 1, . . . , n und k = 1, . . . , K e<strong>in</strong> (vgl. [24]), die<br />

angeben, ob Beobachtung i zu Klasse k gehört (π ik = 1) o<strong>der</strong> nicht (π ik = 0). Da jede<br />

Beobachtung zu genau e<strong>in</strong>er Klasse gehören muss, gilt<br />

K∑<br />

π ik = 1 ∀ i = 1, . . . , n. (2.8)<br />

k=1<br />

Man fasst die Vektoren ⃗π i = (π i1 , . . . , π iK ) als sogenannte fehlende Information auf, die<br />

zu den Beobachtungen gehört, aber nicht explizit beobachtet werden kann und daher<br />

geschätzt werden muss. E<strong>in</strong>e Beobachtung (x i , y i , ⃗π i ) besteht nun also aus mehr Komponenten<br />

als <strong>in</strong> <strong>der</strong> e<strong>in</strong>fachen Regression, wo nur die Punkte (x i , y i ) selbst relevant waren.<br />

Weitere Variablen π k ∈ [0, 1] für k = 1, . . . , K geben das Mischungsverhältnis <strong>der</strong> verschiedenen<br />

Klassen an, das heiÿt, die Wahrsche<strong>in</strong>lichkeit, dass e<strong>in</strong>e Beobachtung zu Klasse<br />

k gehört, ist π k . Daher gilt wie<strong>der</strong><br />

K∑<br />

π k = 1. (2.9)<br />

k=1<br />

Mit Hilfe dieser neuen Variablen können wir nun die Dichte des zugrunde liegenden<br />

Modells bestimmen. Wir nehmen an, dass die Dichte e<strong>in</strong>er jeden Klasse k gegeben ist<br />

durch p θk (y|x) mit den Parametern θ k <strong>der</strong> Klasse k und unter <strong>der</strong> Annahme, dass x<br />

determ<strong>in</strong>istische Messstellen s<strong>in</strong>d. <strong>Die</strong> vollständige Dichte des Modells erhält man, <strong>in</strong>dem<br />

man mit bed<strong>in</strong>gten Wahrsche<strong>in</strong>lichkeiten arbeitet. <strong>Die</strong> Dichte e<strong>in</strong>er jeden Beobachtung<br />

i ist bed<strong>in</strong>gt durch ihre Klassenzugehörigkeit ⃗π i und ist genau p θk (y i |x i ), wenn π ik = 1.<br />

An<strong>der</strong>s geschrieben ergibt sich<br />

p θ (y i , ⃗π i |x i ) = p θ (y i |x i , ⃗π i ) · p(⃗π i ) =<br />

K∏<br />

k=1<br />

p θk (y i |x i ) π ik<br />

π π ik<br />

k<br />

mit θ = (θ 1 , . . . , θ K ). Da die e<strong>in</strong>zelnen Beobachtungen unabhängig se<strong>in</strong> sollen, ist die<br />

23


2 Statistische Motivation <strong>der</strong> LAD-<strong>Methode</strong><br />

Dichte des Modells<br />

p θ (y 1 , ⃗π 1 , . . . , y n , ⃗π n |x 1 , . . . , x n ) =<br />

n∏<br />

K∏<br />

i=1 k=1<br />

p θk (y i |x i ) π ik<br />

π π ik<br />

k . (2.10)<br />

Als Funktion von θ und den π k und ⃗π i betrachtet, ist das die Likelihoodfunktion des<br />

Modells.<br />

Wir betrachten diese nun im Falle Laplace-verteilter Fehler genauer. <strong>Die</strong> Likelihoodfunktion<br />

ist dann<br />

n∏ K∏<br />

(<br />

L x1 ,y 1 ,...,x n,y n<br />

(θ, π 1 , . . . , π K , ⃗π 1 , . . . , ⃗π n ) = π π 1<br />

ik<br />

k<br />

(2σ k ) π exp − |y i − β 1k x i − β 0k |<br />

ik<br />

wegen<br />

i=1 k=1<br />

p θk (y i |x i ) = 1 (<br />

exp − |y )<br />

i − β 1k x i − β 0k |<br />

2σ k σ k<br />

mit θ k = (β 0k , β 1k , σ k ). Logarithmieren ergibt die Loglikelihoodfunktion<br />

l x1 ,y 1 ,...,x n,y n<br />

(θ, π 1 , . . . , π K , ⃗π 1 , . . . , ⃗π n ) =<br />

n∑<br />

K∑<br />

i=1 k=1<br />

σ k<br />

) πik<br />

(<br />

)<br />

|y i − β 1k x i − β 0k |<br />

π ik (ln(π k ) − ln(2σ k )) − π ik .<br />

σ k<br />

Man führt nun die Variablen n k := ∑ n<br />

i=1 π ik für alle k = 1, . . . , K e<strong>in</strong>, die die Anzahl<br />

<strong>der</strong> Beobachtungen <strong>in</strong> Klasse k angeben. Damit wird die Loglikelihoodfunktion zu<br />

(<br />

)<br />

K∑<br />

n∑ |y i − β 1k x i − β 0k |<br />

n k (ln(π k ) − ln(2σ k )) − π ik ,<br />

σ k<br />

k=1<br />

wobei ∑ K<br />

k=1 π k = 1 und ∑ K<br />

k=1 n k = n gelten müssen. Wir maximieren diese nun, <strong>in</strong>dem<br />

wir e<strong>in</strong>ige Parameter festhalten und <strong>in</strong> Abhängigkeit von diesen Bed<strong>in</strong>gungen an die<br />

an<strong>der</strong>en Parameter nden, die im Maximum gelten müssen. Zunächst seien nur die π k<br />

variabel. Da diese <strong>der</strong> E<strong>in</strong>schränkung ∑ K<br />

k=1 π k = 1 unterliegen und die Loglikelihoodfunktion<br />

<strong>in</strong> ihnen dierenzierbar ist, verwenden wir Lagrange'sche Multiplikatoren [9,<br />

S. 109f]. <strong>Die</strong> partiellen Ableitungen nach π k s<strong>in</strong>d<br />

<strong>Die</strong> E<strong>in</strong>schränkungen an π k werden durch<br />

i=1<br />

∂l<br />

∂π k<br />

= n k<br />

π k<br />

∀ k = 1, . . . , K.<br />

g(π 1 , . . . , π K ) =<br />

K∑<br />

π k − 1 = ! 0<br />

k=1<br />

24


2.5 <strong>Die</strong> latent-class Regression<br />

realisiert. Wegen ∂g<br />

∂π k<br />

= 1 folgt aus den Lagrange'schen Multiplikatoren<br />

(<br />

n1<br />

, . . . , n )<br />

K<br />

= λ(1, . . . , 1)<br />

π 1 π K<br />

im Maximum. Daraus erhält man zunächst n k /λ = π k , dann<br />

∑<br />

n K<br />

λ = k=1 n k<br />

λ<br />

=<br />

K∑<br />

k=1<br />

n k<br />

K<br />

λ = ∑<br />

π k = 1<br />

und wegen λ = n schlieÿlich n k = nπ k für alle k = 1, . . . , K. Anschaulich bedeutet<br />

das, dass die Schätzungen für die π k und die π ik mite<strong>in</strong>an<strong>der</strong> harmonieren: <strong>Die</strong> Verhältnisse<br />

<strong>der</strong> Klassen, die sich aus den π ik ergeben, entsprechen den geschätzten a-priori-<br />

Klassenwahrsche<strong>in</strong>lichkeiten π k . Damit kann zur Maximierung die vere<strong>in</strong>fachte Loglikelihoodfunktion<br />

K∑<br />

K∑<br />

nπ k (log(π k ) − log(2σ k )) −<br />

k=1<br />

k=1<br />

n∑<br />

k=1 i=1<br />

K∑<br />

K∑ 1<br />

= nπ k (log(π k ) − log(2σ k )) −<br />

k=1<br />

σ k<br />

k=1 i=1<br />

π ik =1<br />

π ik<br />

|y i − β 1k x i − β 0k |<br />

σ k<br />

n∑<br />

|y i − β 1k x i − β 0k |<br />

} {{ }<br />

=:A k<br />

betrachtet werden. Nun maximieren wir <strong>in</strong> σ k durch e<strong>in</strong>faches <strong>Die</strong>renzieren und Nullsetzen:<br />

∂l<br />

= − nπ k<br />

+ A k !<br />

∂σ k σ k σk<br />

2 = 0<br />

Es folgt σ k = A k /(nπ k ) = A k /n k , was e<strong>in</strong>em Maximum entspricht, weil die zweite<br />

Ableitung<br />

∂ 2 l<br />

∂σ 2 k<br />

= nπ k<br />

σ 2 k<br />

− 2A k<br />

σ 3 k<br />

beim E<strong>in</strong>setzen von σ k = A k /n k e<strong>in</strong>en echt negativen Wert von −n 3 k /A2 k<br />

liefert. Wie<strong>der</strong><br />

kann man hierfür e<strong>in</strong>e anschauliche Interpretation geben. <strong>Die</strong> ML-Schätzung<br />

1<br />

n k<br />

n∑<br />

i=1<br />

π ik =1<br />

|y i − β 1k x i − β 0k |<br />

für σ k liefert den gleichen Wert, als würde man nur die Punkte <strong>der</strong> Klasse k betrachten<br />

und nur <strong>in</strong> diesen e<strong>in</strong>en ML-Schätzer suchen, siehe auch Gleichung (2.3). <strong>Die</strong> Loglike-<br />

25


2 Statistische Motivation <strong>der</strong> LAD-<strong>Methode</strong><br />

lihoodfunktion vere<strong>in</strong>facht sich weiter zu<br />

K∑<br />

( )) 2Ak<br />

K∑ n k<br />

nπ k<br />

(log(π k ) − log −<br />

nπ k A k<br />

=<br />

k=1<br />

K∑<br />

k=1<br />

( nπ<br />

2<br />

)<br />

nπ k log k<br />

− n.<br />

2A k<br />

k=1<br />

n∑<br />

i=1<br />

π ik =1<br />

|y i − β 1k x i − β 0k |<br />

} {{ }<br />

=A k<br />

Weiterh<strong>in</strong> ist klar, dass für feste π ik die Ausdrücke<br />

∑<br />

A k =<br />

|y i − β 1k x i − β 0k | k = 1, . . . , K<br />

I k ={i=1,...,n:π ik =1}<br />

für jedes k <strong>in</strong> β 0k , β 1k getrennt maximiert werden können, da ∑ K<br />

k=1 π ik = 1 gilt, also die<br />

Indexmengen I 1 , . . . , I K paarweise disjunkt s<strong>in</strong>d. Also entspricht die Wahl <strong>der</strong> K Achsenabschnitte<br />

und K Steigungen K Regressionen ohne latente Klassen wie <strong>in</strong> Lemma 2.7.<br />

Ebenso ist klar, dass für feste Klassenwahrsche<strong>in</strong>lichkeiten π k die Klassenzugehörigkeiten<br />

π ik zur Maximierung <strong>der</strong> Loglikelihoodfunktion so gewählt werden, dass je<strong>der</strong> <strong>der</strong> Ausdrücke<br />

A k m<strong>in</strong>imal wird. Damit haben wir nun alle Werte Parameter β 0k , β 1k , σ k und<br />

π ik im Maximum <strong>der</strong> Loglikelihoodfunktion <strong>in</strong> Abhängigkeit <strong>der</strong> Werte <strong>der</strong> Klassenwahrsche<strong>in</strong>lichkeiten<br />

π k bestimmt. Das fassen wir <strong>in</strong> folgendem Satz zusammen:<br />

Satz 2.11. Für e<strong>in</strong>e Regression mit latenten Klassen, die dem Modell<br />

mit Fehlern<br />

Y ik = β 0k + β 1k x ik + ɛ ik<br />

ɛ 1k , . . . , ɛ nk k i.i.d.<br />

∼ L(0, 2σ 2 k )<br />

∀ i = 1, . . . , n k und ∀ k = 1, . . . , K<br />

∀ k = 1, . . . , K<br />

folgt, s<strong>in</strong>d die ML-Schätzer <strong>der</strong> Parameter bei bekannten Klassenwahrsche<strong>in</strong>lichkeiten π k ,<br />

k = 1, . . . , K gegeben durch<br />

ˆn k = nπ k<br />

( ˆβ 01 , . . . , ˆβ 1K , ˆπ 11 , . . . , ˆπ nK ) = arg m<strong>in</strong><br />

π ik ,β 0k ,β 1k :<br />

π ik ∈{0,1}<br />

∑ n<br />

i=1 π ik=ˆn k<br />

∑ K<br />

k=1 π ik=1<br />

K∑<br />

k=1<br />

A k<br />

(Klassengröÿen)<br />

(Geraden, Zugehörigkeiten)<br />

für alle k = 1, . . . , K.<br />

ˆσ k = 1ˆn k<br />

n∑<br />

i=1<br />

ˆπ ik =1<br />

|y i − β 1 x i − β 0 | (Streuparameter)<br />

26


2.5 <strong>Die</strong> latent-class Regression<br />

Beweis. Der Beweis ergibt sich aus den Rechnungen <strong>der</strong> vorigen Seiten.<br />

Es ist noch nicht gezeigt, dass die m<strong>in</strong>imierenden Geradenparameter <strong>der</strong> Likelihoodfunktion<br />

bei latenten Klassen (K > 1) den K-LAD-Schätzern entsprechen, die aus <strong>der</strong><br />

M<strong>in</strong>imierung von (2.1) hervorgehen. Es ist also auch noch nicht gezeigt, dass <strong>der</strong> K-<br />

TLAD-Schätzer (K-LAD mit Trimmen) e<strong>in</strong> TLE nach Neykov u. a. [24] ist. Man kann<br />

aber hoen, dass <strong>der</strong> Unterschied nicht allzu groÿ ist. <strong>Die</strong> Simulation <strong>in</strong> Abschnitt 5.4<br />

legt zum<strong>in</strong>dest nahe, dass man mit <strong>der</strong> LAD-<strong>Methode</strong> nahe bei den wahren Parametern<br />

liegt.<br />

27


3 Platzierung e<strong>in</strong>er Geraden<br />

3.1 Problemstellung und Eigenschaften<br />

3.1.1 Komb<strong>in</strong>atorische und or<strong>der</strong>ed-median-Formulierung<br />

Für die l<strong>in</strong>eare Regression ohne Klassene<strong>in</strong>teilung ist die Bestimmung e<strong>in</strong>es LAD-Schätzers<br />

e<strong>in</strong> Spezialfall des allgeme<strong>in</strong>en Problems, zu gegebenen Punkten z 1 , . . . , z n ∈ R 2 e<strong>in</strong>e<br />

Gerade l im R 2 zu nden, sodass die Summe <strong>der</strong> vertikalen Abstände von <strong>der</strong> Geraden zu<br />

den Punkten m<strong>in</strong>imal wird. Für TLAD sollen jedoch für e<strong>in</strong> beliebiges m mit 0 < m ≤ n<br />

nur m Punkte berücksichtigt werden bzw. die n−m Punkte vernachlässigt werden, die die<br />

gröÿten Abstände von <strong>der</strong> optimalen Geraden haben. <strong>Die</strong> gesuchte Gerade kann zunächst<br />

e<strong>in</strong>mal vertikal se<strong>in</strong> o<strong>der</strong> nicht. Im Folgenden wird dieses Problem als mathematisches<br />

Programm formuliert und es werden Bed<strong>in</strong>gungen an die Punkte z 1 , . . . , z n hergeleitet,<br />

unter denen e<strong>in</strong>e optimale Gerade für das Programm immer nicht-vertikal ist, also e<strong>in</strong>em<br />

TLAD-Schätzer entspricht. Zunächst vere<strong>in</strong>fachen e<strong>in</strong>ige Notationen die Formulierung.<br />

Notation 3.1. Im Folgenden bezeichne<br />

l(β 0 , β 1 ) = {(x, y) ∈ R 2 : y = β 0 + β 1 x}<br />

e<strong>in</strong>e nicht-vertikale Gerade im R 2 mit Steigung β 1 und Ord<strong>in</strong>atenabschnitt β 0 . Weiter sei<br />

für e<strong>in</strong>e Gerade l = l(β 0 , β 1 ) ihre Höhe an <strong>der</strong> Stelle x ∈ R mit l x = β 0 + β 1 x bezeichnet.<br />

Auf diese Weise kann man alle nicht-vertikalen Geraden e<strong>in</strong>deutig darstellen. Weiterh<strong>in</strong><br />

müssen noch die vertikalen Abstände erklärt werden. <strong>Die</strong>s geschieht <strong>in</strong> <strong>der</strong> auch <strong>in</strong>tuitiv<br />

naheliegenden Weise <strong>in</strong> Notation 3.2.<br />

Notation 3.2 (Vertikaler Abstand, [30]). Für zwei Punkte z 1 = (x 1 , y 1 ) und z 2 = (x 2 , y 2 )<br />

im R 2 ist <strong>der</strong> vertikale Abstand von z 1 und z 2 gegeben durch<br />

d v (z 1 , z 2 ) =<br />

{<br />

|y 2 − y 1 | falls x 1 = x 2<br />

∞ falls x 1 ≠ x 2<br />

.<br />

28


3.1 Problemstellung und Eigenschaften<br />

Für e<strong>in</strong>e Gerade l im R 2 und e<strong>in</strong>en Punkt z = (x, y) ∈ R 2 ist ihr vertikaler Abstand<br />

gegeben durch<br />

⎧<br />

⎪⎨ |y − (β 1 x + β 0 )| falls l = l(β 0 , β 1 )<br />

d v (z, l) = 0 falls l = {(x<br />

⎪⎩<br />

′ , y ′ ) ∈ R 2 : x ′ = x} .<br />

∞<br />

sonst<br />

Es werden d v (z, l) und d v (l, z) gleichwertig verwendet.<br />

Um das Weglassen <strong>der</strong> n − m Punkte mit den gröÿten Abständen zur optimalen Gerade<br />

zu beschreiben, sei (1), . . . , (n) e<strong>in</strong>e Permutation von {1, . . . , n}, sodass<br />

d v (z (1) , l) ≤ d v (z (2) , l) ≤ . . . ≤ d v (z (n) , l). (3.1)<br />

<strong>Die</strong>se Permutation hängt natürlich von <strong>der</strong> Geraden l ab. Insbeson<strong>der</strong>e ist e<strong>in</strong>e solche<br />

Permutation für die optimale Gerade, die das Problem löst, unbekannt, da ja die Gerade<br />

unbekannt ist. Sie muss also auch beim Lösen des mathematischen Programms, das sich<br />

nun wie folgt formulieren lässt, erst bestimmt werden:<br />

m<strong>in</strong><br />

l ist Gerade im R 2<br />

m ∑<br />

i=1<br />

d v (z (i) , l) (3.2)<br />

für e<strong>in</strong> gegebenes m mit 0 < m ≤ n. Da wir im Zuge <strong>der</strong> l<strong>in</strong>earen Regression an e<strong>in</strong>em<br />

l<strong>in</strong>earen Zusammenhang zwischen den x- und y-Koord<strong>in</strong>aten <strong>der</strong> Punkte z 1 , . . . , z n <strong>in</strong>teressiert<br />

s<strong>in</strong>d und e<strong>in</strong>e vertikale Gerade ke<strong>in</strong>en solchen Zusammenhang darstellt, wollen wir<br />

jetzt Bed<strong>in</strong>gungen herleiten, unter denen man sich <strong>in</strong> (3.2) auf nicht-vertikale Geraden<br />

<strong>der</strong> Form l = l(β 0 , β 1 ) beschränken kann. Dazu formulieren wir das Problem äquivalent<br />

<strong>in</strong> komb<strong>in</strong>atorischer Form [24]:<br />

m<strong>in</strong><br />

l ist Gerade im R 2<br />

m<strong>in</strong><br />

I⊂{1,...,n}<br />

|I|=m<br />

∑<br />

d v (z i , l) (3.3)<br />

i∈I<br />

<strong>Die</strong> Formulierungen <strong>in</strong> (3.2) und (3.3) s<strong>in</strong>d oenbar äquivalent, denn <strong>der</strong> zulässige Bereich<br />

ist bei beiden <strong>der</strong> R 2 und die Zielfunktionen s<strong>in</strong>d gleich, denn für jede feste Gerade l<br />

im R 2 werden im <strong>in</strong>neren komb<strong>in</strong>atorischen Optimierungsproblem <strong>in</strong> Formulierung (3.3)<br />

genau die m Indizes i 1 , . . . , i m mit <strong>kle<strong>in</strong>sten</strong> Werten d v (z ij , l) <strong>in</strong> die Menge I aufgenommen,<br />

also gilt für jede Lösung dieses <strong>in</strong>neren Problems I = {(1), . . . , (m)}, wobei die<br />

Permutation (·) Gleichung (3.1) genügt.<br />

Das nächste Lemma liefert jetzt die Bed<strong>in</strong>gungen, unter denen l = l(β 0 , β 1 ) ohne E<strong>in</strong>schränkung<br />

angenommen werden kann.<br />

29


3 Platzierung e<strong>in</strong>er Geraden<br />

Lemma 3.3 (Beschränkung auf nicht-vertikale Geraden). Seien Punkte z 1 , . . . , z n ∈ R 2<br />

und m : 2 ≤ m ≤ n vorgegeben mit z i = (x i , y i ) für i = 1, . . . , n. Es gibt genau dann e<strong>in</strong>e<br />

vertikale Gerade, die e<strong>in</strong>e optimale Lösung des Problems <strong>in</strong> (3.2) ist, wenn m<strong>in</strong>destens<br />

m <strong>der</strong> gegebenen Punkte die gleiche x-Koord<strong>in</strong>ate haben.<br />

Beweis. Der Beweis verwendet die komb<strong>in</strong>atorische Formulierung <strong>in</strong> (3.3).<br />

=⇒: Angenommen, es gibt weniger als m unter den gegebenen Punkten, die die gleiche<br />

x-Koord<strong>in</strong>ate haben. Dann gibt es zu je<strong>der</strong> Indexmenge I ⊂ {1, . . . , m} mit |I| = m<br />

zwei Indizes i 1 , i 2 ∈ I mit x i1 ≠ x i2 . Daher hat jede vertikale Gerade l von e<strong>in</strong>em dieser<br />

Punkte e<strong>in</strong>en unendlich groÿen vertikalen Abstand: d v (z i1 , l) = ∞ o<strong>der</strong> d v (z i2 , l) = ∞.<br />

Daher gilt für jede solche Indexmenge<br />

∑<br />

d v (z i , l) ≥ d v (z i1 , l) + d v (z i2 , l) = ∞ ∀ I ⊂ {1, . . . , n} mit |I| = m<br />

i∈I<br />

und jede nicht-vertikale Gerade ist e<strong>in</strong>e bessere Lösung des Problems, da d v (z, l(β 0 , β 1 )) <<br />

∞ für alle z ∈ R 2 und alle β 0 , β 1 ∈ R, also<br />

∑<br />

d v (z i , l(β 0 , β 1 )) < ∞.<br />

i∈I<br />

⇐=: Angenommen, es gibt m Punkte z i1 , . . . , z im mit <strong>der</strong> gleichen x-Koord<strong>in</strong>ate x i1 =<br />

. . . = x im . Dann gilt für die Indexmenge I = {i 1 , . . . , i m } und die Gerade l = {(x, y) ∈<br />

R 2 : x = x i1 }:<br />

∑<br />

d v (z i , l) = 0 ∀ i ∈ I =⇒ d v (z i , l) = 0<br />

Da die vertikalen Abstände aber immer gröÿer o<strong>der</strong> gleich Null s<strong>in</strong>d, ist l e<strong>in</strong>e optimale<br />

Lösung des Problems <strong>in</strong> (3.3).<br />

i∈I<br />

Im Folgenden gehen wir nun davon aus, dass unter den gegebenen Punkten weniger als m<br />

die gleiche x-Koord<strong>in</strong>ate haben, und können uns somit auf nicht-vertikale Geraden bzw.<br />

die l<strong>in</strong>eare Regression zurückziehen. <strong>Die</strong>s stellt ke<strong>in</strong>e beson<strong>der</strong>s groÿe E<strong>in</strong>schränkung dar,<br />

<strong>in</strong>sbeson<strong>der</strong>e für die Anwendung im Bereich <strong>der</strong> l<strong>in</strong>earen Regression, da dort meistens<br />

genug Daten zur Verfügung stehen. E<strong>in</strong> Beispiel: Bei 1000 Messpunkten mit e<strong>in</strong>em vermuteten<br />

Ausreiÿeranteil von 30% ist m = 700, also dürfen höchstens 699 Punkte die gleiche<br />

x-Koord<strong>in</strong>ate haben. S<strong>in</strong>d die Messpunkte zum Beispiel auch <strong>in</strong> <strong>der</strong> x-Koord<strong>in</strong>ate zufällig<br />

erzeugt durch e<strong>in</strong>e stetige Verteilung, verschw<strong>in</strong>det die Wahrsche<strong>in</strong>lichkeit gleicher<br />

x-Koord<strong>in</strong>aten ohneh<strong>in</strong>. S<strong>in</strong>d die x-Koord<strong>in</strong>aten im Experiment festlegbar, können sie<br />

30


3.1 Problemstellung und Eigenschaften<br />

geeignet gewählt werden. Sollten doch e<strong>in</strong>mal zu viele Punkte mit gleicher x-Koord<strong>in</strong>ate<br />

auftreten, sollte man sich die Frage stellen, ob e<strong>in</strong>e l<strong>in</strong>eare Regression zur Modellierung<br />

<strong>der</strong> Daten geeignet ist.<br />

Wir müssen nun für gegebene Punkte z 1 = (x 1 , y 1 ), . . . , z n = (x n , y n ) und gegebenes m<br />

mit 0 < m ≤ n das Problem<br />

(TLAD)<br />

∑<br />

m<br />

m<strong>in</strong> d v (z (i) , l(β 0 , β 1 )) (3.4)<br />

(β 0 ,β 1 )∈R 2<br />

i=1<br />

lösen. Es fällt <strong>in</strong> die Klasse <strong>der</strong> or<strong>der</strong>ed-median-Probleme, für die e<strong>in</strong>e allgeme<strong>in</strong>e Theorie<br />

<strong>in</strong> Nickel und Puerto [25] beschrieben ist. Das komb<strong>in</strong>atorische Äquivalent dazu ist<br />

(TLAD)<br />

m<strong>in</strong><br />

(β 0 ,β 1 )∈R 2 m<strong>in</strong><br />

I⊂{1,...,n}<br />

|I|=m<br />

∑<br />

d v (z i , l(β 0 , β 1 )). (3.5)<br />

TLAD steht für trimmed least absolute deviation, also getrimmte m<strong>in</strong>imale absolute Abweichung.<br />

<strong>Die</strong> Bezeichnung stammt aus <strong>der</strong> Statistik. Im Falle m = n muss nicht getrimmt<br />

werden und das Problem wird dann mit (LAD) bezeichnet. Es ist zu bemerken, dass e<strong>in</strong>e<br />

Lösung von (TLAD) nicht nur aus Werten für β 0 und β 1 besteht, son<strong>der</strong>n auch aus e<strong>in</strong>er<br />

Permutation (·) von {1, . . . , n} bzw. e<strong>in</strong>er Indexmenge I ⊂ {1, . . . , n} mit |I| = m, für die<br />

das M<strong>in</strong>imum angenommen wird und durch die die Ausreiÿer identiziert werden. <strong>Die</strong>s<br />

wird beson<strong>der</strong>s an <strong>der</strong> komb<strong>in</strong>atorischen Formulierung (3.5) deutlich, da hier tatsächlich<br />

zwei verschachtelte M<strong>in</strong>imierungsprobleme vorliegen. Daher wird im Folgenden sowohl<br />

e<strong>in</strong>e optimale Gerade l opt als auch e<strong>in</strong> Paar (l opt , I opt ) aus e<strong>in</strong>er optimalen Geraden und<br />

zugehöriger Indexmenge als optimale Lösung von (TLAD) bezeichnet. Auÿerdem wird<br />

<strong>der</strong> komb<strong>in</strong>atorischen Formulierung aufgrund ihrer <strong>in</strong>tuitiven Beschreibung <strong>der</strong> Punkte,<br />

die dem Modell folgen, nämlich durch e<strong>in</strong>e Teilmenge anstelle e<strong>in</strong>er Permutation, bei <strong>der</strong><br />

Herleitung von Eigenschaften des (TLAD) häug <strong>der</strong> Vorzug gegeben.<br />

i∈I<br />

3.1.2 Existenz und Nicht-E<strong>in</strong>deutigkeit<br />

Zuerst ist man natürlich an Existenz- und E<strong>in</strong>deutigkeitsaussagen für dieses Optimierungsproblem<br />

<strong>in</strong>teressiert. <strong>Die</strong>se werden im Folgenden formuliert.<br />

Lemma 3.4. Für zwei Punkte z 1 = (x 1 , y 1 ) und z 2 = (x 2 , y 2 ) mit x 1 ≠ x 2 gilt<br />

d v (z 1 , l(β 0 , β 1 )) + d v (z 2 , l(β 0 , β 1 )) ‖(β 0,β 1 )‖ 2 →∞<br />

−−−−−−−−−→ ∞.<br />

31


3 Platzierung e<strong>in</strong>er Geraden<br />

Beweis. Angenommen, das wäre nicht so. Dann gibt es e<strong>in</strong>e Folge (β 0n , β 1n ) n∈N mit<br />

‖(β 0n , β 1n )‖ 2 → ∞ für n → ∞, so dass<br />

d v (z 1 , l(β 0n , β 1n )) + d v (z 2 , l(β 0n , β 1n )) ≤ C<br />

∀ n ∈ N<br />

und e<strong>in</strong> festes C ∈ R. Auÿerdem gilt<br />

‖(β 0n , β 1n )‖ 2 → ∞ =⇒ |β 0n | → ∞ o<strong>der</strong> |β 1n | → ∞. (3.6)<br />

Da die vertikalen Abstände nicht-negativ s<strong>in</strong>d, gelten dann auch<br />

|y 1 − β 1n x 1 − β 0n | = d v (z 1 , l(β 0n , β 1n )) ≤ C ∀ n ∈ N<br />

|y 2 − β 1n x 2 − β 0n | = d v (z 2 , l(β 0n , β 1n )) ≤ C ∀ n ∈ N.<br />

Da x 1 ≠ x 2 , ist e<strong>in</strong>es <strong>der</strong> beiden, ohne E<strong>in</strong>schränkung x 1 , von Null verschieden. Dann ist<br />

β 1n x 1 + β 0n ∈ [y 1 − C, y 1 + C] und es muss<br />

β 0n → ±∞ =⇒ β 1n → ∓ sgn(x 1 )∞<br />

gelten o<strong>der</strong> vere<strong>in</strong>facht |β 0n | → ∞ ⇒ |β 1n | → ∞. Mit (3.6) ergibt sich<br />

und man hat den Wi<strong>der</strong>spruch<br />

‖(β 0n , β 1n )‖ 2 → ∞ =⇒ |β 1n | → ∞ (3.7)<br />

|y 2 − β 1n x 2 − β 0n | = | y 2 − β 1n x 1 − β<br />

} {{ 0n − (x<br />

} 2 − x 1 ) β<br />

} {{ } 1n | ‖(β 0n,β 1n )‖ 2 →∞<br />

−−−−−−−−−−→ ∞.<br />

(3.7)<br />

beschränkt<br />

≠0<br />

Satz 3.5 (Existenz optimaler Lösungen). Seien Punkte z 1 , . . . , z n ∈ R 2 und m mit 0 <<br />

m ≤ n vorgegeben. Dann hat (TLAD) e<strong>in</strong>e optimale Lösung und falls m ≥ 2 und unter<br />

den Punkten ke<strong>in</strong>e m mit gleicher x-Koord<strong>in</strong>ate s<strong>in</strong>d, ist jede Optimallösung endlich <strong>in</strong><br />

Bezug auf β 0 und β 1 .<br />

Beweis. Der Beweis orientiert sich an e<strong>in</strong>em Beweis <strong>in</strong> [25, S. 27] und verwendet die<br />

komb<strong>in</strong>atorische Variante aus (3.5). Wir betrachten dann die Probleme<br />

∑<br />

(P(I)) m<strong>in</strong> d v (z i , l(β 0 , β 1 ))<br />

(β 0 ,β 1 )∈R 2<br />

mit I ⊂ {1, . . . , n} und |I| = m. Von diesen gibt es nur ( n<br />

m) , also endlich viele, und die<br />

optimalen Lösungen <strong>der</strong> Probleme (P(I)) mit kle<strong>in</strong>stem Zielfunktionswert s<strong>in</strong>d genau die<br />

optimalen Lösungen von (TLAD).<br />

i∈I<br />

32


3.1 Problemstellung und Eigenschaften<br />

Fall 1: Für jedes I, das m<strong>in</strong>destens zwei verschiedene Indizes i 1 , i 2 ∈ I enthält, so dass<br />

x i1 ≠ x i2 , gilt<br />

≥<br />

∑<br />

d v (z i , l(β 0 , β 1 )) = ∑ |y i − (β 0 + β 1 x i )|<br />

i∈I<br />

i∈I<br />

|y i1 − β 0 − β 1 x i1 | + |y i2 − β 0 − β 1 x i2 | ‖(β 0,β 1 )‖ 2 →∞<br />

−−−−−−−−−→ ∞<br />

nach Lemma 3.4. Also kann man für solche Indexmengen ohne E<strong>in</strong>schränkung (β 0 , β 1 ) ∈<br />

Q I für e<strong>in</strong>e kompakte Menge Q I for<strong>der</strong>n. <strong>Die</strong> stetige Zielfunktion (Komposition von<br />

l<strong>in</strong>earer Funktion, Betrag, Sortierung, Summe) nimmt auf dieser Menge ihr M<strong>in</strong>imum<br />

an. Also gibt es für jedes (P(I)) mit solcher Indexmenge I e<strong>in</strong>e optimale Lösung und alle<br />

optimalen Lösungen s<strong>in</strong>d endlich bezüglich β 0 und β 1 .<br />

Fall 2: Für jede Indexmenge I, so dass x i = x für alle i ∈ I, ist jede Gerade, die durch<br />

(x, y) verläuft, optimal für (P(I)) mit dem Median y <strong>der</strong> y i , i ∈ I, denn die Zielfunktion<br />

wird zu<br />

∑<br />

d v (z i , l(β 0 , β 1 )) = ∑ |y i − β 1 x − β 0 |<br />

i∈I<br />

i∈I<br />

und diese wird m<strong>in</strong>imal, wenn β 1 x+β 0 = y nach [6, S. 239]. Es existiert also e<strong>in</strong>e optimale<br />

Lösung, aber ‖(β 0 , β 1 )‖ 2 kann beliebig groÿ werden.<br />

Zusammen ergibt sich, dass <strong>in</strong> jedem Fall e<strong>in</strong>e optimale Lösung von (TLAD) existiert.<br />

Falls m ≥ 2 und es ke<strong>in</strong>e m gegebenen Punkte mit gleicher x-Koord<strong>in</strong>ate gibt, tritt nur<br />

<strong>der</strong> erste Fall e<strong>in</strong> und jede optimale Lösung ist endlich bezüglich β 0 und β 1 .<br />

Allerd<strong>in</strong>gs muss die Lösung nicht e<strong>in</strong>deutig se<strong>in</strong>. Für n = m = 4, z 1 = (1, 1), z 2 = (1, 3),<br />

z 3 = (5, 1) und z 4 = (5, 3) gilt<br />

k∑<br />

d v (z (i) , l(β 0 , β 1 )) =<br />

i=1<br />

4∑<br />

|y i − β 0 − β 1 x i |<br />

i=1<br />

= |1 − β 0 − β 1 | + |3 − β 0 − β 1 | + |1 − β 0 − 5β 1 | + |3 − β 0 − 5β 1 |<br />

= (β 0 + β 1 − 1) + (3 − β 0 − β 1 ) + (β 0 + 5β 1 − 1) + (3 − β 0 − 5β 1 )<br />

= 2 + 2 = 4.<br />

für alle (β 0 , β 1 ) mit β 0 + β 1 ∈ [1, 3] und β 0 + 5β 1 ∈ [1, 3] (siehe Abb. 3.1 l<strong>in</strong>ks). Um<br />

diese Bed<strong>in</strong>gungen zu erfüllen, gibt es für (β 0 , β 1 ) unendlich viele Möglichkeiten, z.B.<br />

33


3 Platzierung e<strong>in</strong>er Geraden<br />

β 0 ∈ [1, 3] und β 1 = 0. Nach <strong>der</strong> Dreiecksungleichung gilt aber<br />

≥<br />

|1 − β 0 − β 1 | + |3 − β 0 − β 1 | + |1 − β 0 − 5β 1 | + |3 − β 0 − 5β 1 |<br />

(<br />

) (<br />

)<br />

|β 0 + β 1 − 1| + |3 − β 0 − β 1 | + |β 0 + 5β 1 − 1| + |3 − β 0 − 5β 1 |<br />

∣ ∣ ∣∣∣ ∣ β ∣∣∣<br />

0 + β 1 − 1 + 3 − β 0 − β 1 +<br />

∣ β 0 + 5β 1 − 1 + 3 − β 0 − 5β 1<br />

= 2 + 2 = 4.<br />

Also s<strong>in</strong>d alle (β 0 , β 1 ), die obige Bed<strong>in</strong>gungen erfüllen, optimale Lösungen. Es kann je<br />

nach Wahl <strong>der</strong> Punkte aber auch e<strong>in</strong>e e<strong>in</strong>deutige Lösung geben, z.B. wenn alle Punkte<br />

auf e<strong>in</strong>er Geraden liegen (siehe Abb. 3.1 rechts).<br />

y<br />

4<br />

y<br />

4<br />

3<br />

z 4<br />

3<br />

l(2.25, 1 4 ) 1<br />

2<br />

1<br />

z 1<br />

z 2<br />

z 3<br />

l(2.8, 0)<br />

2<br />

1 2 3 4 5<br />

x<br />

1 2 3 4 5<br />

x<br />

Abbildung 3.1: Zwei (TLAD)-Probleme mit n = m = 4. L<strong>in</strong>ks: unendlich viele Lösungen;<br />

rechts: e<strong>in</strong>deutige Lösung<br />

3.2 <strong>Die</strong> geometrische Dualität<br />

In diesem Abschnitt führen wir e<strong>in</strong>e duale Transformation <strong>der</strong> Ebene e<strong>in</strong>, die die Herleitung<br />

e<strong>in</strong>er endlichen Kandidatenmenge für das Problem (TLAD) im nächsten Abschnitt<br />

3.3 erleichtert. <strong>Die</strong>se Transformation trägt <strong>der</strong> Beobachtung Rechnung, dass die Platzierung<br />

e<strong>in</strong>er nicht-vertikalen Geraden durch die Bestimmung <strong>der</strong> beiden Parameter β 0<br />

und β 1 für den Achsenabschnitt und die Steigung geschieht. <strong>Die</strong>se können als Wert jede<br />

reelle Zahl annehmen und daher liegt <strong>der</strong> Gedanke nahe, das Problem so umzuschreiben,<br />

dass die Lösung als e<strong>in</strong> Punkt im R 2 zu suchen ist und nicht mehr als Gerade. Um das<br />

zu erreichen, ist also e<strong>in</strong>e Transformation ∗ nötig, die e<strong>in</strong>e Gerade l <strong>in</strong> e<strong>in</strong>en Punkt l ∗<br />

abbildet und die gegebenen Punkte z 1 , . . . , z n <strong>in</strong> Objekte z ∗ 1 , . . . , z∗ n umwandelt, für die<br />

34


3.2 <strong>Die</strong> geometrische Dualität<br />

wie<strong>der</strong> e<strong>in</strong> vertikaler Abstand d v (l ∗ , zi ∗ ) deniert werden kann, <strong>der</strong> gleich dem ursprünglichen<br />

Abstand d v (z i , l) ist. <strong>Die</strong>s leistet die Transformation <strong>in</strong> Denition 3.6 und Lemma<br />

3.8 hält die wichtigsten Eigenschaften dieser Transformation, z. B. Bijektivität, fest, die<br />

nötig s<strong>in</strong>d, um (TLAD) äquivalent zu transformieren.<br />

Denition 3.6 (Duale Transformation, [20]). <strong>Die</strong> duale Transformation ∗ ordnet jedem<br />

Punkt z = (x, y) ∈ R 2 die nicht-vertikale Gerade<br />

z ∗ = l(−y, x) = {(s, t) ∈ R 2 : t = xs − y}<br />

und je<strong>der</strong> nicht-vertikalen Gerade l = l(β 0 , β 1 ) den Punkt<br />

l ∗ = (β 1 , −β 0 ) ∈ R 2<br />

zu. Man nennt z ∗ e<strong>in</strong>e duale Gerade und l ∗ e<strong>in</strong>en dualen Punkt.<br />

Für die e<strong>in</strong>fachere Beschreibung e<strong>in</strong>iger Zusammenhänge ist auÿerdem die Notation <strong>der</strong><br />

vertikalen Residuen zweckmäÿig. Sie entsprechen den Residuen <strong>der</strong> l<strong>in</strong>earen Regression<br />

<strong>in</strong> <strong>der</strong> Statistik.<br />

Notation 3.7. Für e<strong>in</strong>en Punkt z = (x, y) ∈ R 2 und e<strong>in</strong>e nicht-vertikale Gerade l =<br />

l(β 0 , β 1 ) ist das vertikale Residuum gegeben durch<br />

r v (z, l) = y − (β 0 + β 1 x).<br />

Es gilt also d v (z, l) = |r v (z, l)|. Auÿerdem liegt z über l genau dann, wenn r v (z, l) > 0,<br />

und z liegt unter l genau dann, wenn r v (z, l) < 0. r v (z, l) = 0 schlieÿlich ist gleichbedeutend<br />

mit d v (z, l) = 0 und z ∈ l.<br />

Um mit <strong>der</strong> dualen Transformation arbeiten zu können, werden im folgenden Lemma<br />

wichtige Eigenschaften gezeigt.<br />

Lemma 3.8 (Eigenschaften <strong>der</strong> dualen Transformation, [20]). Sei z = (x, y) ∈ R 2 e<strong>in</strong><br />

beliebiger Punkt und l = l(β 0 , β 1 ) e<strong>in</strong>e beliebige nicht-vertikale Gerade im R 2 . Dann<br />

gelten<br />

1. <strong>Die</strong> Transformation ∗ ist idempotent, also z ∗∗ = z und l ∗∗ = l.<br />

2. <strong>Die</strong> Transformation ∗ erhält die vertikalen Residuen zwischen Punkten und Geraden,<br />

also r v (z, l) = r v (l ∗ , z ∗ ).<br />

3. <strong>Die</strong> Transformation ∗ erhält den vertikalen Abstand zwischen Punkten und Geraden,<br />

also d v (z, l) = d v (l ∗ , z ∗ ).<br />

35


3 Platzierung e<strong>in</strong>er Geraden<br />

4. Es gilt z ∈ l genau dann, wenn l ∗ ∈ z ∗ .<br />

5. z liegt über l genau dann, wenn l ∗ über z ∗ liegt. <strong>Die</strong> gleiche Aussage gilt für das<br />

Darunterliegen.<br />

6. <strong>Die</strong> Transformation ∗ bildet die Punkte des R 2 bijektiv auf die nicht-vertikalen<br />

dualen Geraden im R 2 ab.<br />

Beweis. ad 1. Nach <strong>der</strong> Denition <strong>der</strong> dualen Transformation (Def. 3.6) rechnet man<br />

z ∗∗ = (x, y) ∗∗ = l(−y, x) ∗ = (x, y) = z<br />

l ∗∗ = l(β 0 , β 1 ) ∗∗ = (β 1 , −β 0 ) ∗ = l(β 0 , β 1 ) = l.<br />

ad 2. Es folgt aus Notation 3.7<br />

r v (z, l) = y − (β 1 x + β 0 ) = −β 0 − (xβ 1 − y) = r v ((β 1 , −β 0 ), l(−y, x)) = r v (l ∗ , z ∗ ).<br />

ad 3. Folgt aus Punkt 2 mit d v (z, l) = |r v (z, l)| = |r v (l ∗ , z ∗ )| = d v (l ∗ , z ∗ ).<br />

ad 4. Aus z ∈ l folgt y = β 1 x + β 0 , also d v (z, l) = 0. Da unter Punkt 3 gezeigt wurde,<br />

dass ∗ die Abstände erhält, gilt auch d v (l ∗ , z ∗ ) = 0 mit l ∗ = (β 1 , −β 0 ) und z ∗ = l(−y, x),<br />

also −β 0 = −yβ 1 + x und daher l ∗ ∈ z ∗ . <strong>Die</strong> Rückrichtung folgt aus <strong>der</strong> Idempotenz<br />

von ∗ .<br />

ad 5. Liege z über l, also 0 < r v (z, l) = r v (l ∗ , z ∗ ). Damit liegt auch l ∗ über z ∗ . <strong>Die</strong><br />

Idempotenz von ∗ ergibt die Rückrichtung und <strong>der</strong> Beweis für das Darunterliegen geht<br />

analog.<br />

ad 6. Seien z 1 = (x 1 , y 1 ) ≠ z 2 = (x 2 , y 2 ) zwei Punkte, d.h. x 1 ≠ x 2 o<strong>der</strong> y 1 ≠ y 2 .<br />

Dann s<strong>in</strong>d ihre dualen Geraden z ∗ 1 = l(−y 1, x 1 ) bzw. z ∗ 2 = l(−y 2, x 2 ) verschieden, da sie<br />

entwe<strong>der</strong> verschiedene Achsenabschnitte o<strong>der</strong> verschiedene Steigungen haben. Also ist ∗<br />

<strong>in</strong>jektiv. Sei nun e<strong>in</strong>e Gerade l = l(β 0 , β 1 ) vorgegeben. Dann gilt mit z = l ∗ = (β 1 , −β 0 )<br />

nach <strong>der</strong> Idempotenz aus Punkt 1 z ∗ = l ∗∗ = l und l hat den Punkt z als Urbild. Damit<br />

ist ∗ auch surjektiv und zusammen bijektiv.<br />

<strong>Die</strong> Bijektivität <strong>der</strong> dualen Transformation ∗ ermöglicht es nun, für nicht-vertikale Geraden<br />

z ∗ zu schreiben und stillschweigend anzunehmen, dass ihr e<strong>in</strong> Punkt z zugrunde liegt.<br />

Ebenso kann man für e<strong>in</strong>en Punkt l ∗ schreiben mit e<strong>in</strong>er nicht-vertikalen Geraden l.<br />

36


3.2 <strong>Die</strong> geometrische Dualität<br />

Beson<strong>der</strong>s <strong>in</strong>teressant ist die zweite Eigenschaft aus Lemma 3.8. Sie erlaubt, die Zielfunktion<br />

von (TLAD) aus (3.4) folgen<strong>der</strong>maÿen umzuschreiben:<br />

m∑<br />

d v (l(β 0 , β 1 ), z (i) ) =<br />

i=1<br />

Also ist das Programm<br />

m∑<br />

m d v (l(β 0 , β 1 ) ∗ , z(i) ∗ ) = ∑<br />

d v ((β 1 , −β 0 ), l(−y (i) , x (i) )).<br />

i=1<br />

i=1<br />

(dual-TLAD)<br />

m<strong>in</strong><br />

l ∗ =(s,t)∈R 2<br />

= m<strong>in</strong><br />

l ∗ =(s,t)∈R 2<br />

m ∑<br />

i=1<br />

d v (l ∗ , z ∗ (i) ) (3.8)<br />

m<strong>in</strong><br />

I⊂{1,...,n}<br />

|I|=m<br />

∑<br />

d v (l ∗ , zi ∗ )<br />

i∈I<br />

mit e<strong>in</strong>em m : 0 < m ≤ n und e<strong>in</strong>er von l ∗ ∈ R 2 abhängigen Permutation (·) mit<br />

d v (l ∗ , z ∗ (1) ) ≤ d v(l ∗ , z ∗ (2) ) ≤ . . . ≤ d v(l ∗ , z ∗ (n) )<br />

äquivalent zu (TLAD), da die sechste Eigenschaft aus Lemma 3.8 die e<strong>in</strong>deutige Zuordnung<br />

<strong>der</strong> Lösungen von (TLAD) und (dual-TLAD) ermöglicht.<br />

Jetzt wollen wir die duale Transformation ausnutzen, um das Lösen des (TLAD) bzw.<br />

(dual-TLAD) zu erleichtern. Dafür werden Punkte im Dualraum im Folgenden mit l ∗ =<br />

(s, t) ∈ R 2 o<strong>der</strong> <strong>in</strong> ähnlicher Weise bezeichnet, um Verwechslungen mit Punkten z =<br />

(x, y) ∈ R 2 im primalen Raum zu vermeiden. Wir stellen zunächst anhand e<strong>in</strong>es Beispiels<br />

fest, dass die gegebenen Punkte z 1 , . . . , z n durch ihre Transformation zu Geraden im<br />

Dualraum diesen <strong>in</strong> mehrere Gebiete zerlegen, ihn also parkettieren. Seien dazu Punkte<br />

z 1 = (− 3 4 , −1) z 2 = (− 1 2 , 1 4 ) z 3 = ( 1 2 , −1 2 ) (3.9)<br />

z 4 = ( 1 2 , 0) z 5 = (2, −1)<br />

gegeben. Dann s<strong>in</strong>d ihre dualen Geraden<br />

z ∗ 1 = l(1, − 3 4 ) z∗ 2 = l(− 1 4 , −1 2 ) z∗ 3 = l( 1 2 , 1 2 ) (3.10)<br />

z ∗ 4 = l(0, 1 2 ) z∗ 5 = l(1, 2).<br />

Abbildung 3.2 zeigt oben die Punkte z 1 , . . . , z 5 und unten die Parkettierung, die durch<br />

ihre dualen Geraden beschrieben wird.<br />

Um diese Parkettierung zu beschreiben, seien z 1 , . . . , z n o.B.d.A. paarweise verschieden,<br />

um die Schreibweise P = {z 1 , . . . , z n } zu ermöglichen.<br />

37


3 Platzierung e<strong>in</strong>er Geraden<br />

y<br />

z 4<br />

z 5<br />

x<br />

z 1<br />

z 2<br />

z 3<br />

z ∗ 1<br />

x<br />

z ∗ 2<br />

z ∗ 4<br />

z ∗ 3<br />

−y<br />

z ∗ 5<br />

Abbildung 3.2: oben: die primalen Punkte aus (3.9) ;<br />

unten: die zugehörigen dualen Geraden aus (3.10)<br />

38


3.2 <strong>Die</strong> geometrische Dualität<br />

Denition 3.9 (Duale Zelle). Zu e<strong>in</strong>er gegeben Menge an Punkten P = {z 1 , . . . , z n } ⊂<br />

R 2 und festen Vorzeichen σ ∈ {−1, 1} n ist e<strong>in</strong>e duale Zelle gegeben durch<br />

C(σ) = {l ∗ ∈ R 2 : σ i · r v (l ∗ , z ∗ i ) ≥ 0<br />

∀ i = 1, . . . , n},<br />

falls diese Menge mehr als e<strong>in</strong> Element enthält.<br />

t<br />

z ∗ 1<br />

z ∗ 2<br />

z ∗ 3<br />

z ∗ 4<br />

C(σ)<br />

z ∗ 6<br />

z ∗ 5<br />

z ∗ 7<br />

Abbildung 3.3: Beispiel für e<strong>in</strong>e duale Zelle C(σ) nach Denition 3.9<br />

Abbildung 3.3 zeigt e<strong>in</strong>e duale Zelle C(σ) mit P = {z 1 , . . . , z 7 }, σ 1 = . . . = σ 4 = −1 und<br />

σ 5 = . . . = σ 7 = 1. Mit dieser Abbildung ist die anschauliche Bedeutung <strong>der</strong> σ i leicht zu<br />

erklären, denn es gilt oenbar für alle i = 1, . . . , n<br />

σ i = 1 ⇐⇒ r v (l ∗ , z ∗ i ) ≥ 0 ∀ l ∗ ∈ C(σ) (3.11)<br />

σ i = −1 ⇐⇒ r v (l ∗ , z ∗ i ) ≤ 0 ∀ l ∗ ∈ C(σ)<br />

und σ i = 1 gilt genau dann, wenn <strong>der</strong> duale Punkt l ∗ über <strong>der</strong> dualen Geraden zi<br />

∗ liegt<br />

(<strong>in</strong> Abb. 3.3 die durchgezogenen L<strong>in</strong>ien) bzw. wenn <strong>der</strong> Punkt z i über <strong>der</strong> Geraden l liegt<br />

(siehe Lemma 3.8). Analog gilt σ i = −1 genau dann, wenn <strong>der</strong> duale Punkt l ∗ unter <strong>der</strong><br />

dualen Geraden zi<br />

∗ liegt (<strong>in</strong> Abb. 3.3 die gestrichelten L<strong>in</strong>ien) bzw. wenn <strong>der</strong> Punkt z i<br />

unter <strong>der</strong> Geraden l liegt. Hiermit kann man <strong>in</strong>sbeson<strong>der</strong>e den vertikalen Abstand an<strong>der</strong>s<br />

schreiben:<br />

d v (z i , l) = d v (l ∗ , z ∗ i ) = |r v (l ∗ , z ∗ i )| = σ i r v (l ∗ , z ∗ i ) = σ i r v (z i , l) ∀ i = 1, . . . , n (3.12)<br />

s<br />

39


3 Platzierung e<strong>in</strong>er Geraden<br />

<strong>Die</strong> dualen Zellen s<strong>in</strong>d oenbar Polye<strong>der</strong>, denn sie s<strong>in</strong>d e<strong>in</strong> Schnitt von endlich vielen<br />

Halbräumen. Mit<br />

σ i r v (l ∗ , z ∗ i ) ≥ 0 ⇐⇒ σ i (t − x i s + y i ) ≥ 0 ⇐⇒ σ i x i s − σ i t ≤ σ i y i<br />

kann man C(σ) <strong>in</strong> <strong>der</strong> Form<br />

⎛ ⎞ ⎛ ⎞<br />

σ 1 x 1 −σ 1 ( σ 1 y 1<br />

C(σ) = {l ∗ = (s, t) ∈ R 2 ⎜ ⎟ s ⎜ ⎟<br />

: ⎝ . . ⎠ ≤ ⎝<br />

t)<br />

. ⎠} (3.13)<br />

σ n x n −σ n σ n y n<br />

schreiben. <strong>Die</strong>se Polye<strong>der</strong> können Polytope o<strong>der</strong> unbeschränkt se<strong>in</strong>. Sie haben allerd<strong>in</strong>gs<br />

immer e<strong>in</strong> nichtleeres Inneres. Denn an<strong>der</strong>enfalls wäre e<strong>in</strong>e solche Zelle die leere Menge,<br />

e<strong>in</strong> e<strong>in</strong>zelner Punkt o<strong>der</strong> e<strong>in</strong> möglicherweise unbeschränkter Geradenabschnitt. <strong>Die</strong> ersten<br />

beiden Fälle s<strong>in</strong>d durch |C(σ)| > 1 ausgeschlossen, <strong>der</strong> dritte Fall tritt nicht e<strong>in</strong>, da <strong>in</strong><br />

P je<strong>der</strong> Punkt nur e<strong>in</strong>mal vorkommen kann. Als Polye<strong>der</strong> s<strong>in</strong>d die Zellen <strong>in</strong>sbeson<strong>der</strong>e<br />

konvex und abgeschlossen.<br />

Weiter hat jede Zelle C(σ) m<strong>in</strong>destens e<strong>in</strong>e Ecke, wenn P m<strong>in</strong>destens zwei Punkte mit<br />

verschiedenen x-Koord<strong>in</strong>aten enthält, denn dann haben ihre dualen Geraden unterschiedliche<br />

Steigung. Daher wird jede Gerade z ∗ i 0<br />

, die C(σ) begrenzt, also<br />

σ i0 r v (l ∗ , z ∗ i 0<br />

) ≥ 0 ∀ l ∗ ∈ C(σ) und σ i0 r v (l ∗ 0, z ∗ i 0<br />

) = 0 für e<strong>in</strong> l ∗ 0 ∈ C(σ),<br />

von e<strong>in</strong>er <strong>der</strong> Geraden zi<br />

∗ geschnitten. Bezeichne den Schnittpunkt mit l1. ∗ Falls l1 ∗ ∈ C<br />

ist, ist l1 ∗ die gesuchte Ecke von C(σ). Sonst muss es e<strong>in</strong>e weitere Gerade zi ∗ 1<br />

mit z i1 ∈ P<br />

geben, die l1 ∗ von C(σ) trennt, also<br />

σ i1 r v (l ∗ 1, z ∗ i 1<br />

) < 0 und σ i1 r v (l ∗ , z ∗ i 1<br />

) ≥ 0 ∀ l ∗ ∈ C(σ). (3.14)<br />

Es können z ∗ i 0<br />

und z ∗ i 1<br />

nicht parallel se<strong>in</strong>, weil l ∗ 0 ∈ z∗ i 0<br />

und l ∗ 1 ∈ z∗ i 0<br />

. Das bedeutet aber<br />

r v (l ∗ 0, z ′∗ ) = r v (l ∗ 1, z ′∗ ) ∀ z ′∗ mit z ′∗ ‖ z ∗ i 0<br />

und ist e<strong>in</strong> Wi<strong>der</strong>spruch zu (3.14), da l ∗ 0 ∈ C(σ). Also haben z∗ i 0<br />

und z ∗ i 1<br />

e<strong>in</strong>en Schnittpunkt<br />

l ∗ 2, <strong>der</strong> <strong>in</strong> C(σ) liegen kann o<strong>der</strong> nicht. Liegt er <strong>in</strong> C(σ), ist er die gesuchte Ecke,<br />

wenn nicht, kann er wie eben von C(σ) getrennt werden. <strong>Die</strong>s kann man aber nicht<br />

unendlich lange fortführen, da P ∗ = {z ∗ 1 , . . . , z∗ n} endlich ist. Also muss e<strong>in</strong>er <strong>der</strong> so<br />

konstruierten Schnittpunkte e<strong>in</strong>e Ecke von C(σ) se<strong>in</strong>.<br />

Denition 3.10 (Duale Parkettierung [20]). Zu e<strong>in</strong>er gegeben Menge an Punkten P =<br />

{z 1 , . . . , z n } ⊂ R 2 ist die duale Parkettierung DT (P ) (dual tesselation) gegeben durch die<br />

Menge aller dualen Zellen C(σ) wie <strong>in</strong> Denition 3.9:<br />

DT (P ) = {C(σ) : σ ∈ {0, 1} n , |C(σ)| > 1}<br />

40


3.3 E<strong>in</strong>e endliche Kandidatenmenge für (TLAD)<br />

Es gilt oenbar<br />

⋃<br />

C∈DT (P )<br />

C = R 2 , (3.15)<br />

weil für jeden Punkt (s, t) ∈ R 2 und jedes i ∈ {1, . . . , n} immer m<strong>in</strong>destens e<strong>in</strong>e <strong>der</strong><br />

Ungleichungen<br />

r v ((s, t), z ∗ i ) ≤ 0 , r v ((s, t), z ∗ i ) ≥ 0<br />

erfüllt ist. Daher kann σ i für jedes i so gewählt werden, dass σ i · r v ((s, t), zi ∗ ) ≥ 0. Also<br />

ist<br />

(s, t) ∈ C(σ) ∈ DT (P ).<br />

3.3 E<strong>in</strong>e endliche Kandidatenmenge für (TLAD)<br />

Nun können wir mit Hilfe <strong>der</strong> dualen Parkettierung die L<strong>in</strong>earitätsbereiche <strong>der</strong> Zielfunktion<br />

von (LAD) als duale Zellen identizieren und dann den Hauptsatz <strong>der</strong> l<strong>in</strong>earen<br />

Optimierung anwenden, um für jede dieser Zellen e<strong>in</strong>e Ecke anzugeben, <strong>in</strong> <strong>der</strong> die Zielfunktion<br />

ihr M<strong>in</strong>imum auf dieser Zelle annimmt, so dass nur noch die Ecken aller dualen<br />

Zellen nach e<strong>in</strong>em Optimum für (dual-LAD) abgesucht werden müssen. Da jede Ecke e<strong>in</strong><br />

Schnittpunkt von zwei o<strong>der</strong> mehr dualen Geraden ist, erhält man durch Rücktransformation<br />

<strong>in</strong> den ursprünglichen Raum e<strong>in</strong>e optimale Gerade, die m<strong>in</strong>destens durch zwei<br />

<strong>der</strong> gegebenen Punkte z 1 , . . . , z n geht. <strong>Die</strong>se Eigenschaft heiÿt weak <strong>in</strong>cidence property<br />

und gilt auch für die Platzierung e<strong>in</strong>er Hyperebene im R n nach Schöbel [30].<br />

Lemma 3.11 ([20]). <strong>Die</strong> Zielfunktion<br />

n∑<br />

d v (·, zi ∗ ) : R 2 → R<br />

i=1<br />

des (dual-LAD) ist an l<strong>in</strong>ear auf je<strong>der</strong> Zelle C(σ) ∈ DT (P ), wobei P = {z 1 =<br />

(x 1 , y 1 ), . . . , z n = (x n , y n )}.<br />

Beweis. Auf je<strong>der</strong> dualen Zelle C(σ) ∈ DT (P ) gilt für alle l ∗ ∈ C(σ)<br />

n∑<br />

n∑<br />

n∑<br />

d v (l ∗ , zi ∗ ) = σ i r v (l ∗ , zi ∗ ) = σ i (t − x i s + y i )<br />

i=1<br />

= t<br />

i=1<br />

n∑<br />

σ i − s<br />

i=1<br />

i=1<br />

n∑<br />

σ i x i +<br />

i=1<br />

n∑<br />

σ i y i . (3.16)<br />

Das ist oenbar e<strong>in</strong>e <strong>in</strong> l ∗ = (s, t) an l<strong>in</strong>eare Funktion, weil die x i und y i fest s<strong>in</strong>d und<br />

σ auf je<strong>der</strong> dualen Zelle C(σ) fest ist.<br />

i=1<br />

41


3 Platzierung e<strong>in</strong>er Geraden<br />

Lemma 3.12. <strong>Die</strong> Zielfunktion<br />

f :=<br />

n∑<br />

d v (·, zi ∗ ) : R 2 → R<br />

i=1<br />

des (dual-LAD) ist konvex.<br />

Beweis. Seien l ∗ 1 = (s 1, t 1 ), l ∗ 2 = (s 2, t 2 ) ∈ R 2 und λ ∈ [0, 1]. Dann gilt<br />

f(λl ∗ 1 + (1 − λ)l ∗ 2) =<br />

=<br />

(1)<br />

≤<br />

n∑<br />

|(λt 1 + (1 − λ)t 2 ) − x i (λs 1 + (1 − λ)s 2 ) + y i |<br />

i=1<br />

n∑<br />

|λt 1 − λx i s 1 + λy i + (1 − λ)t 2 − (1 − λ)x i s 2 + (1 − λ)y i |<br />

i=1<br />

n∑<br />

i=1<br />

(2)<br />

= λ<br />

[<br />

]<br />

|λ(t 1 − x i s 2 + y i )| + |(1 − λ)(t 2 − x i s 2 + y i )|<br />

n∑<br />

|t 1 − x i s 2 + y i | + (1 − λ)<br />

i=1<br />

= λf(l ∗ 1) + (1 − λ)f(l ∗ 2)<br />

n∑<br />

|t 2 − x i s 2 + y i |<br />

nach <strong>der</strong> Dreiecksungleichung (1) und weil λ ≥ 0 und 1 − λ ≥ 0 (2).<br />

i=1<br />

Damit reicht es, nach lokalen M<strong>in</strong>ima zu suchen, da lokale M<strong>in</strong>ima konvexer Funktionen<br />

auch <strong>der</strong>en globale M<strong>in</strong>ima s<strong>in</strong>d [4, S. 287]. Man kann zur Bestimmung e<strong>in</strong>es globalen<br />

M<strong>in</strong>imums also Verfahren des steilsten Abstiegs o<strong>der</strong> an<strong>der</strong>e <strong>Methode</strong>n zur Berechnung<br />

lokaler M<strong>in</strong>ima anwenden, ohne sich mit e<strong>in</strong>em nicht-globalen M<strong>in</strong>imum begnügen zu<br />

müssen. Lei<strong>der</strong> ist die Zielfunktion von (dual-TLAD) im Allgeme<strong>in</strong>en nicht e<strong>in</strong>mal quasikonvex,<br />

wie e<strong>in</strong> Beispiel zeigt. Gegeben seien die Punkte<br />

z 1 = (1, 0) z 2 = (3, 1) z 3 = (5, 2) (3.17)<br />

z 4 = (2, 3) z 5 = (4, 4) z 6 = (6, 5)<br />

und m = 3. Dann s<strong>in</strong>d die Geraden l 1 = l(−1/2, 1/2) und l 2 = l(2, 1/2) optimale<br />

Lösungen für (TLAD), da sie Zielfunktionswert Null haben. <strong>Die</strong> Gerade l 3 = l(3/2, 1/2)<br />

allerd<strong>in</strong>gs ist ke<strong>in</strong>e optimale Lösung, denn sie hat den Zielfunktionswert 3/2. Es ist aber l ∗ 3<br />

e<strong>in</strong>e Konvexkomb<strong>in</strong>ation von l ∗ 1 und l ∗ 2 und die Zielfunktion kann nicht quasikonvex se<strong>in</strong>,<br />

da die Menge <strong>der</strong> M<strong>in</strong>ima quasikonvexer Funktionen konvex ist [31], siehe Abbildung 3.4.<br />

42


3.3 E<strong>in</strong>e endliche Kandidatenmenge für (TLAD)<br />

y<br />

4<br />

3<br />

2<br />

1<br />

l2<br />

l 3<br />

z 1<br />

z 4<br />

z 2<br />

z 5<br />

z 3<br />

z 6<br />

l 1<br />

1 2 3 4 5 6 7<br />

x<br />

Abbildung 3.4: <strong>Die</strong> Zielfunktion von (TLAD) ist im Allgeme<strong>in</strong>en nicht quasikonvex.<br />

Satz 3.13 (Starker Punkt). Unter gegebenen Punkten z i = (x i , y i ), i = 1, . . . , n mit<br />

m<strong>in</strong>destens zwei verschiedenen x-Koord<strong>in</strong>aten gibt es e<strong>in</strong>en Punkt z j , so dass jede für<br />

(LAD) optimale Gerade durch diesen Punkt verläuft, falls e<strong>in</strong>e <strong>der</strong> folgenden Bed<strong>in</strong>gungen<br />

erfüllt ist:<br />

1. n ist e<strong>in</strong> ungerade Zahl.<br />

2. n ist e<strong>in</strong>e gerade Zahl und es gibt ke<strong>in</strong>e Partitionierung I 1 , I 2 <strong>der</strong> Indizes {1, . . . , n}<br />

mit |I 1 | = |I 2 | = n/2 und<br />

∑<br />

i∈I 1<br />

x i = ∑ i∈I 2<br />

x i . (3.18)<br />

Beweis. Nach Lemma 3.5 hat (LAD) zu den gegebenen Punkten e<strong>in</strong>e endliche Optimallösung.<br />

Sei P = {z ∈ R 2 : z = z i für e<strong>in</strong> i ∈ {1, . . . , n}}. Wir verwenden das zu (LAD)<br />

äquivalente Programm (dual-LAD). Der Beweis glie<strong>der</strong>t sich <strong>in</strong> drei Schritte:<br />

1. Es gibt ke<strong>in</strong>e optimale Lösung, die im Inneren e<strong>in</strong>er dualen Zelle C(σ) liegt.<br />

2. Zu zwei optimalen Lösungen gibt es e<strong>in</strong>en Punkt z j , durch den beide verlaufen.<br />

3. z j ist <strong>der</strong> gesuchte Punkt.<br />

43


3 Platzierung e<strong>in</strong>er Geraden<br />

Schritt 1: Zuerst zeigen wir, dass unter den obigen Bed<strong>in</strong>gungen ke<strong>in</strong> Punkt, <strong>der</strong> im<br />

Inneren e<strong>in</strong>er dualen Zelle C(σ) ∈ DT (P ) liegt, e<strong>in</strong>e optimale Lösung für (dual-LAD)<br />

se<strong>in</strong> kann. Denn dort ist die Zielfunktion<br />

n∑<br />

n∑ n∑ n∑<br />

d v (l ∗ , zi ∗ ) = t σ i − s σ i x i + σ i y i<br />

i=1<br />

i=1<br />

mit l ∗ = (s, t) nach Lemma 3.11 l<strong>in</strong>ear und daher stetig dierenzierbar. Ihr Gradient<br />

(<br />

)<br />

n∑ n∑<br />

− σ i x i , σ i<br />

i=1<br />

müsste bei e<strong>in</strong>em M<strong>in</strong>imum also verschw<strong>in</strong>den. Wegen <strong>der</strong> ersten Bed<strong>in</strong>gung ist oenbar<br />

i=1<br />

n∑<br />

σ i = 0<br />

i=1<br />

nicht möglich, da σ ∈ {−1, 1} n und <strong>der</strong> Gradient kann nicht verschw<strong>in</strong>den. Damit gibt<br />

es ke<strong>in</strong> M<strong>in</strong>imum im Inneren von C(σ).<br />

Nun nehmen wir (<br />

−<br />

n∑<br />

σ i x i ,<br />

i=1<br />

i=1<br />

)<br />

n∑<br />

σ i = (0, 0)<br />

an und führen das zum Wi<strong>der</strong>spruch zur zweiten Bed<strong>in</strong>gung. Es folgt nämlich<br />

{<br />

n∑<br />

σ i = +1 für n<br />

σ i = 0 =⇒<br />

2 Indizes<br />

σ i = −1 für n 2 Indizes .<br />

i=1<br />

Seien I + und I − die entsprechenden Indexmengen. Für diese gilt<br />

i=1<br />

− ∑ i∈I +<br />

σ i x i − ∑ i∈I −<br />

σ i x i = 0 =⇒ ∑ i∈I +<br />

x i = ∑ i∈I +<br />

σ i x i = − ∑ i∈I −<br />

σ i x i = ∑ i∈I −<br />

x i .<br />

i=1<br />

Da aber |I + | = |I − | = n/2, ist dies e<strong>in</strong> Wi<strong>der</strong>spruch zur zweiten Bed<strong>in</strong>gung.<br />

Damit liegt jede optimale Lösung von (dual-LAD) auf dem Rand e<strong>in</strong>er dualen Zelle. D. h.<br />

es gibt für jede optimale Lösung l ∗opt von (dual-LAD) e<strong>in</strong>e duale Gerade zi(l ∗ ∗opt ), so dass<br />

d v (l ∗opt , z ∗ i(l ∗opt ) ) = 0.<br />

Da die duale Transformation ∗ nach Lemma 3.8 die vertikalen Abstände erhält, verläuft<br />

die für (LAD) optimale Gerade l opt durch den Punkt z i(l<br />

∗opt<br />

). Falls die optimale Lösung<br />

e<strong>in</strong>deutig ist, ist <strong>der</strong> Beweis hier abgeschlossen. Sonst führen wir Schritt 2 und 3 durch.<br />

44


3.3 E<strong>in</strong>e endliche Kandidatenmenge für (TLAD)<br />

Schritt 2: Seien l ∗opt<br />

0 bzw. l ∗opt<br />

1 zwei verschiedene optimale Lösungen von (dual-LAD).<br />

Wir zeigen, dass diese durch e<strong>in</strong>en geme<strong>in</strong>samen Punkt z j verlaufen. <strong>Die</strong> beiden Lösungen<br />

müssen nach Schritt 1 jeweils auf dem Rand e<strong>in</strong>er dualen Zelle liegen, also gilt<br />

d v (l ∗opt<br />

0 , z ∗ i 0<br />

) = 0 bzw. d v (l ∗opt<br />

1 , z ∗ i 1<br />

) = 0<br />

mit geeigneten Punkten z i0<br />

und z i1 . Falls<br />

z ∗ i 1<br />

z ∗ i 0<br />

l ∗opt<br />

0<br />

l ∗opt<br />

λ<br />

l ∗opt<br />

1<br />

z ∗ i 2<br />

Abbildung 3.5: Erläuterung zu Schritt 2 des Beweises von Satz 3.13<br />

d v (l ∗opt<br />

0 , z ∗ i 1<br />

) = 0 o<strong>der</strong> d v (l ∗opt<br />

1 , z ∗ i 0<br />

) = 0,<br />

s<strong>in</strong>d wir fertig, denn l opt<br />

0 und l opt<br />

1 verlaufen beide durch z i0 o<strong>der</strong> z i1 . Sonst ist auch<br />

l ∗opt<br />

λ<br />

= λl ∗opt<br />

1 + (1 − λ)l ∗opt<br />

0<br />

e<strong>in</strong>e optimale Lösung von (dual-LAD) für jedes λ ∈ [0, 1] nach Lemma 3.12, da die Menge<br />

<strong>der</strong> M<strong>in</strong>ima konvexer Funktionen konvex ist [4, S. 287]. Angenommen, es gilt<br />

m<strong>in</strong> d v(l ∗opt<br />

i=1,...,n<br />

λ<br />

, zi ∗ ) > 0<br />

für e<strong>in</strong> λ ∈ [0, 1]. Dann liegt l ∗opt<br />

λ<br />

im Inneren e<strong>in</strong>er Zelle C(σ) im Wi<strong>der</strong>spruch zu Schritt 1.<br />

Also ist<br />

m<strong>in</strong> d v(l ∗opt<br />

i=1,...,n<br />

λ<br />

, zi ∗ ) = 0<br />

für jedes λ ∈ [0, 1]. Dann gibt es e<strong>in</strong>en festen Index i 2 mit d v (l ∗opt<br />

λ<br />

λ ∈ [0, 1], denn die Menge {l ∗opt<br />

λ<br />

aber, d v (l ∗opt<br />

0 , z ∗ i 2<br />

) = d v (l ∗opt<br />

1 , z ∗ i 2<br />

) = 0 und l opt<br />

0 und l opt<br />

, zi ∗ 2<br />

) = 0 für alle<br />

: λ ∈ [0, 1]} ist e<strong>in</strong>e Strecke im Dualraum. Das bedeutet<br />

1 verlaufen durch z i2 .<br />

45


3 Platzierung e<strong>in</strong>er Geraden<br />

Insgesamt verlaufen l opt<br />

0 und l opt<br />

1 beide durch e<strong>in</strong>en <strong>der</strong> Punkte<br />

⎧<br />

⎪⎨ z i0<br />

z j := z i1 .<br />

⎪⎩<br />

z i2<br />

Schritt 3: Sei z j wie im vorigen Schritt und l opt e<strong>in</strong>e optimale Lösung von (LAD).<br />

Angenommen, es ist d v (z j , l opt ) = d v (l ∗opt , zj ∗) > 0, das heiÿt, lopt verläuft nicht durch<br />

z j . Dann hat die konvexe Hülle B := conv(l ∗opt<br />

0 , l ∗opt<br />

1 , l ∗opt ) e<strong>in</strong> nicht-leeres Inneres, da<br />

die dualen Punkte l ∗opt<br />

0 und l ∗opt<br />

1 auf <strong>der</strong> dualen Geraden zj ∗ liegen, l∗opt aber nicht, und<br />

die Punkte daher e<strong>in</strong> Dreieck beschreiben (siehe Abb. 3.6).<br />

l ∗opt B<br />

l ∗opt<br />

0<br />

l ∗opt<br />

1<br />

z ∗ j<br />

Abbildung 3.6: Wi<strong>der</strong>spruch zu Schritt 1<br />

Weil die Zielfunktion von (dual-LAD) konvex ist und die Menge <strong>der</strong> M<strong>in</strong>ima konvexer<br />

Funktionen konvex ist, s<strong>in</strong>d alle l ∗ ∈ B optimale Lösungen für (dual-LAD). Da aber <strong>in</strong><br />

Schritt 1 gezeigt wurde, dass jedes M<strong>in</strong>imum auf dem Rand e<strong>in</strong>er dualen Zelle liegen<br />

muss, hat die Menge <strong>der</strong> M<strong>in</strong>ima e<strong>in</strong> leeres Inneres. Das ist e<strong>in</strong> Wi<strong>der</strong>spruch und es muss<br />

d v (z j , l opt ) = d v (l ∗opt , z ∗ j ) = 0 gelten.<br />

Insgesamt verlaufen also alle optimalen Geraden durch den Punkt z j . E<strong>in</strong> solcher Punkt<br />

z j sei als starker Punkt bezeichnet.<br />

Ob die erste Bed<strong>in</strong>gung des Satzes erfüllt ist, sieht man natürlich sofort an den E<strong>in</strong>gabedaten<br />

des LAD-Problems. <strong>Die</strong> zweite Bed<strong>in</strong>gung ist jedoch nur schwer nachzuprüfen, da<br />

die Bestimmung e<strong>in</strong>er solchen Partition NP-vollständig ist. Das sieht man durch polynomiale<br />

Reduzierung des folgenden Partitionierungs-Problems auf das Problem <strong>in</strong> (3.18):<br />

46


3.3 E<strong>in</strong>e endliche Kandidatenmenge für (TLAD)<br />

Partitionierungs-Problem. F<strong>in</strong>de zu gegebenen Zahlen c 1 , . . . , c n ∈ Z e<strong>in</strong>e Indexmenge<br />

I ⊂ {1, . . . , n}, so dass<br />

∑<br />

c i = ∑ c i .<br />

i∈I i/∈I<br />

<strong>Die</strong>ses Problem ist nach Karp [14] NP-vollständig.<br />

Lemma 3.14. Das Problem, für gerades n und zu gegebenen Zahlen x 1 , . . . , x n ∈ R<br />

Indexmengen I 1 , I 2 ⊂ {1, . . . , n} zu nden mit |I 1 | = |I 2 | = n/2, I 1 ∩ I 2 = ∅ und<br />

∑<br />

i∈I 1<br />

x i = ∑ i∈I 2<br />

x i ,<br />

ist NP-vollständig bezüglich <strong>der</strong> E<strong>in</strong>gabegröÿe n.<br />

Beweis. Angenommen, man könnte das Problem doch <strong>in</strong> polynomialer Zeit p(n) lösen.<br />

Dann könnte man das gleiche Problem für die Zahlen x 1 , . . . , x n , x n+1 , . . . , x 2n auch <strong>in</strong><br />

polynomialer Zeit lösen, da auch p(2n) e<strong>in</strong> Polynom <strong>in</strong> n ist. Wähle dann x 1 , . . . , x n ∈ Z<br />

beliebig und x n+1 = . . . = x 2n = 0. Seien I 1 , I 2 die Indexmengen, die das Problem für<br />

die 2n, mit Nullen ergänzten Zahlen lösen. Setze dann I = {i ∈ I 1 : i ≤ n}. So hat man<br />

wegen<br />

∑<br />

i∈I<br />

x i = ∑ i∈I 1<br />

i≤n<br />

x i = ∑ i∈I 1<br />

x i = ∑ i∈I 2<br />

x i = ∑ i∈I 2<br />

i≤n<br />

x i = ∑ i/∈I<br />

e<strong>in</strong>e Lösung des Partitionierungs-Problems gefunden. <strong>Die</strong>s ist <strong>in</strong> polynomieller Zeit p(2n)<br />

geschehen, was e<strong>in</strong> Wi<strong>der</strong>spruch zur NP-Vollständigkeit dieses Problems ist.<br />

x i<br />

Das nächste Lemma liefert die Aussage, dass es e<strong>in</strong>e für (LAD) optimale Gerade gibt,<br />

die durch m<strong>in</strong>destens zwei <strong>der</strong> gegebenen Punkte verläuft. Damit lässt sich die Geradenplatzierung<br />

durch e<strong>in</strong>e endliche Kandidatenmenge auf e<strong>in</strong> komb<strong>in</strong>atorisches Optimierungsproblem<br />

reduzieren [30]. <strong>Die</strong>se Eigenschaft wird <strong>in</strong> 3.16 und Satz 4.7 noch auf die<br />

Geradenplatzierung mit Ausreiÿern und die Platzierung mehrerer Geraden mit Ausreiÿern<br />

verallgeme<strong>in</strong>ert.<br />

Lemma 3.15 (weak <strong>in</strong>cidence property für (LAD), [30]). Seien z 1 , . . . , z n ∈ R 2 gegeben,<br />

so dass es darunter m<strong>in</strong>destens zwei Punkte mit verschiedenen x-Koord<strong>in</strong>aten gibt. Dann<br />

enthält die Menge<br />

L = {l = l(β 0 , β 1 ) : d v (l, z i1 ) = d v (l, z i2 ) = 0, i 1 ≠ i 2 , i 1 , i 2 ∈ {1, . . . , n}}<br />

e<strong>in</strong>e optimale Lösung von (LAD). Das heiÿt, es gibt e<strong>in</strong>e optimale Gerade für (LAD),<br />

die durch m<strong>in</strong>destens zwei <strong>der</strong> gegebenen Punkte verläuft.<br />

47


3.3 E<strong>in</strong>e endliche Kandidatenmenge für (TLAD)<br />

<strong>Die</strong>se Eigenschaft gilt nicht nur für die Geradenplatzierung, die <strong>der</strong> Entfernungsmessung<br />

die vertikalen Abstände zugrunde legt, son<strong>der</strong>n nach Schöbel [30] auch für allgeme<strong>in</strong>e<br />

norm<strong>in</strong>duzierte Abstände und <strong>in</strong> höheren Dimensionen. Formal heiÿt das, dass es für das<br />

Problem, e<strong>in</strong>e Hyperebene H ⊂ R p so zu platzieren, dass die Summe <strong>der</strong> Abstände<br />

n∑<br />

d(z i , H) =<br />

i=1<br />

n∑<br />

i=1<br />

m<strong>in</strong> ‖z i − z‖ (3.19)<br />

z∈H<br />

zu gegebenen Punkten z 1 , . . . , z n ∈ R p bei Vorgabe e<strong>in</strong>er beliebigen Norm ‖ · ‖ m<strong>in</strong>imiert<br />

wird, immer e<strong>in</strong>e optimale Hyperebene gibt, die durch e<strong>in</strong>e p-elementige, an unabhängige<br />

Teilmenge <strong>der</strong> gegebenen Punkte verläuft. <strong>Die</strong>se Eigenschaft gilt auch, wenn <strong>der</strong><br />

Abstand e<strong>in</strong> gerichteter Abstand <strong>der</strong> Form<br />

d t (z, H) = m<strong>in</strong><br />

λ<br />

{|λ| : z + λt ∈ H} (3.20)<br />

mit e<strong>in</strong>em t ∈ R p ist [30]. Der hier behandelte vertikale Abstand ist e<strong>in</strong> Spezialfall dieser<br />

Abstände mit p = 2 und t = (0, 1) t .<br />

Weiterh<strong>in</strong> erfüllen alle optimalen Hyperebenen, die bezüglich <strong>der</strong> hier genannten Entfernungen<br />

platziert werden, die pseudo-halv<strong>in</strong>g property:<br />

∑<br />

i:z i ∈H + 1 ≤ n 2<br />

und<br />

∑<br />

i:z i ∈H − 1 ≤ n 2 ,<br />

wobei H + <strong>der</strong> Teil des R p ist, <strong>der</strong> über H liegt, H − <strong>der</strong> darunter liegende. Falls zusätzlich<br />

jedem Punkt z i e<strong>in</strong> Gewicht w i zugeordnet ist, wird diese Eigenschaft zu<br />

∑<br />

i:z i ∈H + w i ≤ n 2<br />

und<br />

∑<br />

i:z i ∈H − w i ≤ n 2 .<br />

Es ist anzumerken, dass die üblicherweise <strong>in</strong> <strong>der</strong> Regression verwendeten quadratischen<br />

Residuen <strong>in</strong> ke<strong>in</strong>e <strong>der</strong> hier angegeben Klassen von Entfernungsmaÿen fallen und tatsächlich<br />

gilt dort we<strong>der</strong> die weak <strong>in</strong>cidence noch die pseudo-halv<strong>in</strong>g Eigenschaft.<br />

<strong>Die</strong> weak <strong>in</strong>cidence property lässt sich auf das TLAD-Problem verallgeme<strong>in</strong>ern, <strong>in</strong>dem<br />

man zeigt, dass e<strong>in</strong>e optimale Lösung (l opt , I opt ) e<strong>in</strong>es (TLAD) zu Punkten z 1 , . . . , z n<br />

e<strong>in</strong>er optimalen Lösung l opt des (LAD) zu den Punkten z i , i ∈ I opt entspricht. Daher gilt<br />

sie nicht nur für die <strong>absoluten</strong> <strong>Abweichungen</strong>, son<strong>der</strong>n auch für die oben angegebenen<br />

Abstände, denn <strong>der</strong> Beweis verwendet im Wesentlichen Lemma 3.15, das ja auch für<br />

Abstände wie <strong>in</strong> (3.19) und (3.20) gilt.<br />

49


3 Platzierung e<strong>in</strong>er Geraden<br />

Satz 3.16 (weak <strong>in</strong>cidence property für (TLAD)). Seien z 1 , . . . , z n ∈ R 2 gegeben, so<br />

dass darunter ke<strong>in</strong>e m Punkte mit gleicher x-Koord<strong>in</strong>ate s<strong>in</strong>d für e<strong>in</strong> gegebenes m mit<br />

2 ≤ m ≤ n. Dann enthält die Menge<br />

L = {l = l(β 0 , β 1 ) : d v (l, z i1 ) = d v (l, z i2 ) = 0, i 1 ≠ i 2 , i 1 , i 2 ∈ {1, . . . , n}}<br />

e<strong>in</strong>e optimale Lösung von (TLAD), das heiÿt, es gibt e<strong>in</strong>e optimale Gerade für (TLAD),<br />

die durch m<strong>in</strong>destens zwei <strong>der</strong> gegebenen Punkte verläuft.<br />

Beweis. Nach Lemma 3.5 gibt es e<strong>in</strong>e optimale Lösung (l opt , I opt ) von (TLAD). Damit<br />

muss l opt e<strong>in</strong>e optimale Lösung des Programms<br />

∑<br />

(LAD(I opt )) m<strong>in</strong> d v (z i , l(β 0 , β 1 ))<br />

(β 0 ,β 1 )∈R 2 i∈I opt<br />

se<strong>in</strong>, denn wäre l ′ e<strong>in</strong>e optimale Lösung von (LAD(I opt )) mit<br />

∑<br />

d v (z i , l ′ ) < ∑<br />

d v (z i , l opt ),<br />

i∈I opt i∈I opt<br />

dann wäre (l ′ , I opt ) e<strong>in</strong>e bessere Lösung für (TLAD) im Wi<strong>der</strong>spruch zur Optimalität<br />

von (l opt , I opt ). Aber (LAD(I opt )) ist e<strong>in</strong> (LAD)-Programm für die Punkte z i , i ∈ I opt .<br />

Von diesen Punkten haben m<strong>in</strong>destens zwei e<strong>in</strong>e unterschiedliche x-Koord<strong>in</strong>ate, denn<br />

sonst wären alle x i , i ∈ I opt gleich und es gäbe im Wi<strong>der</strong>spruch zur Voraussetzung m<br />

Punkte mit gleicher x-Koord<strong>in</strong>ate unter den z 1 , . . . , z n . Nach Lemma 3.15 enthält L e<strong>in</strong>e<br />

optimale Lösung l opt<br />

0 von (LAD(I opt )). Für diese Lösung gilt<br />

∑<br />

d v (z i , l opt<br />

0 ) = ∑<br />

d v (z i , l opt )<br />

i∈I opt i∈I opt<br />

und damit ist (l opt<br />

0 , I opt ) auch e<strong>in</strong>e optimale Lösung von (TLAD).<br />

Mit dieser Aussage kann e<strong>in</strong>e Lösung von (TLAD) bestimmt werden, <strong>in</strong>dem aus den<br />

vorgegebenen Punkten z 1 , . . . , z n alle ( n<br />

2)<br />

= O(n 2 ) Paare von Punkten bestimmt werden<br />

und die Zielfunktionswerte <strong>der</strong> dadurch bestimmten Geraden ausgewertet werden. Für<br />

das Auswerten des Zielfunktionswerts für jedes Paar von Punkten ist erstens die Berechnung<br />

<strong>der</strong> Abstände aller Punkte von <strong>der</strong> zugehörigen Gerade <strong>in</strong> e<strong>in</strong>er Zeit von O(n)<br />

nötig und zweitens die Bestimmung <strong>der</strong> m <strong>kle<strong>in</strong>sten</strong> Abstände durch e<strong>in</strong>e Sortierung <strong>der</strong><br />

n Abstände. <strong>Die</strong> Sortierung benötigt e<strong>in</strong>e Zeit von O(n log n) [10]. <strong>Die</strong> Auswertung <strong>der</strong><br />

Zielfunktion geschieht also O(n 2 ) mal <strong>in</strong> e<strong>in</strong>er Zeit von O(n log n), so dass sich <strong>in</strong>sgesamt<br />

e<strong>in</strong>e Zeitkomplexität von O(n 3 log n) zur Bestimmung aller möglichen Zielfunktionswerte<br />

50


3.3 E<strong>in</strong>e endliche Kandidatenmenge für (TLAD)<br />

ergibt. <strong>Die</strong> Bestimmung des <strong>kle<strong>in</strong>sten</strong> Wertes <strong>in</strong> O(n 2 ) lässt die Zeitkomplexität unverän<strong>der</strong>t.<br />

Auÿerdem kann man aus Satz 3.16 e<strong>in</strong> kompaktes Gebiet Q ⊂ R 2 bestimmen, <strong>in</strong> dem<br />

die Geradenparameter (β 0 , β 1 ) liegen müssen, wenn man nur an e<strong>in</strong>er optimalen Lösung<br />

<strong>in</strong>teressiert ist und nicht unbed<strong>in</strong>gt an allen. Zuerst schränken wir die Steigung β 1 auf<br />

e<strong>in</strong> Kompaktum Q 1 e<strong>in</strong>. Da es e<strong>in</strong>e optimale Lösung l gibt, die durch zwei <strong>der</strong> gegebenen<br />

Punkte, z i und z j , verläuft, ist die Steigung dieser Lösung β 1 = y j−y i<br />

x j −x i<br />

. Daher könnte man<br />

β 1 s<strong>in</strong>nvoll e<strong>in</strong>schränken auf<br />

[<br />

β 1 ∈<br />

m<strong>in</strong><br />

i,j=1,...,n<br />

y j − y i<br />

x j − x i<br />

, max<br />

i,j=1,...,n<br />

]<br />

y j − y i<br />

=: [q<br />

x j − x 1<br />

, q 1 ] =: Q 1 . (3.21)<br />

i<br />

<strong>Die</strong> Berechnung dieser Schranken benötigt oenbar e<strong>in</strong>e Zeit von O(n 2 ), da M<strong>in</strong>imum<br />

und Maximum über zwei Indizes von 1 bis n gebildet werden müssen.<br />

Nun muss noch β 0 auf e<strong>in</strong> Kompaktum Q 0 beschränkt werden. Wir nutzen wie<strong>der</strong> aus,<br />

dass es e<strong>in</strong>e optimale Gerade l = l(β 0 , β 1 ) gibt, die durch e<strong>in</strong>en Punkt z i verläuft, also<br />

y i = β 0 +β 1 x i . Bei bekannter Steigung β 1 dieser Geraden ergibt sich <strong>der</strong> Achsenabschnitt<br />

zu β 0 = y i − β 1 x i . Wir hatten aber durch Q 1 die Steigung schon beschränkt. Also ist <strong>der</strong><br />

kle<strong>in</strong>stmögliche Achsenabschnitt<br />

m<strong>in</strong> y i − β 1 x i<br />

i=1,...,n<br />

≥ m<strong>in</strong> i − max<br />

i=1,...,n<br />

β 1 ∈Q 1<br />

i=1,...,n<br />

β 1 ∈Q 1<br />

β 1 x i<br />

= y m<strong>in</strong> − max<br />

q=q 1<br />

,q 1<br />

{q · x m<strong>in</strong> , q · x max } =: q 0<br />

. (3.22)<br />

In analoger Weise lässt sich auch q 0 bestimmen. <strong>Die</strong>se Schranken können oenbar <strong>in</strong><br />

l<strong>in</strong>earer Zeit bestimmt werden, so dass man nun die Geradenparameter <strong>in</strong> e<strong>in</strong>er Zeit von<br />

O(n 2 ) auf e<strong>in</strong> Kompaktum Q = Q 0 × Q 1 beschränken kann.<br />

51


4 Platzierung mehrerer Geraden<br />

4.1 Problemstellung<br />

E<strong>in</strong>e natürliche Erweiterung <strong>der</strong> Fragestellung aus dem vorigen Kapitel ist die Platzierung<br />

mehrerer Geraden zur Beschreibung <strong>der</strong> gegebenen Punkte. Das Problem besteht hier<br />

also dar<strong>in</strong>, die Punkte z 1 , . . . , z n durch K ∈ N Geraden l 1 , . . . , l K anzunähern, wobei<br />

wie schon bei <strong>der</strong> Platzierung e<strong>in</strong>er Geraden nur die m Punkte berücksichtigt werden<br />

sollen, die den optimalen Geraden am nächsten s<strong>in</strong>d. Es soll hierbei e<strong>in</strong> Punkt z i als gut<br />

angenähert bezeichnet werden, wenn er von e<strong>in</strong>er <strong>der</strong> Geraden l k e<strong>in</strong>en kle<strong>in</strong>en Abstand<br />

hat, also d v (z i , l k ) kle<strong>in</strong> ist. <strong>Die</strong> Abstände dieses Punktes von den an<strong>der</strong>en Geraden s<strong>in</strong>d<br />

dann nicht mehr von Belang, <strong>der</strong> Punkt wird also <strong>der</strong> Geraden fest zugeordnet, die ihn<br />

am besten approximiert. Man kann daher mit<br />

m<strong>in</strong> d v(z i , l k )<br />

k=1,...,K<br />

den Abstand des Punktes z i von den Geraden l 1 , . . . , l K bezeichnen. <strong>Die</strong> Geraden s<strong>in</strong>d<br />

dann so zu bestimmen, dass die Summe dieser Abstände für alle m relevanten Punkte<br />

m<strong>in</strong>imal wird. Als mathematisches Programm erhält man<br />

m<strong>in</strong><br />

l 1 ,...,l K<br />

Geraden im R 2<br />

m ∑<br />

i=1<br />

m<strong>in</strong> d v(z (i) , l k ) (4.1)<br />

k=1,...,K<br />

mit e<strong>in</strong>er Permutation (·), die analog zu (3.1) zu wählen ist und von den Geraden<br />

l 1 , . . . , l K abhängt:<br />

m<strong>in</strong> d v(z (1) , l k ) ≤ . . . ≤ m<strong>in</strong> d v(z (n) , l k ) (4.2)<br />

k=1,...,K k=1,...,K<br />

Das lässt sich wie <strong>in</strong> (3.3) auch wie<strong>der</strong> komb<strong>in</strong>atorisch formulieren:<br />

∑<br />

m<strong>in</strong><br />

l 1 ,...,l K<br />

Geraden im R 2<br />

i∈I<br />

m<strong>in</strong><br />

I⊂{1,...,n}<br />

|I|=m<br />

m<strong>in</strong> d v(z i , l k ) (4.3)<br />

k=1,...,K<br />

Es ist klar, dass die Punkte immer besser beschrieben werden können, je mehr Geraden<br />

verwendet werden. Im Extremfall kann man K = ⌈m/2⌉ Geraden platzieren und e<strong>in</strong>e<br />

52


4.2 NP-Vollständigkeit <strong>der</strong> Geradenplatzierung<br />

Gerade durch je zwei Punkte legen (Für ungerade m ist die letzte Gerade dann nicht<br />

e<strong>in</strong>deutig bestimmt, da sie nur durch e<strong>in</strong>en Punkt verlaufen muss). Für diese Geraden<br />

wäre <strong>der</strong> Zielfunktionswert gleich Null und damit wären sie optimal.<br />

<strong>Die</strong>ses Programm erhält also als E<strong>in</strong>gangsdaten Punkte z 1 , . . . , z n , e<strong>in</strong>e Anzahl m mit<br />

0 < m ≤ n von Punkten, die dem Modell folgen, und e<strong>in</strong>e Anzahl K von Geraden, die<br />

zur Modellierung verwendet werden sollen. K sollte kle<strong>in</strong>er als ⌈m/2⌉ se<strong>in</strong>, damit das<br />

Programm nicht trivial wird. E<strong>in</strong>e Lösung des Programms besteht aus Geraden l 1 , . . . , l k<br />

und Indexmengen I 1 , . . . , I K , wobei i ∈ I k nur, wenn<br />

d v (z i , l k ) =<br />

m<strong>in</strong> d v(z i , l k ′).<br />

k ′ =1,...,K<br />

Sollte das M<strong>in</strong>imum für mehrere Indizes angenommen werden, wird i nur e<strong>in</strong>er <strong>der</strong> Indexmengen<br />

zugeordnet, so dass diese disjunkt s<strong>in</strong>d. <strong>Die</strong>se Zuordnung kann willkürlich<br />

geschehen. Auÿerdem sollen die Indexmengen ke<strong>in</strong>e Ausreiÿer enthalten, also nur Indizes<br />

i mit (i) ≤ m <strong>in</strong> (4.2) werden aufgenommen, d. h. |I 1 ∪. . .∪I K | = m und alle Punkte, die<br />

<strong>in</strong> ke<strong>in</strong>er dieser Mengen enthalten s<strong>in</strong>d, werden als Ausreiÿer betrachtet. Bei Mehrdeutigkeit<br />

kann auch hier die Auswahl willkürlich geschehen. E<strong>in</strong>e solche Lösung notieren<br />

wir als (l 1 , I 1 , . . . , l K , I K ). Hier muss man sich klarmachen, dass die Indexmengen ke<strong>in</strong>e<br />

freien Parameter s<strong>in</strong>d, wie es auf den ersten Blick sche<strong>in</strong>en könnte, denn die Wahl<br />

<strong>der</strong> Geraden legt die Indexmengen schon fest, zum<strong>in</strong>dest bis auf die oben erwähnten<br />

Une<strong>in</strong>deutigkeiten.<br />

Als Erstes soll das Problem wie<strong>der</strong> auf nicht-vertikale Geraden e<strong>in</strong>geschränkt werden,<br />

um für die l<strong>in</strong>eare Regression mit latenten Klassen von Nutzen zu se<strong>in</strong>. Dann wird das<br />

Problem aus (4.1) zu<br />

o<strong>der</strong> zu<br />

(K-TLAD)<br />

(K-TLAD)<br />

∑<br />

m<br />

m<strong>in</strong><br />

(β 01 ,β 11 ),...,(β 0K ,β 1K )∈R 2 i=1<br />

m<strong>in</strong><br />

m<strong>in</strong><br />

(β 01 ,β 11 ),...,(β 0K ,β 1K )∈R 2 I⊂{1,...,n}<br />

|I|=m<br />

m<strong>in</strong> d v(z (i) , l(β 0k , β 1k )) (4.4)<br />

k=1,...,K<br />

∑<br />

i∈I<br />

m<strong>in</strong> d v(z i , l(β 0k , β 1k )).<br />

k=1,...,K<br />

(4.5)<br />

4.2 NP-Vollständigkeit <strong>der</strong> Geradenplatzierung<br />

Bevor weitere Eigenschaften des K-TLAD-Problems untersucht werden, soll zunächst<br />

gezeigt werden, dass e<strong>in</strong>e algorithmische Lösung sehr aufwendig ist. Dazu wird die NP-<br />

Vollständigkeit von (K-TLAD) nachgewiesen, <strong>in</strong>dem es auf e<strong>in</strong>e leicht abgewandelte Form<br />

53


4 Platzierung mehrerer Geraden<br />

des po<strong>in</strong>t cover<strong>in</strong>g Problems aus Megiddo und Tamir [23] reduziert wird. Unter dem<br />

Gesichtspunkt <strong>der</strong> NP-Vollständigkeit des Problems ersche<strong>in</strong>t auch die Komplexität des<br />

<strong>in</strong> Abschnitt 4.4 angegeben Lösungsverfahren <strong>in</strong> e<strong>in</strong>em an<strong>der</strong>en Licht: Trotz <strong>der</strong> langen<br />

Laufzeit des Verfahrens wirft die NP-Vollständigkeit des Problems die berechtigte Frage<br />

auf, ob es überhaupt deutlich schnellere Algorithmen gibt unter <strong>der</strong> Annahme P ≠<br />

N P.<br />

Wir beg<strong>in</strong>nen mit <strong>der</strong> Angabe des ursprünglichen po<strong>in</strong>t cover<strong>in</strong>g Problems und e<strong>in</strong>er<br />

direkten Folgerung für das Problem aus 4.1.<br />

Das po<strong>in</strong>t cover<strong>in</strong>g Problem (PC). Seien Punkte z 1 = (x 1 , y 1 ), . . . , z n = (x n , y n ) <strong>in</strong><br />

<strong>der</strong> Ebene gegeben und e<strong>in</strong>e Zahl K. Entscheide, ob es K Geraden gibt, so dass diese die<br />

gegebenen Punkte überdecken. Das heiÿt, je<strong>der</strong> <strong>der</strong> Punkte muss m<strong>in</strong>destens auf e<strong>in</strong>er<br />

<strong>der</strong> Geraden liegen.<br />

Satz 4.1 (NP-Vollständigkeit des po<strong>in</strong>t cover<strong>in</strong>g Problems, [23]). Das po<strong>in</strong>t cover<strong>in</strong>g<br />

Problem (PC) ist NP-vollständig bezüglich <strong>der</strong> E<strong>in</strong>gabegröÿe K.<br />

<strong>Die</strong> NP-Vollständigkeit wurde <strong>in</strong> [23] sogar für rationale Punkte x i , y i gezeigt. Damit<br />

ist das Problem (4.1) bzw. (4.3) NP-vollständig, denn wenn es <strong>in</strong> polynomieller Zeit<br />

lösbar wäre, könnte man <strong>in</strong> dieser Zeit ermitteln, ob dessen Zielfunktionswert verschw<strong>in</strong>det<br />

o<strong>der</strong> gröÿer als Null ist. Im ersten Fall hat man K Geraden gefunden, so dass<br />

m<strong>in</strong> k=1,...,K d v (z i , l k ) = 0 für alle i = 1, . . . , n, also liegt je<strong>der</strong> Punkt auf m<strong>in</strong>destens<br />

e<strong>in</strong>er <strong>der</strong> Geraden. Im zweiten Fall h<strong>in</strong>gegen muss es m<strong>in</strong>destens e<strong>in</strong>en Punkt z i geben,<br />

für den m<strong>in</strong> k=1,...,K d v (z i , l k ) > 0 gilt. Damit ist das Entscheidungsproblem gelöst.<br />

Allerd<strong>in</strong>gs ist (K-TLAD) e<strong>in</strong> Spezialfall von (4.1), so dass dessen NP-Vollständigkeit noch<br />

nicht direkt gefolgert werden kann. Dazu benötigen wir zuerst e<strong>in</strong>e Folgerung aus Satz<br />

4.1, die das po<strong>in</strong>t cover<strong>in</strong>g Problem e<strong>in</strong>schränkt, aber die NP-Vollständigkeit erhält.<br />

Das e<strong>in</strong>geschränkte po<strong>in</strong>t cover<strong>in</strong>g Problem (PC'). Seien Punkte z 1 = (x 1 , y 1 ), . . . ,<br />

z n = (x n , y n ) <strong>in</strong> <strong>der</strong> Ebene gegeben und e<strong>in</strong>e Zahl K. Entscheide, ob es K nicht-vertikale<br />

Geraden gibt, so dass diese die gegebenen Punkte überdecken. Das heiÿt, je<strong>der</strong> <strong>der</strong> Punkte<br />

muss m<strong>in</strong>destens auf e<strong>in</strong>er <strong>der</strong> Geraden liegen.<br />

Korollar 4.2 (NP-Vollständigkeit des e<strong>in</strong>geschränkten po<strong>in</strong>t cover<strong>in</strong>g Problems). Das<br />

e<strong>in</strong>geschränkte po<strong>in</strong>t cover<strong>in</strong>g Problem (PC') ist NP-vollständig bezüglich <strong>der</strong> E<strong>in</strong>gabegröÿe<br />

K.<br />

Beweis. Wir nehmen an, das auf nicht-vertikale Geraden beschränkte po<strong>in</strong>t cover<strong>in</strong>g<br />

54


4.2 NP-Vollständigkeit <strong>der</strong> Geradenplatzierung<br />

Problem wäre <strong>in</strong> polynomieller Zeit p(K) lösbar, und erzeugen e<strong>in</strong>en Wi<strong>der</strong>spruch durch<br />

polynomielle Reduktion wie <strong>in</strong> Lemma 3.14.<br />

Zunächst wählt man K + 1 paarweise verschiedene W<strong>in</strong>kel ϕ ′ 1 , . . . , ϕ′ K+1<br />

∈ [0, π]. Dann<br />

sei T ϕ e<strong>in</strong>e Drehung <strong>der</strong> Ebene um ϕ. Löse dann die K + 1 po<strong>in</strong>t cover<strong>in</strong>g Probleme mit<br />

E<strong>in</strong>schränkung auf nicht-vertikale Geraden für jeweils die Punkte<br />

T −ϕ ′<br />

k<br />

(z 1 ), . . . , T −ϕ ′<br />

k<br />

(z n )<br />

<strong>in</strong> jeweils polynomieller Zeit p(K), also <strong>in</strong>sgesamt <strong>in</strong> polynomieller Zeit (K + 1)p(K).<br />

Jetzt können zwei Fälle auftreten.<br />

Fall 1. Bei m<strong>in</strong>destens e<strong>in</strong>em <strong>der</strong> transformierten Probleme ohne E<strong>in</strong>schränkung bei<br />

dem mit <strong>der</strong> Transformation T −ϕ ′<br />

1<br />

gibt es K Geraden l 1 , . . . , l K , so dass je<strong>der</strong> <strong>der</strong><br />

transformierten Punkte auf m<strong>in</strong>destens e<strong>in</strong>er dieser Geraden liegt. Dann liegt auch je<strong>der</strong><br />

<strong>der</strong> zurücktransformierten Punkte z i = T ϕ ′<br />

1<br />

(T −ϕ ′<br />

1<br />

(z i )), i = 1, . . . , n auf m<strong>in</strong>destens e<strong>in</strong>er<br />

<strong>der</strong> Geraden T ϕ ′<br />

1<br />

(l 1 ), . . . , T ϕ ′<br />

1<br />

(l K ), da Drehungen den euklidischen Abstand erhalten. Das<br />

ursprüngliche po<strong>in</strong>t cover<strong>in</strong>g Problem ist positiv beantwortet.<br />

Fall 2. Bei ke<strong>in</strong>em <strong>der</strong> transformierten Probleme gibt es K Geraden, so dass je<strong>der</strong> <strong>der</strong><br />

transformierten Punkte auf m<strong>in</strong>destens e<strong>in</strong>er <strong>der</strong> Geraden liegt. Angenommen, das ursprüngliche<br />

po<strong>in</strong>t cover<strong>in</strong>g Problem hätte aber K solche überdeckenden Geraden l 1 , . . . ,<br />

l K . Dann bildet jede dieser Geraden genau e<strong>in</strong>en W<strong>in</strong>kel mit <strong>der</strong> y-Achse im mathematisch<br />

positiven S<strong>in</strong>ne gemessen. Also bilden die K Geraden höchstens K verschiedene<br />

solche W<strong>in</strong>kel ϕ 1 , . . . , ϕ K , da sie auch parallel se<strong>in</strong> können. <strong>Die</strong> W<strong>in</strong>kel liegen alle <strong>in</strong> [0, π].<br />

Jetzt gilt aber ϕ ′ k 0 ≠ ϕ k für alle k = 1, . . . , K und e<strong>in</strong>en festen Index k 0 ∈ {1, . . . , K +1}.<br />

Das hieÿe aber, dass alle Geraden T −ϕk0 (l 1 ), . . . , T −ϕk0 (l K ) nicht-vertikal s<strong>in</strong>d und die<br />

Punkte T −ϕk0 (z 1 ), . . . , T −ϕk0 (z n ) überdecken. Das ist e<strong>in</strong> Wi<strong>der</strong>spruch und das ursprüngliche<br />

po<strong>in</strong>t cover<strong>in</strong>g Problem ist negativ beantwortet.<br />

Da die Transformation <strong>der</strong> Punkte <strong>in</strong> konstanter Zeit bezüglich K möglich ist, könnte<br />

man so das po<strong>in</strong>t cover<strong>in</strong>g Problem <strong>in</strong> polynomieller Zeit lösen, wenn man das po<strong>in</strong>t<br />

cover<strong>in</strong>g Problem mit E<strong>in</strong>schränkung auf nicht-vertikale Geraden <strong>in</strong> polynomieller Zeit<br />

lösen könnte. Das ist e<strong>in</strong> Wi<strong>der</strong>spruch zur NP-Vollständigkeit des po<strong>in</strong>t cover<strong>in</strong>g Problems<br />

nach Satz 4.1.<br />

Bemerkung 4.3. Der Beweis funktioniert auch, wenn man nicht die vertikalen Geraden<br />

ausschlieÿt, son<strong>der</strong>n zum Beispiel die horizontalen. Dann s<strong>in</strong>d lediglich die W<strong>in</strong>kel<br />

ϕ 1 , . . . , ϕ K an<strong>der</strong>s. <strong>Die</strong>selbe Beweisidee führt ebenso zum Ziel, wenn man alle Geraden,<br />

die e<strong>in</strong>en bestimmten W<strong>in</strong>kel mit <strong>der</strong> x-Achse bilden, verbietet.<br />

Man kann sogar e<strong>in</strong>e feste Anzahl W von W<strong>in</strong>keln ˜ϕ 1 , . . . , ˜ϕ W vorgeben und verlangen,<br />

55


4 Platzierung mehrerer Geraden<br />

dass Geraden, die diesen W<strong>in</strong>kel mit <strong>der</strong> x-Achse bilden, nicht zum Überdecken verwendet<br />

werden dürfen. Dann muss man nicht K + 1 transformierte Probleme lösen, son<strong>der</strong>n<br />

W K +1. Wenn man auch W = 0 als leere Bed<strong>in</strong>gung an die Steigungsw<strong>in</strong>kel <strong>der</strong> Geraden<br />

zulässt, kann man das po<strong>in</strong>t cover<strong>in</strong>g Problem sehr allgeme<strong>in</strong> formulieren.<br />

Das allgeme<strong>in</strong>e po<strong>in</strong>t cover<strong>in</strong>g Problem (PC). Seien Punkte z 1 = (x 1 , y 1 ), . . . ,<br />

z n = (x n , y n ) <strong>in</strong> <strong>der</strong> Ebene gegeben und e<strong>in</strong>e Zahl K. Entscheide, ob es K Geraden<br />

gibt, so dass diese die gegebenen Punkte überdecken. Das heiÿt, je<strong>der</strong> <strong>der</strong> Punkte muss<br />

m<strong>in</strong>destens auf e<strong>in</strong>er <strong>der</strong> Geraden liegen. Dabei darf ke<strong>in</strong>e <strong>der</strong> Geraden e<strong>in</strong>en W<strong>in</strong>kel<br />

ϕ 1 , . . . , ϕ W mit <strong>der</strong> x-Achse bilden (gemessen im mathematisch positiven S<strong>in</strong>ne).<br />

Damit hat man wie oben unmittelbar die NP-Vollständigkeit e<strong>in</strong>er ganzen Klasse von<br />

Geradenplatzierungsproblemen.<br />

Satz 4.4 (NP-Vollständigkeit <strong>der</strong> Geradenplatzierung). Seien Punkte z 1 = (x 1 , y 1 ), . . . ,<br />

z n = (x n , y n ) <strong>in</strong> <strong>der</strong> Ebene und zwei Zahlen K und m gegeben. Auÿerdem seien W<br />

W<strong>in</strong>kel ˜ϕ 1 , . . . , ˜ϕ W gegeben und d e<strong>in</strong>e Abstandsfunktion, die den Abstand d(z, l) von<br />

e<strong>in</strong>em Punkt z zu e<strong>in</strong>er Geraden l angibt. d erfülle<br />

1. d(z, l) ≥ 0<br />

2. d(z, l) = 0 ⇔ z ∈ l<br />

für alle Punkte z und Geraden l <strong>in</strong> <strong>der</strong> Ebene. Dann ist das Problem, K Geraden l 1 , . . . , l K<br />

zu nden, die die Zielfunktion<br />

∑<br />

m<strong>in</strong> d(z i, l k ) (4.6)<br />

k=1,...,K<br />

m<strong>in</strong><br />

I⊂{1,...,n}<br />

|I|=m<br />

i∈I<br />

m<strong>in</strong>imieren, sodass ke<strong>in</strong>e <strong>der</strong> Geraden e<strong>in</strong>en W<strong>in</strong>kel ˜ϕ 1 , . . . , ˜ϕ W mit <strong>der</strong> x-Achse bildet,<br />

NP-vollständig <strong>in</strong> Bezug auf die E<strong>in</strong>gabegröÿe K. <strong>Die</strong>s gilt auch, wenn W = 0, also ke<strong>in</strong><br />

W<strong>in</strong>kel verboten ist.<br />

Beweis. Wir betrachten nur den Spezialfall m = n und daraus folgt die NP-Vollständigkeit<br />

des allgeme<strong>in</strong>eren Problems für beliebiges m. Angenommen, das Geradenplatzierungsproblem<br />

wäre nicht NP-vollständig. Dann kann man <strong>in</strong> polynomieller Zeit den optimalen<br />

Zielfunktionswert für (4.6) ermitteln. <strong>Die</strong>ser kann verschw<strong>in</strong>den o<strong>der</strong> gröÿer als<br />

Null se<strong>in</strong> wegen <strong>der</strong> ersten Bed<strong>in</strong>gung an die Abstandsfunktion d.<br />

Fall 1. Angenommen, die Zielfunktion verschw<strong>in</strong>det. Dann liegen wegen <strong>der</strong> zweiten<br />

Bed<strong>in</strong>gung an d alle gegebenen Punkte auf m<strong>in</strong>destens e<strong>in</strong>er <strong>der</strong> optimalen Geraden.<br />

56


4.3 Spezielle Lösungen und Existenzaussagen<br />

Wurden ke<strong>in</strong>e E<strong>in</strong>schränkungen an die Steigungsw<strong>in</strong>kel <strong>der</strong> Geraden gestellt, wäre damit<br />

(PC) positiv beantwortet. Wurden die Steigungsw<strong>in</strong>kel e<strong>in</strong>geschränkt, wurde (PC)<br />

positiv beantwortet.<br />

Fall 2. Wenn <strong>der</strong> Zielfunktionswert echt gröÿer als Null ist, dann muss m<strong>in</strong>destens e<strong>in</strong><br />

Punkt z j unter den gegebenen existieren, <strong>der</strong> m<strong>in</strong> k=1,...,K d(z j , l k ) > 0 für die optimalen<br />

Geraden l 1 , . . . , l K erfüllt. <strong>Die</strong>ser liegt dann auf ke<strong>in</strong>er <strong>der</strong> Geraden wegen <strong>der</strong> zweiten<br />

Bed<strong>in</strong>gung an d. Damit ist (PC) bzw. (PC) negativ beantwortet.<br />

Insgesamt könnte also (PC) bzw. (PC) <strong>in</strong> polynomieller Zeit gelöst werden im Wi<strong>der</strong>spruch<br />

zu <strong>der</strong>en NP-Vollständigkeit nach Satz 4.1 bzw. Korollar 4.2 und Bemerkung<br />

4.3.<br />

Der vertikale Abstand erfüllt natürlich die beiden Bed<strong>in</strong>gungen von Satz 4.4 (siehe dazu<br />

auch Lemma 3.8) und im Fall von (K-TLAD) ist W = 1 und <strong>der</strong> verbotene W<strong>in</strong>kel<br />

ϕ 1 = π/2. Somit ist (K-TLAD) NP-Vollständig. Es ist allerd<strong>in</strong>gs zu bemerken, dass auch<br />

die Verwendung <strong>der</strong> LS-<strong>Methode</strong> mit den quadrierten Resiuden als Abstandsfunktion die<br />

Voraussetzungen des Satzes erfüllt und die latent-class Regression unter ihrer Verwendung<br />

ebenfalls NP-vollständig ist. Damit verliert die LS-<strong>Methode</strong> bei mehreren Geraden<br />

e<strong>in</strong>en ihrer gröÿten Vorzüge, den sie bei <strong>der</strong> Platzierung e<strong>in</strong>er Geraden gegenüber <strong>der</strong><br />

LAD-<strong>Methode</strong> aufweist: ihre Ezienz.<br />

4.3 Spezielle Lösungen und Existenzaussagen<br />

Nachdem wir gezeigt haben, dass aufgrund <strong>der</strong> NP-Vollständigkeit <strong>der</strong> Geradenplatzierung<br />

die Lösung von (K-TLAD) sehr rechen<strong>in</strong>tensiv se<strong>in</strong> wird, suchen wir <strong>in</strong> diesem Abschnitt<br />

nach Bed<strong>in</strong>gungen an die gegebenen Punkte z 1 = (x 1 , y 1 ), . . . , z n = (x n , y n ), die<br />

sicherstellen, dass man guten Gewissens nach nicht-vertikalen Geraden zu <strong>der</strong>en Approximation<br />

suchen kann und so statt des Problems aus (4.1) nach Lösungen von (K-TLAD)<br />

suchen kann. Auÿerdem s<strong>in</strong>d wir an Existenzaussagen zu dem Problem <strong>in</strong>teressiert.<br />

Lemma 4.5. Seien Punkte z 1 , . . . , z n ∈ R 2 , m : 2K ≤ m ≤ n und K ∈ N vorgegeben mit<br />

z i = (x i , y i ) für i = 1, . . . , n. Seien x 1 , . . . , x n paarweise verschieden. Dann lässt sich aus<br />

je<strong>der</strong> Lösung (l 1 , I 1 , . . . , l K , I K ) des Problems <strong>in</strong> (4.1) e<strong>in</strong>e Lösung (l ′ 1 , I′ 1 , . . . , l′ K , I′ K ) mit<br />

gleichem o<strong>der</strong> besserem Zielfunktionswert konstruieren, wobei die Geraden l ′ k = l(β′ 0k , β′ 1k )<br />

nicht-vertikal s<strong>in</strong>d und je<strong>der</strong> Geraden m<strong>in</strong>destens zwei Punkte zugeordnet s<strong>in</strong>d, also |I ′ k | ≥<br />

2 für alle k = 1, . . . , K.<br />

57


4 Platzierung mehrerer Geraden<br />

Beweis. Wir nehmen an, dass es e<strong>in</strong>en Index k 0 gibt, so dass l k0 vertikal ist o<strong>der</strong> I k0 = ∅<br />

o<strong>der</strong> I k0 = {i 0 } für e<strong>in</strong>en Index i 0 , denn sonst ist nichts zu zeigen. Für jeden <strong>der</strong> drei<br />

Fälle geben wir e<strong>in</strong>e Vorschrift an, die l k0 ↦→ l<br />

k ′ 0<br />

bzw. I k0 ↦→ I<br />

k ′ 0<br />

abbildet, so dass für<br />

den Index k 0 <strong>in</strong> <strong>der</strong> neuen Lösung die gewünschten Eigenschaften erzeugt werden, für die<br />

an<strong>der</strong>en Klassen k ∈ {1, . . . , K} \ {k 0 } die gewünschten Eigenschaften erhalten bleiben<br />

und <strong>der</strong> Zielfunktionswert sich nicht verschlechtert.<br />

Falls I k0 = {i 0 }, gibt es k 1 mit |I k1 | ≥ 3, denn sonst wäre |I 1 ∪ . . . ∪ I K | < 2K. Setze<br />

dann I<br />

k ′ 0<br />

:= I k0 ∪ {i 1 } mit e<strong>in</strong>em i 1 ∈ I k1 und I<br />

k ′ 1<br />

:= I k1 \ {i 1 }, so dass |I<br />

k ′ 0<br />

| = 2 und<br />

I<br />

k ′ 1<br />

≥ 2, und wähle l<br />

k ′ 0<br />

als die Gerade, die durch z i0 und z i1 verläuft. Sie ist nicht-vertikal,<br />

da x i0 ≠ x i1 nach Voraussetzung. Setze l<br />

k ′ := l k für alle k auÿer k 0 und I<br />

k ′ := I k für alle<br />

k auÿer k 0 und k 1 . Für die Zielfunktionswerte <strong>der</strong> beiden Lösungen gilt dann<br />

K∑ ∑<br />

k=1<br />

i∈I k<br />

d v (z i , l k ) =<br />

=<br />

≥<br />

=<br />

K∑<br />

∑<br />

k=1<br />

k≠k 0<br />

k≠k 1<br />

K∑<br />

∑<br />

k=1 i∈I k<br />

′ k≠k 0<br />

k≠k 1<br />

K∑<br />

∑<br />

k=1 i∈I k<br />

′ k≠k 0<br />

i∈I k<br />

d v (z i , l k ) + d v (z i0 , l k0 ) + ∑<br />

i∈I k1<br />

i≠i 1<br />

d v (z i , l k1 ) + d v (z i1 , l k1 )<br />

d v (z i , l k ′ ) + ∑<br />

d v (z i , l k ′ 1<br />

) + d v (z i0 , l k0 )<br />

} {{ }<br />

i∈I k ′ 1<br />

d v (z i , l k ′ ) + d v(z i0 , l k ′ 0<br />

)<br />

} {{ }<br />

=0<br />

K∑ ∑<br />

d v (z i , l k ′ ).<br />

k=1 i∈I k<br />

′<br />

≥0<br />

+ d v (z i1 , l ′ k 1<br />

)<br />

} {{ }<br />

=0<br />

+ d v (z i1 , l k1 )<br />

} {{ }<br />

≥0<br />

Falls I k0 = ∅, gibt es k 1 mit |I k1 | ≥ 4 o<strong>der</strong> k 1 und k 2 mit |I k1 | ≥ 3 und |I k1 | ≥ 3, denn<br />

sonst wäre |I 1 ∪. . .∪I K | < 2K. Im ersten Fall setze I<br />

k ′ 0<br />

:= {i 1 , i 2 } mit zwei verschiedenen<br />

Indizes i 1 , i 2 ∈ I k1 und I<br />

k ′ 1<br />

:= I k1 \{i 1 , i 2 }. Im zweiten Fall setze I<br />

k ′ 0<br />

:= {i 1 , i 2 } mit i 1 ∈ I k1<br />

und i 2 ∈ I k2 sowie I<br />

k ′ 1<br />

:= I k1 \ {i 1 } und I<br />

k ′ 2<br />

:= I k2 \ {i 2 }. Setze weiter l<br />

k ′ 0<br />

als die Gerade,<br />

die durch z i1 und z i2 verläuft und damit nicht-vertikal ist. Auÿerdem l<br />

k ′ := l k für alle<br />

k auÿer k 0 und I<br />

k ′ := I k für alle k auÿer k 1 bzw. k 1 und k 2 . Wie im Fall I k0 = {i 0 }<br />

überprüft man, dass die Lösung (l 1 ′ , I′ 1 , . . . , l′ K , I′ K<br />

) ke<strong>in</strong>en schlechteren Zielfunktionswert<br />

hat.<br />

Falls l k0 vertikal ist, gilt d v (z i0 , l k0 ) < ∞ für höchstens e<strong>in</strong> i 0 ∈ {1, . . . , n}, da die x i nach<br />

Voraussetzung paarweise verschieden s<strong>in</strong>d. Damit ist d v (z i , l k0 ) = ∞ für alle an<strong>der</strong>en i.<br />

Verschiebe daher alle i mit i ∈ I k0 und d v (z i , l k0 ) = ∞ <strong>in</strong> e<strong>in</strong>e beliebige Indexmenge I k1 ,<br />

58


4.3 Spezielle Lösungen und Existenzaussagen<br />

k 1 ≠ k 0 , da <strong>in</strong> jedem Fall d v (z i , l k1 ) ≤ ∞ gilt. Gehe dann zum ersten o<strong>der</strong> zweiten Fall.<br />

Jetzt kann man diese drei Vorschriften so lange wie<strong>der</strong>holen, bis man e<strong>in</strong>e Lösung mit<br />

nur nicht-vertikalen Geraden erhält, denen jeweils m<strong>in</strong>destens zwei Punkte zugeordnet<br />

s<strong>in</strong>d.<br />

Durch das Voraussetzen von 2K ≤ m ≤ n und paarweise verschiedenen x-Koord<strong>in</strong>aten<br />

kann also nicht ausgeschlossen werden, dass es e<strong>in</strong>e vertikale Gerade gibt, die <strong>in</strong> e<strong>in</strong>er<br />

optimalen Lösung für (4.1) enthalten ist, allerd<strong>in</strong>gs gibt es im Falle <strong>der</strong> Existenz e<strong>in</strong>er<br />

Optimallösung auch immer e<strong>in</strong>e, die nur nicht-vertikale Geraden enthält. Damit kann<br />

man sich auf das Problem (K-TLAD) aus (4.4) bzw. (4.5) zurückziehen, wenn man nur<br />

irgende<strong>in</strong>e optimale Lösung sucht und nicht alle. Wie schon auf Seite 30 für (TLAD)<br />

argumentiert, stellen diese Voraussetzungen ke<strong>in</strong>e beson<strong>der</strong>s groÿe E<strong>in</strong>schränkung für<br />

die Anwendung des K-TLAD-Problems im Bereich <strong>der</strong> Statistik dar. Bei wählbaren x-<br />

Koord<strong>in</strong>aten können diese paarweise verschieden gesetzt werden, bei zufällig bestimmten<br />

x-Koord<strong>in</strong>aten verschw<strong>in</strong>det die Wahrsche<strong>in</strong>lichkeit zweier gleicher x-Koord<strong>in</strong>ate für stetige<br />

Verteilungen.<br />

Nun müssen wir noch die Existenz e<strong>in</strong>er optimalen Lösung sicherstellen (siehe Lemma<br />

4.6). <strong>Die</strong> Frage <strong>der</strong> Nicht-E<strong>in</strong>deutigkeit konnte ja schon für (TLAD) geklärt werden<br />

(Seite 33) und erübrigt sich somit für (K-TLAD), da es e<strong>in</strong>e Verallgeme<strong>in</strong>erung von<br />

(TLAD) ist.<br />

Lemma 4.6. Für Punkte z 1 , . . . , z n ∈ R 2 mit z i = (x i , y i ) für i = 1, . . . , n und paarweise<br />

verschiedenen x 1 , . . . , x n sowie m mit 2K ≤ m ≤ n hat (K-TLAD) e<strong>in</strong>e optimale Lösung.<br />

Beweis. Wegen Lemma 4.5 können wir uns auf Lösungen (l 1 , I 1 , . . . , l K , I K ) mit l k =<br />

l(β 0k , β 1k ) und |I k | ≥ 2 für alle k = 1, . . . , K beschränken. Sei nun J k für jedes k e<strong>in</strong>e<br />

feste Indexmenge mit m<strong>in</strong>destens zwei Elementen, die die Punkte z j , j ∈ J k <strong>der</strong> Geraden<br />

l k zuordnet. <strong>Die</strong> J k seien paarweise disjunkt und es gelte |J 1 ∪ . . . ∪ J K | = m. Dann gilt<br />

für jedes k und jedes J k<br />

∑<br />

j∈J k<br />

d v (z j , l k ) = ∑ j∈J k<br />

|y j − β 0k − β 1k x j |<br />

≥ |y j1 − β 0k − β 1k x j1 | + |y j2 − β 0k − β 1k x j2 | ‖(β 0k,β 1k )‖ 2 →∞<br />

−−−−−−−−−−→ ∞<br />

für zwei verschiedene Indizes j 1 , j 2 ∈ J k . Aber aus<br />

‖(β 01 , β 11 , . . . , β 0K , β 1K )‖ 2 → ∞<br />

59


4 Platzierung mehrerer Geraden<br />

folgt ‖(β 0¯k, β 1¯k)‖ 2 → ∞ für m<strong>in</strong>destens e<strong>in</strong> ¯k ∈ {1, . . . , K}. Daher gilt<br />

K∑ ∑<br />

d v (z i , l¯k) ‖(β 01,β 11 ,...,β 0K ,β 1K )‖ 2 →∞<br />

−−−−−−−−−−−−−−−−−−→ ∞<br />

d v (z i , l k ) ≥ ∑<br />

k=1 j∈J k j∈J¯k<br />

für jede Zuordnung J 1 , . . . , J K <strong>der</strong> Punkte zu den Geraden. Also kann man die Geradenparameter<br />

(β 01 , β 11 , . . . , β 0K , β 1K ) auf e<strong>in</strong> Kompaktum Q ⊂ R 2K beschränken, da<br />

e<strong>in</strong> M<strong>in</strong>imierungsproblem vorliegt. <strong>Die</strong> Zielfunktion von (K-TLAD) ist als Komposition<br />

stetiger Funktionen (l<strong>in</strong>eare Funktion, Betrag, Sortierung, Bildung e<strong>in</strong>es M<strong>in</strong>imums,<br />

Summe) stetig und nimmt auf Q ihr M<strong>in</strong>imum an.<br />

Wir haben schon gesehen, dass (LAD) e<strong>in</strong>e konvexe Zielfunktion hat und (TLAD) nicht<br />

e<strong>in</strong>mal e<strong>in</strong>e quasikonvexe. Daher hat natürlich auch (K-TLAD) als Verallgeme<strong>in</strong>erung<br />

von (TLAD) ke<strong>in</strong>e quasikonvexe Zielfunktion. Man könnte nun vermuten, dass aber (K-<br />

LAD) als Verallgeme<strong>in</strong>erung von (LAD) noch e<strong>in</strong>e konvexe o<strong>der</strong> zum<strong>in</strong>dest quasikonvexe<br />

Zielfunktion besitzt. Das ist aber im Allgeme<strong>in</strong>en nicht <strong>der</strong> Fall, wie die Betrachtung<br />

des Beispiels aus Abbildung 3.4 zeigt. Sollen nämlich zwei Geraden ohne Trimmen zu<br />

den Punkten aus (3.17) platziert werden, s<strong>in</strong>d die Paare (l 1 , l 2 ) und (l 2 , l 1 ) mit l 1 =<br />

l(−1/2, 1/2), l 2 = l(2, 1/2) und Zielfunktionwert Null optimal für das zugehörige (K-<br />

LAD). Aber (l 3 , l 3 ) mit l 3 = l(3/2, 1/2) ist natürlich ke<strong>in</strong>e optimale Lösung, obwohl<br />

es e<strong>in</strong>e Konvexkomb<strong>in</strong>ation <strong>der</strong> ersten beiden Lösungen ist. Damit kann die Zielfunktion<br />

nicht quasikonvex se<strong>in</strong>. <strong>Die</strong>se Beobachtung steht <strong>in</strong> engem Zusammenhang mit <strong>der</strong> Nicht-<br />

Indentizierbarkeit im statistischen Modell <strong>der</strong> latent-class Regression.<br />

4.4 E<strong>in</strong>e endliche Kandidatenmenge für (K-TLAD)<br />

Nun haben wir alle Mittel beisammen, um die weak <strong>in</strong>cidence property, die wir schon für<br />

(TLAD) <strong>in</strong> Satz 4.7 hatten, auch auf die Platzierung mehrerer Geraden mit (K-TLAD) zu<br />

verallgeme<strong>in</strong>ern. Zuerst zeigen wir, dass für e<strong>in</strong>e optimale Lösung (l opt<br />

1 , I opt<br />

1 , . . . , l opt<br />

K , Iopt K )<br />

von (K-TLAD) jede Gerade l opt<br />

k<br />

e<strong>in</strong>e optimale Lösung von (LAD) für die Punkte z i , i ∈<br />

I opt<br />

k<br />

ist, und wenden dann Lemma 3.15 an.<br />

Satz 4.7 (weak <strong>in</strong>cidence property für (K-TLAD)). Seien Punkte z 1 , . . . , z n ∈ R 2 gegeben<br />

sowie e<strong>in</strong>e Anzahl K ∈ N von Geraden und e<strong>in</strong>e Anzahl m mit 2K ≤ m ≤ n. Dann<br />

enthält die Menge<br />

L = {(l 1 , . . . , l K ) : l k verläuft durch m<strong>in</strong>destens zwei <strong>der</strong><br />

Punkte z 1 , . . . , z n ∀ k = 1, . . . , K}<br />

e<strong>in</strong>e optimale Lösung von (K-TLAD), falls x 1 , . . . , x n paarweise verschieden s<strong>in</strong>d.<br />

60


4.4 E<strong>in</strong>e endliche Kandidatenmenge für (K-TLAD)<br />

Beweis. Nach Lemma 4.6 gibt es e<strong>in</strong>e optimale Lösung (l opt<br />

1 , I opt<br />

1 , . . . , l opt<br />

K , Iopt K<br />

) von<br />

(K-TLAD). Da die Voraussetzungen von Lemma 4.5 erfüllt s<strong>in</strong>d, nehmen wir ohne E<strong>in</strong>schränkung<br />

an, dass alle Geraden l opt<br />

1 , . . . l opt<br />

K<br />

nicht-vertikal s<strong>in</strong>d und |Iopt<br />

k<br />

| ≥ 2 für alle<br />

k = 1, . . . , K. Damit ist l opt<br />

k<br />

e<strong>in</strong>e optimale Lösung von<br />

∑<br />

(LAD(I opt<br />

k<br />

)) m<strong>in</strong> d v (z i , l(β 0 , β 1 ))<br />

(β 0 ,β 1 )∈R 2<br />

für jedes k = 1, . . . , K.<br />

i∈I opt<br />

k<br />

Angenommen, das wäre für e<strong>in</strong> k ′ nicht so. Dann gibt es nach Lemma 3.5 e<strong>in</strong>e optimale<br />

Lösung lk 0 von (LAD(I opt<br />

′<br />

k<br />

)) und für den Zielfunktionswert von (K-TLAD) gilt<br />

′<br />

K∑<br />

k=1<br />

∑<br />

i∈I opt<br />

k<br />

d v (z i , l opt<br />

k ) > K ∑<br />

k=1<br />

k≠k ′<br />

∑<br />

i∈I opt<br />

k<br />

d v (z i , l opt<br />

k<br />

) + ∑<br />

i∈I opt<br />

k ′ d v (z i , l 0 k ′)<br />

im Wi<strong>der</strong>spruch zur Optimalität von (l opt<br />

1 , I opt<br />

1 , . . . , l opt<br />

K , Iopt K<br />

). Jetzt gibt es nach Lemma<br />

3.15 e<strong>in</strong>e optimale Lösung lk L für (LAD(Iopt<br />

k<br />

)), die durch m<strong>in</strong>destens zwei <strong>der</strong> Punkte<br />

z i , i ∈ I opt<br />

k<br />

verläuft. Damit ist (l1 L, Iopt 1 , . . . , lK L , Iopt K<br />

) optimal für (K-TLAD) und<br />

(l1 L, . . . , lL K<br />

) liegt <strong>in</strong> L.<br />

Hieraus kann man man (K-TLAD) auf e<strong>in</strong> re<strong>in</strong> komb<strong>in</strong>atorisches Problem zurückführen,<br />

denn man kann es lösen, <strong>in</strong>dem man für alle Komb<strong>in</strong>ationen von K Geraden, die durch<br />

m<strong>in</strong>destens zwei <strong>der</strong> gegeben Punkte verlaufen, die Zielfunktion auswertet. Nun zeigen<br />

wir, dass die Zeitkomplexität dieses Lösungsverfahrens O(n 2K+1 log n) ist.<br />

Um den Zielfunktionswert gegebener Geraden l 1 , . . . , l K auszuwerten, müssen zuerst die<br />

vertikalen Abstände<br />

d v (z i , (l 1 , . . . , l k )) := m<strong>in</strong> d v(z i , l k ) (4.7)<br />

k=1,...,K<br />

jedes <strong>der</strong> n Punkte von den Geraden bestimmt werden. Das geschieht für jeden Punkt<br />

<strong>in</strong> O(K), also für alle Punkte <strong>in</strong> O(nK) = O(n log n), wenn man K ≤ log n annimmt,<br />

was sicher gerechtfertigt ist, da es bei e<strong>in</strong>er zu groÿen Zahl von Geraden zu e<strong>in</strong>em Over-<br />

tt<strong>in</strong>g kommt. Dann müssen die m <strong>kle<strong>in</strong>sten</strong> <strong>der</strong> n Werte <strong>in</strong> (4.7) gefunden werden, zum<br />

Beispiel durch e<strong>in</strong>e Sortierung <strong>in</strong> O(n log n) [10], was damit auch die Zeitkomplexität <strong>der</strong><br />

gesamten Auswertung ist. Jetzt muss noch bestimmt werden, wie oft e<strong>in</strong>e solche Auswertung<br />

geschehen muss. Um die erste Gerade festzulegen, stehen ( n<br />

2) Paare von Punkten<br />

zur Verfügung. Für die zweite hat man nur noch ( )<br />

n−2<br />

2 Paare, da die Punkte, durch die<br />

61


4 Platzierung mehrerer Geraden<br />

schon die erste Gerade verläuft, nicht mehr angenähert werden müssen. Damit ergibt sich<br />

e<strong>in</strong>e Anzahl ( ( ) ( )<br />

n n − 2 n − 2K + 2<br />

· · . . . ·<br />

= O(n<br />

2)<br />

2K )<br />

2<br />

2<br />

von Geradentupeln. Damit hat die Auswertung <strong>der</strong> Zielfunktion für alle diese Tupel e<strong>in</strong>e<br />

Zeitkomplexität von O(n 2K+1 log n). <strong>Die</strong> Bestimmung des M<strong>in</strong>imums dieser Werte ist <strong>in</strong><br />

O(n 2K ) möglich und än<strong>der</strong>t die gesamte Zeitkomplexität nicht mehr.<br />

Bei vielen Geraden, also wenn K groÿ ist, wird diese Zeit allerd<strong>in</strong>gs enorm groÿ. Will<br />

man zum Beispiel 2000 Punkte durch vier Geraden annähern, benötigt man hierfür Zeite<strong>in</strong>heiten<br />

<strong>in</strong> <strong>der</strong> Gröÿenordnung von 2000 9 ·log 2000 ≈ 3, 891·10 30 . Wenn jede Zeite<strong>in</strong>heit<br />

nur e<strong>in</strong>e Nanosekunde lang ist, s<strong>in</strong>d das ca. 1, 2·10 14 Jahre. Man kann aber wie schon auf<br />

Seite 51 <strong>in</strong> e<strong>in</strong>er Zeit von O(n 2 ) e<strong>in</strong> Kompaktum Q ⊂ R 2 bestimmen, auf das man die<br />

Parameter (β 0k , β 1k ) je<strong>der</strong> Gerade beschränken kann. Im obigen Beispiel s<strong>in</strong>d das 4 · 10 6<br />

Zeite<strong>in</strong>heiten, also vier Millisekunden.<br />

62


5 Algorithmen<br />

In diesem Kapitel sollen Verfahren beschrieben werden, um die Probleme (LAD), (TLAD)<br />

und (K-TLAD) möglichst schnell und gut zu lösen. Mit Hilfe <strong>der</strong> weak <strong>in</strong>cidence property<br />

(Satz 3.16 und Satz 4.7) haben wir schon e<strong>in</strong>e endliche Kandidatenmenge hergeleitet, die<br />

nach e<strong>in</strong>er optimalen Lösung abgesucht werden kann, was aber nur für kle<strong>in</strong>e K <strong>in</strong> akzeptabler<br />

Zeit machbar ist. An<strong>der</strong>e Verfahren wie <strong>der</strong> FastTLE-Algorithmus von Neykov<br />

u. a. [24] s<strong>in</strong>d zwar deutlich schneller, liefern allerd<strong>in</strong>gs nur lokal optimale Lösungen.<br />

<strong>Die</strong> numerischen Ergebnisse, die <strong>in</strong> diesem Abschnitt präsentiert werden, wurden mit<br />

R [27] berechnet. Der Arbeit liegt e<strong>in</strong> Datenträger mit allen Quelltexten bei und an<br />

entsprechen<strong>der</strong> Stelle wird auf Dateien dieses Datenträgers verwiesen.<br />

5.1 Formulierung als l<strong>in</strong>eares und gemischt-ganzzahliges l<strong>in</strong>eares<br />

Programm<br />

Bevor wir Algorithmen zur Lösung von (K-TLAD) angeben, formulieren wir das Problem<br />

zunächst als gemischt-ganzzahliges Programm und im Falle des (LAD) sogar als l<strong>in</strong>eares<br />

Programm, um zum Beispiel die Möglichkeit zu haben, diese Probleme mit Hilfe e<strong>in</strong>es<br />

Solvers wie Xpress zu lösen. Wir beg<strong>in</strong>nen mit diesem e<strong>in</strong>fachen Fall. Zur Er<strong>in</strong>nerung:<br />

Zu gegebenen Punkten z 1 = (x 1 , y 1 ), . . . , z n = (x n , y n ) war (LAD) gegeben als<br />

(LAD)<br />

m<strong>in</strong><br />

(β,β 1 )∈R 2<br />

nach (3.4) bzw. mit ausgeschriebener Zielfunktion als<br />

n∑<br />

(LAD) m<strong>in</strong> |y i − x i β 1 − β 0 |<br />

i=1<br />

n∑<br />

d v (z i , l(β 0 , β 1 )) (5.1)<br />

i=1<br />

s. d. β 0 , β 1 ∈ R<br />

Um dies als l<strong>in</strong>eares Programm zu formulieren, muss die Nicht-L<strong>in</strong>earität <strong>der</strong> Zielfunktion<br />

beseitigt werden. Dazu deniert man<br />

d i := |y i − x i β 1 − β 0 | ∀ i = 1, . . . , n (5.2)<br />

63


5 Algorithmen<br />

und erhält<br />

(LAD)<br />

m<strong>in</strong><br />

n∑<br />

i=1<br />

d i<br />

s. d. d i = |y i − x i β 1 − β 0 | ∀ i = 1, . . . , n<br />

β 0 , β 1 ∈ R, d i ≥ 0 ∀ i = 1 . . . , n,<br />

wobei die neuen Nebenbed<strong>in</strong>gungen sicherstellen, dass (5.2) erfüllt ist und d i ≥ 0 natürlich<br />

ohne E<strong>in</strong>schränkung gefor<strong>der</strong>t werden kann. Nun ist die Zielfunktion l<strong>in</strong>ear, die<br />

Nebenbed<strong>in</strong>gungen jedoch nicht. Mit Hilfe <strong>der</strong> Beobachtung |x| = max{x, −x} kann<br />

man<br />

⎧<br />

⎪⎨ d i ≥ y i − x i β 1 − β 0<br />

d i ≥ |y i − x i β 1 − β 0 | ⇐⇒ und<br />

⎪⎩<br />

d i ≥ x i β 1 + β 0 − y i<br />

statt (5.2) for<strong>der</strong>n. Da m<strong>in</strong>imiert wird, wird damit im Falle e<strong>in</strong>er optimalen Lösung<br />

(d opt , β opt<br />

0 , β opt<br />

1 ) immer<br />

d opt<br />

i<br />

= |y i − x i β opt<br />

1 − β opt<br />

0 | ∀ i = 1, . . . , n<br />

gelten. Damit erhält man die optimalen Lösungen von (LAD) durch das l<strong>in</strong>eare Programm<br />

(LP-LAD)<br />

m<strong>in</strong><br />

n∑<br />

i=1<br />

d i<br />

s. d. − x i β 1 − β 0 − d i ≤ −y i ∀ i = 1, . . . , n<br />

x i β 1 + β 0 − d i ≤ y i ∀ i = 1, . . . , n<br />

β 0 , β 1 ∈ R, d i ≥ 0 ∀ i = 1 . . . , n.<br />

(LAD) und (LP-LAD) s<strong>in</strong>d nicht äquivalent, liefern aber dieselben optimalen Lösungen.<br />

Man kann den LAD-Schätzer also durch e<strong>in</strong> Simplex- o<strong>der</strong> Innere-Punkte-Verfahren<br />

schnell bestimmen. Das Simplex-Verfahren nach Dantzig [5] ist zwar im Mittel ezient,<br />

hat aber im schlimmsten Fall exponentielle Laufzeit [16]. Grundsätzlich ist die Lösung<br />

von (LP-LAD) <strong>in</strong> polynomialer Zeit möglich [15], [13] polynomial <strong>in</strong> n und Länge <strong>der</strong><br />

b<strong>in</strong>ären Kodierung des Problems. <strong>Die</strong> tatsächliche Laufzeit hängt jedoch von <strong>der</strong> Art<br />

<strong>der</strong> b<strong>in</strong>ären Kodierung ab und ist sogar bei festem n unbeschränkt, da die Koezienten<br />

x i und y i völlig unabhängig von n s<strong>in</strong>d und daher <strong>in</strong> n unbeschränkt [21]. Damit<br />

führt die Ausnutzung <strong>der</strong> weak <strong>in</strong>cidence property aus Satz 3.15 zum schnellsten <strong>der</strong> hier<br />

vorgestellten Lösungverfahren für (LAD) mit e<strong>in</strong>er Zeitkomplexität O(n 3 log n) (siehe<br />

Abschnitt 5.3). <strong>Die</strong> l<strong>in</strong>eare Lösbarkeit l<strong>in</strong>earer Programme nach Megiddo [22] ist hier<br />

nicht anwendbar, da die Voraussetzung <strong>der</strong> festen Dimension verletzt ist.<br />

64


5.1 Formulierung als l<strong>in</strong>eares und gemischt-ganzzahliges l<strong>in</strong>eares Programm<br />

In ganz ähnlicher Weise kann auch (K-TLAD) umformuliert werden. Das Programm<br />

ist allerd<strong>in</strong>gs ganzzahlig und zunächst quadratisch. Für gegebene Punkte z 1 , . . . , z n und<br />

Parameter m : 0 < m ≤ n und K ∈ N war<br />

(K-TLAD)<br />

nach (4.5) bzw.<br />

m<strong>in</strong><br />

m<strong>in</strong><br />

(β 01 ,β 11 ),...,(β 0K ,β 1K )∈R 2 I⊂{1,...,n}<br />

|I|=m<br />

(K-TLAD)<br />

m<strong>in</strong><br />

I⊂{1,...,n}<br />

|I|=m<br />

∑<br />

i∈I<br />

∑<br />

i∈I<br />

m<strong>in</strong> d v(z i , l(β 0k , β 1k ))<br />

k=1,...,K<br />

m<strong>in</strong> |y i − β 1k x i − β 0k |<br />

k=1,...,K<br />

s. d. β 0k , β 1k ∈ R ∀ k = 1, . . . , K.<br />

Man braucht nun Entscheidungsvariablen π ik ∈ {0, 1}, die angeben, ob e<strong>in</strong> Punkt z i<br />

durch die Gerade l(β 0k , β 1k ) am besten angenähert wird, also<br />

π ik = 1 =⇒ k = arg m<strong>in</strong> |y i − β 1k ′x i − β 0k ′|.<br />

k ′ =1,...,K<br />

Da je<strong>der</strong> Punkt nur von e<strong>in</strong>er Geraden approximiert werden soll, darf für jedes i nur e<strong>in</strong><br />

π ik = 1 se<strong>in</strong>, siehe (5.3d). Auÿerdem lässt sich mit diesen Variablen auch das Trimmen<br />

modellieren, <strong>in</strong>dem man for<strong>der</strong>t, dass genau m Punkte überhaupt e<strong>in</strong>er Geraden zugeordnet<br />

werden, siehe (5.3e). Wie schon für (LP-LAD) führt man Variablen d ik e<strong>in</strong>, die<br />

gröÿer s<strong>in</strong>d als <strong>der</strong> Abstand von Punkt z i zur Geraden l(β 0k , β 1k ):<br />

d ik ≥ |y i − x i β 1k − β 0k | ∀ i = 1, . . . , n ∀ k = 1, . . . , K,<br />

siehe (5.3b) und (5.3c). Dann hat man im Falle e<strong>in</strong>er Optimallösung wie<strong>der</strong> Gleichheit,<br />

wenn π ik = 1, da m<strong>in</strong>imiert wird. In <strong>der</strong> Zielfunktion wird dann über alle d ik summiert,<br />

wenn <strong>der</strong> Punkt z i <strong>der</strong> Geraden l(β 0k , β 1k ) zugeordnet ist, siehe (5.3a). Mit diesen Mitteln<br />

erhält man das Programm<br />

(Q-K-TLAD)<br />

m<strong>in</strong><br />

K∑<br />

k=1 i=1<br />

n∑<br />

π ik d ik<br />

(5.3a)<br />

s. d. y i − x i β 1k − β 0k ≤ d ik ∀ i (5.3b)<br />

x i β 1k + β 0k − y i ≤ d ik ∀ i (5.3c)<br />

K∑<br />

k=1<br />

K∑<br />

k=1 i=1<br />

π ik ≤ 1 ∀ i (5.3d)<br />

n∑<br />

π ik = m<br />

β 0k , β 1k ∈ R<br />

∀ k<br />

π ik ∈ {0, 1}, d ik ≥ 0 ∀ i, k.<br />

(5.3e)<br />

65


5 Algorithmen<br />

Es ist nicht äquivalent zu (K-TLAD), hat aber nach <strong>der</strong> gleichen Argumentation wie für<br />

(LP-LAD) dieselben Optimallösungen. Es ist auÿerdem wegen <strong>der</strong> Entscheidungsvariablen<br />

π ik teilweise ganzzahlig und <strong>in</strong> <strong>der</strong> Zielfunktion quadratisch.<br />

Durch E<strong>in</strong>führen neuer Variablen und Nebenbed<strong>in</strong>gungen wollen wir die Zielfunktion nun<br />

l<strong>in</strong>earisieren (nach A. Schöbel). Dazu betrachten wir den Term π · x für e<strong>in</strong>e Entscheidungsvariable<br />

π ∈ {0, 1} und e<strong>in</strong>e nicht-negative und beschränkte kont<strong>in</strong>uierliche Variable<br />

x ∈ [0, c]. Dann führt man die neue Variable z e<strong>in</strong> und stellt durch Nebenbed<strong>in</strong>gungen<br />

sicher, dass<br />

z = π · x =<br />

{<br />

0 falls π = 0<br />

x falls π = 1 .<br />

<strong>Die</strong> Nebenbed<strong>in</strong>gungen s<strong>in</strong>d<br />

z ≤ π · c (5.4a)<br />

z ≤ x (5.4b)<br />

z ≥ x − c(1 − π) (5.4c)<br />

z ≥ 0. (5.4d)<br />

Wenn nämlich π = 0, erhält man aus (5.4a) und (5.4d) z = 0, während (5.4b) erfüllt<br />

ist, da x ≥ 0 und (5.4c) zu z ≥ x − c wird und mit z = 0 auch erfüllt ist, da x ≤ c.<br />

Ist h<strong>in</strong>gegen π = 1, wird (5.4c) zu z ≥ x und erzw<strong>in</strong>gt zusammen mit (5.4b) z = x.<br />

Auÿerdem s<strong>in</strong>d (5.4a) und (5.4b) erfüllt, da x ∈ [0, c] gilt.<br />

Jetzt s<strong>in</strong>d wir <strong>in</strong> <strong>der</strong> Lage, (Q-K-TLAD) als gemischt-ganzzahliges Programm (mixed<br />

<strong>in</strong>teger program, MIP) zu formulieren, <strong>in</strong>dem wir diese Beobachtung auf die π ik d ik anwen-<br />

66


5.1 Formulierung als l<strong>in</strong>eares und gemischt-ganzzahliges l<strong>in</strong>eares Programm<br />

den (Xpress-Implementierung <strong>in</strong> Datei MIP-K-TLAD.mos auf beiliegenden Datenträger):<br />

(MIP-K-TLAD)<br />

K∑<br />

m<strong>in</strong><br />

n∑<br />

k=1 i=1<br />

z ik<br />

s. d. y i − x i β 1k − β 0k ≤ d ik ∀ i, k<br />

x i β 1k + β 0k − y i ≤ d ik<br />

∀ i, k<br />

K∑<br />

π ik ≤ 1<br />

∀ i<br />

k=1<br />

K∑<br />

k=1 i=1<br />

n∑<br />

π ik = m<br />

z ik ≤ π ik · c i<br />

∀ i, k<br />

z ik ≤ d ik<br />

∀ i, k<br />

z ik ≥ d ik − c i (1 − π ik )<br />

∀ i, k<br />

z ik ≥ 0<br />

∀ i, k<br />

β 0k , β 1k ∈ Q<br />

∀ k<br />

π ik ∈ {0, 1}, d ik ≥ 0 ∀ i, k<br />

mit oberen Schranken c i für alle d i1 , . . . , d iK , die noch bestimmt werden müssen. Wir<br />

wissen schon, dass für jede optimale Lösung<br />

d opt<br />

ik<br />

= |y i − β opt<br />

1k x i − β opt<br />

0k<br />

| ∀ i = 1, . . . , n ∀ k = 1, . . . , K mit πopt<br />

ik<br />

= 1<br />

gilt. Wenn π opt<br />

ik<br />

= 0, ist <strong>der</strong> Wert von d opt<br />

ik<br />

egal, da er die Zielfunktion nicht verän<strong>der</strong>t,<br />

und kann beliebig e<strong>in</strong>geschränkt werden. Also schätzen wir e<strong>in</strong>fach alle d opt<br />

ik<br />

nach oben<br />

ab und nehmen an, dass (β 0k , β 1k ) ∈ Q = [q 0<br />

, q 0 ] × [q 1<br />

, q 1 ] von Seite 51, daher auch die<br />

entsprechenden Nebenbed<strong>in</strong>gung im Programm. So liefert (MIP-K-TLAD) zwar nicht<br />

alle optimalen Lösungen von (K-TLAD), aber m<strong>in</strong>destens e<strong>in</strong>e (siehe Satz 4.7). Weil<br />

d opt<br />

ik<br />

= |y i − β opt<br />

1k x i − β opt<br />

0k | = max{y i − β opt<br />

1k x i − β opt<br />

0k , βopt 1k x i + β opt<br />

0k<br />

− y i},<br />

schätzen wir die beiden Argumente des Maximums getrennt ab durch<br />

y i − β opt<br />

1k x i − β opt<br />

0k ≤ max<br />

(β 0k ,β 1k )∈Q {y i − β 1k x i − β 0k }<br />

≤ y i − m<strong>in</strong> {β 1kx i } − m<strong>in</strong><br />

β 1k ∈[q 1<br />

,q 1 ]<br />

{<br />

y i − q<br />

= 1<br />

x i − q 0<br />

falls x i ≥ 0<br />

y i − q 1 x i − q 0<br />

falls x i ≤ 0<br />

β 0k ∈[q 0<br />

,q 0 ] {β 0k}<br />

=: c (1)<br />

i<br />

67


5 Algorithmen<br />

bzw.<br />

β opt<br />

1k x i + β opt<br />

0k − y i ≤ max<br />

(β 0k ,β 1k )∈Q {β 1kx i + β 0k − y i }<br />

≤ max {β 1kx i } + max {β 0k} − y i<br />

β 1k ∈[q 1<br />

,q 1 ] β 0k ∈[q 0<br />

,q 0 ]<br />

{<br />

q<br />

= 1 x i + q 0 − y i falls x i ≥ 0<br />

q 1<br />

x i + q 0 − y i falls x i ≤ 0<br />

=: c (2)<br />

i<br />

und können so<br />

d ik ≤ c i := max{c (1)<br />

i<br />

, c (2)<br />

i<br />

} (5.5)<br />

für alle i = 1, . . . , n und alle k = 1, . . . , K e<strong>in</strong>schränken. Wenn Q schon bekannt ist, kann<br />

man das <strong>in</strong> konstanter Zeit für jedes Paar (i, k) tun, <strong>in</strong>sgesamt also <strong>in</strong> O(nK).<br />

E<strong>in</strong> groÿer Nachteil dieses Programms ist se<strong>in</strong>e groÿe Anzahl an (3n + 2)K Variablen,<br />

von denen nK von booleschem Typ s<strong>in</strong>d, und 5nK + n + 2K + 1 Nebenbed<strong>in</strong>gungen.<br />

Auÿerdem s<strong>in</strong>d 2K <strong>der</strong> Variablen frei, also nicht vorzeichenbeschränkt. Durch E<strong>in</strong>führung<br />

e<strong>in</strong>es geeigneten groÿen M wie <strong>in</strong> [3, S. 260] durch Bertsimas und Shioda erhält man<br />

folgendes Programm (Xpress-Implementierung <strong>in</strong> Datei BS-K-TLAD.mos auf beiliegenden<br />

Datenträger):<br />

(BS-K-TLAD)<br />

m<strong>in</strong><br />

K∑<br />

n∑<br />

k=1 i=1<br />

d ik<br />

s. d. y i − x i β 1k − β 0k ≤ d ik + M(1 − π ik ) ∀ i, k<br />

x i β 1k + β 0k − y i ≤ d ik + M(1 − π ik )<br />

K∑<br />

π ik ≤ 1<br />

k=1<br />

K∑<br />

k=1 i=1<br />

n∑<br />

π ik = m<br />

β 0k , β 1k ∈ Q<br />

∀ i, k<br />

∀ i<br />

∀ k<br />

π ik ∈ {0, 1}, d ik ≥ 0 ∀ i, k<br />

M sei dabei fest und so groÿ gewählt, dass die erste und zweite Nebenbed<strong>in</strong>gung für<br />

π ik = 0 redundant werden. Hier hat man nur (2n + 2)K Variablen, davon nK boolesch<br />

und 2K frei, und 2nK + n + 1 Nebenbed<strong>in</strong>gungen, wodurch diese Formulierung beim<br />

Lösen vorzuziehen ist. <strong>Die</strong> Bestimmung von M ist <strong>in</strong> l<strong>in</strong>earer Zeit <strong>in</strong> n und K möglich,<br />

wenn e<strong>in</strong> Kompaktum Q wie von Seite 51 bekannt ist, denn M muss M > |y i −β 0k −β 1k |<br />

für alle i = 1, . . . , n und alle k = 1, . . . , K erfüllen, kann also gesetzt werden als M :=<br />

max i=1,...,n c i mit den c i aus (5.5).<br />

68


5.2 Der FastTLE-Algorithmus<br />

Lei<strong>der</strong> hat sich herausgestellt, dass (BS-K-TLAD) durch e<strong>in</strong>en Solver wie Xpress nicht<br />

schnell lösbar ist. Schon kle<strong>in</strong>e Beispiele mit K = 2 und n = 50 beanspruchten mehrere<br />

Stunden Rechenzeit. Das liegt daran, dass dieses Programm durch Xpress mit e<strong>in</strong>em<br />

Branch&Bound-Verfahren gelöst wird, aber während des Lösens ke<strong>in</strong>e gute untere<br />

Schranke für den Zielfunktionswert gefunden wird. Dadurch muss fast je<strong>der</strong> Ast des<br />

B&B-Baums vollständig abgesucht werden, was entsprechend lange dauert. Dass diese<br />

unteren Schranken nicht gefunden werden können liegt an <strong>der</strong> speziellen Struktur des<br />

(BS-K-TLAD). Durch das E<strong>in</strong>führen von M kann <strong>in</strong> <strong>der</strong> LP-Relaxation, die als Quelle<br />

für untere Schranken verwendet werden könnte, das m aus <strong>der</strong> letzten Nebenbed<strong>in</strong>gung<br />

recht gleichmäÿig auf die π ik aufgeteilt werden, das heiÿt π ik ≈ 1<br />

mK<br />

. Wenn M und m<br />

nun entsprechend groÿ s<strong>in</strong>d, bleibt auch (1 − π ik )M ≈ (1 − 1<br />

mK<br />

)M recht groÿ, so dass<br />

viele vielleicht sogar alle d ik auf Null gesetzt werden können. Dann verschw<strong>in</strong>det aber<br />

<strong>der</strong> optimale Zielfunktionswert <strong>der</strong> LP-Relaxation und liefert daher e<strong>in</strong>e unbrauchbare<br />

weil triviale untere Schranke. Das Duale <strong>der</strong> LP-Relaxation liefert dann ebenso e<strong>in</strong>en<br />

optimalen Zielfunktionswert von Null und e<strong>in</strong>fach nur zulässige Lösungen des Dualen<br />

können sogar negative Zielfunktionswerte ergeben, die wie<strong>der</strong>um als untere Schranke unbrauchbar<br />

s<strong>in</strong>d. Insgesamt kann es also schwer werden, an gute Schranken zu gelangen,<br />

und die schlechte Leistungsfähigkeit des Solvers lässt sich so begründen.<br />

Um die Anzahl an Variablen und Nebenbed<strong>in</strong>gungen zu reduzieren, schlagen Bertsimas<br />

und Shioda [3] e<strong>in</strong> Preprocess<strong>in</strong>g <strong>der</strong> Daten vor. Dabei werden mehrere nahe beie<strong>in</strong>an<strong>der</strong><br />

liegenden Punkt zu e<strong>in</strong>em Cluster zusammengefasst um im Weiteren als E<strong>in</strong>heit behandelt.<br />

Somit entsteht e<strong>in</strong> heuristisches Verfahren. <strong>Die</strong> Autoren bezeichnen ihre Ergebnisse<br />

als ausbaufähig, s<strong>in</strong>d aber zuversichtlich, dass sich das Investieren von mehr Arbeit <strong>in</strong><br />

ihre <strong>Methode</strong> lohnt. Insbeson<strong>der</strong>e sei es wichtig, die groÿe Zahl M möglichst kle<strong>in</strong> zu<br />

wählen, was aus obigem Grund sehr hilfreich wäre. Falls das gel<strong>in</strong>gt und noch e<strong>in</strong>ige<br />

an<strong>der</strong>e Probleme beseitigt werden können, sei ihre <strong>Methode</strong> (CRIO = classication and<br />

regression via <strong>in</strong>teger optimization) auf e<strong>in</strong>em guten Weg. Bisher hat sie beson<strong>der</strong>s bei<br />

groÿen Datenmengen mit Laufzeitproblemen zu kämpfen.<br />

5.2 Der FastTLE-Algorithmus<br />

Der FastTLE-Algorithmus von Neykov u. a. [24] ist e<strong>in</strong>e Heuristik zur Lösung des (K-<br />

TLAD)-Problems. Das heiÿt, er ndet nicht unbed<strong>in</strong>gt die global optimale Lösung,<br />

son<strong>der</strong>n e<strong>in</strong>e lokal optimale Lösung. Das liegt unter an<strong>der</strong>em daran, dass er auf den<br />

EM-Algorithmus von Dempster u. a. [7] aufbaut, <strong>der</strong> auch e<strong>in</strong>e Heuristik ist. Der EM-<br />

Algorithmus dient dazu, Maximum-Likelihood-Schätzer für statistische Modelle mit fehlen<strong>der</strong><br />

Information (<strong>in</strong>complete data) wie die Regression mit latenten Klassen (siehe<br />

Abschnitt 2.5) zu nden. Der FastTLE-Algorithmus fügt die Funktionalität zur Behand-<br />

69


5 Algorithmen<br />

lung von Daten mit Ausreiÿern h<strong>in</strong>zu. Das heiÿt, <strong>der</strong> EM-Algorithmus löst (K-LAD)<br />

heuristisch und <strong>der</strong> FastTLE-Algorithmus (K-TLAD). <strong>Die</strong> zugrunde liegende Implementierung<br />

des EM-Algorithmus (exmix) ist von Leisch [19]. FastTLE und exmix s<strong>in</strong>d als<br />

R-Packages verfügbar [27].<br />

<strong>Die</strong> Vorgehensweise des FastTLE besteht aus zwei Schritten. Im ersten Schritt wird e<strong>in</strong>e<br />

Stichprobe <strong>der</strong> Gröÿe k ∗ <strong>der</strong> Daten gewählt und auf <strong>der</strong>en Basis e<strong>in</strong> Start-Schätzer durch<br />

exmix bestimmt. Neykov u. a. geben e<strong>in</strong>en s<strong>in</strong>nvollen Wert d für k ∗ an. Der so erhaltene<br />

Schätzer ist also e<strong>in</strong> heuristisch bestimmter ML-Schätzer für e<strong>in</strong>e Teilmenge <strong>der</strong> gegebenen<br />

Daten. In diesem Schritt kann auch e<strong>in</strong> an<strong>der</strong>er Start-Schätzer gewählt werden,<br />

zum Beispiel e<strong>in</strong> tatsächlich optimaler ML-Schätzer. FastTLE leistet das allerd<strong>in</strong>gs nicht.<br />

Im zweiten Schritt werden die k Datenpunkte bestimmt, die für die Start-Schätzung die<br />

gröÿten Loglikelihood-Werte haben, und für diese k Punkte wird wie<strong>der</strong> heuristisch e<strong>in</strong><br />

ML-Schätzer bestimmt. Laut Neykov u. a. ist k = ⌊(n + d + 1)/2⌋ e<strong>in</strong>e empfehlenswerte<br />

Wahl. <strong>Die</strong>se beiden Schritte werden wie<strong>der</strong>holt und <strong>der</strong> beste Schätzer aller Wie<strong>der</strong>holungen<br />

wird als Ergebnis des FastTLE ausgegeben. Das Hauptproblem dieses Verfahrens<br />

y<br />

−1 0 1 2<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●●<br />

●●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●●<br />

●<br />

●<br />

●<br />

●<br />

● ● ● ● ●<br />

●<br />

●<br />

●<br />

● ●<br />

●<br />

●<br />

● ● ●<br />

●<br />

● ●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

● ●<br />

●<br />

●●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

● ●●<br />

●<br />

● ●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

● ●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●●<br />

●<br />

● ● ● ●<br />

● ● ●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

● ● ●<br />

●<br />

●<br />

●<br />

●<br />

●●<br />

●<br />

●<br />

−4 −2 0 2 4<br />

x<br />

Abbildung 5.1: L<strong>in</strong>eares Modell mit drei latenten Klassen, 250 Punkte<br />

70


5.2 Der FastTLE-Algorithmus<br />

ist, dass es nur e<strong>in</strong>e Heuristik ist und nur lokal optimale Lösungen ndet. Dazu geben<br />

wir e<strong>in</strong> Beispiel. Wir betrachten e<strong>in</strong> Modell mit drei Klassen:<br />

Y i1 = 3 + 1.4x i1 + ɛ i1 ∀ i = 1, . . . , 70<br />

Y i2 = 3 − 1.1x i2 + ɛ i2 ∀ i = 1, . . . , 70<br />

Y i3 = 0.1x i3 + ɛ i3 ∀ i = 1, . . . , 60<br />

mit Fehlern ɛ ik ∼ N (0, σ 2 ) und σ = 0, 1. <strong>Die</strong> x-Koord<strong>in</strong>aten <strong>der</strong> Modellpunkte werden<br />

durch Gleichverteilungen auf [−3, −1] für Klasse 1, [1, 3] für Klasse 2 und [−3, 3] für Klasse<br />

3 erzeugt. Schlieÿlich werden Ausreiÿer durch e<strong>in</strong>e Gleichverteilung auf [−4.5, 4.5] ×<br />

[−0.8, 2.8] h<strong>in</strong>zugefügt. Es ergibt sich e<strong>in</strong> Bild wie <strong>in</strong> Abbildung 5.1. Bestimmt man nun<br />

mit dem FastTLE-Algorithmus die Modellparameter, ergeben sich Lösungen, die oenbar<br />

nicht global optimal s<strong>in</strong>d. Tabelle 5.1 zeigt die Loglikelihood-Werte für normal- und<br />

Laplace-verteilte Fehler von zwei FastTLE-Schätzungen, denen als Startwerte die korrekte<br />

Anzahl an Klassen (K = 3) und die korrekte Anzahl an Modellpunkten (m = 200)<br />

übergeben wurden (siehe auch Datei neykov.r auf beiliegendem Datenträger). Da für<br />

wahre Parameter FastTLE Schätzung 1 FastTLE Schätzung 2<br />

normalverteilt -24.299 -97.784 -66.312<br />

Laplace-verteilt -35.293 -104.754 -75.944<br />

Tabelle 5.1: Loglikelihood-Werte für das Modell aus Abbildung 5.1 und zugehörige<br />

FastTLE-Schätzungen (siehe auch Abbildung 5.2)<br />

den Algorithmus im ersten Schritt e<strong>in</strong>e zufällige Stichprobe <strong>der</strong> Daten für e<strong>in</strong>e Start-<br />

Schätzung gewählt wird, können verschiedene Ergebnisse trotz gleicher E<strong>in</strong>gangsdaten<br />

auftreten, wie hier auch zu sehen ist. <strong>Die</strong> zweite Schätzung ist besser als die erste,<br />

aber die Loglikelihood-Werte <strong>der</strong> wahren Modellparameter s<strong>in</strong>d noch e<strong>in</strong>mal deutlich<br />

besser als die geschätzten. Da das globale Optimum e<strong>in</strong>en möglicherweise noch besseren<br />

Loglikelihood-Wert liefert, ist klar, dass e<strong>in</strong>e Heuristik hier nicht ausreicht. <strong>Die</strong>sen<br />

E<strong>in</strong>druck verstärkt die Abbildung 5.2 noch. Hier s<strong>in</strong>d die Geraden aus den beiden Schätzungen<br />

e<strong>in</strong>gezeichnet. <strong>Die</strong> erste Schätzung hat nur e<strong>in</strong>e <strong>der</strong> Geraden richtig platziert,<br />

die zweite Schätzung immerh<strong>in</strong> zwei. Insgesamt wurde aber die Struktur, die durch die<br />

Punkte beschrieben wird, nicht erkannt. Gerade das sollte aber die eigentliche die Aufgabe<br />

se<strong>in</strong>, wenn man an Anwendungen denkt zum Beispiel <strong>in</strong> <strong>der</strong> Mediz<strong>in</strong> wie <strong>in</strong> <strong>der</strong> E<strong>in</strong>leitung.<br />

Man kann dieses Problem zu e<strong>in</strong>em gewissen Grad beheben, <strong>in</strong>dem man mehr<br />

FastTLE-Schätzungen durchführt und schlieÿlich diejenige mit dem besten Zielfunktionswert<br />

verwendet. So bleibt die Honung, dass man zufällig die Lösung trit, die die<br />

Struktur <strong>der</strong> Daten tatsächlich beschreibt. Allerd<strong>in</strong>gs bleibt <strong>in</strong> <strong>der</strong> Praxis dann weiterh<strong>in</strong><br />

unklar, ob wirklich e<strong>in</strong> globales Optimum gefunden wurde, weil dort ke<strong>in</strong> e<strong>in</strong> Vergleich<br />

mit den wahren Parametern erfolgen kann, da diese ja unbekannt s<strong>in</strong>d.<br />

71


5 Algorithmen<br />

y<br />

−1 0 1 2<br />

●<br />

●<br />

●<br />

●<br />

● ●●<br />

● ●<br />

●<br />

● ●<br />

●<br />

●<br />

● ●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

● ●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

● ●<br />

● ●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

● ●<br />

● ●<br />

●<br />

●<br />

● ●<br />

●●<br />

●<br />

●●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●●<br />

●<br />

●<br />

● ● ● ●<br />

●<br />

●<br />

●<br />

●<br />

● ●<br />

●<br />

●●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

● ●<br />

●<br />

● ●<br />

●<br />

●<br />

●<br />

●<br />

● ● ●<br />

● ● ●<br />

●<br />

● ●<br />

●<br />

● ●<br />

●<br />

●<br />

●<br />

●<br />

● ●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

−4 −2 0 2 4<br />

x<br />

y<br />

−1 0 1 2<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

● ●●<br />

● ●<br />

●<br />

● ●<br />

●<br />

●<br />

● ●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

● ●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

● ●<br />

● ●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

● ●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●●<br />

●<br />

● ● ● ●<br />

●<br />

●<br />

●<br />

● ● ● ●<br />

●<br />

●●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

● ●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

● ● ●<br />

● ● ●<br />

●<br />

● ●<br />

●<br />

●<br />

●●<br />

● ● ● ●<br />

●<br />

●<br />

● ●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

−4 −2 0 2 4<br />

x<br />

Abbildung 5.2: FastTLE-Schätzung 1 (oben) und 2 (unten) für das Modell aus Abbildung<br />

5.1<br />

72


5.3 Der FDS-Algorithmus<br />

5.3 Der FDS-Algorithmus<br />

Der Vollständigkeit halber wird hier noch e<strong>in</strong>mal <strong>der</strong> Algorithmus beschrieben, <strong>der</strong> das<br />

(K-TLAD)-Problem mit Hilfe <strong>der</strong> endlichen Kandidatenmenge aus Satz 4.7 löst. Er soll<br />

ab jetzt FDS-Algorithmus (nite dom<strong>in</strong>at<strong>in</strong>g set = endliche Kandidatenmenge) heiÿen,<br />

denn <strong>in</strong> Abschnitt 5.4 soll er mit dem FastTLE-Algorithmus <strong>in</strong> e<strong>in</strong>er Simulation verglichen<br />

werden.<br />

Da <strong>der</strong> FDS auf Satz 4.7 beruht, müssen im Wesentlichen die 2K-elementigen Teilmengen<br />

<strong>der</strong> n Beobachtungen abgezählt werden. <strong>Die</strong>s geschieht durch e<strong>in</strong>e Art kanonische<br />

Ordnung <strong>der</strong> Teilmengen, die man durch die Bijektion<br />

{(i 1 , . . . , i L ) : i 1 , . . . , i L ∈ {1, . . . , n}, i 1 < . . . < i L }<br />

→<br />

{I ⊂ {1, . . . , n} : I = {i 1 , . . . , i L }}<br />

erhält. Dann kann man sagen, dass e<strong>in</strong>e Teilmenge I = {i 1 , . . . , i L } kle<strong>in</strong>er ist als e<strong>in</strong>e<br />

an<strong>der</strong>e I ′ = {i ′ 1 , . . . , i′ L }, wenn für ˜k = arg m<strong>in</strong> k i k ≠ i ′ k gilt, dass i˜k < i ′˜k. Gilt i˜k<br />

> i ′˜k, ist<br />

I gröÿer als I ′ , und wenn ˜k nicht existiert ist I = I ′ .<br />

Nun lässt sich <strong>der</strong> FDS-Algorithmus folgen<strong>der</strong>maÿen formulieren:<br />

FDS-Algorithmus<br />

Input: z 1 = (x 1 , y 1 ), . . . , z n = (x n , y n ) ∈ R 2<br />

m ∈ N : m ≤ n<br />

K ∈ N : 2K ≤ m<br />

Initialisierung: Setze I = {i 1 , . . . , i 2K } := {1, . . . , 2K}, LAD ∗ := ∞.<br />

Schritt 1: Für k = 1, . . . , K berechne<br />

β 1k := y i 2k−1<br />

− y i2k<br />

,<br />

x i2k−1 − x i2k<br />

β 0k := y i2k − β 1k x i2k .<br />

Schritt 2: Berechne für alle k = 1, . . . , K und alle i = 1, . . . , n<br />

d ik := d v (l(β 0k , β 1k ), z i ) = |y i − β 1k x i − β 0k |.<br />

Schritt 3: Bestimme für alle i = 1, . . . , n<br />

˜k i := arg m<strong>in</strong> d ik<br />

k=1,...,K<br />

Schritt 4: Sortiere durch e<strong>in</strong>e Permuation (·) die Ausdrücke d i˜ki<br />

absteigend, d. h.<br />

73


5 Algorithmen<br />

d (1)˜k(1)<br />

≤ . . . ≤ d (n)˜k(n)<br />

.<br />

m∑<br />

Schritt 5: Bilde LAD := d (i)˜k(i)<br />

.<br />

i=1<br />

Falls LAD < LAD ∗ :<br />

LAD ∗ := LAD,<br />

β ∗ := (β 01 , β 11 , . . . , β 0K , β 1K )<br />

c := (˜k 1 , . . . , ˜k n )<br />

Schritt 6: Falls I ≠ {n − 2K + 1, . . . , n}, gehe zur nächsten Indexmenge und zu Schritt 1.<br />

Output: Parameter <strong>der</strong> für (K-TLAD) optimalen Geraden l(β ∗ 0k , β∗ 1k )<br />

Optimaler Zielfunktionswert LAD ∗<br />

Optimale Klassenzugehörigkeiten c 1 , . . . , c n<br />

Hieran kann man noch e<strong>in</strong>mal sehr gut die Zeitkomplexität des Algorithmus ablesen.<br />

Dazu nehmen wir an, dass K ≤ log n.<br />

Schritt 1: O(K) = O(log n)<br />

Schritt 2: O(nK) = O(n log n)<br />

Schritt 3: O(nK) = O(n log n)<br />

Schritt 4: O(n log n) nach Hoare [10]<br />

Schritt 5: O(m) = O(n)<br />

Schritt 6: konstante Zeit<br />

Da die Schritte <strong>in</strong>sgesamt ( n<br />

2K)<br />

= O(n 2K ) mal ausgeführt werden müssen ergibt sich<br />

wie schon gesehen die Zeitkomplexität O(n 2K+1 log n). E<strong>in</strong>e Implementierung des FDS-<br />

Algorithmus ndet sich <strong>in</strong> <strong>der</strong> Datei Simulation\fds.r auf dem beiliegenden Datenträger.<br />

5.4 Vergleich <strong>der</strong> Algorithmen<br />

Um den FastTLE- und den FDS-Algorithmus zu vergleichen, wurde e<strong>in</strong>e Simulation<br />

durchgeführt. Dazu wurden zufällige Regressionmodelle mit latenten Klassen und <strong>in</strong><br />

74


5.4 Vergleich <strong>der</strong> Algorithmen<br />

verschiedenen Gröÿen erzeugt und anschlieÿend Schätzer mit beiden Algorithmen bestimmt.<br />

<strong>Die</strong> Ergebnisse werden verglichen <strong>in</strong> Bezug auf ihre Laufzeit und die Qualität<br />

des erhaltenen Schätzers. Aufgrund <strong>der</strong> langen Laufzeit des FDS-Algorithmus für groÿe<br />

Klassenzahlen K s<strong>in</strong>d hier nur Modelle mit K = 1, 2, 3 zum E<strong>in</strong>satz gekommen.<br />

<strong>Die</strong> zufällige Erzeugung e<strong>in</strong>es Modells verläuft folgen<strong>der</strong>maÿen: Wähle zu gegebenen<br />

K, n und m zufällige Klassengröÿen n 1 , . . . , n K und <strong>in</strong> je<strong>der</strong> Klasse k die Parameter<br />

β 0k , β 1k ∈ [−5, 5] und σ k ∈ [0.1, 1] zufällig gemäÿ e<strong>in</strong>er Gleichverteilung. Wähle die<br />

Messstellen x ik , i = 1, . . . , n k gleichverteilt aus [a k , a k + b k ], wobei a k gleichverteilt aus<br />

[−5, 5] und b k aus [3, 5] gewählt wird. Erzeuge dann die endgültigen Beobachtungen<br />

durch<br />

Y ik = β 0k + β 1k x ik + ɛ ik ∀ i = 1, . . . , n k und ∀ k = 1, . . . , K,<br />

mit ɛ 1k , . . . , ɛ nk k ∼ N (0, σ k ) für alle k = 1, . . . , K. Alle Fehler sollen auÿerdem unabhängig<br />

se<strong>in</strong>. Füge schlieÿlich noch n − m Ausreiÿer h<strong>in</strong>zu.<br />

Zur Simulation wird hier immer m = 0.8n gewählt, um die Anzahl <strong>der</strong> verschiedenen<br />

Modelle kle<strong>in</strong> zu halten. E<strong>in</strong> Modell wir also nach Vorgabe <strong>der</strong> freien Parameter K und<br />

n zufällig erzeugt. Es werden L Instanzen des Modells erzeugt und dann die Schätzungen<br />

mit beiden Algorithmen durchgeführt. Um die Güte <strong>der</strong> Approximation unter Annahme<br />

normalverteilter Fehler zu vergleichen, wird <strong>der</strong> Mittelwert <strong>der</strong> getrimmten Summe<br />

<strong>der</strong> quadrierten Residuen (trimmed sum of squared residuals, TSSR) und <strong>der</strong> enstprechenden<br />

Loglikelihoodfunktion über die jeweils L Schätzungen gebildet. Analog kann die<br />

Güte <strong>der</strong> Approximation unter Annahme Laplace-verteilter Fehler durch Mittelung über<br />

die getrimmte Summe <strong>der</strong> <strong>absoluten</strong> <strong>Abweichungen</strong> (trimmed sum of absolute deviations,<br />

TSAD) und wie<strong>der</strong>um die entsprechende Loglikelihoodfunktion ermittelt werden.<br />

Auÿerdem wird zu jedem Schätzer e<strong>in</strong>e Art relativer Abstand <strong>der</strong> geschätzten Parameter<br />

zu den wahren Parametern angegeben. Für e<strong>in</strong>e Gerade, also K = 1 ist <strong>der</strong> Abstand<br />

e<strong>in</strong>fach<br />

√<br />

( ˆβ 0 − β 0 ) 2 + ( ˆβ 1 − β 1 ) 2<br />

√ ,<br />

β<br />

2<br />

0 + β1<br />

2<br />

wobei β 0 und β 1 die wahren Parameter s<strong>in</strong>d und ˆβ 0 und ˆβ 1 die geschätzten. Bei mehreren<br />

Geraden, also K ≥ 2 kann <strong>der</strong> Abstand nicht e<strong>in</strong>fach durch<br />

√ ∑K<br />

k=1 ( ˆβ 0k − β 0k ) 2 + ( ˆβ 1k − β 1k ) 2<br />

√ ∑K<br />

k=1 β2 0k + β2 1k<br />

(5.6)<br />

berechnet werden, weil das statistische Modell nicht identizierbar ist. Das bedeutet, das<br />

die Schätzung ˆβ 0k , ˆβ 1k nicht unbed<strong>in</strong>gt β 0k , β 1k schätzt. Das sieht man am besten an<br />

e<strong>in</strong>em Bild wie <strong>in</strong> Abbildung 5.3.<br />

75


5 Algorithmen<br />

y<br />

−15 −10 −5 0<br />

●<br />

●<br />

●<br />

● ●●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●●<br />

● ●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

2 3 4 5 6 7 8<br />

x<br />

y<br />

−15 −10 −5 0<br />

●<br />

●<br />

●<br />

● ●●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●●<br />

● ●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

y<br />

−15 −10 −5 0<br />

●<br />

●<br />

●<br />

● ●●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●●<br />

● ●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

2 3 4 5 6 7 8<br />

x<br />

2 3 4 5 6 7 8<br />

x<br />

Abbildung 5.3: oben: e<strong>in</strong> Modell mit zwei latenten Klassen; l<strong>in</strong>ks: Schätzer (1) für das<br />

Modell; rechts: Schätzer (2) für das Modell<br />

76


5.4 Vergleich <strong>der</strong> Algorithmen<br />

Hier s<strong>in</strong>d e<strong>in</strong> Modell mit zwei Klassen ohne Ausreiÿer und zwei verschieden Schätzungen<br />

für dieses gezeigt. <strong>Die</strong> Parameter <strong>der</strong> jeweils zwei Geraden s<strong>in</strong>d (auf zwei Nachkommastellen<br />

gerundet)<br />

β 01 = − 2.54 β 11 = − 1.71 β 02 =1.94 β 12 = − 0.20<br />

ˆβ (1)<br />

01<br />

ˆβ (2)<br />

01<br />

= − 2.39<br />

ˆβ(1) 11<br />

=2.02<br />

ˆβ(2) 11<br />

= − 1.73<br />

ˆβ(1) 02<br />

= − 0.20<br />

ˆβ(2) 02<br />

=2.02<br />

ˆβ(1) 12 = − 0.20<br />

= − 2.39<br />

ˆβ(2) 12 = − 1.73.<br />

Daraus ergeben sich durch E<strong>in</strong>setzen <strong>in</strong> (5.6) die Werte 0.05 für Schätzer (1) und 1.83 für<br />

Schätzer (2). Dabei s<strong>in</strong>d beide Schätzer gleich gut und im Wesentlichen identisch. Nur<br />

die Cluster s<strong>in</strong>d e<strong>in</strong>mal wie im Modell durchnummeriert und e<strong>in</strong>mal an<strong>der</strong>s.<br />

Um doch so etwas wie e<strong>in</strong>en relativen Abstand angeben zu können, wird daher <strong>der</strong> Ausdruck<br />

√ ∑K<br />

k=1<br />

m<strong>in</strong><br />

( ˆβ 0τ(k) − β 0k ) 2 + ( ˆβ 1τ(k) − β 1k ) 2<br />

τ<br />

√ ∑K<br />

k=1 β2 0k + β2 1k<br />

angegeben, wobei τ alle Permutationen von {1, . . . , K} durchläuft.<br />

Es ist beson<strong>der</strong>s hervorzuheben, dass <strong>der</strong> FDS-Algorithmus TSAD (global) m<strong>in</strong>imiert,<br />

während <strong>der</strong> FastTLE-Algorithmus die Loglikelihoodfunktion im normalverteilten Fall<br />

(lokal) maximiert. Der E<strong>in</strong>fachheit halber s<strong>in</strong>d <strong>in</strong> Tabelle 5.2 die Werte <strong>der</strong> negativen<br />

Loglikelihoodfunktion anstelle <strong>der</strong> normalen Loglikelihoodfunktion angegeben. Somit bedeutet<br />

<strong>in</strong> allen Spalten e<strong>in</strong> niedrigerer Wert e<strong>in</strong> besseres Ergebnis. Zusätzlich zu den FDSund<br />

FastTLE-Schätzern (E<strong>in</strong>träge FDS und TLE) s<strong>in</strong>d <strong>in</strong> den Tabellen auch noch<br />

die wahren Parameter des Modells (E<strong>in</strong>träge model) verzeichnet und e<strong>in</strong> komb<strong>in</strong>ierter<br />

Schätzer, bei dem <strong>der</strong> FastTLE-Algorithmus die Schätzer des FDS-Algorithmus als Startwerte<br />

verwendet (E<strong>in</strong>träge mix). In <strong>der</strong> Spalte Laplace stehen die Werte <strong>der</strong> negativen<br />

Loglikelihoodfunktion bei Annahme Laplace-verteilter Fehler und <strong>in</strong> <strong>der</strong> Spalte normal<br />

die Werte für normalverteilte Fehler. Alle Werte s<strong>in</strong>d auf drei Nachkommastellen gerundet.<br />

<strong>Die</strong> Simulation wurde mit R programmiert und <strong>der</strong> entsprechende Quelltext bendet<br />

sich im Ordner Simulation auf dem beiliegenden Datenträger.<br />

Man sieht, dass <strong>der</strong> FDS-Algorithmus dem FastTLE-Algorithmus bei <strong>der</strong> Güte <strong>der</strong> Approximation<br />

deutlich überlegen ist. Für K = 1 und kle<strong>in</strong>e n ist er sogar schneller.<br />

Bei groÿen n o<strong>der</strong> K ≥ 2 macht sich die Zeitkomplexität des FDS-Algorithmus von<br />

O(n 2K+1 log n) stark bemerkbar.<br />

E<strong>in</strong> <strong>in</strong>teressanter Punkt ist die Verwendung des FDS-Algorithmus zur Berechnung von<br />

Startlösungen für den FastTLE-Algorithmus. Geht man von normalverteilten Fehlern<br />

77


5 Algorithmen<br />

Algorithmus n m K L TSAD Laplace TSSR normal rel.Fehler Laufzeit<br />

model 25 20 1 100 8.962 14.813 7.806 13.301 0 0<br />

FDS 25 20 1 100 7.792 11.345 6.635 11.145 0.132 0.124<br />

TLE 25 20 1 100 9.347 13.686 10.098 12.276 0.210 6.683<br />

mix 25 20 1 100 8.045 11.947 6.220 10.587 0.130 6.763<br />

model 50 40 1 100 18.358 32.543 15.439 29.624 0 0<br />

FDS 50 40 1 100 16.776 28.089 13.398 26.579 0.086 0.502<br />

TLE 50 40 1 100 21.410 34.382 25.965 31.176 0.268 7.325<br />

mix 50 40 1 100 17.071 28.750 12.841 25.830 0.075 7.335<br />

model 100 80 1 100 34.729 61.12 28.881 55.43 0 0<br />

FDS 100 80 1 100 31.887 52.138 24.062 48.258 0.101 2.118<br />

TLE 100 80 1 100 36.004 57.901 34.228 52.416 0.151 9.065<br />

mix 100 80 1 100 32.175 52.873 23.737 47.672 0.085 9.067<br />

model 250 200 1 100 91.187 152.927 80.848 138.369 0 0<br />

FDS 250 200 1 100 84.349 134.787 66.479 122.130 0.075 14.902<br />

TLE 250 200 1 100 85.972 137.937 68.176 123.836 0.091 14.509<br />

mix 250 200 1 100 84.643 135.456 66.053 121.508 0.071 14.540<br />

model 500 400 1 100 187.433 323.152 165.905 294.743 0 0<br />

FDS 500 400 1 100 177.682 293.889 143.149 268.504 0.036 71.945<br />

TLE 500 400 1 100 179.204 296.365 145.250 269.688 0.058 23.193<br />

mix 500 400 1 100 177.951 294.526 142.798 267.970 0.048 23.083<br />

model 50 40 2 100 17.051 48.767 14.555 46.013 0 0<br />

FDS 50 40 2 100 13.262 40.432 9.525 41.076 0.418 105.375<br />

TLE 50 40 2 100 17.163 46.907 16.689 45.035 0.651 8.290<br />

mix 50 40 2 100 14.369 41.934 10.123 40.060 0.461 8.413<br />

model 100 80 2 24 32.187 101.161 24.929 95.475 0 0<br />

FDS 100 80 2 24 28.334 89.962 19.546 87.576 0.107 1883.403<br />

TLE 100 80 2 24 33.926 101.164 26.306 96.487 0.416 10.890<br />

mix 100 80 2 24 29.134 91.190 19.603 86.863 0.100 11.169<br />

model 35 28 3 24 4.260 22.813 1.094 20.765 0 0<br />

FDS 35 28 3 24 3.073 12.727 0.746 14.368 0.088 769.741<br />

TLE 35 28 3 24 7.640 30.692 4.562 28.661 1.111 8.751<br />

mix 35 28 3 24 3.290 14.344 0.674 12.516 0.117 9.068<br />

model 40 32 3 24 4.889 25.604 1.279 23.153 0 0<br />

FDS 40 32 3 24 3.772 16.185 0.924 17.366 0.090 1840.734<br />

TLE 40 32 3 24 7.169 29.501 3.878 27.932 0.739 9.266<br />

mix 40 32 3 24 4.046 17.786 0.893 15.915 0.141 9.667<br />

Tabelle 5.2: Durchschnittliche Ergebnisse <strong>der</strong> Schätzverfahren FDS, FastTLE und FastT-<br />

LE mit Startwerten aus FDS<br />

78


5.4 Vergleich <strong>der</strong> Algorithmen<br />

aus, können die TSSR-Werte des FastTLE durch die Startwerte deutlich verbessert werden.<br />

Da FastTLE e<strong>in</strong>e recht kurze Laufezeit hat, lohnt es sich eigentlich immer, ihn nach<br />

dem FDS-Algorithmus noch e<strong>in</strong>mal zusätzlich zu verwenden, um möglicherweise e<strong>in</strong>e<br />

Verbesserung <strong>der</strong> Schätzung zu erzielen.<br />

Insgesamt ist <strong>der</strong> FDS-Algorithmus dem FastTLE-Algorithmus also vorzuziehen, wenn<br />

die Datenmenge kle<strong>in</strong> ist o<strong>der</strong> wenn unbed<strong>in</strong>gt sichergestellt werden muss, dass man<br />

e<strong>in</strong>en global optimalen Schätzer erhält. Wenn e<strong>in</strong>e lange Rechenzeit akzeptabel ist, kann<br />

er auch für gröÿere Datensätze verwendet werden. Das bietet sich beson<strong>der</strong>s für e<strong>in</strong>malige<br />

Analysen an, wenn zum Beispiel die Datenerhebung abgeschlossen ist und nicht damit<br />

zu rechnen ist, dass <strong>in</strong>nerhalb kurzer Zeit neue Daten erhoben werden müssen, da die<br />

alten nicht mehr gültig s<strong>in</strong>d. E<strong>in</strong> gutes Beispiel ist sicher die Analyse <strong>der</strong> Wirksamkeit<br />

e<strong>in</strong>es neuen Medikaments, denn es muss nur e<strong>in</strong>mal getestet werden und nicht immer wie<strong>der</strong><br />

neu. Auÿerdem sollte hier mit maximaler Genauigkeit gearbeitet werden, da falsche<br />

Schlüsse aus den Daten, wie sie durch falsches Erkennen ihrer Struktur gezogen werden<br />

könnten (siehe Abschnitt 5.2), schwere Folgen nach sich ziehen können.<br />

79


6 Ausblick<br />

Um die LAD-<strong>Methode</strong> <strong>in</strong> <strong>der</strong> Praxis nutzen zu können, wären e<strong>in</strong>ige weitere Ergebnisse<br />

sehr hilfreich. Am naheliegendsten ist wahrsche<strong>in</strong>lich e<strong>in</strong> Algorithmus mit ger<strong>in</strong>gerer<br />

Laufzeit. Zwar verh<strong>in</strong><strong>der</strong>t die NP-Vollständigkeit aus Satz 4.4 e<strong>in</strong>e eziente Lösung <br />

unter P ≠ N P allerd<strong>in</strong>gs gibt es e<strong>in</strong>ige Möglichkeiten, das Lösen des Problems zu beschleunigen.<br />

Im Fall K = 1 ohne Trimmen, <strong>in</strong> dem durch die endliche Kandidatenmenge<br />

e<strong>in</strong>e Rechenzeit von O(n 3 log n) erzielt wird, könnte sicherlich unter Ausnutzung <strong>der</strong> Konvexität<br />

(Lemma 3.12) und Anwendung von Verfahren, die auf <strong>der</strong> <strong>Methode</strong> des steilsten<br />

Abstiegs basieren, e<strong>in</strong>e ger<strong>in</strong>gere Komplexität erreicht werden. Auch im Fall K = 1<br />

mit Trimmen ist e<strong>in</strong>e Verbesserung <strong>der</strong> Zeitkomplexität möglich. Durch e<strong>in</strong> sweep-l<strong>in</strong>e<br />

Verfahren kann sie eventuell auf O(n 2 log n) reduziert werden. Schwierigkeiten bei <strong>der</strong><br />

Verbesserung treten naturgemäÿ bei <strong>der</strong> Platzierung mehrerer Geraden auf. Hier wäre<br />

es <strong>in</strong>teressant, zu untersuchen, ob sich das Konzept <strong>der</strong> sweep-l<strong>in</strong>e Verfahren auf die<br />

Problemstellung für K > 1 übertragen lässt, um so wenigstens die Exponenten <strong>der</strong> Zeitkomplexität<br />

O(n 2K+1 log n) e<strong>in</strong> wenig zu reduzieren. Zu klären wäre auch noch die Frage,<br />

ob die Platzierung mehrerer Geraden wie <strong>in</strong> dieser Arbeit e<strong>in</strong>em TLE nach Neykov u. a.<br />

[24] entspricht o<strong>der</strong> nicht.<br />

E<strong>in</strong>e weitere naheliegende Fragestellung ist die nach höheren Dimensionen. In dieser<br />

Arbeit wurde nur die e<strong>in</strong>fache Regression <strong>in</strong> zwei Dimensionen behandelt, allerd<strong>in</strong>gs ist<br />

<strong>in</strong> <strong>der</strong> Praxis häug mehr als e<strong>in</strong>e erklärende Variable von Nöten und e<strong>in</strong>e Beobachtung<br />

ist bei dieser multiplen Regression nicht mehr durch z i = (x i , y i ) ∈ R 2 gegeben, son<strong>der</strong>n<br />

durch z i = (x i,1 , . . . , x i,p−1 , y i ) ∈ R p . Auch für den p-dimensionalen Fall lässt sich e<strong>in</strong>e<br />

duale Transformation analog zu Denition 3.6 angegeben, die jetzt Punkten Hyperebenen<br />

zuordnet und umgekehrt. Es bezeichne<br />

l(β 0 , β 1 , . . . , β p−1 ) = {(s 1 , . . . , s p ) ∈ R p : s p = β 0 + β 1 s 1 + . . . + β n−1 s p−1 }<br />

e<strong>in</strong>e ane Hyperebene im R p , die nicht parallel zur p-ten Koord<strong>in</strong>atenachse ist, denn sie<br />

schneidet diese im Punkt (0, . . . , 0, β 0 ), so dass β 0 wie<strong>der</strong> die Rolle des Achsenabschnitts<br />

aus dem zweidimensionalen Fall übernimmt. Weiter sei z = (x 1 , . . . , x p−1 , y) e<strong>in</strong> Punkt<br />

im R p , dann ist die duale Transformation gegeben durch<br />

z ∗ = l(−y, x 1 , . . . , x p−1 )<br />

für z ∈ R p<br />

l ∗ = (β 1 , . . . , β p−1 , −β 0 ) für l = l(β 0 , β 1 , . . . , β p−1 ).<br />

80


Der vertikale Abstand wird dann zum Abstand <strong>in</strong> <strong>der</strong> p-ten Koord<strong>in</strong>ate:<br />

d v (z, l) = |y − β 1 x 1 − . . . − β p−1 x p−1 − β 0 |.<br />

<strong>Die</strong>ser ist wie<strong>der</strong> unter <strong>der</strong> dualen Transformation erhalten:<br />

d v (l ∗ , z ∗ ) = | − β 0 − β 1 x 1 − . . . − β p−1 x p−1 + y| = d v (z, l).<br />

Auch sonst hat man Eigenschaften <strong>der</strong> dualen Transformation wie <strong>in</strong> Lemma 3.8. Damit<br />

lassen sich analoge Ergebnisse zur Hyperebenenplatzierung wie zur Geradenplatzierung<br />

erzielen.<br />

weak <strong>in</strong>cidence property E<strong>in</strong>e endliche Kandidatenmenge für die Platzierung e<strong>in</strong>er Hyperebene<br />

erhält man wie <strong>in</strong> Lemma 3.15 über die Aussage, dass es e<strong>in</strong>e optimale<br />

Hyperebene gibt, die durch p an unabhängige <strong>der</strong> gegebenen Punkte verläuft<br />

(vgl. Schöbel [30]). <strong>Die</strong>s könnte man vielleicht wie<strong>der</strong> auf die Platzierung mehrerer<br />

Hyperbenen verallgeme<strong>in</strong>ern wie <strong>in</strong> Satz 4.7. <strong>Die</strong> Zeitkomplexität beim Durchprobieren<br />

<strong>der</strong> Kandidatenmenge erhöht sich durch die höhere Dimension allerd<strong>in</strong>gs auf<br />

O(n pK+1 log n).<br />

pseudo-halv<strong>in</strong>g property Wie auf Seite 49 beschrieben, gilt die pseudo-halv<strong>in</strong>g property<br />

<strong>in</strong> beliebigen Dimensionen (vgl. Schöbel [30]).<br />

Starker Punkt E<strong>in</strong> starker Punkt wie <strong>in</strong> Satz 3.13 sollte sich auch für p Dimensionen<br />

herleiten lassen.<br />

Auÿerdem sollte man auch die weak <strong>in</strong>cidence property auf die Platzierung mehrerer<br />

Geraden und auch Hyperebenen durch norm<strong>in</strong>duzierte und gerichtete Abstände verallgeme<strong>in</strong>ern<br />

können.<br />

Da a priori ja die Klassen <strong>der</strong> Beobachtungen unbekannt s<strong>in</strong>d, ist <strong>in</strong>sbeson<strong>der</strong>e auch <strong>der</strong>en<br />

Anzahl K meist nicht bekannt. In dieser Arbeit wurde K als Parameter und nicht als<br />

Variable des Problems aufgefasst und musste somit vor dem Lösen angegeben werden.<br />

Gleiches gilt für die Anzahl m <strong>der</strong> Punkte, die zum Modell gehören. Wünschenswert<br />

wären Verfahren, die diese beiden Gröÿen auch als Variablen auassen und optimal bestimmen.<br />

Das birgt natürlich gewisse Schwierigkeiten, denn für m = 0 würden ke<strong>in</strong>e<br />

Punkte zur Zielfunktion beitragen, <strong>der</strong> optimale Zielfunktionswert wäre Null. Ebenso<br />

wird das Problem durch K ≥ ⌈m/2⌉ trivial, da man dann immer je zwei Punkte mit<br />

e<strong>in</strong>er eigenen Gerade ohne Fehler annähern könnte. <strong>Die</strong>se Fälle s<strong>in</strong>d theoretisch so un<strong>in</strong>teressant<br />

wie praktisch irrelevant. Daher müssen geeignete E<strong>in</strong>schränkungen an K und m<br />

gestellt werden. E<strong>in</strong> gutes K könnte durch die Verwendung e<strong>in</strong>es Informationskriteriums<br />

zur Modellauswahl bestimmt werden. <strong>Die</strong> beiden bekanntesten s<strong>in</strong>d das<br />

81


6 Ausblick<br />

Akaike <strong>in</strong>formation criterion [1] AIC = log L z1 ,...,z n<br />

(ˆθ j ) − P j und das<br />

Bayesian <strong>in</strong>formation criterion [32] BIC = log L z1 ,...,z n<br />

(ˆθ j ) − P j<br />

2<br />

log n,<br />

wobei j verschiedene zur Auswahl stehende Modell <strong>in</strong>diziert, P j die Zahl <strong>der</strong> freien Parameter<br />

e<strong>in</strong>es Modells ist und L z1 ,...,z n<br />

(ˆθ j ) <strong>der</strong> gröÿte Wert <strong>der</strong> Likelihoodfunktion, <strong>der</strong><br />

mit Modell j zu erreichen ist. <strong>Die</strong> Auswahl geschieht durch die Maximierung e<strong>in</strong>es <strong>der</strong><br />

Kriterien. Anschaulich bedeutet das e<strong>in</strong>e Belohnung für groÿe Likelihoodwerte, also für<br />

Modelle, die kle<strong>in</strong>e Fehler machen, und gleichzeitig e<strong>in</strong>e Strafe für Modelle mit vielen<br />

freien Parametern. In unserem Fall ist das e<strong>in</strong>e Strafe für Modelle, die viele Geraden<br />

verwenden.<br />

Der FDS-Algorithmus könnte auch angepasst werden, um Geraden zu platzieren, von<br />

denen e<strong>in</strong>ige Parameter bekannt s<strong>in</strong>d. Zum Beispiel ist bei Ursprungsgeraden <strong>der</strong> Achsenabschnitt<br />

bekannt. In dem Fall wäre die Zielfunktion für e<strong>in</strong>e Gerade im Dualraum auf<br />

e<strong>in</strong>e Achsenparallele e<strong>in</strong>geschränkt und man kann auf dieser die L<strong>in</strong>earitätsbereiche als<br />

Geradenstücke <strong>in</strong>dentizieren (siehe Lemma 3.11). Dann würde möglicherweise e<strong>in</strong> Punkt<br />

aus den gegebenen genügen, um die Geraden endgültig festzulegen. Falls das auch auf die<br />

Platzierung mehrerer Geraden übertragen werden könnte, würde man damit die Komplexität<br />

auf O(n 2K−P +1 log n) reduzieren, wenn P die Anzahl <strong>der</strong> bekannten Parameter<br />

ist (auÿer im trivialen Fall P = 2K).<br />

Insgesamt ist die LAD-<strong>Methode</strong> durchaus konkurrenzfähig zur weiter verbreiteten LS-<br />

<strong>Methode</strong>, beson<strong>der</strong>s, wenn von vornhere<strong>in</strong> klar ist, dass e<strong>in</strong> robuster Schätzer benötigt<br />

wird. Insbeson<strong>der</strong>e die Ezienz <strong>der</strong> beiden <strong>Methode</strong>n bietet vom theoretischen Standpunkt<br />

aus betrachtet ke<strong>in</strong> ausreichendes Argument mehr für die LS-<strong>Methode</strong>. <strong>Die</strong> Platzierung<br />

e<strong>in</strong>er Geraden ist aufgrund schneller Computer mit beiden Verfahren schnell durchzuführen<br />

und die Platzierung mehrerer Geraden ist <strong>in</strong> beiden Fällen NP-vollständig.<br />

82


Abbildungsverzeichnis<br />

1.1 Modellierungsfehler bei Platzierung e<strong>in</strong>er Geraden . . . . . . . . . . . . . 7<br />

2.1 Dichte <strong>der</strong> Laplace-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . 15<br />

2.2 Laplace-Verteilung streut stärker als die Normalverteilung . . . . . . . . . 17<br />

2.3 LAD ist robuster als LSE . . . . . . . . . . . . . . . . . . . . . . . . . . . 18<br />

3.1 Nicht-E<strong>in</strong>deutigkeit von (TLAD) . . . . . . . . . . . . . . . . . . . . . . . 34<br />

3.2 Beispiel für e<strong>in</strong>e duale Parkettierung . . . . . . . . . . . . . . . . . . . . . 38<br />

3.3 Beispiel für e<strong>in</strong>e duale Zelle . . . . . . . . . . . . . . . . . . . . . . . . . . 39<br />

3.4 <strong>Die</strong> Zielfunktion von (TLAD) ist im Allgeme<strong>in</strong>en nicht quasikonvex. . . . 43<br />

3.5 Erläuterung zu Schritt 2 des Beweises von Satz 3.13 . . . . . . . . . . . . 45<br />

3.6 Erläuterung zu Schritt 3 des Beweises von Satz 3.13 . . . . . . . . . . . . 46<br />

5.1 L<strong>in</strong>eares Modell mit drei latenten Klassen, 250 Punkte . . . . . . . . . . . 70<br />

5.2 FastTLE-Schätzung 1 (oben) und 2 (unten) für das Modell aus Abbildung 5.1 72<br />

5.3 Nicht-Identizierbarkeit <strong>der</strong> latenten Klassen . . . . . . . . . . . . . . . . 76<br />

83


Literaturverzeichnis<br />

[1] Akaike, H.: A New Look at the Statistical Indentication Model. In: IEEE Transactions<br />

on Automatic Control 19 (1974), S. 716723<br />

[2] Basset, G. ; Koenker, R.: Asymptotic Theory of Least Absolute Error Regression.<br />

In: Journal of the American Statistical Association 73 (1978), September, Nr. 363,<br />

S. 618622<br />

[3] Bertsimas, D. ; Shioda, R.: Classication and Regression via Integer Optimization.<br />

In: Operations Research 55 (2007), MärzApril, Nr. 2, S. 252271<br />

[4] Cooper, L. ; Ste<strong>in</strong>berg, D. I.: Introduction to Methods of Optimization. 1. Auage.<br />

Philadelphia : W. B. Saun<strong>der</strong>s Company, 1970<br />

[5] Dantzig, G. B.: L<strong>in</strong>ear Programm<strong>in</strong>g and Extensions. Pr<strong>in</strong>ceton : Pr<strong>in</strong>ceton University<br />

Press, 1963<br />

[6] Dehl<strong>in</strong>g, H. ; Haupt, B.: E<strong>in</strong>führung <strong>in</strong> die Wahrsche<strong>in</strong>lichkeitstheorie und Statistik.<br />

1. Auage. Berl<strong>in</strong> : Spr<strong>in</strong>ger-Verlag, 2003<br />

[7] Dempster, A. P. ; Laird, N. M. ; Rub<strong>in</strong>, D. B.: Maximum Likelihood from<br />

Incomplete Data via the EM Algorithm. In: Journal of the Royal Statistical Society.<br />

Series B (Methodological) 39 (1977), Nr. 1, S. 138<br />

[8] Fiebig, U.-R.: Angewandte Statistik. 2008. Vorlesung an <strong>der</strong> Georg-August-<br />

Universität Gött<strong>in</strong>gen<br />

[9] Forster, Otto: Analysis 2. 6. Auage. Wiesbaden : Vieweg-Verlag, April 2005<br />

[10] Hoare, C. A. R.: Quicksort. In: The Computer Journal 5 (1962), Nr. 1, S. 1016<br />

[11] Huber, P. J.: Robust Regression: Asymptotics, Conjectures and Monte Carlo. In:<br />

The Annals of Statistics 1 (1973), Nr. 5, S. 799821<br />

84


Literaturverzeichnis<br />

[12] Huber, P. J. ; Ronchetti, E. M.: Robust Statistics. 2. Auage. John Wiley &<br />

Sons, 2009<br />

[13] Karmarkar, N.: A New Polynomial-time Algorithm for L<strong>in</strong>ear Programm<strong>in</strong>g. In:<br />

Comb<strong>in</strong>atorica 4 (1984), Dezember, Nr. 4, S. 373395<br />

[14] Karp, R. M.: Reducibility Among Comb<strong>in</strong>atorial Problems 19582008. S. 219242.<br />

In: Jünger, M. (Hrsg.) ; Liebl<strong>in</strong>g, T. (Hrsg.) ; Naddef, D. (Hrsg.) ; Nemhauser,<br />

G. (Hrsg.) ; Pulleyblank, W. (Hrsg.) ; Re<strong>in</strong>elt, G. (Hrsg.) ; R<strong>in</strong>aldi, G. (Hrsg.) ;<br />

Wolsey, L. (Hrsg.): 50 Years of Integer Programm<strong>in</strong>g. Berl<strong>in</strong> : Spr<strong>in</strong>ger-Verlag,<br />

2010<br />

[15] Khachiyan, L. G.: A Polynomial Algorithm <strong>in</strong> L<strong>in</strong>ear Programm<strong>in</strong>g. In: Soviet<br />

Mathematics Doklady 20 (1979), Nr. 1, S. 191194<br />

[16] Klee, V. ; M<strong>in</strong>ty, G. L.: How Good is the Simplex Algorithm? S. 159179. In:<br />

Shisha, O. (Hrsg.): Inequalities III. New York : Academic Press, 1972<br />

[17] Laplace, P.-S.: Théorie Analytique des Probabilités. 3. Auage. 1818<br />

[18] Legendre, Adrien-Marie: Nouvelles methodes pour la déterm<strong>in</strong>ation des orbites des<br />

comètes. Paris, 1805. Quelle: Service Commun de la Documentation University<br />

of Strasbourg - Digital old books, URL http://num-scd-ulp.u-strasbg.fr:8080/<br />

327/<br />

[19] Leisch, F.: FlexMix: A General Framework for F<strong>in</strong>ite Mixture Models and Latent<br />

Class Regression <strong>in</strong> R. In: Journal of Statistical Software 11 (2004), Oktober, Nr. 8,<br />

S. 118<br />

[20] Lozano, A. J. ; Plastria, F.: The Or<strong>der</strong>ed Median Euclidean Straight-l<strong>in</strong>e Location<br />

Problem. In: Studies <strong>in</strong> Locational Analysis (2009), September, Nr. 17, S. 2943<br />

[21] Megiddo, N.: Towards a Genu<strong>in</strong>ely Polynomial Algorithm for L<strong>in</strong>ear Programm<strong>in</strong>g.<br />

In: SIAM Journal on Comput<strong>in</strong>g 12 (1983), Mai, Nr. 2, S. 347353<br />

[22] Megiddo, N.: L<strong>in</strong>ear Programm<strong>in</strong>g <strong>in</strong> L<strong>in</strong>ear Time When the Dimension Is Fixed.<br />

In: Journal of the ACM 31 (1984), Januar, Nr. 1, S. 114127<br />

[23] Megiddo, N. ; Tamir, A.: On the Complexity of Locat<strong>in</strong>g L<strong>in</strong>ear Facilities <strong>in</strong> the<br />

Plane. In: Operations Research Letters 1 (1982), November, Nr. 5, S. 194197<br />

85


Literaturverzeichnis<br />

[24] Neykov, N. ; Filzmoser, P. ; Dimova, R. ; Neytchev, P.: Robust Fitt<strong>in</strong>g of<br />

Mixtures Us<strong>in</strong>g the Trimmed Likelihood Estimator. In: Computational Statistics &<br />

Data Analysis 52 (2007), September, Nr. 1, S. 299308<br />

[25] Nickel, S. ; Puerto, J.: Location Theory. A Unied Approach. 1. Auage. Berl<strong>in</strong> :<br />

Spr<strong>in</strong>ger-Verlag, Mai 2005<br />

[26] Pollard, D.: Asymptotics for Least Absolute Deviation Regression Estimators.<br />

In: Econometric Theory 7 (1991), Juni, Nr. 2, S. 186199<br />

[27] R Development Core Team: R: A Language and Environment for Statistical<br />

Comput<strong>in</strong>g. Vienna, Austria: R Foundation for Statistical Comput<strong>in</strong>g (Veranst.),<br />

2009. URL http://www.R-project.org. ISBN 3-900051-07-0<br />

[28] Rousseeuw, P. J. ; Leroy, A. M.: Robust Regression and Outlier Detection. John<br />

Wiley & Sons, 2003<br />

[29] Schaback, R. ; Wendland, H.: Numerische Mathematik. 5. Auage. Berl<strong>in</strong> :<br />

Spr<strong>in</strong>ger-Verlag, 2005<br />

[30] Schöbel, A.: Locat<strong>in</strong>g L<strong>in</strong>es and Hyperplanes: Theory and Algorithms. 1. Auage.<br />

Dordrecht, Nie<strong>der</strong>lande : Kluwer Academic Publishers, 1999<br />

[31] Schöbel, A.: Robuste Optimierung. 2009/2010. Vorlesung an <strong>der</strong> Georg-August-<br />

Universität Gött<strong>in</strong>gen<br />

[32] Schwarz, Gideon: Estimat<strong>in</strong>g the Dimension of a Model. In: The Annals of Statistics<br />

6 (1978), Nr. 2, S. 461464<br />

[33] Stigler, S. M.: Simon Newcomb, Percy Daniell, and the History of Robust Estimation<br />

18851920. In: Journal of the American Statistical Association 68 (1973),<br />

Dezember, Nr. 344, S. 872879<br />

86


Danksagung<br />

Ich bedanke mich für die Hilfe und vielen Anregungen bei <strong>der</strong> Erstellung dieser Arbeit bei<br />

<strong>der</strong> Arbeitsgruppe Optimierung des Instituts für Numerische und Angewandte Mathematik<br />

<strong>der</strong> Universität Gött<strong>in</strong>gen, <strong>in</strong>sbeson<strong>der</strong>e bei me<strong>in</strong>er Betreuer<strong>in</strong> Prof. Anita Schöbel<br />

und Mark-Christoph Körner.<br />

Auÿerdem danke ich me<strong>in</strong>em Zweitkorrektor Prof. Mart<strong>in</strong> Schlather vom Institut für Mathematische<br />

Stochastik <strong>der</strong> Universität Gött<strong>in</strong>gen, <strong>der</strong> sich schon während <strong>der</strong> Erstellung<br />

<strong>der</strong> Arbeit Zeit zur Beantwortung von Fragen genommen hat.<br />

Schlieÿlich geht me<strong>in</strong> beson<strong>der</strong>er Dank an Neyko Neykov vom Nationalen Institut für<br />

Meteorologie und Hydrologie Bulgarien, <strong>der</strong> mir den Quelltext des FastTLE-Algorithmus<br />

[24] zur Verfügung gestellt hat.<br />

87

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!