27.10.2014 Aufrufe

Zeitreihenanalyse natürlicher Systeme mit neuronalen Netzen und ...

Zeitreihenanalyse natürlicher Systeme mit neuronalen Netzen und ...

Zeitreihenanalyse natürlicher Systeme mit neuronalen Netzen und ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

<strong>Zeitreihenanalyse</strong> natürlicher <strong>Systeme</strong><br />

<strong>mit</strong> <strong>neuronalen</strong> <strong>Netzen</strong> <strong>und</strong><br />

Methoden der statistischen Physik sowie<br />

der nichtlinearen Dynamik<br />

Dem Fachbereich Physik der<br />

Carl von Ossietzky Universität Oldenburg<br />

zur Erlangung des Grades eines<br />

Doktors der Naturwissenschaften (Dr. rer. nat.)<br />

angenommene Dissertation<br />

Andreas Weichert<br />

geb. am 8. März 1963<br />

in Bremen


Erstreferent:<br />

Prof. Dr. Pal Ruján<br />

1. Korreferent: Prof. Dr. Bruno Eckhardt<br />

2. Korreferent: Prof. Dr. Jürgen Parisi<br />

Tag der Disputation: 27. Februar 1998


Inhaltsverzeichnis<br />

1 Einleitung.................................................................................................... 1<br />

2 Das Software-Tool „Data-Stream-Network“ ............................................ 3<br />

2.1 Idee des „Data-Stream-Networks“ ............................................................................. 3<br />

2.2 Bedienung <strong>und</strong> Oberfläche ........................................................................................ 5<br />

2.3 Implementierung...................................................................................................... 10<br />

2.3.1 C++.................................................................................................................... 10<br />

2.3.2 Tcl/Tk ................................................................................................................ 10<br />

2.3.3 Interne Module des Programms .......................................................................... 11<br />

2.3.4 Interne Programmstruktur................................................................................... 15<br />

2.4 Integrierte Algorithmen <strong>und</strong> technische Eigenschaften........................................... 17<br />

2.5 Erweiterungen .......................................................................................................... 20<br />

3 Radiales Basisfunktionensystem.............................................................. 21<br />

3.1 Einleitung................................................................................................................. 21<br />

3.2 Hauptschrittte........................................................................................................... 23<br />

3.3 Clusterung................................................................................................................ 24<br />

3.4 Funktionsapproximation.......................................................................................... 26<br />

3.5 Parameter <strong>und</strong> Optimierung .................................................................................... 26<br />

4 Analyse von Luftstaubgemischen ............................................................ 29<br />

4.1 Einleitung................................................................................................................. 29<br />

4.2 Aufgabenbeschreibung............................................................................................. 30<br />

4.3 Mathematische Basis................................................................................................ 31<br />

4.4 Voruntersuchungen.................................................................................................. 35<br />

4.4.1 Stoffsortierung.................................................................................................... 35<br />

4.4.2 Transformation der Konzentrationsmatrix........................................................... 38<br />

4.4.3 Hauptkomponentenzerlegung des LGS ............................................................... 40<br />

4.4.4 Sensibilitätsbetrachtung ...................................................................................... 43<br />

4.5 Hauptuntersuchung ................................................................................................. 44<br />

4.6 Erweiterte Untersuchung.......................................................................................... 52<br />

4.6.1 Bildung von Stoffgruppen................................................................................... 52<br />

4.6.2 Bestimmung der Elementgruppen........................................................................ 56<br />

4.6.3 Reduktion der Elementanzahl.............................................................................. 58<br />

4.7 Ergebnisse <strong>und</strong> Diskussion....................................................................................... 62<br />

5 Detektion der Milankovitchzyklen im Kirchroder Bohrkern................. 63<br />

5.1 Einleitung................................................................................................................. 63<br />

5.2 Sichtung des Datenbestandes ................................................................................... 64<br />

5.3 Untersuchung der Korrelationen <strong>und</strong> Hauptkomponentenanalyse.......................... 66<br />

5.4 Angewandte Methoden zur Frequenzanalyse........................................................... 68<br />

1


5.5 Durchführung der Frequenzanalysen...................................................................... 68<br />

5.5.1 Untersuchung von Datensatz 1............................................................................ 69<br />

5.5.2 Untersuchung von Datensatz 2............................................................................ 70<br />

5.5.3 Untersuchung von Datensatz 3............................................................................ 71<br />

5.6 Ergebnisse <strong>und</strong> Diskussion....................................................................................... 73<br />

5.7 Liapunov-Exponent der TOC-Zeitreihe ................................................................... 74<br />

6 Untersuchung des Ökosystems Peruanisches Auftriebsgebiet ............... 77<br />

6.1 Einleitung................................................................................................................. 77<br />

6.2 Frequenzanalyse der Anchoveta-Zeitreihe ............................................................... 78<br />

6.3 Vorhersage des Anchoveta-Bestandes ...................................................................... 79<br />

6.3.1 Lineare Regressions-Vorhersage......................................................................... 79<br />

6.3.2 Differenzfilter ..................................................................................................... 82<br />

6.3.3 Radialfunktionen-System-Interpolation ............................................................... 83<br />

6.4 Korrelationen............................................................................................................ 85<br />

6.5 Ergebnisse <strong>und</strong> Diskussion....................................................................................... 86<br />

7 Downscaling <strong>und</strong> Vorhersage von Wetterdaten in Potsdam .................. 87<br />

7.1 Einleitung................................................................................................................. 87<br />

7.2 Untersuchung des Niederschlages............................................................................ 88<br />

7.2.1 Untersuchung des Jahresganges .......................................................................... 88<br />

7.2.2 Downscaling der Niederschlagsamplituden.......................................................... 89<br />

7.2.3 Übergang zu Trefferquoten................................................................................. 94<br />

7.2.4 Downscaling der binären Niederschlagsereignisse................................................ 95<br />

7.2.5 Schwellwertvariation .......................................................................................... 97<br />

7.2.6 Informationsgehalt der pT-Daten ........................................................................ 98<br />

7.2.7 Zeitliche Vorhersage......................................................................................... 101<br />

7.3 Untersuchung der Maximaltemperatur.................................................................. 103<br />

7.3.1 Untersuchung des Jahresganges ........................................................................ 103<br />

7.3.2 Downscaling..................................................................................................... 104<br />

7.3.3 Informationsgehalt der pT-Daten ...................................................................... 106<br />

7.4 Untersuchung Wasserdampfdruckes...................................................................... 107<br />

7.4.1 Untersuchung des Jahresganges ........................................................................ 107<br />

7.4.2 Downscaling..................................................................................................... 108<br />

7.4.3 Zeitliche Vorhersage......................................................................................... 109<br />

7.5 Ergebnisse <strong>und</strong> Diskussion..................................................................................... 112<br />

8 Zusammenfassung.................................................................................. 113<br />

9 Anhang.................................................................................................... 116<br />

9.1 Arbeiten <strong>mit</strong> „Data-Stream-Network“.................................................................... 116<br />

9.2 Tabellen.................................................................................................................. 121<br />

10 Abkürzungen .......................................................................................... 125<br />

11 Literaturverzeichnis............................................................................... 126<br />

2


1 Einleitung<br />

Die Theorie der dynamischen <strong>Systeme</strong> versucht den Zustand <strong>und</strong> die Entwicklung eines Systems auf die<br />

Wechselwirkungen seiner Einzelkomponenten zurückzuführen. Mit Hilfe der statistischen Physik<br />

können <strong>Systeme</strong> <strong>mit</strong> sehr vielen Freiheitsgraden untersucht <strong>und</strong> durch makroskopische Größen<br />

statistisch beschrieben werden. Die Anwendung dieser Theorien auf die Analyse <strong>und</strong> die Vorhersage von<br />

Zeitreihen ist ein Ansatz <strong>mit</strong> dem in letzter Zeit auf vielen Gebieten <strong>mit</strong> großem Einsatz erfolgreich<br />

gearbeitet wird. Physiker untersuchen dabei nicht nur typische physikalische <strong>Systeme</strong>, sondern wagen<br />

sich auch in andere komplexe Zusammenhänge z.B. der Biologie, Sozialwissenschaft, Wirtschaft <strong>und</strong><br />

dem Finanzwesen vor. Die erfolgreiche Vorhersage realer <strong>Systeme</strong> kann von sehr großem praktischem<br />

Nutzen sein. Die Bedeutung der richtigen Prognose z.B. des Wettergeschehens, sozialer <strong>und</strong><br />

wirtschaftlicher Entwicklungen, biologischer Ressourcen etc. ist offensichtlich. Das Wissen um<br />

zukünftige Entwicklungen würde es ermöglichen, frühzeitig in derartige <strong>Systeme</strong> steuernd einzugreifen<br />

um sie zu regulieren.<br />

Das „Schauen in die Zukunft“ <strong>und</strong> das Ausnutzen dieser Kenntnis ist uralter Menschheitstraum. Der<br />

Begrifft „Zeit“ ist fest in unserer Denkstruktur verankert, denn die Vorhersage ist eine natürliche<br />

Fähigkeit der Menschen, die aber oft unbewußt benutzt wird. Schon wenn wir eine Straße überqueren,<br />

müssen wir vorhersagen, wo sich ein Auto einige Sek<strong>und</strong>en später befinden wird. Diese Vorhersage<br />

wurden dabei im Laufe des Lebens <strong>mit</strong> statistischen Methoden gelernt. Dabei wurde nicht nur die<br />

&<br />

&<br />

Dynamik des Fahrzeuges (im physikalischen Bild: x = v ⋅ t ) approximiert, sondern auch die komplexen<br />

Reize des Auges in ein wie auch immer geartetes reduziertes (aber zweckmäßiges) inneres Bild der Welt<br />

transformiert. Dieses geschieht „nur“ durch die Auswertung der Sinnesreize <strong>und</strong> deren räumliche <strong>und</strong><br />

zeitliche Korrelationen, also Observablen, die nicht den (einfachen) Systemgrößen im physikalischen<br />

Bild entsprechen. Die Anwendung statistischer Methoden, speziell die der künstlichen <strong>neuronalen</strong><br />

Netzwerke, ist daher eine erfolgreiche Methode, um die Dynamik unbekannter <strong>Systeme</strong> nur durch die<br />

Auswertung von Observablen zu untersuchen.<br />

Neben der Entwicklung der Methoden zur <strong>Zeitreihenanalyse</strong> <strong>und</strong> der Untersuchung von Datenbeständen<br />

lag ein wichtiger Teil dieser Arbeit darin, ein allgemein verwendbares, leistungsfähiges <strong>und</strong> einfach zu<br />

bedienendes Software-Tool für die Zeitreihen- <strong>und</strong> Datenanalyse zu schaffen. Alle selbst entwickelten,<br />

implementierten <strong>und</strong> aus Bibliotheken eingeb<strong>und</strong>enen Algorithmen wurden dabei in eine Oberfläche<br />

integriert, unter der sie verwaltet <strong>und</strong> verknüpft werden können. Das Programm ermöglicht es, einem<br />

Anwender <strong>mit</strong> Erfahrungen auf dem Gebiet der <strong>Zeitreihenanalyse</strong> ohne Programmier-kenntnisse,<br />

Algorithmenstrukturen grafisch aufzubauen <strong>und</strong> Analysen fast auf Knopfdruck durchzuführen. Diese<br />

Software-Engeneering-Seite dieser Arbeit wird in Kapitel 2 beschrieben. Sie ist die Gr<strong>und</strong>lage für die<br />

durchgeführten Analysen.<br />

1


Im Bereich der nichtlinearen Dynamik sind in den letzen Jahren eine Reihe von Verfahren zur Analyse<br />

von Zeitreihen entwickelt <strong>und</strong> auf verschiedene <strong>Systeme</strong> angewendet worden. Mit diesen Algorithmen<br />

können verschiedene Kenngrößen der <strong>Systeme</strong> bestimmt oder die Struktur <strong>und</strong> Art der Attraktoren<br />

untersucht werden. Für einige <strong>Systeme</strong> lassen sich Modelle finden, die die Dynamik eines Systems<br />

approximieren. Letztendlich kann daraus eine zeitliche Vorhersage für die Evolution der <strong>Systeme</strong><br />

gewonnen werden.<br />

Viele Verfahren liefern aber nur bei der Anwendung auf stark deterministische <strong>Systeme</strong> brauchbare<br />

Ergebnisse. Die bekannten Standardtestsysteme (Henon, Mackey-Glass [2]) können z.B. durch<br />

neuronale Netzwerke sehr präzise approximiert werden, wogegen die Untersuchung von Observablen<br />

natürlicher <strong>Systeme</strong> schwierig <strong>und</strong> unsicher ist. Die deterministischen Anteile einer Zeitreihe sind meist<br />

von Rauschen überlagert oder durch andere irreguläre Einflüsse gestört. Statistische Verfahren<br />

benötigen daher große Datenmengen, die bei natürlichen <strong>Systeme</strong>n meistens nur durch aufwendige<br />

Messungen gewonnen werden können <strong>und</strong> daher selten zur Verfügung stehen. Weiterhin ist von<br />

vornherein nicht sicher, ob die zu untersuchenden Daten überhaupt systematisch korreliert sind oder ob<br />

die Datenbasis ausreicht, um mögliche Korrelationen zu erkennen.<br />

In dieser Arbeit soll geprüft werden, ob einige ausgewählte Algorithmen auf natürliche <strong>Systeme</strong><br />

anwendbar sind. Die vier untersuchten Datensätze stammen dabei aus sehr unterschiedlichen <strong>Systeme</strong>n<br />

<strong>mit</strong> sehr komplexen hochdimensionalen Wechselwirkungen. Die Observablen, die für eine Untersuchung<br />

zur Verfügung stehen, stellen nur einen sehr kleinen Teil (oder eine Projektion) der am ganzen System<br />

beteiligten Größen dar. Das Takens-Theorem [1] liefert eine Methode, <strong>mit</strong> der die Untersuchung des<br />

Gesamtsystems im Prinzip möglich ist: Nur durch die Auswertung der Observablen mehrerer<br />

Zeitschritte kann ohne Kenntnis aller dynamischen Größen <strong>und</strong> deren Wechselwirkungen das System<br />

approximiert werden. Dieser rein statistische Ansatz ist sehr pragmatisch <strong>und</strong> bei natürlichen <strong>Systeme</strong>n<br />

oft der einzig mögliche, da die Wechselwirkungen im System im allgemeinen so komplex sind, daß sie<br />

nicht direkt modelliert werden können.<br />

Nach dieser Einleitung folgen die Kapitel <strong>mit</strong> den einzelnen Themengebieten. Das Kapitel 2 beschreibt<br />

das entwickelte Software-Tool. Im darauf folgenden Kapitel 3 wird auf die Theorie des neuronale<br />

Netzwerktyps „Radiales-Basis-Funktionen-System“ eingegangen, das in drei der vier Untersuchungen<br />

angewendet wurde. Danach folgen die Abschnitte über die Analyse der verschiedenen Datensätze:<br />

Konzentrationen von Stäuben in der Luft (Kap. 4), chemische Bestandteile der Schichten eines<br />

Bohrkernes (Kap. 5), Tierbestände eines Ökosystems (Kap. 6) sowie Druck- <strong>und</strong> Temperaturwerte der<br />

Atmosphäre (Kap. 7). Auf die sehr unterschiedlichen Themenbereiche, wird in den jeweiligen Kapiteln<br />

vorbereitet.<br />

2


2 Das Software-Tool „Data-Stream-Network“<br />

2.1 Idee des „Data-Stream-Networks“<br />

Im Jahr 1994 entwickelte sich die Idee zu diesem Programm aus Ergonomieüberlegungen. Es war, in<br />

Betracht der durchzuführenden Datenanalysen, notwendig die Arbeitsmethoden effizienter zu gestalten.<br />

Die übliche Vorgehensweise ohne dieses Tool war folgende:<br />

Für eine gegebene Aufgabe werden (i.a. viele) Algorithmen entwickelt <strong>und</strong> in einem Programm<br />

<strong>mit</strong>einander verb<strong>und</strong>en. Das Programm ist da<strong>mit</strong> nur für diese Art von Untersuchungen verwendbar. Für<br />

kleine Variationen der Methoden muß fortwährend der Sourcecode umgeschrieben werden. Sollen<br />

gänzlich andere Probleme gelöst werden, muß ein komplett neues Programm entwickelt bzw. aus<br />

Algorithmen von vorhandenem Programmcode aufgebaut werden. D.h., für jede neue Aufgabe oder<br />

sogar Variation der Aufgabe ist ein eigenständiges Programm notwendig. Der Gr<strong>und</strong> für die<br />

Spezialisierung der Programme liegt dabei meistens nicht in den verwendeten Algorithmen, die sich in<br />

vielen Fällen kompatibel erstellen lassen, sondern in deren Auswahl, Varianten, Reihenfolge <strong>und</strong><br />

Verknüpfung.<br />

Ein Ausweg aus diesem Problem ist es die Entwicklung eines einzigen universellen Programmes.. Um es<br />

für alle eventuellen Anwendungen zu rüsten, müßte es allerdings sehr komplex sein. Die mannigfaltigen<br />

Möglichkeiten der <strong>Zeitreihenanalyse</strong> wären auf herkömmlichem Wege nur durch eine komplizierte<br />

Struktur von Parametern einstellbar. Praktisch ließe sich dieser Weg daher nur für eine sehr<br />

eingeschränkte Klasse von Anwendungen realisieren.<br />

Eine andere Möglichkeit wäre es, die Untersuchungsschritte auf viele einzelne konfigurierbare<br />

Programme zu verteilen, die je nach Anwendung über das Betriebssystem <strong>mit</strong>einander verknüpft<br />

werden. Der Datenaustausch zwischen den Modulen muß dabei über kompatible (Datei-) Schnittstellen<br />

oder Pipes erfolgen. Letztendlich wird jedoch durch diese Modullierung das Problem nur vom<br />

Programmcode auf die Betriebssystemebene verschoben: Die Verkettung der Module, der<br />

Datenaustausch <strong>und</strong> das Setzen der Parameter müßte entweder für jede Berechnung interaktiv erfolgen<br />

oder durch Scriptprogrammierung wieder individuell programmiert werden. Z. B. müßte das Aufteilen<br />

von Daten auf mehrere Verarbeitungszweige, das Zusammenführen bzw. der Vergleich der Ergebnisse<br />

<strong>und</strong> die Ausführung der Programme richtig synchronisiert werden. Weiterhin müßte die Optimierung der<br />

Verfahren <strong>und</strong> Parametereinstellungen durch viele Programmdurchläufe (<strong>und</strong> Umprogrammierungen)<br />

erfolgen. Der zusätzliche Arbeitsaufwand für die Verwaltung <strong>und</strong> Steuerung der Module würde von der<br />

eigentlichen Aufgabe ablenken. Große Untersuchungen ließen sich bei dieser Vorgehensweise nicht<br />

professionell abwickeln.<br />

3


Daher erschien es notwendig ein komfortables <strong>und</strong> flexibles Arbeitswerkzeug für die Zeitreihen- <strong>und</strong><br />

Datenanalyse <strong>mit</strong> folgenden Anforderungskriterien zu entwerfen: Das Programm sollte nach dem<br />

bewährten Modulprinzip arbeiten - die Arbeitsabläufe werden in kleine <strong>und</strong> gut abgestimmte<br />

wiederverwendbare Einheiten zerlegt. Dabei ist es wichtig gut abzuwägen, wie universell oder speziell<br />

die einzelnen Module zu entwickeln sind. Falls sie zu speziell sind, sind sie nicht wiederverwendbar,<br />

sind sie zu pri<strong>mit</strong>iv müssen zu viele Module für eine Anwendung vernetzt werden 1 . Dieses Programm<br />

sollte alle diese Module komfortabel verwalten <strong>und</strong> es ermöglichen sie schnell <strong>und</strong> einfach anzusteuern,<br />

zu verbinden sowie die Berechnungen automatisch ablaufen zu lassen. Die Parameter <strong>und</strong> die Art der<br />

verwendenden Algorithmen müßte einfach zu verändern <strong>und</strong> deren Wirkung direkt zu erhalten sein, so<br />

daß Optimierungen schnell durchzuführen sind. Weiterhin sollten alle Standardalgorithmen der<br />

<strong>Zeitreihenanalyse</strong> eingebaut sein <strong>und</strong> auch die grafische Darstellung der Ergebnisse im Programm<br />

integriert sein. Das Programm soll kurz gesagt in einer abstrakten Form den Umgang <strong>mit</strong> Daten<br />

ermöglichen <strong>und</strong> den Benutzer <strong>mit</strong> internen Details verschonen, so daß er sich ganz auf seine Aufgabe<br />

konzentrieren kann.<br />

Die geforderten Eigenschaften lassen sich wie folgt zusammenfassen:<br />

1. Wiederverwendbare Module<br />

2. Kompatible Schnittstellen zwischen den Modulen<br />

3. Einfache <strong>und</strong> übersichtliche Vernetzung der Module<br />

4. Leichte Einstellung <strong>und</strong> Optimierung der Parameter<br />

5. Einfache <strong>und</strong> einheitliche Bedienung aller Module<br />

6. Angebot aller Standardverfahren der <strong>Zeitreihenanalyse</strong><br />

7. Integration einer grafischen Darstellung der Ergebnisse<br />

Einen entscheidenden Hinweis für die Gestaltung einer Bedienungsoberfläche, <strong>mit</strong> der diese Kriterien<br />

erfüllt werden können, gab das Softwarepaket KHOROS 2 , das ursprünglich von der University of New<br />

Mexico (USA) entwickelt wurde. Mit dem Programm kann interaktiv grafisch ein Netz der<br />

Bearbeitungsroutinen, <strong>mit</strong> denen die Daten verarbeitet werden sollen, konstruiert <strong>und</strong> die Ergebnisse<br />

grafisch ausgegeben werden. Leider war der Umfang <strong>und</strong> die Komplexität des Programmes - die<br />

komplette Version enthält 500 MB Sourcecode - so groß, daß es überdimensioniert für die Zielsetzung<br />

1 Diese Gradwanderung zwischen Komplexität <strong>und</strong> Simplizität der Algorithmen war nicht immer einfach. So wurde<br />

manchmal von Benutzern bemängelt, daß für eine einfache Aufgabe zu viele Module verwendet werden mußten. Durch die<br />

kleinen Module war es allerdings möglich, dieses oder jenes Modul auch in einem ganz anderen Zusammenhang zu<br />

verwenden.<br />

2<br />

Es wird inzwischen kommerziell von der Khoral Research Inc. für $549 (Einzelplatzversion) vertrieben<br />

(http://www.khoral.com).<br />

4


erschien. Außerdem war das Programm hinsichtlich seiner Bedienung, <strong>und</strong> Flexibilität <strong>und</strong> der<br />

Darstellung sehr großer Algrithmennetze nicht optimal 3 .<br />

Daher wurde ein eigenes Programm nach diesem Vorbild aber ohne die Schwächen konstruiert: Mit dem<br />

entwickelten Programm können, ähnlich wie bei KHOROS, viele Algorithmen schnell <strong>und</strong> einfach<br />

<strong>mit</strong>einander „verschaltet“ werden. Ebenso leicht ist es, nachträglich Änderungen an der<br />

Vernetzungsstruktur oder den Parametern durchzuführen <strong>und</strong> das Ergebnis dieser Manipulationen zu<br />

erhalten. Die Konstruktion der Algorithmenvernetzungen geschieht interaktiv <strong>mit</strong> Hilfe eines grafischen<br />

Editors <strong>und</strong> läßt sich unter dem Stichwort "Grafische Programmierung“ einordnen. Die gesamte<br />

Algorithmusstruktur wird aus kleinen, überschaubaren Einheiten aufgebaut. Diese so erzeugte<br />

Netzwerkstruktur ist als ein Filtersystem zu verstehen, in das auf der Eingabeseite ein oder mehrere<br />

Datensätze einfließen, <strong>mit</strong> verschiedenen Algorithmen bearbeitet werden <strong>und</strong> an der Ausgabeseite i.a.<br />

auch grafisch aufbereitet ausgegeben werden. Aus diesem Bild ist der Name „Data-Stream-Network“<br />

entstanden.<br />

2.2 Bedienung <strong>und</strong> Oberfläche<br />

Das Data-Stream-Network-Programm (DSN) 4 läßt sich sehr leicht auf einem MS-Windows-Rechner<br />

installieren. Das komprimierte Programmpaket paßt auf eine HD-Diskette (1.44 kB) <strong>und</strong> wird <strong>mit</strong> dem<br />

enthaltenen Installationsprogramm auf die Festplatte kopiert <strong>und</strong> entpackt. Außerdem müssen zwei<br />

Public Domain Programme auf dem Computer installiert sein: GNUPLOT 5 zur grafischen<br />

Datenrepräsentation <strong>und</strong> die Scriptsprache Tcl/Tk 6 der Firma SUN, <strong>mit</strong> der die grafische<br />

Bedienungsoberfläche programmiert wurde.<br />

Das DSN präsentiert sich beim Start als eine leere Arbeitsfläche, auf der das Netz der Algorithmen<br />

konstruiert wird (Abbildung 1). Die Fläche zum Aufbau der Struktur ist nicht durch die<br />

Bildschirmgröße beschränkt. Durch Scrollbars können andere Bereiche des großen virtuellen Desktop<br />

sichtbar gemacht werden. An den Seiten ist der Desktop <strong>mit</strong> verschiedenen aktiven Widgets zur<br />

Steuerung des Programms <strong>und</strong> passiven Widgets als Statusanzeige umgeben.<br />

Die obere Menüzeile stellt allgemeine Kommandos zur Programmsteuerung zur Verfügung. Shortcuts<br />

für häufig benutzte Befehle sind am linken Fensterrand in Form von Smart Icons angebracht. Die<br />

wichtigsten Befehle sind selbstverständlich auch über Tastenkürzel zu erreichen.<br />

3 Z.B. werden in KHOROS die Algorithmen immer von der linken Seite <strong>mit</strong> Daten gespeist <strong>und</strong> geben rechts die<br />

Ergebnisse aus. Falls der Datenfluß von recht nach links läuft, was bei komplexen Algorithmennetzen häufig vorkommt,<br />

entstehen unübersichtliche Z-förmige Verbindungsmuster <strong>und</strong> ein Durcheinander von Verbindungslinien.<br />

4 Die aktuelle Version läßt sich unter http://www.neuro.uni-oldenburg.de/~weichert laden (Stand 3.5.1998).<br />

5 Copyright (C) 1986-1993 Thomas Williams, Colin Kelley; http://www.cs.dartmouth.edu/gnuplot_info.html<br />

6 http://sunscript.sun.com/<br />

5


In der zweiten Menüzeile können die eingebauten Algorithmen, nach Bedeutungsgruppen sortiert,<br />

angewählt werden. Durch einen anschließenden Mausklick auf eine leere Stelle des Desktops wird ein<br />

Algorithmus, durch ein großes Icon dargestellt, „fallengelassen“. Die Algorithmen werden dabei als<br />

Filter aufgefaßt, d.h. sie müssen auf der einen Seite <strong>mit</strong> Daten gespeist werden <strong>und</strong> geben auf der<br />

anderen Seite ihre berechneten Daten aus. Für diese Ein- <strong>und</strong> Ausgabedaten werden kleinere Icons<br />

automatisch eingefügt <strong>und</strong> durch Pfeile, die die Datenflußrichtung anzeigen, <strong>mit</strong> dem Algorithmus Icon<br />

verb<strong>und</strong>en 7 . Hat man zwei Algorithmen (incl. der Datenknoten) auf der Arbeitsfläche plaziert, können<br />

sie sehr einfach <strong>mit</strong>einander vernetzt werden: Z. B. "faßt" man <strong>mit</strong> der Maus das Ausgabe Icon "an",<br />

schiebt es über einen Eingabedatenknoten <strong>und</strong> läßt es "fallen“ (tag, move, and drop <strong>mit</strong> der linken<br />

Maustaste). Die beiden Datenknoten werden dadurch automatisch verschmolzen <strong>und</strong> stellen jetzt ein <strong>und</strong><br />

denselben Datensatz dar. Mit dieser Methode wurden große Netze <strong>mit</strong> 200 Verknüpfungen konstruiert.<br />

Die Netzwerkstruktur läßt sich, <strong>mit</strong> allen darin enthaltenen Daten, in ihrem aktuellen Zustand<br />

vollständig in eine Datei sichern <strong>und</strong> wieder laden.<br />

Alle Netzteile können jederzeit verschoben oder in ihrer Struktur verändert werden, indem man eine<br />

Verbindung oder einen Knoten markiert, dann löscht <strong>und</strong> einen anderen Algorithmus oder eine andere<br />

Vernetzung einfügt. Einzelne Knoten lassen sich <strong>mit</strong> der Maus gleichzeitig markieren <strong>und</strong> Gruppen<br />

können <strong>mit</strong> einem „Fangrechteck“ erfaßt werden, so daß alle Befehle auch auf mehrere Knoten<br />

gleichzeitig angewendet werden können.<br />

Nachdem die gewünschte Datenflußstruktur aufgebaut ist, reicht ein doppelter Mausklick auf einen<br />

hinteren Knoten <strong>und</strong> alle Berechnungen, die nötig sind, um diesen Knoten zu bestimmen, werden<br />

gestartet. Jederzeit können Struktur- oder Parameteränderungen durchgeführt werden, deren<br />

Auswirkungen man durch einen erneuten Mausklick erhalten kann. Nach einem rekursiven<br />

Suchverfahren werden nur die Teile neu berechnet, die nicht mehr der aktuellen Netzwerkstruktur oder<br />

den aktuellen Parametereinstellungen entsprechen. Der Zustand der Datenknoten wird durch die<br />

unterschiedliche Schattenfarbe angezeigt. Z. B. erkennt man in Abbildung 1, daß das Netz bis zum<br />

PCA-Trafo-Knoten (12) bzw. bis zu dessen Rechenergebnis (13) durchgerechnet worden ist, da diese<br />

Knoten <strong>und</strong> alle Knoten bzgl. der Datenflußrichtung davor einen grauen Schatten (auf dem<br />

Farbbildschirm: grün) besitzen. Die Knoten dahinter sind noch nicht aktualisiert <strong>und</strong> schwarz (auf dem<br />

Farbbildschirm: blau), falls sie Daten enthalten bzw. hellgrau, falls sie leer sind. Die Aktualisierung der<br />

Knoten wird durch das schrittweise Durchfärben der Schatten während der Berechnung visualisiert.<br />

7 Im Gegensatz zu KHOROS, bei dem die Daten in die Algorithmen eingebettet sind, werden im DSN auch die Daten als<br />

separate Knoten dargestellt <strong>und</strong> können ohne Algorithmus existieren. Dieses Konzept ist logischer <strong>und</strong> ermöglicht<br />

außerdem eine übersichtliche grafische Darstellung der Netzwerkstruktur.<br />

6


Abbildung 1: Bildschirmhardcopy des Data-Stream-Networks <strong>mit</strong> einem kleinen Beispielnetz:<br />

Ein ähnliches Netz ist für die Downscaling-Untersuchung in dieser Arbeit verwendet worden. Hier eine allgemeine<br />

Interpretation: Stellen wir uns vor, uns liegen Messungen eines Observablenvektors A vor, der den Zustand eines<br />

dynamischen Systems S zu bestimmten Zeitpunkten beschreibt. Diese Daten stehen uns in Form einer Zeitreihe als Datei<br />

auf der Festplatte zur Verfügung. Sie werden durch den Zeitreihenlade-Knoten (1) in das Netz gebracht <strong>und</strong> liegen dort<br />

durch Knoten (2) symbolisiert zur Weiterverarbeitung bereit. Weiterhin haben wird Daten einer andere Observable B des<br />

Systems, die über einen unbekannten inneren Zusammenhang <strong>mit</strong> dem Zustand des Systems verknüpft ist (24). Wir stellen<br />

uns jetzt die Aufgabe, aus den zwischen den beiden Datensätzen bestehenden Korrelationen die Abbildung vom ersten<br />

Observablenvektor auf die zweite Observable zu schätzen. Da wir eine allgemeingültige Abbildung suchen <strong>und</strong> nicht nur<br />

die vorliegenden Datensätze approximieren wollen (Stichwort: Overfitting), teilen wir unsere Daten in Trainings- <strong>und</strong><br />

Testdatensatz auf. Mit Knoten (3) für A <strong>und</strong> Knoten (23) für B wird diese Aufgabe erledigt. B sei eine multivariante<br />

Zeitreihe <strong>mit</strong> 100 Observablen pro Zeitpunkt, die stark untereinander korreliert sind. Um das Rauschen herauszufiltern <strong>und</strong><br />

um die Algorithmen nicht <strong>mit</strong> unnötigen Datenmengen zu belasten, werden die Daten vorverarbeitet. Dazu bestimmen wir<br />

die Kreuzkorrelationsmatrix (10) <strong>mit</strong> (9) <strong>und</strong> wenden eine Hauptkomponentenanalyse (PCA) in (6) an. Das Ergebnis liegt<br />

in (7) vor <strong>und</strong> wird <strong>mit</strong> (16) in eine Grafik gedruckt <strong>und</strong> interpretiert. Daran erkennt man, daß nur die ersten 5<br />

Komponenten relevante Information enthalten <strong>und</strong> stellen dieses in den Parametern der PCA-Transformation (8) ein.<br />

Derselbe Parameter wird in (12) für den Testdatensatz (5) verwendet. Die Menge der reduzierten jetzt 5-dimensionalen<br />

Datenpunkte (11) wird in (14) einer Phasenraumclusterung unterzogen <strong>und</strong> liefert in (15) die Vorstufe eines <strong>neuronalen</strong><br />

Netzes (RBFS). Das Netz wird in (17) <strong>mit</strong> den Trainingsdaten (26) gefittet <strong>und</strong> liefert in (18) das RBFS als Ergebnis.<br />

Dieses wird <strong>mit</strong> (28) auf den Testdatensatz (13) angewendet. Die berechnete Zeitreihe (29) sollte jetzt ähnlich der<br />

gemessenen Zeitreihe (27) sein. Um dieses zu prüfen, werden sie voneinander abgezogen (20). Die Differenzzeitreihe (22)<br />

wird dann auf ihre Kenngrößen, wie z.B. die Streuung, untersucht.<br />

7


Der Inhalt der Datenknoten (Daten) <strong>und</strong> der Algorithmusknoten (Parameter) kann durch einen Befehl<br />

(Shortcut: rechte Maustaste) sichtbar gemacht <strong>und</strong> verändert werden. Es öffnet sich eine Dialogbox, in<br />

der der Knoteninhalt in einem ASCII-Format dargestellt ist. Alle Datenknoten besitzen zusätzlich eine<br />

grafische Darstellung. Durch einen speziellen Befehl wird der Inhalt des gerade markierten Knotens<br />

aufbereitet <strong>und</strong> an das externe Programm GNUPLOT geleitet. Jeder Datentyp (z.B. Zeitreihe,<br />

Frequenzspektrum) besitzt eine standardisierte Darstellungsform, die in diesem Fall benutzt wird. Sollen<br />

speziellere Grafiken erzeugt werden, ist für jeden Datentyp ein Plotalgorithmus entwickelt worden,<br />

durch dessen Parameter die Darstellung genau angepaßt werden kann. Die Einstellungen beziehen sich<br />

dabei auf Stile wie Farben, Linienarten, Beschriftungen, Achsenabschnitte etc. <strong>und</strong> generelle<br />

datenabhängige Formate, z.B. wie die Kanäle einer multivarianten Zeitreihe auf die verschiedenen<br />

Koordinatenachsen verteilt werden sollen (Phasenraumplot). Die Plotalgorithmen erzeugen für einige<br />

Datentypen auch 3-dimensionale Grafiken. Dabei ist die Darstellung der Clusterung eines 3-<br />

dimensionalen Attraktors (Abbildung 2) sehr eindrucksvoll.<br />

P1<br />

P2<br />

60<br />

50<br />

P3<br />

P4<br />

40<br />

30<br />

20<br />

10<br />

0<br />

-20<br />

-10<br />

0<br />

10<br />

20 -30<br />

-20<br />

-10<br />

0<br />

10<br />

20<br />

30<br />

Abbildung 2: Clusterung des Lorenz-Attraktors (5000 Beispielpunkte). Die Graustufe gibt die Tiefe im<br />

binären Teilungsbaum an: In Gebieten (P4, P3) <strong>mit</strong> höherer Punktdichte wird häufiger geteilt.<br />

8


Die Bedienung des Programmes ist durch das natürliche <strong>und</strong> einfache Prinzip schnell zu erlernen. Die<br />

Dokumentation des Programmes ist zum größten Teil in die Oberfläche integriert: Die Bedeutung der<br />

einzelnen Knöpfe <strong>und</strong> Felder wird in einer Textzeile am unteren Fensterrand eingeblendet, wenn das<br />

entsprechende Objekt selektiert ist oder wenn die Maus "darauf zeigt". Die Hilfe für die einzelnen<br />

Algorithmen <strong>und</strong> Datentypen läßt sich direkt von der Dialogbox zum Editieren der Knoten einblenden:<br />

Es erscheint ein Text 8 , der die Bedeutung <strong>und</strong> die Einstellungsmöglichkeiten des Knotentyps erklärt.<br />

Mit dem DSN können Analysen schnell <strong>und</strong> komfortabel durchgeführt werden. Verschiedene<br />

Netzvarianten lassen sich einfach konstruieren, Parametereinstellungen können schnell variiert werden.<br />

Das Resultat dieser Veränderungen ist immer nur ein Mausklick (<strong>und</strong> Rechenzeit) entfernt.<br />

Für einige Anwendungen war jedoch die Bedienung per Hand nicht ausreichend. Immer wiederkehrende<br />

systematische Arbeitsschritte, die z.B. bei der Feinjustierung von Parametern oder der Untersuchung<br />

von vielen gleichartigen Datensätzen anfallen, sollten automatisiert werden. Die erste Idee bestand darin,<br />

den Netzwerkeditor um Schleifen, logische Verzweigungsstrukturen <strong>und</strong> automatische<br />

Parametereinstellungen zu erweitern. Bei näherer Überlegung stellte sich jedoch heraus, daß dieser Weg<br />

einen unverhältnismäßig großen Programmieraufwand erfordert, wenn diese Möglichkeit in einer<br />

allgemeinen Form in die Netzwerkstrukturen eingebaut werden soll. Die Flexibilität, die nötig ist, um<br />

den Programmablauf der mannigfaltigen Anwendungsmöglichkeiten zu steuern, ist dabei nur schwer zu<br />

erreichen. Deshalb wurde ein anderer Weg eingeschlagen: Das Data-Stream-Network wurde um eine<br />

Scriptsprache ergänzt. Diese Erweiterung basiert auf der Scriptsprache Tool Command Language (Tcl),<br />

auf die im Kapitel 2.3.2 eingegangen wird. Tcl eignet sich aufgr<strong>und</strong> seiner guten Stringverarbeitung<br />

hervorragend für diese Aufgabe. Tcl läßt sich um eigene Befehle erweitern, die es ermöglichen, das<br />

DSN zu manipulieren. Mit diesen neuen Befehlen können z.B. Parameter verändert, Knoten aktualisiert<br />

<strong>und</strong> kopiert sowie Daten ausgelesen, verglichen <strong>und</strong> gespeichert <strong>und</strong> da<strong>mit</strong> Ergebnisse automatisch<br />

gesammelt werden. Da Tcl alle Konstrukte höherer Programmiersprachen zu Verfügung stellt, sind auch<br />

komplexe Steuerungen des Netzwerkes möglich. Das DSN kann verschiede Tcl-Scripte, hier Makros<br />

genannt, verwalten. Jedes Makro wird durch einen Button am Fensterrand dargestellt <strong>und</strong> ermöglicht<br />

so<strong>mit</strong>, beliebige komplexe Abläufe schnell anzusteuern.<br />

Im Anhang wird die Bedienung des Data-Stream-Networks an praktischen Anwendungsbeispielen<br />

demonstriert. Man erhält darin auch einen Überblick über die wichtigsten Algorithmen im Programm.<br />

8 An einer HTML-Hilfedatei wird zur Zeit gearbeitet. Es wäre denkbar, in dieser Hypertextform <strong>und</strong> einer Kombinaion <strong>mit</strong><br />

dem DSN eine interaktive Anleitung zur Zeitreihenanylse (einfaches Expertensystem) aufzubauen.<br />

9


2.3 Implementierung<br />

2.3.1 C++<br />

Das Gerüst des Data-Stream-Networks wurde komplett in C++ programmiert. Alle selbst entwickelten<br />

Algorithmen <strong>und</strong> alle aus fremden C-Bibliotheken entnommenen Algorithmen wurden in eigenständige<br />

C++-Klassen eingeb<strong>und</strong>en. Der objektorientierte Ansatz dieser Programmiersprache erfordert eine<br />

gewisse Zeit des Umdenkens, die sich aber auszahlt. C++ besitzt eine hohe Abstraktionsebene <strong>und</strong><br />

ermöglicht bessere Kapselung von Daten <strong>und</strong> Prozeduren. Auch wird die Vererbung zur Verfügung<br />

gestellt, wodurch in hierarchischer Struktur <strong>und</strong> so<strong>mit</strong> übersichtlich programmiert werden kann. C++<br />

kann so erweitert werden 9 , daß eine an ein spezielles Problem angepaßte Programmiersprache entsteht.<br />

In dem Programmpaket DSN wurde intensiv von dieser Möglichkeit Gebrauch gemacht 10 .<br />

Der Hauptgr<strong>und</strong> für die Wahl von C++ ist aber deren allgemeine Verfügbarkeit <strong>und</strong> Standardisierung,<br />

wodurch die Entwicklung einer Software, die auf verschiedenen Betriebssystemen läuft, ermöglicht<br />

wird. Ein weiterer Vorteil ist die Verfügbarkeit von umfangreichen Bibliotheken von Algorithmen <strong>und</strong><br />

Tools in C bzw. C++.<br />

2.3.2 Tcl/Tk<br />

Die Tool Command Language (Tcl) ist eine sehr leistungsfähige Interpretersprache, die von Prof. John<br />

Ousterhout 11 an der University of California at Berkeley ab 1988 entwickelt wurde. Der Kern dieser<br />

Sprache ist die String- <strong>und</strong> Listenverarbeitung. Alle Variablentypen sind letztendlich Strings, die<br />

entsprechend interpretiert werden (z.B. als float oder int) 12 . Auch Programmcode kann in Variablen<br />

abgelegt <strong>und</strong> interpretiert werden, so daß ein laufendes Programm um neuen Code erweitert werden<br />

kann. Diese Möglichkeit wird bei der Programmierung der Makros im DSN ausgenutzt. (Weitere<br />

Informationen zu Tcl in [3] <strong>und</strong> [4])<br />

Die wichtigste Erweiterung von Tcl ist das Tool Kit (Tk), das den entscheidenden Ausschlag für die<br />

Verwendung dieser Sprache gab. Durch das Tk wird der Tcl-Interpreter um umfangreiche Befehle zur<br />

grafischen Oberflächenprogrammierung erweitert. Mit sehr einfach aufgebautem Programmcode lassen<br />

sich Fenster <strong>mit</strong> vielen verschiedenen Arten von Widgets 13 erzeugen <strong>und</strong> da<strong>mit</strong> interaktive Dialogboxen<br />

aufbauen. Durch die Kombination von Tcl <strong>und</strong> Tk ist es möglich, vollständige interaktive Anwendungen<br />

zu erstellen ohne andere Programmiersprachen zu verwenden.<br />

9 abgesehen von grammatikalischen Erweiterungen<br />

10 Es wurden als erstes z.B. Tools zur Verwaltung von dynamischen Vektoren <strong>und</strong> Matrizen entwickelt. Darauf aufbauend<br />

entstanden abstraktere Objekte wie Zeitreihen <strong>und</strong> Fourierspektren.<br />

11 http://www.sunlabs.com/~ouster/<br />

12 Die neuste Version von Tcl (8.0) verwaltet zur Beschleunigung des Interpreters intern die numerischen Variablen binär.<br />

10


Tcl/Tk ist jedoch nicht für alle Anwendungen geeignet. Numerisch intensive Algorithmen laufen in<br />

compilierbaren Sprachen schneller. Tcl/Tk bietet daher die Möglichkeit, sich <strong>mit</strong> verschiedenen anderen<br />

Sprachen (C, Pascal, FORTRAN) zu verbinden. Es ist möglich, von C aus alle Tcl/Tk-Befehle<br />

aufzurufen <strong>und</strong> umgekehrt von Tcl/Tk aus auf Prozeduren <strong>und</strong> Variablen des C-Programmes<br />

zuzugreifen. Dieses ermöglicht letztendlich die Steuerung eines C-Programmes durch Benutzeraktionen<br />

(Maus, Tastatur), die von Tk registriert werden.<br />

Tcl ist schnell zu erlernen <strong>und</strong> verkürzt durch seine Struktur auch die Entwicklungszeit 14 . Es stellt<br />

Möglichkeiten zur Verfügung, die in C++ nur durch aufwendige Programmierung erreicht werden<br />

können. Dazu gehören z.B. die interaktiv skalierbaren Dialogboxen <strong>und</strong> die Steuerung der Oberfläche<br />

durch eine sehr flexible Bindung an verschiedenartigste Benutzeraktionen. Beeindruckend sind auch die<br />

Möglichkeiten, die sich durch das canvas-widget eröffnen: Grafische Elemente können als Objekte auf<br />

dem canvas plaziert, verschoben <strong>und</strong> skaliert werden. Die Verwaltung <strong>und</strong> Restaurierung des<br />

Bildschirmhintergr<strong>und</strong>es <strong>und</strong> die Überlappung der Objekte (z-Koordinate) wird selbständig von Tk<br />

verwaltet.<br />

Tcl/Tk entlastet durch seine abstrakte Form von systemspezifischer Programmierung <strong>und</strong> ist dadurch<br />

auch kompatibel. Da es Tcl/Tk-Pakete für alle wichtigen Betriebssysteme (X-Windows-UNIX, MS-<br />

Windows, OS/2, Macintosh) gibt, trägt es dazu bei, das "babylonische Sprachengewirr" unter den<br />

<strong>Systeme</strong>n zu umgehen.<br />

Ein weiteres herausragendes Merkmal dieses Programmiersystems ist die eingebaute Option, die<br />

Sprache f<strong>und</strong>amental durch Binärcode zu erweitern. So existieren z.B. fertige Module, um gr<strong>und</strong>sätzlich<br />

neue Widgets zu erzeugen (TIX 15 ) <strong>und</strong> Flächen- bzw. Liniengrafiken zu erzeugen (BLT 16 ). Es ist<br />

geplant, diese beiden leistungsfähigen Erweiterungen in die nächste Version des DSN zu integrieren.<br />

2.3.3 Interne Module des Programms<br />

Auf die C++-Programmierung an sich kann hier nicht eingegangen werden. Es wird auf die Literatur [3]<br />

<strong>und</strong> [6] verwiesen.<br />

In C++ kann nicht immer zwischen Daten- <strong>und</strong> Prozedurstrukturen unterschieden werden: Klassen<br />

können gleichzeitig Daten <strong>und</strong> Prozeduren enthalten. Trotzdem hat man eine anschauliche Vorstellung<br />

von der Funktion einer Klasse <strong>und</strong> teilt sie nach ihrem Gebrauch in Daten <strong>und</strong> Prozeduren ein. So würde<br />

13 z.B Menüs, Buttons, Labels, Entries, Text, Scrollbars, Scales<br />

14 In der ersten Version des DSN wurde die Oberfläche direkt in C++ <strong>mit</strong> Hilfe einer Borland-Klassenbibliothek (ähnlich<br />

Java) entwickelt. Die Einarbeitung in Tcl/Tk <strong>und</strong> die Umstellung des Programmes erforderte <strong>mit</strong> ca. 6-7 Wochen<br />

wesentlich weniger Zeit als die Programmierung der Oberfläche in C++.<br />

15 Dieses stellt alle bekannten Steuerelemente von MS-Windows <strong>und</strong> mehr zur Verfügung: z.B. multi-document-interface,<br />

directory tree, helpballon etc.<br />

11


man z.B. Punkte, Farben, Zeitreihen, Fourierspektren etc. zu den Daten <strong>und</strong> die Algorithmen, die <strong>mit</strong><br />

diesen Daten arbeiten, zu den Prozeduren rechnen.<br />

Die Algorithmen im DSN sind aber erweitert programmiert worden: Sie enthalten auch Daten - nämlich<br />

ihre Parameter. Die Einbettung der Parameter in die Algorithmen hat den Vorteil, daß beim Aufruf der<br />

Berechnungsprozedur nicht alle Parameter (es sind teilweise bis zu 30) <strong>mit</strong> angegeben werden müssen.<br />

Sie werden durch den Constructor der Algorithmus auf Standardwerte gesetzt, die jedoch einzeln<br />

verändert werden können 17 . Außerdem liegt alles, was die Berechnung definiert, ohne globalen Kontext<br />

kompakt in einer Klasse vor <strong>und</strong> ermöglicht so eine einheitliche Behandlung von Daten <strong>und</strong><br />

Algorithmen, was für die interne Verwaltung des DS-Netzes notwendig ist (siehe später).<br />

Diese Art der Programmierung ist eng <strong>mit</strong> einer anderen Problemlösung verknüpft. Zu Beginn der<br />

Arbeit am DSN trat immer wieder das gleiche Problem auf: Daten mußten in eine Datei gespeichert <strong>und</strong><br />

geladen, Parameter eingestellt <strong>und</strong> die Ergebnisse angeschaut <strong>und</strong> beurteilt werden. Immer wieder mußte<br />

ähnlicher Code für die vielen verschiedenen Datentypen neu programmiert werden, um den im Prinzip<br />

immer gleichen Vorgang zu ermöglichen: Die Transformation von binär nach ASCII <strong>und</strong> umgekehrt.<br />

Die Lösung besteht darin, eine Containerklasse zu programmieren, die generell den Umgang <strong>mit</strong> Daten<br />

wesentlich vereinfacht: Auf dieser zu diesem Zweck entwickelten Klasse VarList, als Abkürzung für<br />

„Variablenliste“, beruhen alle im DSN verwendeten Datenstrukturen. Als Children von VarList erben<br />

sie deren Fähigkeiten, die sind:<br />

1. Standardisiertes Speichern von Daten<br />

2. Laden von Daten in einem Standardformat<br />

3. Menschenlesbare Darstellung der Daten (ASCII)<br />

4. Editieren der Daten<br />

5. Fehlertolerante Interpretation<br />

6. Verwalten von mehreren Datenlisten in einer Datei<br />

Mit der geerbten Elementfunktion "AddVar" registriert man eine Variable in einer Instanz von<br />

VarList. z.B.:<br />

int fifo, WindowSize; Vector filter;<br />

AddVar("Filterform",fifo,0);<br />

// 0-Rechteckfilter, 1-Spez. Filter<br />

AddVar("WindowSize",winsize,10); // Filtergroesse<br />

AddVar("Filter",filter);<br />

// Ist Vektor<br />

filter.SetStr("1 2 3.5 2 1");<br />

// Möglichkeit einen Vektor <strong>mit</strong><br />

// einen String Standardwerte zu setzen<br />

16 Dieses Modul stellt z.B. Koordinatenachsen, Gitter, Kuchendiagramme etc. zur Verfügung.<br />

17 C++ unterstützt zwar auch Defaultwerte in Prozeduren, dieses aber nur in einer bestimmten Reihenfolge: Nur die<br />

hinteren Parameter einer Prozedur können weggelassen werden, was für die Parameterstruktur der implementierten<br />

Algorithmen nicht ausreicht.<br />

12


Der erste Parameter der AddVar-Funktion gibt den Namen der Variablen in der ASCII-Darstellung, der<br />

zweite die C-Variable, von der die Adresse <strong>und</strong> der Typ in VarList gespeichert wird an. Diese letze<br />

Angaben ermöglichen, daß die VarList-Klasse intern auf die Variable zugreifen kann. Im dritten<br />

Parameter werden die Defaultwerte angegeben. VarList unterstützt alle Standardvariablentypen<br />

(char, int, float, double) <strong>und</strong> die definierten Typen (Boolean, String, Vector,<br />

Matrix, Color, Intervall etc.).<br />

Durch die Anwendung dieser einen Prozedur sind alle obigen 6 Punkte für die jeweilige Variable in<br />

einem Schritt erledigt. Wenn eine Instanz der VarList-Klasse z.B. <strong>mit</strong> Namen „MovingAverage“<br />

definiert wird, sieht die durch VarList zu Verfügung gestellte ASCII-Darstellung der Daten<br />

folgendermaßen aus:<br />

[MovingAverage]<br />

FilterForm = 0<br />

WindowSize = 10<br />

Filter = 1 2 3 2 1<br />

[END] of [MovingAverage]<br />

In dieser Darstellung wird auch der Datentyp gespeichert, geladen <strong>und</strong> editiert 18 . Gerade das Speichern<br />

in <strong>und</strong> das Lesen aus einer Datei wird durch diese aufwendige aber übersichtliche Darstellungsform<br />

fehlertolerant gehalten. In der üblichen Programmierung müßten für jeden Datentyp Speicherprozeduren<br />

<strong>und</strong> dazu kompatible Ladeprozeduren programmiert werden (doppelte Arbeit). Dabei müßte exakt in<br />

derselben Art <strong>und</strong> Reihenfolge geschrieben wie gelesen werden. Falls die Datenstruktur im Laufe der<br />

Datenanalyse <strong>und</strong> der Programmweiterentwicklung geändert würde, könnten alte Dateien nicht mehr<br />

gelesen werden <strong>und</strong> erzeugten Programmabstürze. VarList ist fehlertolerant <strong>und</strong> funktioniert immer -<br />

neue Variablen werden auf Defaultwerte gesetzt, falsche Variablennamen werden ignoriert. Desweiteren<br />

können verschiedene Variablenlisten in einer Datei verwaltet <strong>und</strong> über ihren Namen unterschieden<br />

werden.<br />

Die folgenden Zeilen zeigen den vollständigen Code für die Definition einer Childclass. Sie<br />

verdeutlichen, wie kurz <strong>und</strong> einfach eine Datenverwaltung <strong>mit</strong> der VarList-Klasse programmiert<br />

werden kann:<br />

18 Es ist geplant, VarList um eine automatische Erzeugung von Tk-Code für eine Dialogbox zu erweitern. In dieser könnten<br />

dann durch spezifische Widgets (Check- <strong>und</strong> Radiobutton, Scaler, Entrys, Text) die einzelnen Datentypen komfortabel<br />

editiert werden.<br />

13


class MovingAverage: public VarList<br />

{ int fifo;<br />

int<br />

winsize;<br />

vector filter;<br />

MovingAverage()<br />

// Constructor<br />

{ AddVar("Filterform",fifo,0);<br />

AddVar("WindowSize",winsize,10);<br />

AddVar("Filter",filter); filter.SetStr("1 2 3.2 1");<br />

}<br />

}<br />

Durch die Abstammung von VarList hat MovingAverage folgende Routinen geerbt:<br />

Load(String FileName)<br />

Save(String FileName)<br />

GetStr()<br />

SetStr(String s)<br />

Edit()<br />

FindeSection(ifstrem*,SectonName)<br />

~VarList()<br />

Laden aller Variablen<br />

Speichern aller Variablen<br />

ASCII-Darstellung der Variablen<br />

Interpretiert Strings<br />

Verändern <strong>mit</strong> einem Editor<br />

Findet VarList-Name in einer Datei<br />

(Beginn einer Datensektion: [Name])<br />

Destructor<br />

Auch komplexere Datentypen, wie z.B. Zeitreihen, beruhen auf der VarList-Klasse. Um die zusätzlich<br />

in der Klasse enthaltenen Daten abzuspeichern, müssen die Elementfunktionen Load <strong>und</strong> Save<br />

überschieben werden:<br />

class Timeser: public VarList<br />

{public:<br />

MyStr<br />

History;<br />

MyStr<br />

DateTime;<br />

int<br />

ChannelSize; // Anzahl der Datenkanäle<br />

TimePoints Time; // Klasse, die die Zeitpunkte verwaltet<br />

MyStr ValueUnit; // Einheit der Zeit (sec,day,year etc.)<br />

Matrix Channel; // Datenwerte der multivar. Zeitreihe<br />

...<br />

Timeser(); // Constructor<br />

void Empty(); // Deallokiert den verwendeten dynamischen Speicher<br />

~Timeser();......// Destructor<br />

...<br />

int Load(String FileName); // Lädt die Zeitreihe<br />

int Load(String FileName); // Speichert die Zeitreihe<br />

...<br />

} ;<br />

14


Ein Algorithmus unterscheidet sich von einem "einfachen" Datentyp durch die Erweiterung um die<br />

Elementfunktion Run(..,..,..) <strong>mit</strong> der die Berechnung durchgeführt wird. Ein Hauptprogramm,<br />

z.B. um den MovingAverage (MA) einer Zeitreihe zu bestimmen, sieht da<strong>mit</strong> folgendermaßen aus:<br />

#include "timeser.h"<br />

#include "ts_algor_1.h"<br />

int main()<br />

{ Timeser InputTS, OutputTS; // 2 Zeitreihen anlegen<br />

MovingAverage MA;<br />

// MA-Algo. incl. Parameter anlegen<br />

MA.Window=2; MA.FilterMethode=0; // Parameter zum MA setzen<br />

MA.Save("MovAv.par");<br />

// Parameter speichern<br />

InputTS.Load("test.ts");<br />

// Zeitreihe laden<br />

int Error=MA.Run(OutputTS,InputTS);// MA berechnen<br />

if(Error) return(Error);<br />

OutputTS.Save("test_ma.ts"); // Ergebnis speichern<br />

return(0);<br />

}<br />

Alle Algorithmen haben von außen betrachtet dieselbe Struktur <strong>und</strong> stellen dieselben<br />

Basisfunktionalitäten zur Verfügung. Dadurch ist es möglich, sie in ein allgemeines Verwaltungs- <strong>und</strong><br />

Vernetzungssystem einzubinden, wie es im DSN erfolgt ist. Mehr dazu im nächsten Abschnitt.<br />

2.3.4 Interne Programmstruktur<br />

Das komplette Softwarepaket enthält ca. 25.000 Quellcodezeilen <strong>mit</strong> über 1.000.000 Zeichen (zum<br />

Vergleich: diese Dissertation enthält ca. 200.000 Zeichen). Um dieses umfangreiche Projekt<br />

übersichtlich zu halten, wurde großen Wert auf die strukturierte Programmierung gelegt. Die<br />

Möglichkeiten von C++ unterstützen dabei diese Bemühungen.<br />

Der Quelltext wurde auf 34 C++-Module (jedes enthält wieder viele Klassen) <strong>und</strong> 14 Tcl/Tk-Files<br />

aufgeteilt. Bei der Strukturierung wurde versucht die Abhängigkeiten der Module möglichst hierarchisch<br />

oder sogar linear zu halten. Es gibt wenige parallele Programmteile <strong>und</strong> keine zyklischen<br />

Abhängigkeiten. Mit C++ ließen sich zwar komplexe Abhängigkeitsstrukturen verarbeiten 19 , dieses hätte<br />

aber den Nachteil, daß sehr viele Module neu übersetzt werden müßten, wenn nur ein Modul verändert<br />

wird. Durch den Aufbau der Module wird dieses vermieden, sowie das logische Verständnis des<br />

Programmablaufes <strong>und</strong> die Fehlersuche vereinfacht.<br />

Zu der Hierarchisierung gehört auch die Trennung von Algorithmen (unter Schicht) <strong>und</strong> Oberfläche<br />

(obere Schicht). Alle Algorithmen können getrennt von der DSN-Struktur verwendet werden. Dies ist<br />

möglich, obwohl die Algorithmen beim Einbau in das DSN auf Oberflächenelemente zugreifen <strong>und</strong> sie<br />

manipulieren (z.B. wird der Fortschritt jedes Algorithmus in Prozent ausgegeben). Um dieses zu<br />

19 Der einfachste (<strong>und</strong> schlechteste) Weg besteht darin, alle Headerfiles zu einem zusammenzufassen.<br />

15


erreichen, wird <strong>mit</strong> Funktionenpointern gearbeitet, die in den unteren Hierarchieschichten auf NULL<br />

zeigen <strong>und</strong> in den höheren Schichten auf die entsprechende Tcl/Tk-Routine gesetzt werden.<br />

Ein ähnlicher Hierarchieaufbau <strong>und</strong> deren Bruch ist bei dem Programmteil zur Verwaltung des<br />

Netzwerkes angewendet worden. Allerdings liegt hier eine Hierarchie von Klassen in folgender<br />

Reihenfolge vor: Die Basisklasse DSNStructure beinhaltet die Netzwerkstruktur sowie deren File-I/O.<br />

DSNAlgor stellt die Schnittstelle zu den Algorithmen <strong>und</strong> Daten zur Verfügung, kann Knoteninhalte<br />

konstruieren, löschen, speichern <strong>und</strong> laden <strong>und</strong> Berechnungen durchführen (Run durchs Netzwerk).<br />

DSNManipulation erweitert den statischen Teil des Netzwerkes durch konstruktive Methoden:<br />

Einfügen <strong>und</strong> Löschen von Knoten <strong>und</strong> Verbindungen. Durch DSNGraph wird die Sichtbarkeit des<br />

Netzwerkes <strong>und</strong> dessen Animation zu Verfügung gestellt. Es enthält die Aktion des Netzwerkes an die<br />

Oberfläche durch die Tcl/Tk-Schnittstelle. Durch das Zwischenmodul DSNCommand werden Reaktionen<br />

auf die Benutzeraktionen bearbeitet. DSNWindows letztendlich, die oberste Klasse, ist die Schnittstelle<br />

zwischen den Oberflächenvents (von Tk geliefert) <strong>und</strong> dem Netzwerk. Diese Klassenhierarchie zur<br />

Netzwerkverwaltung macht ca. 20% des gesamten Codes des DSN aus.<br />

DSNStructure kann auch ohne die oberen Schichten allein bestehen. Es wäre z.B. möglich, ein Netz<br />

zu konstruieren <strong>und</strong> dieses ohne Oberfläche im Batchbetrieb innerhalb von DSNStructure laufen zu<br />

lassen. Es könnte daher als nicht sichtbares Subnetz (komplexer Algorithmus) dienen, das als eine<br />

Funktionseinheit in ein anderes Netz eingebettet wird. In diesem Fall werden die Funktionen, die auf die<br />

Oberfläche zugreifen nicht aktiviert. Dieses wird dadurch erreicht, daß diese Funktionen in<br />

DSNStructure als virtuelle 20 Funktionen leer deklariert sind. Das Überschreiben dieser Funktionen<br />

durch die Klassen in den höheren Schichten findet in diesem Fall nicht statt.<br />

Die Netzwerkstruktur in DSNStructure baut sich aus vielen Nodes <strong>und</strong> Conections auf, die<br />

jeweils als eigene Klasse definiert sind <strong>und</strong> in Listen gespeichert werden. Die Einzelelemente enthalten<br />

Zeiger auf die <strong>mit</strong> ihnen im Netz verb<strong>und</strong>enen Elemente. Im Prinzip kann <strong>mit</strong> dieser Struktur jeder<br />

Graph aufgebaut werden. Die Klasse DSNManipulation überprüft aber jede Benutzeraktion <strong>und</strong><br />

garantiert, daß bzgl. des Datenflusses keine unsinnigen Netze konstruiert werden. Nur Inputknoten <strong>mit</strong><br />

Outputknoten <strong>und</strong> kompatible Datentypen können verknüpft werden. Andernfalls gibt es eine<br />

Fehlermeldung <strong>und</strong> die Aktion wird ignoriert.<br />

Jeder Knoten enthält eine int-Variable, die die ID des Knotentyps angibt <strong>und</strong> einen void-Pointer, der<br />

entsprechend der ID interpretiert wird (type-casting). Da alle Knoten dieselben Basisfunktionen<br />

enthalten (durch VarList definiert), kann durch ein identisches C-Makro auf alle Knoten über ein<br />

CASE-Label nach ID selektiert zugegriffen werden.<br />

20 Die Funktionsweise von explizit virtuell definierten Funktionen läßt sich nachträglich ändern.<br />

16


2.4 Integrierte Algorithmen <strong>und</strong> technische Eigenschaften<br />

Algorithmen <strong>und</strong> Verfahren<br />

Bemerkung: Die meisten Algorithmen arbeiten auch <strong>mit</strong> multivarianten Zeitreihen.<br />

• Generierung von mathematischen Standardzeitreihen <strong>und</strong> Funktionen<br />

• Normal- <strong>und</strong> gleichverteiltes Rauschen<br />

• Logistische Abbildung, Hénon-Abbildung, Lorenz-System, Standard Abbildung<br />

• Autoregressiver Moving-Average-Prozeß<br />

• Treppen-, Sinus-, Cosinus-, Polynomfunktion<br />

• Mathematisches Pendel<br />

• Erzeugung <strong>und</strong> Verarbeitung von binären Zeitreihen <strong>und</strong> Zeitpunkten<br />

• Selektion von Zeitpunkten nach verschiedenen Kriterien:<br />

Schnittpunkte zweier Zeitreihen (aufwärts <strong>und</strong> abwärts Kreuzungen getrennt bestimmbar),<br />

Schwellwerte, Extrema<br />

• Invertieren von binären Zeitreihen<br />

• Boolean‘sche Operatoren von zwei binären Zeitreihen<br />

• Vergleich zweier binärer Zeitreihen<br />

Es wird die Statistik Übereinstimmungen bestimmt.<br />

• Ausschneiden von Abschnitten einer Zeitreihe zu definierten (woanders berechnenten)<br />

Zeitpunkten<br />

• Optimalen Schwellwert finden:<br />

Eine kontinuierliche Zeitreihe soll durch einen Schwellwert binärisiert werden. Dieser<br />

Algorithmus bestimmt den optimalen Schwellwert, so daß das Ergebnis am besten <strong>mit</strong> einer<br />

zweiten gegebenen binären Zeitreihe übereinstimmt.<br />

• Elementare Analyse von Zeitreihen<br />

• Mittelwert <strong>und</strong> Varianz<br />

• Quadratsumme (Leistung)<br />

• Minimum <strong>und</strong> Maximum<br />

• Bestimmung der linearen Regressionsparameter<br />

• Umstrukturierung von Zeitreihen<br />

• Zeitverschiebung <strong>und</strong> Zeitumskalierung<br />

• Zerteilen von Zeitreihen bzgl. der Zeitkoordinate<br />

• Ausschneiden von Abschnitten einer Zeitreihe bzgl. der Zeitkoordinate<br />

• Zerteilen einer Zeitreihe in gleichlange Intervalle<br />

Die Intervallänge muß nicht teilbar durch die Samplingrate sein.<br />

Dadurch wurde das Problem der Schaltjahre umgangen (Jahr hat 64,75 Tage).<br />

• Zwei Zeitreihen verbinden<br />

• Eine Zeitreihe N mal aneinanderhängen<br />

• Sortieren der Daten bzgl. Größe oder Absolutbetrag<br />

• Ausschneiden von einzelnen Kanälen einer multivarianten Zeitreihe<br />

17


• Kombinieren von mehreren singelvarianten Zeitreihen zu einer multivarianten Zeitreihe<br />

Die eventuell unterschiedlichen Zeitintervalle werden automatisch angepaßt.<br />

• Timedelay-Transformation (Takens)<br />

• Elementare Manipulationen von Zeitreihen<br />

• Umskalierung <strong>mit</strong> Festlegung von Mittelwert, Streuung, <strong>mit</strong>tlere Quadratsumme, Minimum<br />

<strong>und</strong>/oder Maximum<br />

• R<strong>und</strong>ung, Logarithmierung, Exponentierung, Potenzierung<br />

• Addition, Subtraktion, Multiplikation <strong>und</strong> Division <strong>mit</strong> Skalaren<br />

• Addition, Subtraktion, Multiplikation <strong>und</strong> Division von Zeitreihen untereinander<br />

(auch multivariant)<br />

• Mittelwert über die Kanäle einer multivarianten Zeitreihe<br />

• „Inverses Timedelay“<br />

Eine multivariante Zeitreihe wird durch diagonale Mittelwertbildung in eine monovariante<br />

Zeitreihe transformiert.<br />

• Erweiterte Manipulationen <strong>und</strong> Analysen von Zeitreihen<br />

• Mittelwert <strong>und</strong> Streuung kumuliert<br />

• Moving-Averages <strong>mit</strong> einfachem, linearem, exponentiellem Filter<br />

Beliebige Filterkoeffizienten sind auch explizit definierbar.<br />

• Gleitende Streuung:<br />

Für jeden Zeitpunkt wird die Steuung einer bestimmten Anzahl benachbarter Datenpunkte<br />

berechnet.<br />

• Interpolation zwischen den Daten benachbarter Zeitpunkte, Ausdünnen einer Zeitreihe<br />

• Differenzfilter<br />

Gleitend werden die Werte einer Zeitreihe <strong>mit</strong> definiertem Zeitabstand subtrahiert. Statt der<br />

direkten Werte können auch einfache gleitende Mittelwerte voneinander subtrahiert werden.<br />

• Bestimmung der linearen oder polynominalen Interpolationskoeffizienten<br />

Für jeden Zeitpunkt werden für ein Zeitfenster die Koeffizienten bestimmt. Sie werden als<br />

multivariante Zeitreihe ausgegeben <strong>und</strong> von einem anderen Algorithmus zur Extrapolation in die<br />

Zukunft (Vorhersage) benutzt.<br />

• Korrelationen<br />

• Autokorrelation (maximaler Zeitshift festlegbar)<br />

Die Berechnung erfolgt über die FFT oder direkt.<br />

• Korrelation zweier Zeitreihen (maximaler <strong>und</strong> minimaler Zeitshift festlegbar)<br />

Die Berechnung erfolgt über die FFT oder direkt.<br />

• Korrelation zweier Zeitreihen über ein gleitendes Zeitfenster<br />

Die Veränderung der Korrelation <strong>mit</strong> der Zeit kann da<strong>mit</strong> untersucht werden.<br />

• Korrelation vieler Zeitreihen untereinander <strong>und</strong> Bestimmung der Kreuzkorrelationsmatrix<br />

Durch die Anwendung des Timedelay-Algorithmus kann auch die zeitliche Korrelation untersucht<br />

werden.<br />

• Hauptkomponentenanalyse der Kreuzkorrelationsmatrix<br />

• Hautpkomponententransformation einer multivarianten Zeitreihe<br />

• Umsortierung der Spalten <strong>und</strong> Zeilen der Kreuzkorrelationsmatrix<br />

Die Sortierung erfolgt automatisch so, daß Gruppen die stark <strong>mit</strong>einander korreliert sind (positiv<br />

wie negativ), gut zu erkennen sind.<br />

• Umsortierung der Kanäle einer multivarianten Zeitreihe<br />

18


• Statistik<br />

• kumulative Verteilungen<br />

• Histogramme<br />

• Frequenzanalyse<br />

• Direkte <strong>und</strong> inverse Fast-Fouriertransformation für 2 N Stützstellen<br />

• Direkte <strong>und</strong> inverse Fouriertransformation für beliebige Stützstellenanzahl<br />

• Bandfilter<br />

• Maximum Entropie Spektrum<br />

• Detektieren von Peaks in einem Frequenzspektrum<br />

• Hauptfrequenzanalyse nach Laskar [7]<br />

• Schreiber-Rauschfilter [8]<br />

• Direkte <strong>und</strong> inverse diskrete Wavelettransformation (Daubechies-Basis)<br />

• Filter im Waveletspektrum<br />

• Vorhersage<br />

• Autoregressive Vorhersage<br />

• Einfache Nächste-Nachbar-Vorhersage<br />

• Phasenraum-Clusterung<br />

• Radial-Basis-Funktionen-System (RBFS)<br />

• Schätzung von Lyapunov-Exponenten <strong>und</strong> Jacobimatrix (<strong>mit</strong> RBFS)<br />

• Grafische Ausgabe aller Datentypen<br />

• Matrizen<br />

Die Größe der Matrixelemente wird durch Quadrate dargestellt.<br />

• Hauptkomponentenzerlegung<br />

• Zeitreihen (auch 3d)<br />

Es sind mannigfaltige Darstellungsformen möglich.<br />

• Fourierspektren<br />

• Waveletspektren<br />

• Cluster (auch 3d)<br />

• Radial-Basis-Funktionen<br />

• Histogramme<br />

• So<strong>und</strong>ausgabe von Zeitreihen als wave-Datei<br />

19


Technische Eigenschaften<br />

• 25.000 Zeilen / 1.000.000 Bytes selbst entwickelter C++-Code<br />

• Ca. 100 Algorithmen<br />

• Bis zu 500 Knoten können in einem Netz verwaltet werden<br />

• Virtueller Bildschirm von 5000 x 5000 Pixeln<br />

• Netzwerkstruktur, Daten <strong>und</strong> Desktop können komplett gesichert werden<br />

• Programm spart Arbeitsspeicher, da nur die benötigten Daten ins RAM geladen werden<br />

• Alle Datenstrukturen besitzen eine grafische Ausgabe über GNUPLOT<br />

• Hilfetext für jeden Algorithmus<br />

• Bedienungshilfe in Oberfläche integriert<br />

2.5 Erweiterungen<br />

Geplant ist eine Erweiterung der Dateistrukturen um ein binäres Format, um das Laden <strong>und</strong> Speichern<br />

der Netzknoten zu beschleunigen. Dieses soll in einer generellen Art durch die Erweiterung von<br />

VarList geschehen.<br />

Ein sinnvolle aber auch arbeitsaufwendige Vervollständigung des DSN ist der Einbau einer eigenen<br />

grafischen Datendarstellung. Diese soll in BLT 21 erfolgen <strong>und</strong> würde erweiterte grafische<br />

Darstellungsformen ermöglichen <strong>und</strong> dem Betrachter erlauben, interaktiv die Bilder zu manipulieren<br />

(z.B. Zoomen) oder weitere Informationen anzufordern.<br />

Das Programm kann auch als Basis <strong>und</strong> übersichtliche Bedienungsplattform für weitere Algorithmen<br />

dienen.<br />

21 Dieses Erweiterungmodul von Tcl/Tk stellt z.B. Koordiantenachsen, Gitter, Kuchendiagramme zur Verfügung.<br />

20


3 Radiales Basisfunktionensystem<br />

3.1 Einleitung<br />

Künstliche neuronale Netzwerke werden heute in vielen Bereichen eingesetzt. Mit ihnen können diskrete<br />

Klassifizierungsaufgaben gelöst oder kontinuierliche Funktionen approximiert werden. Neuronale<br />

Netzwerke (NN) bieten eine allgemeine Methode, um komplexe <strong>und</strong> hochdimensionale Zusammenhänge<br />

zu erkennen <strong>und</strong> zu modellieren. Sie werden daher auch für die Vorhersage dynamischer <strong>Systeme</strong> <strong>und</strong><br />

für adaptive Steuerungsaufgaben eingesetzt. Viele dieser Aufgaben sind auch direkt <strong>mit</strong> konventionellen<br />

Methoden lösbar, der intellektuelle <strong>und</strong> zeitliche Aufwand ist aber oft sehr hoch 22 . Neuronale Netzwerke<br />

bieten die Möglichkeit, ein Problem schnell <strong>und</strong> einfach zu bearbeiten, ohne komplexes Vorwissen<br />

einzubeziehen.<br />

Zum ersten liegt dieses an der universalen Struktur der NN, durch die sie bei entsprechender<br />

Netzwerkgröße fast beliebige stetige nichtlineare Abbildungen approximieren können. Zweitens ist <strong>mit</strong><br />

einem Netzwerk ein Lernverfahren verb<strong>und</strong>en, das die Netzwerkstruktur <strong>und</strong> die Gewichte<br />

„automatisch“ an die gestellte Aufgabe anpaßt. Beim supervised-learnig liegen für eine Aufgabe<br />

Lösungen in Form von Frage/Antwort-Paaren (Beispiele) vor. Das Netzwerk adaptiert sich, so daß der<br />

Fehler zwischen Netzwerkeingabe <strong>und</strong> Ausgabe minimiert wird.<br />

In den vorliegenden Anwendungen sind die zu lernenden Daten kontinuierliche Vektorvariablen, d.h. das<br />

Netzwerk f soll Vektoren<br />

d<br />

x∈ R auf Vektoren y∈R<br />

e abbilden. Es wird angenommen, daß der<br />

Zusammenhang zwischen x <strong>und</strong> y sich aus einem deterministischen Teil g (x)<br />

<strong>und</strong> einem stochastischen<br />

Teil ξ zusammensetzt.<br />

(1) y ( x)<br />

= g(<br />

x)<br />

+ ξ .<br />

Das Netzwerk wird <strong>mit</strong> Beispielpaaren B={(x (i) ,y (i) )| i=1..N} trainiert <strong>und</strong> soll die Abbildung g schätzen.<br />

Die Qualität des Fits wird durch den <strong>mit</strong>tleren quadratischen Fehler über den Beispielsatz definiert<br />

( )<br />

() i ()<br />

(2) E( f)<br />

= ∑ y −f( x i<br />

)<br />

1<br />

2<br />

Ν<br />

ι=<br />

1<br />

Neuronale Netze können sich durch ihre allgemeine Struktur sehr gut an vorgegebene Datensätze<br />

anpassen <strong>und</strong> den Fehler (2) i.a. fast unter jede Schwelle drücken. Das Ziel der Untersuchung besteht<br />

aber nicht darin, einen speziellen Datensatz vollständig zu approximieren, sondern „nur“ die darin<br />

enthaltenen Gesetzmäßigkeiten g zu extrahieren. Bei praktischen Anwendungen steht allerding nur eine<br />

2<br />

.<br />

22 <strong>und</strong> zu teuer<br />

21


egrenzte Beispielanzahl zur Verfügung, so daß eine zu starke Adaption an einen speziellen Beispielsatz<br />

zu einer Abnahme der Generalisierung (durch overfitting) des Netzes führt: D.h. andere Datensätze<br />

werden, obwohl sie vom selben System stammen, schlechter approximiert. Die Beispielanzahl muß<br />

daher wesentlich größer als die Kapazität des Netzes (Parameteranzahl) sein. Enthalten die Daten große<br />

stochastische Unregelmäßigkeiten, so ist ein noch „gröberes“ Netzwerk die Voraussetzung für die<br />

Fehlerreduktion durch Mittelung über benachbarte Datenpunkte.<br />

Andererseits bieten neuronale Netzwerke die Möglichkeit, <strong>mit</strong> großer Netzwerksturktur sehr fein<br />

aufzulösen <strong>und</strong> stark variierende Funktionen zu generieren. Ausgeprägt nichtlineare Zusammenhänge,<br />

die in den Daten enthalten sind, können dadurch erkannt <strong>und</strong> modelliert werden. Es stellt sich aber die<br />

Frage, ob der gesetzmäßige Zusammenhang zwischen x <strong>und</strong> y tatsächlich so komplex ist <strong>und</strong> ob die zur<br />

Verfügung stehenden Beispiele von ihrer Anzahl <strong>und</strong> ihren stochastischen Fehlern ausreichen, um diesen<br />

Zusammenhang so komplex zu modellieren. Um dieses abzuschätzen <strong>und</strong> die Grenze zwischen<br />

overfitting <strong>und</strong> <strong>und</strong>erfitting zu finden, wird konsequent die cross-validation angewendet: Die Datensätze<br />

werden in Trainings- <strong>und</strong> Testdaten aufgeteilt - der Fehler im Testdatensatz ist das Fehlermaß.<br />

Verschiedene Netzwerktypen sind entwickelt worden, die sich in zwei Gr<strong>und</strong>typen einteilen lassen:<br />

Lokale Karten <strong>und</strong> globale Funktionen. Die lokalen Karten [9] [10] bestehen aus einer Kollektion<br />

einzelner Funktionen, die jeweils für verschiedene Phasenraumvolumina „zuständig“ sind. Die<br />

Phasenraumaufteilung wird an die Eingabedaten angepaßt. Die globalen Funktionen hingegen bestehen<br />

aus einer Funktion, die auf den ganzen Phasenraum angewendet wird. Zu diesen gehört das häufig<br />

verwendete Multi-Layer-Perceptron-Netzwerk 23 (MLP), das hier kurz aufgegriffen wird, um den Vorteil<br />

des hier verwendeten Verfahrens deutlich zu machen.<br />

Bei MLPs [11] wird die Einteilung des Phasenraumes durch lineare Separationen durchgeführt. Die<br />

Ausgabe der 1. Schicht wird in der zweiten <strong>und</strong> in den folgenden Schichten zu komplexen<br />

charakteristischen Funktionen (in Form von Hyperpolyedern) kombiniert, die Phasenraumbereiche (hier<br />

auch Cluster genannt) abgrenzen. In der letzen Schicht wird jedem Cluster ein Funktionswert<br />

zugeordnet. Die Berechnung der Gewichte erfolgt durch Gradientenabstieg in Form einer Fehler-<br />

Backpropagation <strong>mit</strong> dem Ziel der Minimierung von (2). Dadurch wird die Clusterung durch die<br />

Verteilung der Eingabedaten <strong>und</strong> die Funktionswerte bestimmt.<br />

Das in dieser Arbeit eingesetzte Radiale-Basis-Funktionen-System (RBFS) hat durch das von Moody<br />

and Darken [12] <strong>und</strong> Stokbro et al [13] vorgeschlagene 2-Stufenverfahren gegenüber dem MLP<br />

folgende Vorteile: Die Clusterung des Phasenraumes <strong>und</strong> der Fit des Funktionswertes wird getrennt<br />

durchgeführt. Die gesamte Trainingszeit des Netzes ist dadurch wesentlich geringer, als die eines<br />

23 der Standard bei den <strong>neuronalen</strong> <strong>Netzen</strong><br />

22


entsprechenden MLPs nach dem Backpropagationverfahren, was die Verarbeitung größerer Netzwerke<br />

ermöglicht. Zusätzlich haben die RBFSs Multiskaleneigenschaften <strong>und</strong> erfüllen ein<br />

Entropieminimierungsprinzip.<br />

3.2 Hauptschrittte<br />

Der Algorithmus läßt sich in 3 Schritte einteilen:<br />

( i)<br />

1. Die Eingabebeispiele X { | i = 1.. N}<br />

= x werden in disjunkte Teilmengen Cj ; j =1 .. M <strong>mit</strong><br />

C ∩C , j ≠ k eingeteilt. Die Einteilung geschieht so, daß bzgl. eines Abstandsmaßes konvexe <strong>und</strong><br />

j<br />

k<br />

möglichst kompakte Cluster entstehen. Das Verfahren, um dieses zu erreichen, beruht auf einem<br />

Entropieprinzip.<br />

2. Für jedes Cluster j wird eine charakteristische Funktion definiert. Statt der üblichen „harten“<br />

Funktion χ j ( x) ∈{ 01, , } die 1 für Punkte innerhalb des Clusters <strong>und</strong> sonst 0 liefert, wird eine durch<br />

eine exponentielle Glättung "aufgeweichte" Funktion, die Radialfunktion R verwendet:<br />

j<br />

−1<br />

j<br />

(3) Rj( x)<br />

~ exp( −( x−x<br />

) ⋅η<br />

⋅K<br />

j ⋅( x−x<br />

)<br />

Die Zentrierung auf den Clusterschwerpunkt x j erzeugt einen gaußschen Abfall der charakteristischen<br />

Funktion zu den Clustergrenzen. Die Stärke des Abfalles wird richtungsabhängig durch die<br />

Kovarianzmatrix K (7) definiert, wodurch sich die Linien gleichen Funktionswertes von R der großen<br />

Clusterform anpassen. Durch den Skalierungsfaktor η wird die Stärke des Abfalles <strong>und</strong> da<strong>mit</strong> die<br />

Überlappung der charakteristischen Funktionen benachbarter Cluster eingestellt.<br />

Die Radialfunktionen können normiert werden <strong>und</strong> sind dadurch den üblichen charakteristischen<br />

Funktionen <strong>mit</strong> Funktionswert 1 für alle Punkte im Cluster ähnlicher:<br />

(4) P( x)<br />

=<br />

j<br />

M<br />

∑ j=<br />

1<br />

Rj<br />

R<br />

j<br />

( x)<br />

3. Für jedes Cluster j wird eine lineare Funktion L j (x)<br />

definiert, die den Funktionswert innerhalb<br />

des Cluster j approximieren soll:<br />

(5) L ( x a + B ⋅ x<br />

j ) = j j<br />

Die Reichweite dieser Funktion wird beschränkt, indem sie <strong>mit</strong> der Radialfunktion des Clusters<br />

multipliziert wird. Die Summe dieser Produkte über alle Cluster wird als Radial-Basis-Funktionen-<br />

System (RBFS) bezeichnet:<br />

23


(6) f ( x)<br />

∑L<br />

j<br />

( x)<br />

⋅ P j<br />

( x)<br />

= M j = 1<br />

Die Paramter (a j ,B j ) werden so bestimmt, daß (2) minimiert wird. Falls B=0, kann die Funktion f als<br />

einfaches feedforward Netzwerk <strong>mit</strong> einer verdeckten Schicht angesehen werden. Die vollständige Form<br />

von (6) stellt ein kompliziertes Netzwerk <strong>mit</strong> 2 versteckten Schichten dar.<br />

3.3 Clusterung<br />

Viele Clusterungsalgorithmen sind entwickelt worden, die sich für den ersten Schritt eignen. Sie lassen<br />

sich in 1-Schrittverfahren <strong>und</strong> in sukzessive Verfahren einteilen. Bei ersteren werden nach einem<br />

Optimierungkriterium viele gleichberechtigte Cluster erzeugt. Moddy and Darken [12] definierten einen<br />

k-mean Clusterungsalgorithmus, bei dem die Summe der Varianzen einer festgelegten Anzahl von<br />

Clustern minimiert wird. Zu den iterativen Verfahren gehört das von Stokbro et al. [13], bei dem ein k-<br />

d-Baum erzeugt wird. Dieses geschieht durch Teilen eines großes Clusters in d kleinere Subcluster.<br />

Diese Subcluster werden wieder unterteilt, bis die Baumtiefe k erreicht ist. Bei dem Verfahren in [13]<br />

werden die Teilungen durch Ebenen senkrecht zu den Koordinatenachsen durchgeführt, so daß<br />

rechteckige Cluster entstehen.<br />

Hier wird eine allgemeine Form des k-d-Baumes eingesetzt, die sehr schnell zu berechnen ist. Für jedes<br />

Cluster j wird die Kovarianzmatrix der Punkte des Clusters C k bestimmt. Begonnen wird <strong>mit</strong> dem 1.<br />

Cluster, welches die komplette Datenmenge umfaßt:<br />

(7) = ( x − x ) ⋅( x − x )<br />

K<br />

i , j<br />

i<br />

i<br />

j<br />

Diese Matrix enthält Information über die Ausdehnung <strong>und</strong> Orientierung der Punktwolke im Raum. Sie<br />

ist symmetrisch <strong>und</strong> läßt sich diagonalisieren 24 . Die Eigenwerte der Matrix liefern die Ausdehnungen<br />

(Varianzen) der Punktwolke in den Eigenrichtungen. Diese Eigenrichtungen haben (bzgl. aller<br />

orthogonalen Koordinatensysteme) die Eigenschaft, die Koordinatenentropie (8) zu minimieren [14].<br />

D.h. bezüglich dieser Richtungen sind die Varianzen am „ungleichmäßigsten“ verteilt. Die Darstellung<br />

der Datenpunkte x in diesem Koordinatenystem liefert folgende Entropie:<br />

(8) S j<br />

= −∑<br />

pi<br />

log pi<br />

d<br />

i = 1<br />

j<br />

x∈C k<br />

2<br />

(9) = ( xˆ<br />

− xˆ<br />

)<br />

σ <strong>und</strong><br />

i<br />

i<br />

i<br />

2<br />

x∈C k<br />

p i<br />

= d<br />

σ<br />

∑<br />

i=<br />

1<br />

2<br />

i<br />

σ<br />

2<br />

i<br />

24 Die Diagonalisierung wird robust <strong>mit</strong> singular value decomposition [20] durchgeführt.<br />

24


Diese Überlegung liefert ein Kriterium für die Teilung eines Clusters: Es wird eine Ebene <strong>mit</strong><br />

Normalenvektor in Richtung des größten Eigenvektors definieren <strong>und</strong> parallel verschoben, so daß sie<br />

durch den Clusterschwerpunkt verläuft 25 . An dieser Ebene wird die Punktmenge in zwei Cluster<br />

getrennt. Durch diese spezielle Wahl der Teilungsrichtung wird möglichst viel Entropie in den zwei<br />

neuen Clustern erzeugt, bzw. vom Standpunkt der Kodierung aus betrachtet, wird die größtmögliche<br />

Information extrahiert. Geometrisch interpretiert bedeutet dieses, daß senkrecht zur Richtung <strong>mit</strong> der<br />

meisten Struktur getrennt <strong>und</strong> so die Information über die Verteilung der Datenpunkte optimal auf 2<br />

Cluster verteilt wird. Eine Ungenauigkeit in dieser Koordinatenrichtung würde einen großen<br />

Gesamtfehler in der Lokalisation der Datenpunkte bedeuten.<br />

Das Verfahren wird für jedes Subcluster bis zu einem Abbruchkriterium iteriert. In jedem<br />

Teilungsschritt wird für jedes neu entstandene Cluster eine weitere Hyperebene nach obiger Methode<br />

generiert, die es teilt. Dabei entstehen immer kleinere Cluster, die sich durch konvexe Hyperpolyeder<br />

einfassen lassen. Durch die Entropiemaximierung in den Clustern werden sie möglichst kreisförmig<br />

gehalten, d.h. sie haben in alle Richtungen ähnliche Varianzen, die sich i.a. nur um einen Faktor 2<br />

unterscheiden.<br />

Die ganze Teilungsabfolge erzeugt einen binären Baum, der eine Repräsentation der Datenverteilung<br />

(Attraktor) darstellt. Von dieser Darstellung, die bis zu dieser Stelle noch die vollständige Information<br />

über die Datenverteilung enthält, wird im 3. Schritt des Algorithmus nur die Information Schwerpunkt<br />

<strong>und</strong> Ausdehnung der Cluster benutzt. Man erhält da<strong>mit</strong> eine kompakte <strong>und</strong> reduzierte Darstellung eines<br />

eventuell sehr komplexen Attraktors. Diese Darstellung ist hierarchisch organisiert <strong>und</strong> enthält<br />

Auflösungen in verschiedenen räumlichen Skalen. Beim Übergang von einer Hierarchiestufe zur<br />

nächsten wird durch das Entropieprinzip gewährleistet, daß sich der Clusterort <strong>und</strong> die Clusterform an<br />

den Attraktor anpassen.<br />

Die Cluster in der letzen Ebene - die Blätter des binären Baumes - bilden eine Einteilung der<br />

Datenmenge in disjunkte kompakte Teilmengen. Ein anschauliches Beispiel für die Clusterung einer 2-<br />

dimensionalen Normalverteilung ist in Abbildung 3 zu sehen. Ausführlicher wird das Verfahren <strong>und</strong><br />

dessen Ergebnisse in [2] diskutiert.<br />

25 Der Lage der Teilungshyperebene läßt sich senkrecht zur Eigenrichtung des größten Eigenwertes noch variieren, um<br />

weiter Optimierungen zu erreichen. Es kann einfach durch den Schwerpunkt, in gleiche Punktanzahl pro Cluster geteilt<br />

oder wie in [13] die Summe der Einzelvarianzen weiter minimiert werden.<br />

25


3.4 Funktionsapproximation<br />

Die Cluster definieren die Form <strong>und</strong> Reichweite der Radialfunktionen R j . Aus der Minimierung von (2)<br />

ergibt sich ein lineares Gleichungssystem in den Variablen a j <strong>und</strong> B j (5). Die Trennung des Algorithmus<br />

in Clusterung <strong>und</strong> Funktionswertfit bietet einen entscheidenden Vorteil: Die Clusterung läßt sich relativ<br />

schnell berechnen <strong>und</strong> ist nach dem Entropiekriterium optimiert. Für den Funktionswertfit läßt sich die<br />

optimale Lösung (für eine feststehende Clusterung) exakt bestimmen 26 .<br />

Das Radialfunktionensystem in (6) läßt sich entscheidend erweitern. Durch die Clusterung wurde der<br />

Attraktor hierarchisch bzgl. räumlichen Skalen untersucht. Diese Multiskaleninformation kann, wie<br />

auch in der wavelet-Theorie angewendet, für den Funktionswertfit verwendet werden. Dazu werden die<br />

lokalen Funktionen (5) nicht nur an den Blättern des binären Baumes definiert, sondern auch an dessen<br />

Knoten. Schicht für Schicht werden beginnend <strong>mit</strong> dem Hauptcluster die optimalen Parameter a <strong>und</strong> B<br />

bestimmt. Der verbleibende Fehler (2) der unteren Schichten wird in den höheren Schichten weiter<br />

reduziert. Durch schrittweises Zoomen in immer tiefere Schichten läßt sich bei diesem hierarchischen<br />

RBFS die Auflösung der Abbildung direkt einstellen. Ausführlicher wird das Verfahren <strong>und</strong> dessen<br />

Ergebnisse in [2] diskutiert.<br />

3.5 Parameter <strong>und</strong> Optimierung<br />

Einererseits beschränken die Radialfunktionen die Reichweite einer lokalen Funktion auf ein Cluster.<br />

Andererseits wird durch deren Ausdehnung <strong>und</strong> gegenseitige Überlappung eine Mittelung der<br />

Funktionswerte über benachbarte Phasenraumvolumina <strong>und</strong> letztendlich ein glatter<br />

Funktionswertverlauf des gesamten RBFS erreicht. Daher ist die Feinheit der Clusterung ein kritischer<br />

Parameter, durch den die Wichtung zwischen Smoothing <strong>und</strong> Differenzierung eingestellt wird. Bei stark<br />

verrauschten Signalen sollte stärker ge<strong>mit</strong>telt <strong>und</strong> so<strong>mit</strong> größere Cluster verwendet werden. Bei Daten<br />

aus streng deterministischen <strong>Systeme</strong>n oder bei stark unstetigen Funktionen muß stärker differenziert<br />

werden. Durch die eingeführten hierarchischen Radialfunktionen läßt sich der Effekt der<br />

Clusterungstiefe gut untersuchen. Indem für den Fit immer mehr Schichten benutzt werden, bis der<br />

Fehler eines unabhängigen Datensatzes steigt, läßt sich die Grenze zum Overfitting genau finden.<br />

26 Den Großteil der Rechenzeit benötigt nicht das Lösen sondern die Bestimmung des Gleichungssytems.<br />

26


Auch durch den in (3) eingeführten Reichweitenskalierungsfaktor η läßt sich die Wichtung von<br />

Differenzierung <strong>und</strong> Glättung grob (für alle Cluster gleich) einstellen. Eine Verringerung dieses<br />

Parameters kann z.B. eine zu feine Clusterung wieder verschmieren. In der vorliegenden Arbeit wurde<br />

aber immer η = 5 verwendet <strong>und</strong> statt dessen die Clusterungsauflösung optimiert, um eine bessere<br />

Kontrolle über die Auflösung zu bekommen.<br />

Es bestehen verschiedene Möglichkeiten, das Abbruchkriterium des Clusterungsalgorithmus <strong>und</strong> so<strong>mit</strong><br />

die Feinheit der Clusterung zu definieren. Man kann die Clustertiefe begrenzen, wodurch immer ein<br />

ausgeglichener Baum entsteht, bei dem alle Blätter dieselbe Tiefe besitzen. In dieser Arbeit wird aber<br />

die Minimalgröße eines Cluster festgesetzt, d.h. die Größe ab der ein Cluster nicht weiter geteilt wird.<br />

Um dieses Kriterium zu erreichen, muß in einigen Phasenraumbereichen häufiger geteilt werden <strong>und</strong> es<br />

entsteht i.a. ein nicht ausgeglichener Baum. Der Vorteil ist, daß die Cluster gemäß der Punktdichte<br />

verteilt werden. Dort, wo die Dichte groß ist, werden mehr Cluster erzeugt, so daß jedes Cluster<br />

ähnliche viele Beispiele enthält (Abbildung 3).<br />

In Zusammenhang <strong>mit</strong> der Glättungseingenschaft steht auch die Form der lokalen Funktion in (5). Der<br />

lineare Teil hiervon erhöht die Ausdehnung der Radialfunktionen über die Clustergrenzen hinaus (in eine<br />

Richtung). Gerade dann, wenn eine stark nichtlineare Funktion gefittet werden soll, kann dieses die<br />

Qualität des Netzes mindern. Es reicht daher oft aus ihn Null zu setzen <strong>und</strong> nur den konstanten Teil zu<br />

verwenden 27 . Selbst wenn eine lineare Funktion gefittet werden soll, kann durch die Verwendung vieler<br />

Cluster <strong>mit</strong> konstanten lokalen Funktionen <strong>und</strong> der Überlappung der Radialfunktion eine glatte Funktion<br />

gebildet werden. In Tabelle 1 sind die Optimierungsmöglichkeiten zusammengefaßt.<br />

Parameter<br />

Feinheit der Clusterung<br />

Form der lokalen Funktion<br />

Hierarchie<br />

Fit<br />

Einstellungsmöglichkeiten<br />

minimale Clustergröße oder Schichttiefe<br />

konstant oder linear<br />

alle Blätter oder verschiedene Schichten<br />

Sukzessiv von Schicht zu Schicht oder alle Schichten gleichzeitig<br />

Tabelle 1: Parameter bei der Netzwerkoptimierung<br />

27 Das lineare Gleichungssystem würde zwar für die optimalen Parameter b=0 liefern, dieses stellt aber bei großen<br />

Eingabedimensionen einen unverhältnismäßig hohen <strong>und</strong> unnötigen Rechenaufwand dar, der quadratisch zur Clusteranzahl<br />

<strong>und</strong> zur Dimension steigt.<br />

27


4<br />

3<br />

P1<br />

P2<br />

P3<br />

2<br />

1<br />

y<br />

0<br />

-1<br />

-2<br />

-3<br />

-4<br />

-8 -6 -4 -2 0 2 4 6 8<br />

x<br />

Abbildung 3: Diese Grafik ist ein Produkt des Clusterungsalgorithmus. Es sind 2000 Punkte normalverteilt <strong>mit</strong> doppelter Varianz in x-Richtung generiert worden. Die Cluster an<br />

den Blättern des Teilungsbaumes sind durch Verbindungslinien vom Clusterschwerpunkt zu seinen Datenpunkten angedeutet. Der Algorithmus erzeugt durch das Einfügen von<br />

mehr senkrechten als waagerechten Teilungen automatisch r<strong>und</strong>e Cluster. Auch enthalten alle Cluster ähnlich viele Datenpunkte, was durch eine tiefere Teilung in Bereichen <strong>mit</strong><br />

höherer Dichte (in der Mitte) erreicht wird. (P1: Baumtiefe=5, P2: Baumtiefe=6, P3: Baumtiefe=7)<br />

28


4 Analyse von Luftstaubgemischen<br />

4.1 Einleitung<br />

Die Verschmutzung der natürlichen Umwelt ist ein großes, wenn nicht sogar das größte Problem der<br />

heutigen Menschheit. Die Palette der Ursachen ist umfangreich, sie läßt sich aber in ihrer räumlichen<br />

Ausdehnung in globale <strong>und</strong> lokale Erscheinungen einteilen. Die Wirkung lokaler Emissionen von<br />

Schadstoffen bleibt durch den natürlichen Stofftransport i.a. jedoch nicht räumlich begrenzt, so daß die<br />

Zusammenhänge zwischen Ursache <strong>und</strong> Wirkung nicht direkt erkennbar sind. Lokale Ursachen können<br />

extreme weltweite Wirkung zeigen. Als deutliches Beispiel diene hier der Reaktorunfall in Tschernobyl.<br />

Die Bestimmung der Bedeutung einzelner Ursachen für die globale Umweltbelastung könnte effektive<br />

Ansatzpunkte zum Umweltschutz aufzeigen.<br />

In der hier durchgeführten Untersuchung wird genau dieses Ziel verfolgt: Die Detektion einzelner<br />

Schadstoffe (<strong>und</strong> so<strong>mit</strong> der Schadstoffquellen) aus einem Gemisch von Schadstoffen. Die Analyse<br />

bezieht sich dabei auf Schadstoffe in der Luft. Da die Atmosphäre <strong>und</strong> deren Strömung die<br />

entscheidende Rolle bei der Verteilung von Schadstoffen über große Flächen spielt, erfaßt man so<strong>mit</strong><br />

einen großen Teil der global wirkenden Umweltverschmutzung. Die <strong>mit</strong>geführten Feststoffe (Stäube)<br />

wirken dabei nicht nur in der Luft, sondern auch durch den Niederschlag herausgewaschen konzentriert<br />

auf der Erdoberfläche.<br />

In der Arbeitsgruppe Geochemie von Prof. Dr. Brumsack des ICBM der Universität Oldenburg wurden<br />

Stäube von ca. 20 Städten in Deutschland aus der Luft gefiltert. Um jahreszeitliche Effekte zu<br />

vermeiden sind diese Proben regelmäßig über längere Zeit <strong>mit</strong> großem Arbeitsaufwand gewonnen<br />

worden. Eine praktische Methode zu Probengewinnung war hierbei das Einsammeln von Spinnenweben,<br />

die fast über ein Jahr lang Staubpartikel akkumulieren können [15]. Da das Interesse der Untersuchung<br />

nicht in speziellen örtlichen Erscheinungen lag, sondern in einen Überblick über das Gebiet Deutschland<br />

wurden alle Proben vor einer weitere Untersuchung zu einer einzigen Probe <strong>mit</strong>einander vermischt.<br />

Diese eine Probe wurden anschließend chemisch aufgeschlossen <strong>und</strong> der Gehalt an 42 chemischen<br />

Elementen bestimmt.<br />

In dieser Arbeit soll aus den Daten des chemischen Analyseergebnisses er<strong>mit</strong>telt werden, durch welche<br />

Staubquellen <strong>und</strong> in welchem anteiligen Verhältnis der Staub wahrscheinlich gebildet wurde. Da<strong>mit</strong><br />

dieses gelingen kann müssen. 1. die Elementzusammensetzungen der Staubquellen bekannt sein <strong>und</strong> 2.<br />

die Staube sich in ihrer Elementzusammensetzung hinreichend genug voneinander unterscheiden. Von<br />

der Arbeitsgruppe von Prof. Dr. Brumsack wurden 21 Klassen als die wichtigsten Staubverursacher<br />

definiert, so daß man <strong>mit</strong> den 42 Elementen sogar ein überbestimmtes System erhält. Leider ist aber die<br />

29


Zusammensetzung vieler Stäube nicht exakt bekannt bzw. variiert, so daß die Überbestimmtheit dazu<br />

benutzt werden muß, um die Sicherheit des Ergebnisses zu erhöhen.<br />

Nicht alle Stäube in der Luft haben zivilisatorische Ursachen, denn r<strong>und</strong> 15% der Staubmassse wird<br />

durch verschiedene natürliche Prozesse in die Luft gebracht. Diese einzelnen Staubquellen sind aber<br />

nicht der Untersuchungsgegenstand der Arbeit. Sie werden nicht separiert, sondern zu Gruppen<br />

zusammengefaßt: Alles, was von der natürlichen Erdoberfläche in die Luft getragen wird, wird als<br />

kontinentaler Oberkrustenstaub bezeichnet. Alle Stäube pflanzlicher Natur werden ebenfalls zu einer<br />

Gruppe (Pflanzendetritus) zusammengefaßt.<br />

Das Interesse dieser Analyse liegt in der Bestimmung der künstlichen Staubverursacher, die möglichst<br />

genau separiert werden sollen. Dabei besteht das Problem, daß einige dieser Stoffe eigentlich Gemische<br />

sind <strong>und</strong> weiter unterteilt werden müßten. Zum Beispiel läßt sich der Reifenabrieb, als ein<br />

Hauptbestandteil der künstlichen Stäube, in die verschieden Herstellermischungen auftrennen, die sich<br />

erheblich voneinander unterscheiden können. Leider lassen sich Reifen chemisch schlecht analysieren<br />

<strong>und</strong> Informationen über deren Zusammensetzung werden von den Herstellen geheim gehalten. Ebenso<br />

schwer lassen sich Emissionsdaten z.B. von den Zementfabriken oder Verbrennungsanlagen [16]<br />

erhalten. Daher ist es sehr aufwendig, eine ausreichend genaue <strong>und</strong> umfangreiche Datenbasis für eine<br />

zuverlässige numerische Analyse aufzubauen. In der Arbeitsgruppe von Herrn Prof. Dr. Brumsack<br />

wurden daher Angaben aus der Literatur durch eigene Analysen ergänzt. Trotzdem muß davon<br />

ausgegangen werden, daß die Datenbasis Unsicherheiten bis zu 30% bei einigen<br />

Elementzusammensetzungen enthält.<br />

Eine Untersuchung, die auf einer so großen Datenbasis beruht ist unseres Wissens nach noch nicht<br />

durchgeführt worden <strong>und</strong> stellt einen großen Fortschritt in der Unweltanalytik dar. Aus dem Ergebnis<br />

dieser Untersuchung könnten weitreichende Konsequenzen gezogen werden, da sich der Anteil der<br />

einzelnen Verursacher an der gesamten Umweltverschmutzung klar nachweisen ließe.<br />

4.2 Aufgabenbeschreibung<br />

Aufgabenstellung:<br />

Eine Staubprobe ist chemisch analysiert <strong>und</strong> der Gehalt an 41 chemischen Elementen in mg Element pro<br />

kg Probenmaterial bestimmt worden. Bekannt ist weiterhin die elementare Zusammensetzung von 21<br />

wichtigen Stoffen aus denen die Probe gebildet wurde 28 . Diese Informationen werden in einer<br />

Konzentrationsmatrix C zusammengefaßt <strong>und</strong> sind in Tabelle 37 im Anhang einzusehen.<br />

28 Es wird angenommen, daß die Proben keine weiteren Stoffe enthält.<br />

30


Die Aufgabe besteht darin, aus der elementaren Zusammensetzung der Staubprobe auf die relativen<br />

Anteile der einzelnen Staubquellen zu schließen. Weiterhin soll untersucht werden, ob auch <strong>mit</strong> der<br />

Einbeziehung von weniger Elementen in die Rechnung, zuverlässige Ergebnisse erzielt werden können.<br />

Hierdurch ließe sich der chemische Analysenaufwand reduzieren.<br />

Probleme:<br />

Da einige Stoffe sehr ähnliche Zusammensetzungen aufweisen, sind in der Konzentrationsmatrix einige<br />

Spalten fast linear abhängig. Diese Entartung überträgt sich auf das zu lösende lineare<br />

Gleichungssystem in Form einer Spalten- <strong>und</strong> Zeilenentartung, wodurch numerische Ungenauigkeiten<br />

auftreten können. Außerdem ist die Konzentrationsmatrix stark fehlerbehaftet (ca. 30% Unsicherheit bei<br />

einigen Elementen), was zusätzlich eine Unsicherheit im Ergebnis produziert.<br />

Methoden:<br />

1. Durch geeignete Transformation der Elementkonzentrationen soll die Konzentrationsmatrix besser<br />

konditioniert <strong>und</strong> eine numerisch günstigere Basis geschaffen werden.<br />

2. Mit dem Verfahren der kleinsten Fehlerquadrate <strong>und</strong> einer Matrixinversion wird die<br />

wahrscheinlichste Stoffzusammensetzung er<strong>mit</strong>telt.<br />

3. Die zu invertierende Matrix wird in ihre Hauptkomponenten zerlegt <strong>und</strong> auf ihre relevanten<br />

Eigenrichtungen reduziert. Dieses wirkt der Entartung der Matrix entgehen <strong>und</strong> vermindert die<br />

Unsicherheit der Ergebnisse aufgr<strong>und</strong> von ungenauen Eingabedaten (Elementanalyse).<br />

4. Durch Korrelationsuntersuchungen sollen ähnliche Stoffe zu Gruppen zusammengefaßt werden, die<br />

dann als Kombinationsstoffe behandelt werden können.<br />

5. Die für die Stoffkonzentrationsbestimmung unwichtigen Elemente sollen aus der Datenbasis<br />

eliminiert <strong>und</strong> die daraus resultierende Veränderung der Ergebnisse untersucht werden.<br />

4.3 Mathematische Basis<br />

Ein Stoff j enthält i=1..M Elemente der Konzentrationen C ij . Ein Gemisch von j=1..N Stoffen, <strong>mit</strong><br />

relativen Anteilen x j , enthält Elemente der Konzentrationen b i . Diese Größen stehen in folgender<br />

Beziehung:<br />

(10) b= C⋅x<br />

Gesucht wird für ein unbekanntes Stoffgemisch <strong>mit</strong> bekannter Elementzusammensetzung die<br />

wahrscheinlichste stoffliche Zusammensetzung im Sinne des kleinsten <strong>mit</strong>tleren quadratischen Fehlers.<br />

Als Nebenbedingungen sind Einschränkungen im Wertebereich, x j =[0,1] sowie die Erhaltung der<br />

Gesamtmasse<br />

N<br />

∑ x j<br />

= 1<br />

j = 1<br />

zu berücksichtigen. Die erste Nebenbedingung wird im Endresultat korrigiert:<br />

Da Stoffe, für die sich negative Konzentrationen ergeben, höchst wahrscheinlich nicht im Gemisch<br />

enthalten sind, wird ihr Anteil explizit auf 0 gesetzt <strong>und</strong> in einer zweiten Rechnung eine neue Verteilung<br />

nach dem kleinsten quadratischen Fehler bestimmt. Die zweite Nebenbedingung der Massenerhaltung<br />

31


kann durch einen Lagrange-Parameter λ ′ berücksichtigt werden. Die Aufgabe lautet dann, von (11) ein<br />

Extremum zu bestimmen.<br />

M N<br />

N<br />

⎛<br />

⎞ ⎛ ⎞<br />

2<br />

(11) χ : = ∑⎜<br />

−<br />

,<br />

⎟ − λ′ ⎜1−<br />

⎟ →<br />

= ⎝<br />

b ∑ C x ∑<br />

= ⎠ ⎝<br />

x = ⎠<br />

Minimum<br />

i i j j<br />

j<br />

i<br />

j<br />

j<br />

Daraus folgt:<br />

1<br />

1<br />

2<br />

1<br />

(12) ∂ χ 2<br />

∂ x<br />

(13)<br />

k<br />

⎛<br />

⎞<br />

= 2⋅∑ ⎜bi −∑Ci, jxj⎟ Cik<br />

,<br />

+ λ′ = 0<br />

i ⎝ j ⎠<br />

2<br />

∂χ<br />

1 0<br />

∂λ′ =− + ∑x = j<br />

j<br />

λ<br />

Weiter ergibt sich <strong>mit</strong> λ = ′<br />

2<br />

das Gleichungssystem<br />

⎛ ⎞<br />

(14) ∑⎜∑Cik<br />

,<br />

Ci, j⎟ ⋅xj − λ = ∑Ci,<br />

kbi<br />

⎝ ⎠<br />

j<br />

i<br />

i<br />

(15) ∑ x j<br />

= 1,<br />

oder in Matrixschreibweise,<br />

j<br />

(16)<br />

⎛<br />

⎛<br />

− 1⎞<br />

⎛ x ⎞ ⎜<br />

⎜<br />

⎟ ⎜ ⎟ ⎜<br />

⎜ CC<br />

T ⎟<br />

⋅ ⎜ ⎟<br />

= ⎜<br />

⎜<br />

− 1⎟<br />

⎜ x ⎟ ⎜<br />

N<br />

⎜<br />

⎟ ⎜ ⎟ ⎜<br />

⎝1 1 0 ⎠ ⎝ λ⎠<br />

⎜<br />

⎝<br />

∑<br />

1 i i,<br />

1<br />

i<br />

∑<br />

i<br />

bC<br />

<br />

bC<br />

i<br />

1<br />

i,<br />

M<br />

⎞<br />

⎟<br />

⎟<br />

⎟ .<br />

⎟<br />

⎟<br />

⎟<br />

⎠<br />

Das lineare Gleichungssystem wird <strong>mit</strong> Hilfe einer PCA-Zerlegung [20] <strong>und</strong> der dann sehr einfachen<br />

Invertierung der Matrix gelöst. Dabei sollen die Eigenrichtungen <strong>mit</strong> kleinen Eigenwerten nicht<br />

verwendet werden. Das Eliminieren von Eigenrichtungen in der kompletten LGS-Matrix<br />

(C T C&Nebenbedingung) bewirkt auch eine teilweises Wegblenden der Nebenbedingung. Um dieses zu<br />

vermeiden, wird wie folgt nur im C T C-Raum projeziert.<br />

Mit der diagonalen Matrix D <strong>und</strong> der orthonormalen Matrix U kann C T C gemäß<br />

T<br />

(17) CC= UDU ⋅ ⋅<br />

zerlegt werden.<br />

−1<br />

32


⎛<br />

Einsetzen in (16), Multiplikation von links <strong>mit</strong> U− 1<br />

0⎞<br />

⎜ ⎟<br />

⎝ 0 1⎠<br />

<strong>und</strong> Einfügen einer Einheitsmatrix als<br />

U U<br />

E = ⎛ ⎝ ⎜ ⎞<br />

⎟ ⋅ ⎛ −1<br />

0<br />

⎠ ⎝ ⎜ 0⎞<br />

⎟<br />

0 1 0 1⎠<br />

vor dem Vektor der Unbekannten, führt auf das einfache Gleichungssystem<br />

(18)<br />

⎛<br />

⎜<br />

⎝<br />

D<br />

−U<br />

⋅e⎞<br />

⎛U<br />

⎟⋅⎜<br />

x⎞<br />

⎛U<br />

⎟ = ⎜<br />

−1 −1<br />

−1<br />

T<br />

C b⎞<br />

.<br />

( )<br />

⎟ −1<br />

T<br />

U e 0 ⎟ ⎜ ⎟ ⎜<br />

⎠ ⎝ λ ⎠ ⎝ 1 ⎠<br />

Aus der komponentenweisen Darstellung<br />

(19)<br />

⎛d<br />

⎜<br />

⎜<br />

⎜<br />

⎜<br />

⎝ f<br />

11 ,<br />

1<br />

1<br />

<br />

<br />

d<br />

f<br />

N,<br />

N<br />

N<br />

− f ⎞ ⎛ y1⎞<br />

⎛ a1⎞<br />

⎟ ⎜ ⎟ ⎜ ⎟<br />

⎟<br />

⋅<br />

⎜ ⎟<br />

=<br />

⎜ ⎟<br />

− f ⎟ ⎜<br />

N y ⎟ ⎜<br />

N a ⎟<br />

N<br />

⎟ ⎜ ⎟ ⎜ ⎟<br />

0 ⎠ ⎝ λ ⎠ ⎝ 1 ⎠<br />

<strong>mit</strong><br />

⎧<br />

⎪<br />

⎨<br />

⎪<br />

⎩<br />

−1<br />

f = U e<br />

−1<br />

y = U x<br />

−1 T<br />

a = U C b<br />

kann man sofort ablesen, daß y<br />

i<br />

ai<br />

f iλ = + ist. Fast entartete Spalten <strong>und</strong> Zeilen von C T C führen<br />

d d<br />

ii , ii ,<br />

auf kleine Werte für d i,i <strong>und</strong> da<strong>mit</strong> unter Umständen zu sehr großen y i . Da bei (fast) Entartung aber auch<br />

die a i nur von geringer Genauigkeit sind, ist es sinnvoll, die entsprechenden y i =0 zu setzen. Die übrigen<br />

y i werden gemäß obiger Gleichung bestimmt <strong>und</strong> <strong>mit</strong>tels U auf die x i zurücktransformiert.<br />

Im folgenden soll genauer untersucht werden, wie sich die Fehler in den Elementkonzentrationen<br />

σ : = ( ) auf die Fehler in den Stoffkonzentrationen S 2 S 2<br />

σ j : = σ ( x j ) auswirken. Man geht von<br />

E<br />

2 E 2<br />

i σ b i<br />

Gleichung (14) ohne Betrachtung der Nebenbedingung aus:<br />

T<br />

T<br />

(20) CC⋅ x=<br />

Cb<br />

Mit<br />

(21) A = C T C<br />

ergibt sich<br />

(22) x= A −1 C T b<br />

Manipulationen in den Elementkonzentrationen b bewirken eine Änderung in den Stoffkonzentrationen<br />

x:<br />

S 2<br />

(23) σ j = ∑<br />

M<br />

i = 1<br />

2⎛<br />

∂ x j<br />

σ i<br />

⎜<br />

⎝ ∂ bi<br />

Die Ableitung nach b i extrahiert die Spalte i von A −1 C<br />

T , so daß<br />

E<br />

⎞<br />

⎟<br />

⎠<br />

2<br />

33


x j<br />

−1<br />

T<br />

(24) = ∑ A<br />

j kCk<br />

, i<br />

= ∑ A<br />

∂b<br />

∂<br />

i<br />

k<br />

−1<br />

, j,<br />

kCi,<br />

k<br />

k<br />

(25)<br />

(26)<br />

S<br />

=∑ ∑∑<br />

σ σ σ<br />

S<br />

σ<br />

2 E<br />

E 2 −1 −1<br />

j<br />

i Aj, kAj, lCi, kCi,<br />

l<br />

i k l<br />

∑<br />

∑<br />

= ∑A A σ C C<br />

2 −1 −1 E 2<br />

j j, k j, l i i, k i, l<br />

ist.<br />

k l i<br />

Unter der Annahme, daß der gleiche Fehler (=1) in allen Elementkonzentrationen vorliegt, ist nach (21)<br />

die rechte Summe gerade A k,l <strong>und</strong> ergibt <strong>mit</strong> der Matrix davor δ jk ,<br />

, so daß<br />

2<br />

C T −1<br />

j<br />

= C ,<br />

S σ ist.<br />

(27) ( ) j j<br />

Falls die Fehler in den Elementkonzentrationen nicht identisch sind, muß Gleichung (11) zu folgendem<br />

erweitert werden:<br />

(28) χ : =<br />

N<br />

⎛<br />

⎞<br />

⎜b − C x ⎟<br />

⎛<br />

− λ′ ⎜1−<br />

⎝<br />

M i i,<br />

j j<br />

N<br />

2 ⎜ j=<br />

1 ⎟<br />

∑ E<br />

⎜<br />

1 σ ⎟ ∑<br />

i= i<br />

j=<br />

1<br />

⎜<br />

⎝<br />

∑<br />

⎟<br />

⎠<br />

2<br />

Für diesen Fall ergibt sich aber das Ergebnis entsprechend (27), <strong>mit</strong> folgender transformierten Matrix 29 .<br />

⎞<br />

xj⎟<br />

⎠<br />

(29) C′ =<br />

i,<br />

j<br />

C<br />

i,<br />

j<br />

E<br />

σi<br />

Da sich C T C nach (17) zerlegen läßt, kann die Inverse hiervon als U⋅D<br />

−1 ⋅U<br />

T bestimmt werden. Für<br />

(27) gilt dann<br />

(30)<br />

U<br />

2<br />

S<br />

ji<br />

σ 2 j<br />

=∑ ,<br />

i di<br />

Als sinnvolles Fehlermaß für die Qualität der ganzen Analyse eignet sich die Summe über alle Fehler in<br />

den Stoffkonzentrationen.<br />

S<br />

(31) ∑ σ<br />

j<br />

= ∑ ∑<br />

j<br />

2 1<br />

Da aber U orthonormal ist, ergibt die hintere Summe für alle i eine 1.<br />

i<br />

d<br />

i<br />

j<br />

U<br />

2<br />

i,<br />

j<br />

(32)<br />

∑<br />

j<br />

σ 2 j<br />

= ∑<br />

1<br />

d<br />

S<br />

i<br />

i<br />

34


Man erkennt, daß kleine d i der Gesamtfehler stark erhöhen <strong>und</strong> daher zur effektiven Fehlerminimierung<br />

die kleine d i in Gleichung (19) eliminiert werden sollten.<br />

4.4 Voruntersuchungen<br />

4.4.1 Stoffsortierung<br />

Die Entartung der Konzentrationsmatrix C (Tabelle 37 im Anhang) bzgl. der Stoffe (Matrixspalten) soll<br />

genauer analysiert werden. Dazu werden die Skalarprodukte zwischen allen Paaren von<br />

Spaltenkombinationen betrachtet. Die Spalten werden vorher auf Vektorlänge 1 normiert, da<strong>mit</strong> nur der<br />

Winkel zwischen den Vektoren eine Rolle spielt. Die Ergebnisse sind in der Kreuzkorrelationsmatrix<br />

(KKM) in Abbildung 4 dargestellt. Die hier verwendete grafische Darstellung einer Matrix wird häufig<br />

in dieser Arbeit verwendet. Sie ist übersichtlicher als eine Zahlentabelle <strong>und</strong> wird wie folgt interpretiert:<br />

Die Größe des Matrixelementes entspricht der Kantenlänge der Quadrate, die je nach Grafikskalierung<br />

zu Rechtecken verzerrt sein können. Das Vorzeichen wird durch ein Kreuz (entsprechend plus für<br />

positiv) <strong>und</strong> durch eine horizontale Linie (entsprechend minus für negativ) im Quadrat dargestellt. Das<br />

Zentrum eines Rechteckes hat die Koordinaten der entsprechenden Zeile (Abszisse) bzw. Spalte<br />

(Ordinate) der Matrix.<br />

Die Nummern an den Koordinatenachsen entsprechen den Stoffnummern in Tabelle 37 im Anhang. So<br />

stellt z.B. die erste Matrixspalte die Korrelationen des Stoffes 1 <strong>mit</strong> allen anderen Stoffen dar. Beim<br />

Betrachten der Grafik findet man andere Stoffe, die ähnliche Korrelationsmuster besitzen <strong>und</strong> kann<br />

aufgr<strong>und</strong> dieser wechselseitigen Beziehungen Gruppen von ähnlichen Stoffen finden. Diese Gruppen<br />

können deutlicher sichtbar werden, wenn die Spalten der Konzentrationsmatrix (Stoffe) umsortiert<br />

werden. Hierzu wurde ein Sortieralgorithmus verwendet, der auf einem Vergleich der Spalten der<br />

Korrelationsmatrix untereinander beruht. Ausgehend von einer Spalte, die explizit an die erste<br />

Sortierstelle gestellt wird, sucht man die „nächst ähnlichste“ Spalte (durch das kleinstes Skalarprodukt<br />

definiert), die dann die 2. Stelle einnimmt. Die Spalte an 2. Stelle dient dem nächsten Vergleich. Dieses<br />

Verfahren wird so lange fortgeführt, bis zur vorletzten Spalte sortiert worden ist. Die letzte verbleibende<br />

Spalte wird an die letzte Stelle sortiert.<br />

Die resultierende Sortierreihenfolge ist natürlich von der Wahl des Ausgangsstoffes abhängig. Als<br />

„Start-Stoff“ wurde Pflanzendetritus gewählt, da sich da<strong>mit</strong> subjektiv die beste Sortierung ergab.<br />

Außerdem wurden innerhalb von großen Korrelationsgruppen einige wenige Umsortierungen von Hand<br />

vorgenommen, die von der umskalierten Konzentrationsmatrix des nächsten Abschnitts nahegelegt<br />

wurden.<br />

29 [20] Kapitel 15. Modelling of Data<br />

35


Das Resultat der Sortierung ist in Tabelle 2 angegeben, die dazugehörige Korrelationsmatrix in<br />

Abbildung 6. Die Stoffgruppen, die in der Matrix zu erkennen sind, wurden in der Tabelle markiert. In<br />

den folgenden Abschnitten wird nur diese Sortierung verwendet falls nicht anders vermerkt, d.h. alle<br />

Stoffnummern beziehen sich auf diese Tabelle. In Abbildung 5 ist zusätzlich die Korrelationsmatrix in<br />

einer höheren Auflösung angegeben, wodurch die Unterschiede bei fast parallelen Vektoren verstärkt<br />

werden <strong>und</strong> die Feingruppierungen innerhalb einer Gruppe besser zu erkennen sind.<br />

Bemerkung: Stoff 15 (Müllverbrennungsstaub) ist wie zu erwarten <strong>mit</strong> allen anderen Stoffen korreliert.<br />

Stoffgruppen<br />

Nr. Orig. Nr. Stoff<br />

1 18 Pflanzendetritus<br />

2 3 Dieselfeststoffemission<br />

3 1 Reifenabrieb<br />

4 2 Teer<br />

5 15 Rückstand Heizöl leicht<br />

6 13 Bremsabrieb I<br />

7 4 Benzinfeststoffemission<br />

8 16 Rückstand Heizöl schwer<br />

9 14 Bremsabrieb II<br />

10 12 Reingasstaub Stahl<br />

11 9 Reingasstaub Braunkohle<br />

12 5 Zementabrieb<br />

13 7 Kalk<br />

14 11 Reingasstaub Zement<br />

15 10 Reingasstaub Müllverbrennung<br />

16 17 Meersalz<br />

17 20 Chlor<br />

18 8 Reingasstaub Steinkohle<br />

19 6 Ziegelabrieb<br />

20 21 Kontinentale Oberkruste<br />

21 19 Schwefel<br />

Tabelle 2: Ergebnis der Stoffsortierung nach Korrelationen untereinander. Die Gruppen ähnlicher<br />

Stoffe sind durch dicke Linien separiert.<br />

36


20<br />

20<br />

15<br />

15<br />

10<br />

10<br />

5<br />

5<br />

0<br />

0 5 10 15 20<br />

0<br />

0 5 10 15 20<br />

Abbildung 4: Stoffskalarprodukte in der originalen<br />

Stoffsortierung (Kantenlänge ist Matrixelement hoch<br />

0.5)<br />

Abbildung 5: Stoffskalarprodukte der umsortierten<br />

Stoffe (Kantenlänge ist Matrixelement hoch 20)<br />

20<br />

15<br />

10<br />

5<br />

0<br />

0 5 10 15 20<br />

Abbildung 6: Stoffskalarprodukte der umsortierten Stoffe (Kantenlänge ist Matrixelement hoch 0.5)<br />

37


4.4.2 Transformation der Konzentrationsmatrix<br />

Die Konzentrationsmatrix C enthält Elementkonzentrationen in sehr unterschiedlichen<br />

Größenordnungen. (Z.B. Zementabrieb 5⋅10 5 mg/kg, Kalzium <strong>und</strong> Teer nur 32 mg/kg). Diese schlechte<br />

Konditionierung von C wirkt sich ungünstig auf das numerische Lösen des LGS aus. Die grafische<br />

Darstellung der Matrix in Abbildung 7 liefert einen Überblick über das Ausmaß <strong>und</strong> die Verteilung des<br />

Ungleichgewichtes. Zu beachten ist dabei, daß die Quadrate <strong>mit</strong> kleinem Exponenten skaliert wurden,<br />

um überhaupt die kleinen Elementkonzentrationen noch erkennen zu können.<br />

Ein weiteres Problem sind die stark unterschiedlichen Elementkonzentrationen der Probe, denn dadurch<br />

werden die Elemente unterschiedlich stark im Least-Square-Fit gewichtet. Um dieses Problem zu<br />

umgehen, bietet sich eine Umskalierung aller Elementkonzentrationen in der Probe auf 1 an. Es wird<br />

dabei angenommen, das die Elemente <strong>mit</strong> derselben relativen Präzision analytisch bestimmt werden<br />

können.<br />

Der Nachteil bei dieser Methode ist, daß die Probenzusammensetzung einen sehr großen Einfluß auf die<br />

Skalierung der Matrix <strong>und</strong> so<strong>mit</strong> generell auf die Untersuchungsmethode hat. Die Ergebnisse der<br />

Untersuchung anderer Proben würden nicht mehr vergleichbar sein. Entscheidender ist aber, daß den<br />

Ungenauigkeiten in der Mischungsmatrix 30 keine Rechnung getragen würde, die ebenso das Ergebnis<br />

beeinflußt, wie der Meßfehler in der Probennahme.<br />

Daher wird eine anderer Weg eingeschlagen: Die Elementkonzentrationen werden so umskaliert, daß sie<br />

in der Mischungsmatrix einen ähnlichen Fehler besitzen. Der größte Wert, der in der<br />

Konzentrationsmatrix für ein Element vorliegt, dient als eine grobe Bandbreitenabschätzung der<br />

Variation der Elementkonzentrationen. Deshalb wird jede Elementkonzentration in C einzeln durch<br />

diesen größten Wert dividiert. In Abbildung 8 ist das Resultat der Elementtransformation für die<br />

Mischungsmatrix dargestellt. Man erkennt an der gleichmäßigeren Größenverteilung der Quadrate eine<br />

wesentlich besser konditionierte Matrix.<br />

30 Dabei spielt nicht nur die Genauigkeit der chemische Analyse eine Rolle, sondern die Unsicherheit über die<br />

Klassifizierung eines Stoffes. (Inhomoge Stoffgemische werden zusammengefaßt.)<br />

38


40<br />

40<br />

35<br />

35<br />

30<br />

30<br />

25<br />

25<br />

20<br />

20<br />

15<br />

15<br />

10<br />

10<br />

5<br />

5<br />

0<br />

0 5 10 15 20<br />

0<br />

0 5 10 15 20<br />

Abbildung 7: Konzentrationsmatrix C<br />

0.3<br />

(Kantenlänge = C i, j<br />

)<br />

Abbildung 8: Konzentrationsmatrix nach<br />

0.3<br />

Elementskalierung (Kantenlänge = C i, j<br />

)<br />

Die Elementkonzentrationen in der gegebenen Probenanalyse ändern sich entprechend der Tabelle 3.<br />

Man erkennt eine Variation von 0.2 bei Stoff 5 bis 0.003 bei Stoff 40. D.h. die Elemente werden zwar<br />

immer noch unterschiedlich im Least-Square-Fit gewichtet, dieses aber wesentlich gleichmäßiger als<br />

vorher. Wie man aber in Abschnitt 4.6.3 (Reduktion der Element) erkennen kann, scheinen einige<br />

Elemente trotz ihres geringen Gewichtes einen großen Einfluß auf die Lösung zu haben <strong>und</strong> umgekehrt.<br />

Deshalb ist es sinnvoll, neben der reinen numerischen Untersuchung zusätzlich chemisches Wissen über<br />

die Bedeutung einiger Elemente für die Detektion spezieller Stoffe einzubeziehen, wie in diesem<br />

Abschnitt durchgeführt.<br />

0.023 0.183 0.164 0.035 0.200 0.012 0.604 0.108 0.030 0.013<br />

0.070 0.071 0.015 0.180 0.045 0.067 0.077 0.06 0.161 0.174<br />

0.033 0.006 0.025 0.086 0.015 0.113 0.037 0.052 0.060 0.003<br />

0.092 0.208 0.170 0.011 0.163 0.088 0.135 0.068 0.065 0.003<br />

0.058 0.028<br />

Tabelle 3: Stoffkonzentrationen in der Probe nach der Umskalierung (Elemente 1-42 von links oben nach<br />

rechts unten sortiert)<br />

39


Die Elementskalierung beeinflußt die Korrelation der Stoffe <strong>und</strong> die Gruppenbildung. In der Abbildung<br />

9 sind die Stoffskalarprodukte nach der Transformation der Elementkonzentrationen dargestellt. Man<br />

erkennt, daß die grobe Struktur erhalten bleibt. Innerhalb der Gruppen, insbesondere innerhalb der<br />

ersten, kann aber nun als zusätzlicher Effekt besser differenziert werden (vergl. <strong>mit</strong> Abbildung 6).<br />

Die Umskalierung der Elementkonzentration ändert nicht die Lösung des linearen Gleichungssystems<br />

(10). Daher wird in allen folgenden Abschnitten immer die transformierte Konzentrationsmatrix<br />

verwendet. Sie erhält kein neues Symbol, sondern wird ebenso <strong>mit</strong> C bezeichnet.<br />

Matrix with Scaling =0.5<br />

20<br />

15<br />

10<br />

5<br />

0<br />

0 5 10 15 20<br />

Abbildung 9: Spalten-Skalarprodukte der umskalierten Matrix<br />

4.4.3 Hauptkomponentenzerlegung des LGS<br />

In diesem Abschnitt wird untersucht, wie sich die Entartung der Konzentrationsmatrix <strong>und</strong> so<strong>mit</strong> auch<br />

die der Matrix C T C beim Lösen des linearen Gleichungssystems auswirkt. Dazu wird eine<br />

Haupkomponentenzerlegung (PCA - Principal Component Analysis) [20] von C T C durchgeführt, deren<br />

Ergebnis als Grafik in Abbildung 10 dargestellt ist <strong>und</strong> wie folgt zu interpretieren ist.<br />

Die PCA-Grafik besteht aus der Matrixgrafik inclusive einer Kurve, welche die Eigenwerte w i darstellt.<br />

Die orthonormale Matrix (U -1 ) T (=U) aus (17) wird nach der oben beschriebenen Methode gezeichnet,<br />

daher entspricht die Abszisse der Eigenvektornummer <strong>und</strong> die Spalten enthalten die<br />

Komponentendarstellung der Eigenvektoren im ursprünglichen 31 (Stoff-)Koordinatensystem. Die<br />

31<br />

Die PCA-Zerlegung wird dabei als eine Komposition von Abbildungen aufgefaßt: Transformation in das<br />

Eigenvektorsystem <strong>mit</strong> U -1 , Stauchung bzw. Streckung um die Eigenwerte <strong>mit</strong> D, Rücktransformation in alte Basis <strong>mit</strong> U.<br />

40


Eigenwerte werden in Form einer Kurve an die Ordinate abgetragen. Da bei dem vorliegenden Problem<br />

nicht deren absolute Größe entscheidend ist, sondern nur das Verhältnis zueinander werden die<br />

Eigenwerte umskaliert: Der größte Eigenwert wird auf die Zeilenzahl der Matrix gesetzt.<br />

Die Eigenvektoren werden in der Grafik nach der Größe ihrer Eigenwerte sortiert. Der Vektor <strong>mit</strong> dem<br />

größten Eigenwert bildet die linke Matrixspalte <strong>und</strong> der <strong>mit</strong> dem kleinsten die rechte. An den<br />

Komponenten (Spalten) jedes einzelnen Eigenvektors läßt sich deren Zusammensetzung erkennen. Z.B.<br />

besteht der rechten Eigenvektor hauptsächlich aus einer Kombination von Stoff 5 <strong>mit</strong> negativem<br />

Vorzeichen sowie Stoff 3 <strong>und</strong> 4 <strong>mit</strong> positivem Vorzeichen (Rückstand Heizöl leicht - Reifenabrieb -<br />

Teer), einer Kombination der Steingruppe (Stoff 11-12-13, Reingasstaub - Braumkohle -<br />

Zementabrieb - Kalk) <strong>und</strong> weiteren kleineren Komponenten. Durch das Wegblenden dieser<br />

Eigenrichtung würde die entsprechende Linearkombination von Stoffen bei der Lösung des LGS<br />

wegfallen.<br />

Matrix with Scaling =0.5<br />

20<br />

15<br />

10<br />

5<br />

0<br />

0 5 10 15 20<br />

Abbildung 10: Hauptkomponentenzerlegung von C T C ohne Nebenbedingung<br />

In Tabelle 4 stehen die Beträge der Eigenwerte, die in der Abbildung 10 nicht ersichtlich sind. Man<br />

erkennt, daß sich der größte <strong>und</strong> der kleinste Eigenwert um einen Faktor von r<strong>und</strong> 4000 unterscheiden.<br />

Die kleinen Eigenwerte bewirken, daß sich ein Meßfehler in der Probennahme stark auf die Form der<br />

Lösung auswirkt (23). Der 16. Eigenwert unterscheidet sich nur um r<strong>und</strong> einen Faktor 100 von größten<br />

41


Eigenwert, so daß durch eine Projektion auf die größten 16 Eigenrichtungen die Unsicherheit aufgr<strong>und</strong><br />

von Meßfehlern verringert werden kann.<br />

Stoffummer 1 2 3 4 5 6 7 8 9 10<br />

Eigenwert 29 9.5 7.2 4.8 4.1 3.6 2.8 2.6 2.0 1.6<br />

Stoffnummer 11 12 13 14 15 16 17 18 19 20<br />

Eigenwert 1.3 0.99 0.73 0.57 0.548 0.26 0.079 0.033 0.024 0.010<br />

Stoffnummer 21<br />

Eigenwert 0.007<br />

Tabelle 4: Eigenwerte der PCA-Zerlegung. (Stoffnummern nach Tabelle 2)<br />

In Abbildung 11 wird eine wichtige mathematische Idee dieser Analyse deutlich: Sie zeigt die PCA-<br />

Zerlegung von C T C inclusive der Nebenbedingung. Man erkennt, daß durch das Wegprojizieren der<br />

Eigenrichtungen <strong>mit</strong> kleinem Eigenwert auch die Nebenbedingung (Nebenbedingung entspricht Zeile 22)<br />

teilweise eliminiert wird (bei der 13. Eigenrichtung sehr deutlich <strong>mit</strong> negativem Vorzeichen), so daß sich<br />

dadurch nicht mehr 100% für die Summe der Konzentrationen ergeben würden. Durch Abseparieren der<br />

Nebenbedingung vor der PCA-Zerlegung, wie hier durchgeführt, wird dieser Effekt vermieden.<br />

Matrix with Scaling =0.5<br />

20<br />

15<br />

10<br />

5<br />

0<br />

0 5 10 15 20<br />

Abbildung 11: Hauptkomponentenzerlegung von C T C & Nebenbedingung.<br />

Dargestellt ist die Matrix U <strong>und</strong> die Eigenwerte<br />

42


4.4.4 Sensibilitätsbetrachtung<br />

Da sowohl die Konzentrationsmatrix als auch die Probenanalyse eine gewisse Unsicherheit beinhalten,<br />

soll in diesem Abschnitt untersucht werden, wie sich Veränderungen dieser Datenbasis auf das Ergebnis<br />

auswirken. Zu diesem Zweck werden die Probendaten manipuliert, indem erstens 5 % addiert, zweitens<br />

5 % subtrahiert <strong>und</strong> drittens 5 % Normalrauschen addiert werden. Mit der Konzentrationsmatrix wird<br />

ebenso verfahren. Die Ergebnisse für diese Analyse sind unter der Verwendung aller Eigenrichtungen in<br />

Tabelle 5 aufgeführt.<br />

Manipul. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21<br />

Nicht<br />

manip.<br />

Daten<br />

-4.24 21.28 20.90 28.26 -2.10 0.63 2.14 0.40 -0.07 2.26 3.55 7.22 -1.76 1.21 1.94 0.51 0.20 3.84<br />

-<br />

20.78<br />

29.75 4.87<br />

Probe -5% -3.80 19.21 17.70 25.57 7.08 0.41 1.84 0.31 0.02 2.32 2.71 6.29 -0.32 1.14 1.87 0.27 0.58 3.75<br />

Probe<br />

+5%<br />

Probe<br />

+1% Noise<br />

-4.68 23.35 24.10 30.95<br />

-<br />

11.29<br />

0.85 2.43 0.49 -0.16 2.20 4.39 8.16 -3.21 1.27 2.01 0.75 -0.17 3.93<br />

-4.83 20.57 21.38 28.98 -2.16 0.67 2.09 0.33 -0.10 2.31 3.18 7.27 -1.52 1.23 1.93 0.58 0.14 4.32<br />

C -5% -4.70 23.46 24.27 31.09<br />

-<br />

11.77<br />

0.86 2.45 0.50 -0.17 2.20 4.43 8.21 -3.28 1.28 2.01 0.77 -0.19 3.94<br />

C +5% -3.82 19.30 17.85 25.70 6.64 0.42 1.86 0.31 0.02 2.32 2.75 6.33 -0.39 1.15 1.88 0.28 0.56 3.75<br />

C + 5%<br />

Noise<br />

-4.26 21.36 21.16 28.22 -2.95 0.68 2.22 0.41 -0.08 2.28 3.17 6.49 -0.41 1.13 1.92 0.31 0.33 3.92<br />

-<br />

19.31<br />

-<br />

22.24<br />

-<br />

21.46<br />

-<br />

22.32<br />

-<br />

19.38<br />

-<br />

20.85<br />

28.02 4.36<br />

31.47 5.37<br />

30.21 4.87<br />

31.56 5.40<br />

28.11 4.38<br />

30.00 4.94<br />

Tabelle 5: Sensibilität der Lösung gegenüber Manipulation der Probendaten (Stoffnummer der Spalten nach<br />

Tabelle 2)<br />

In Tabelle 6 bis Tabelle 8 sind alle Lösungen des LGS angegeben die man erhält, wenn sukzessiv die<br />

Eigenrichtungen weggeblendet werden. Durch den Vergleich der drei Tabellen für jeweils gleiche<br />

Eigenrichtungen erkennt man, daß die Lösung <strong>mit</strong> weniger Eigenrichtungen (z.B. <strong>mit</strong> 15) i.a.<br />

unempfindlicher auf Manipulationen der Eingabedaten reagiert, als die Lösung für alle 22<br />

Eigenrichtungen. Die Projektion auf den Unterraum stellt also eine Fehlerunterdrückung dar.<br />

EV 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21<br />

2 1.84 3.18 1.60 0.68 0.94 2.98 6.28 2.70 6.05 9.75 7.11 4.97 2.68 5.84 9.67 1.80 0.10 16.88 7.48 7.34 0.13<br />

3 2.22 5.15 3.39 2.30 1.85 6.90 8.86 4.27 13.73 13.77 4.68 2.28 1.55 3.53 11.20 1.53 0.14 9.32 1.50 1.69 0.15<br />

4 3.04 6.19 4.69 3.75 2.71 10.44 8.31 5.31 18.77 4.30 5.42 3.63 2.39 3.09 -1.76 1.80 -0.03 9.59 4.10 4.13 0.12<br />

5 4.11 8.04 6.00 4.60 3.53 9.69 13.22 8.51 12.96 6.80 5.61 2.54 1.65 2.38 -6.07 0.84 -0.24 11.80 1.78 2.01 0.25<br />

6 4.55 7.32 5.75 4.55 3.68 7.55 16.43 4.44 6.01 0.64 9.01 5.05 5.77 7.53 -1.64 7.37 1.24 5.10 -0.95 0.05 0.54<br />

7 4.95 8.32 6.76 5.51 4.21 7.93 17.71 5.60 5.80 -3.29 7.22 3.39 4.16 8.06 1.21 5.45 0.96 6.24 -0.76 -0.06 0.64<br />

8 4.66 8.33 6.81 5.73 4.28 7.92 13.60 12.03 3.57 -3.66 7.09 3.71 4.36 -0.18 3.50 7.83 1.82 5.53 0.93 1.37 0.76<br />

9 5.15 10.21 8.58 7.06 5.12 9.15 16.37 5.42 2.59 -3.47 7.24 3.30 3.81 -5.79 3.93 8.27 1.89 5.36 2.70 3.05 0.04<br />

10 5.91 12.03 11.58 10.12 6.35 12.62 12.05 4.16 -2.55 2.33 2.05 4.13 1.85 0.36 2.67 0.18 -1.14 -1.89 8.72 8.47 -0.02<br />

11 5.78 12.00 11.53 10.08 6.32 12.57 12.02 4.05 -2.53 2.49 1.55 3.49 1.35 0.62 2.50 0.92 -0.49 -1.72 8.88 8.60 -0.03<br />

12 6.92 15.02 13.90 12.36 7.43 16.61 3.99 0.72 -4.46 2.23 2.11 4.03 2.14 1.29 2.69 1.08 0.70 3.57 4.10 4.21 -0.62<br />

13 6.52 14.55 13.46 11.88 7.49 15.95 4.07 -0.11 -4.10 2.18 2.46 3.59 1.76 0.71 2.56 0.38 0.13 4.06 3.85 3.92 4.71<br />

14 6.96 14.44 13.35 11.80 7.35 15.07 4.29 -0.24 -3.77 2.13 2.19 4.47 1.92 0.43 2.54 -0.82 2.11 4.10 3.72 3.76 4.21<br />

15 10.51 20.10 16.29 14.69 8.87 3.17 1.92 -0.73 -0.42 2.63 -0.07 4.38 2.42 0.84 1.87 2.37 -3.56 4.27 3.12 4.44 2.88<br />

16 0.92 24.22 18.61 15.83 10.13 0.78 1.20 -0.26 -0.05 2.53 4.48 2.42 2.66 1.50 1.71 0.46 -1.14 3.22 4.09 4.12 2.57<br />

17 -0.04 24.70 18.37 15.81 10.04 0.93 1.49 -0.28 -0.10 2.51 3.01 3.59 3.06 1.44 1.70 0.79 -1.29 3.48 4.10 3.87 2.81<br />

18 1.32 29.88 13.76 14.37 8.90 1.58 1.21 -0.22 -0.34 2.31 3.59 2.52 3.45 1.54 1.77 0.20 -0.64 2.80 2.80 6.03 3.19<br />

19 -0.28 27.99 13.49 15.88 9.84 1.82 1.64 -0.27 -0.34 2.44 1.47 -0.68 9.16 1.23 1.75 -0.66 -0.62 3.71 -1.98 11.57 2.84<br />

20 -2.69 24.88 27.08 8.84 7.78 1.49 1.43 0.34 -0.18 1.87 1.65 6.05 0.83 1.34 2.01 0.19 0.13 3.41 -18.8 28.32 4.08<br />

21 -4.56 21.97 19.30 21.79 9.23 0.88 1.81 0.31 -0.05 2.01 4.02 10.23 -6.51 1.29 2.06 0.92 -0.34 3.48 -22.2 30.66 3.76<br />

22 -4.24 21.28 20.90 28.26 -2.10 0.63 2.14 0.40 -0.07 2.26 3.55 7.22 -1.76 1.21 1.94 0.51 0.20 3.84 -20.9 29.75 4.87<br />

Tabelle 6: Lösungen ohne Manipulation der Daten<br />

In einer Spalte wird jeweils ein Stoff (Stoffnummern laut Tabelle 2) aufgeführt. In den Zeilen wurde von oben<br />

nach unten jeweils eine Eigenrichtung (EV) mehr verwendet. Die erste Eigenrichtung stellt die<br />

Nebenbedingung dar <strong>und</strong> wird nicht eliminiert.<br />

43


EV 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21<br />

2 1.84 3.18 1.60 0.68 0.94 2.98 6.28 2.70 6.05 9.75 7.11 4.97 2.68 5.84 9.67 1.80 0.10 16.88 7.48 7.34 0.13<br />

3 2.23 5.17 3.41 2.32 1.86 6.94 8.89 4.29 13.82 13.82 4.65 2.25 1.54 3.50 11.21 1.52 0.14 9.23 1.43 1.62 0.15<br />

4 3.06 6.22 4.72 3.79 2.73 10.53 8.33 5.34 18.92 4.23 5.40 3.62 2.39 3.05 -1.90 1.80 -0.03 9.51 4.07 4.10 0.12<br />

5 4.11 8.03 6.00 4.62 3.53 9.79 13.14 8.47 13.23 6.68 5.59 2.55 1.66 2.36 -6.12 0.86 -0.24 11.67 1.79 2.02 0.24<br />

6 4.56 7.29 5.75 4.57 3.69 7.56 16.50 4.23 5.97 0.25 9.14 5.17 5.97 7.74 -1.50 7.68 1.31 4.67 -1.06 -0.03 0.55<br />

7 4.94 8.23 6.69 5.47 4.19 7.91 17.69 5.32 5.78 -3.46 7.46 3.61 4.45 8.24 1.19 5.88 1.04 5.74 -0.88 -0.13 0.64<br />

8 4.64 8.23 6.76 5.71 4.26 7.90 13.37 12.08 3.43 -3.83 7.32 3.94 4.66 -0.43 3.60 8.38 1.95 5.00 0.89 1.38 0.77<br />

9 5.09 9.99 8.41 6.95 5.05 9.06 15.96 5.90 2.52 -3.66 7.46 3.56 4.15 -5.67 4.00 8.79 2.02 4.84 2.55 2.95 0.10<br />

10 5.86 11.85 11.47 10.07 6.30 12.60 11.55 4.62 -2.73 2.26 2.16 4.41 2.15 0.60 2.71 0.53 -1.08 -2.55 8.70 8.48 0.03<br />

11 5.68 11.80 11.40 10.01 6.25 12.53 11.51 4.45 -2.69 2.49 1.43 3.48 1.42 0.99 2.46 1.60 -0.12 -2.31 8.92 8.66 0.02<br />

12 6.81 14.80 13.75 12.27 7.35 16.53 3.55 1.14 -4.61 2.23 1.99 4.01 2.20 1.65 2.65 1.76 1.05 2.94 4.18 4.31 -0.56<br />

13 6.32 14.23 13.21 11.69 7.43 15.73 3.63 0.14 -4.18 2.17 2.42 3.48 1.74 0.95 2.49 0.92 0.36 3.53 3.87 3.95 5.89<br />

14 6.98 14.06 13.06 11.58 7.22 14.44 3.96 -0.05 -3.69 2.10 2.01 4.78 1.99 0.54 2.46 -0.87 3.30 3.59 3.69 3.71 5.16<br />

15 10.50 19.68 15.97 14.44 8.73 2.63 1.62 -0.53 -0.37 2.59 -0.23 4.70 2.48 0.95 1.80 2.29 -2.32 3.76 3.10 4.39 3.84<br />

16 1.64 23.49 18.11 15.49 9.89 0.43 0.95 -0.10 -0.02 2.50 3.97 2.88 2.70 1.55 1.65 0.53 -0.08 2.78 3.99 4.09 3.55<br />

17 1.11 23.75 17.98 15.48 9.84 0.51 1.11 -0.11 -0.05 2.49 3.16 3.53 2.92 1.52 1.65 0.72 -0.17 2.93 3.99 3.96 3.68<br />

18 2.03 27.26 14.86 14.50 9.07 0.95 0.92 -0.07 -0.21 2.35 3.55 2.81 3.18 1.59 1.69 0.32 0.27 2.47 3.11 5.42 3.94<br />

19 -0.31 24.50 14.47 16.72 10.44 1.31 1.55 -0.15 -0.22 2.54 0.45 -1.87 11.54 1.13 1.66 -0.94 0.31 3.81 -3.87 13.53 3.42<br />

20 -2.12 22.17 24.64 11.45 8.90 1.06 1.39 0.30 -0.10 2.11 0.58 3.16 5.31 1.22 1.86 -0.31 0.86 3.58 -16.49 26.06 4.36<br />

21 -3.89 19.40 17.24 23.75 10.28 0.48 1.75 0.28 0.03 2.25 2.84 7.14 -1.67 1.17 1.91 0.38 0.42 3.65 -19.73 28.28 4.05<br />

22 -3.80 19.21 17.70 25.57 7.08 0.41 1.84 0.31 0.02 2.32 2.71 6.29 -0.32 1.14 1.87 0.27 0.58 3.75 -19.31 28.02 4.36<br />

Tabelle 7: Lösungen für Probenkonzentration -5 %<br />

EVf 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21<br />

2 1.84 3.18 1.60 0.68 0.94 2.98 6.28 2.70 6.05 9.75 7.11 4.97 2.68 5.84 9.67 1.80 0.10 16.88 7.48 7.34 0.13<br />

3 2.22 5.13 3.37 2.29 1.84 6.85 8.83 4.25 13.64 13.72 4.71 2.31 1.56 3.56 11.18 1.53 0.13 9.41 1.57 1.75 0.15<br />

4 3.03 6.15 4.65 3.72 2.69 10.35 8.28 5.28 18.62 4.37 5.44 3.65 2.39 3.12 -1.62 1.80 -0.03 9.68 4.14 4.17 0.12<br />

5 4.12 8.04 5.99 4.58 3.53 9.58 13.31 8.54 12.68 6.93 5.63 2.53 1.64 2.40 -6.02 0.82 -0.25 11.93 1.77 2.00 0.25<br />

6 4.54 7.36 5.75 4.54 3.67 7.54 16.37 4.66 6.04 1.03 8.88 4.93 5.58 7.32 -1.79 7.06 1.17 5.52 -0.84 0.12 0.53<br />

7 4.96 8.42 6.82 5.55 4.24 7.94 17.72 5.89 5.82 -3.13 6.99 3.17 3.87 7.88 1.23 5.03 0.87 6.73 -0.64 0.01 0.64<br />

8 4.69 8.42 6.87 5.76 4.30 7.93 13.82 11.98 3.71 -3.48 6.86 3.48 4.06 0.06 3.41 7.29 1.69 6.06 0.96 1.37 0.75<br />

9 5.21 10.43 8.76 7.18 5.20 9.24 16.78 4.94 2.66 -3.28 7.03 3.03 3.47 -5.91 3.87 7.75 1.77 5.88 2.85 3.16 -0.02<br />

10 5.95 12.21 11.70 10.18 6.40 12.64 12.55 3.71 -2.37 2.41 1.94 3.85 1.55 0.11 2.63 -0.17 -1.21 -1.22 8.75 8.47 -0.08<br />

11 5.88 12.19 11.67 10.16 6.38 12.62 12.53 3.65 -2.36 2.49 1.67 3.50 1.28 0.25 2.54 0.23 -0.85 -1.13 8.83 8.54 -0.08<br />

12 7.03 15.24 14.05 12.45 7.50 16.68 4.44 0.29 -4.30 2.23 2.23 4.05 2.07 0.92 2.73 0.39 0.34 4.20 4.01 4.12 -0.68<br />

13 6.71 14.87 13.70 12.07 7.55 16.16 4.50 -0.36 -4.02 2.19 2.51 3.70 1.77 0.47 2.63 -0.15 -0.10 4.59 3.82 3.88 3.52<br />

14 6.94 14.81 13.65 12.03 7.48 15.71 4.61 -0.43 -3.86 2.17 2.37 4.15 1.86 0.33 2.62 -0.77 0.91 4.61 3.75 3.80 3.27<br />

15 10.52 20.52 16.62 14.94 9.01 3.70 2.23 -0.92 -0.48 2.66 0.10 4.06 2.36 0.74 1.95 2.44 -4.81 4.78 3.15 4.48 1.93<br />

16 0.20 24.95 19.11 16.17 10.37 1.14 1.45 -0.42 -0.08 2.56 4.99 1.95 2.62 1.44 1.78 0.39 -2.20 3.65 4.19 4.15 1.59<br />

17 -1.19 25.64 18.76 16.14 10.23 1.35 1.88 -0.45 -0.15 2.53 2.87 3.65 3.20 1.36 1.76 0.87 -2.42 4.03 4.21 3.78 1.94<br />

18 0.61 32.50 12.66 14.23 8.73 2.21 1.50 -0.36 -0.47 2.26 3.62 2.23 3.71 1.49 1.85 0.09 -1.56 3.13 2.48 6.64 2.44<br />

19 -0.25 31.49 12.51 15.04 9.23 2.34 1.73 -0.39 -0.47 2.33 2.49 0.51 6.78 1.32 1.84 -0.37 -1.55 3.62 -0.08 9.61 2.25<br />

20 -3.27 27.59 29.53 6.23 6.65 1.92 1.47 0.37 -0.27 1.62 2.71 8.94 -3.65 1.47 2.17 0.69 -0.61 3.24 -21.2 30.58 3.81<br />

21 -5.23 24.53 21.35 19.83 8.18 1.28 1.87 0.34 -0.13 1.77 5.21 13.33 -11.4 1.42 2.22 1.45 -1.10 3.31 -24.8 33.03 3.47<br />

22 -4.68 23.35 24.10 30.95 -11.3 0.85 2.43 0.49 -0.16 2.20 4.39 8.16 -3.21 1.27 2.01 0.75 -0.17 3.93 -22.2 31.47 5.37<br />

Tabelle 8: Lösungen für Probenkonzentration +5 %<br />

4.5 Hauptuntersuchung<br />

Nach den Voruntersuchungen wird in diesem Abschnitt die wahrscheinliche Stoffzusammensetzung der<br />

Probe bestimmt. In Tabelle 9 sind die Lösungen des LGS für die verschiedene Anzahl von<br />

Eigenrichtungen angegeben. Diese Tabelle entspricht der Tabelle 6 <strong>mit</strong> zusätzlichen Informationen: Die<br />

Unsicherheiten in den Stoffkonzentrationen<br />

S<br />

σ<br />

j<br />

aus (27), die Differenzvektoren zwischen den<br />

analysierten Elementkonzentrationen <strong>und</strong> denen, die den berechneten Gemischen entsprechen <strong>und</strong> Werte<br />

χ der Fehlerfunktion (11). In der ersten Zeile „Max“ sind zusätzlich die oberen Schranken der<br />

Stoffkonzentrationen eingetragen, die sich prinzipiell aus den Elementkonzentrationen in der Probe<br />

ergeben. Für jeden Stoff wurde jedes Element der Konzentrationsmatrix <strong>mit</strong> der Elementkonzentration<br />

der Probe verglichen. Die Menge, die ein Stoff zu einem Element beiträgt, darf die Probenkonzentration<br />

nicht überschreiten <strong>und</strong> definiert so<strong>mit</strong> die Maximalkonzentration des Stoffes in der Probe. Aufgr<strong>und</strong><br />

der großen Ungenauigkeiten der Matrix können diese Konzentrationen aber nur als Orientierung dienen.<br />

In Abbildung 12 bis Abbildung 32 ist der Informationsgehalt von Tabelle 9 in eine grafische Form<br />

übertragen. In jeder Einzelgrafik ist nur die Konzentration eines Stoffes <strong>und</strong> deren Entwicklung beim<br />

44


Wegblenden von Eigenrichtungen angegeben. Die Unsicherheit des Ergebnisses wird durch Fehlerbalken<br />

angezeigt. Diese Werte sind allerdings <strong>mit</strong> einem Faktor 0.05 skaliert worden, da sich die Berechnung<br />

der Unsicherheit üblicherweise auf Eingabedaten von der Größenordnung 1 bezieht. Aufgr<strong>und</strong> der<br />

gewählten Elementskalierung liegen aber Konzentrationen bis unter 0.003 vor, so daß der Fehlerbalken<br />

zu groß werden würde. Eingezeichnet sind außerdem die maximal erlaubten Konzentrationen als<br />

horizontale Linie.<br />

Die Grafiken enthalten eine große Menge an Information, die nicht einfach interpretiert werden können.<br />

Es stellt sich die Frage, wieviele Eigenrichtungen <strong>mit</strong>genommen werden sollten, um vertrauenswürdige<br />

Ergebnisse zu erhalten. Wenn zu viele Eigenrichtungen verwendet werden, fließt zu viel fehlerhafte<br />

Information in das Ergebnis ein, d.h. Fehler innerhalb der Daten beeinflussen das Ergebnis zu stark.<br />

Andererseits dürfen auch nicht zu wenige Eigenrichtungen verwendet werden, da dann wichtige<br />

Information ignoriert wird. Folglich muß ein Bereich gef<strong>und</strong>en werden, in dem genügend unsichere<br />

Information eliminiert wird, aber die wichtige Information enthalten bleibt.<br />

Klar ist, daß sich die Lösung durch die Elimination der ersten kleinsten Eigenrichtungen stark verändert.<br />

Auf der andere Seite bewirken Änderungen bei schon stark reduzierten Matrizen ebenfalls große<br />

Variationen. Das Minimum der Lösungsveränderung ist daher ein Kriterium für den im vorigen Absatz<br />

beschriebenen Bereich. Zur Bestimmung des Bereiches wird die Differenz zweier<br />

hintereinanderliegender Lösungsvektoren aus Tabelle 9 bestimmt. Die Vektorlänge dient als Maß für die<br />

Veränderung von der einen zur anderen Lösung.<br />

Das Ergebnis dieser Analyse ist in Abbildung 33 gezeigt. Man erkennt darin einen stabilen Bereich von<br />

12 bis 14 Eigenrichtungen, in dem das Minimum liegt, so daß eine Lösung in diesem Bereich gewählt<br />

wird. Um stabilere Aussagen zu erhalten, wird über diese Lösungen ge<strong>mit</strong>telt. Die Varianz über diese 3<br />

Lösungen liefert ein Maß für die Zuverlässigkeit der jeweiligen Stoffkonzentration.<br />

Ein deutliches Kriterium für die richtige Anzahl der Eigenrichtungen liefert die Abbildung 34: Durch die<br />

Projektion in den Hauptkomponentenraum wird im Sinne des <strong>mit</strong>tleren quadratischen Fehlers (11) die<br />

Lösung schlechter (fette Kurve), gleichzeitig fällt aber die Unsicherheit der Lösung (32), wie in der<br />

dünnen Kurve dargestellt. Durch das Wegblenden der ersten kleinen Eigenrichtungen sinkt die<br />

Unsicherheit sogar überproportional, ohne das der Lösungsfehler stark steigt. Daher würde man wegen<br />

der großen Unsicherheit die Eigenrichtung über 17 nicht mehr verwenden.<br />

Aus den obigen Betrachtungen erscheint es sinnvoll, die 12 bis 14 Eigenrichtungen zu verwenden. Über<br />

diese Zeilen wird ge<strong>mit</strong>telt <strong>und</strong> deren Varianz bestimmt. Das Ergebnis ist in Tabelle 10 angegeben.<br />

45


EV\Stoff 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 Fehler<br />

Max 16.67 19.50 47.00 78.00 42.50 4.33 3.77 0.39 0.37 3.33 18.00 10.87 15.62 5.22 1.10 2.33 1.35 6.50 16.20 17.05 6.00<br />

2 1.84 3.18 1.60 0.68 0.94 2.98 6.28 2.70 6.05 9.75 7.11 4.97 2.68 5.84 9.67 1.80 0.10 16.88 7.48 7.34 0.13 1.02<br />

±1.20 ±2.06 ±1.04 ±0.44 ±0.61 ±1.93 ±4.08 ±1.75 ±3.93 ±6.33 ±4.62 ±3.23 ±1.74 ±3.79 ±6.28 ±1.17 ±0.07 ±10.96 ±4.86 ±4.77 1.93<br />

3 2.22 5.15 3.39 2.30 1.85 6.90 8.86 4.27 13.73 13.77 4.68 2.28 1.55 3.53 11.20 1.53 0.14 9.32 1.50 1.69 0.15 0.877<br />

±1.81 ±5.48 ±4.35 ±3.63 ±2.27 ±9.29 ±8.35 ±4.46 ±18.31 ±12.99 ±5.47 ±5.24 ±2.33 ±4.89 ±8.76 ±1.17 ±0.12 ±15.32 ±11.35 ±10.72 ±39<br />

4 3.04 6.19 4.69 3.75 2.71 10.44 8.31 5.31 18.77 4.30 5.42 3.63 2.39 3.09 -1.76 1.80 -0.03 9.59 4.10 4.13 0.12 0.707<br />

±3.20 ±.00 ±6.07 ±5.51 ±3.47 ±14.11 ±8.67 ±5.98 ±24.81 ±19.94 ±6.31 ±6.34 ±3.28 ±4.89 ±25.44 ±1.64 ±0.33 ±15.70 ±12.71 ±12.04 ±3.42<br />

5 4.11 8.04 6.00 4.60 3.53 9.69 13.22 8.51 12.96 6.80 5.61 2.54 1.65 2.38 -6.07 0.84 -0.24 11.80 1.78 2.01 0.25 0.665<br />

±5.75 ±10.90 ±8.51 ±6.77 ±5.09 ±14.25 ±23.02 ±15.12 ±33.33 ±22.64 ±6.43 ±7.63 ±4.38 ±5.60 ±31.41 ±4.17 ±0.96 ±18.57 ±15.79 ±14.76 ±4.37<br />

6 4.55 7.32 5.75 4.55 3.68 7.55 16.43 4.44 6.01 0.64 9.01 5.05 5.77 7.53 -1.64 7.37 1.24 5.10 -0.95 0.05 0.54 0.511<br />

±7.06 ±11.39 ±9.21 ±7.54 ±5.89 ±14.34 ±29.21 ±16.74 ±34.46 ±27.76 ±15.49 ±12.30 ±14.75 ±18.24 ±32.62 ±21.47 ±4.56 ±23.48 ±17.30 ±15.45 ±.43<br />

7 4.95 8.32 6.76 5.51 4.21 7.93 17.71 5.60 5.80 -3.29 7.22 3.39 4.16 8.06 1.21 5.45 0.96 6.24 -0.76 -0.06 0.64 0.495<br />

±7.68 ±13.74 ±12.05 ±10.58 ±7.18 ±14.59 ±30.73 ±19.07 ±34.51 ±41.45 ±21.14 ±18.10 ±19.64 ±18.63 ±39.59 ±26.45 ±5.12 ±25.17 ±17.37 ±15.47 ±.29<br />

8 4.66 8.33 6.81 5.73 4.28 7.92 13.60 12.03 3.57 -3.66 7.09 3.71 4.36 -0.18 3.50 7.83 1.82 5.53 0.93 1.37 0.76 0.441<br />

±7.79 ±14.26 ±12.57 ±11.28 ±7.63 ±15.28 ±32.54 ±37.94 ±35.47 ±41.84 ±22.08 ±19.15 ±20.83 ±39.85 ±41.41 ±33.41 ±7.89 ±25.81 ±18.64 ±16.76 ±0.45<br />

9 5.15 10.21 8.58 7.06 5.12 9.15 16.37 5.42 2.59 -3.47 7.24 3.30 3.81 -5.79 3.93 8.27 1.89 5.36 2.70 3.05 0.04 0.409<br />

±8.22 ±17.97 ±16.24 ±13.65 ±9.02 ±16.76 ±36.31 ±55.97 ±35.98 ±41.88 ±22.08 ±19.41 ±21.23 ±52.16 ±41.47 ±33.43 ±7.89 ±25.82 ±21.51 ±19.57 ±17.454<br />

10 5.91 12.03 11.58 10.12 6.35 12.62 12.05 4.16 -2.55 2.33 2.05 4.13 1.85 0.36 2.67 0.18 -1.14 -1.89 8.72 8.47 -0.02 0.268<br />

±10.15 ±21.33 ±22.39 ±20.55 ±11.74 ±25.25 ±37.72 ±56.38 ±40.58 ±45.04 ±24.64 ±21.73 ±21.24 ±56.20 ±41.48 ±37.32 ±11.39 ±40.79 ±31.37 ±29.03 ±9.86<br />

11 .78 12.00 11.53 10.08 6.32 12.57 12.02 4.05 -2.53 2.49 1.55 3.49 1.35 0.62 2.50 0.92 -0.49 -1.72 8.88 8.60 -0.03 0.267<br />

±11.14 ±21.40 ±22.43 ±20.62 ±11.75 ±25.41 ±37.72 ±56.38 ±40.61 ±45.89 ±35.20 ±37.23 ±31.74 ±58.59 ±42.21 ±56.74 ±37.25 ±40.87 ±33.52 ±30.89 ±0.54<br />

12 6.92 15.02 13.90 12.36 7.43 16.61 3.99 0.72 -4.46 2.23 2.11 4.03 2.14 1.29 2.69 1.08 0.70 3.57 4.10 4.21 -0.62 0.214<br />

±13.96 ±30.50 ±28.65 ±26.84 ±14.58 ±38.82 ±63.00 ±58.99 ±42.99 ±45.90 ±35.35 ±37.50 ±32.27 ±58.98 ±42.25 ±57.02 ±38.48 ±50.32 ±43.23 ±39.61 ±1.54<br />

13 6.52 14.55 13.46 11.88 7.49 15.95 4.07 -0.11 -4.10 2.18 2.46 3.59 1.76 0.71 2.56 0.38 0.13 4.06 3.85 3.92 4.71 0.205<br />

±14.31 ±30.51 ±28.69 ±26.85 ±15.98 ±38.84 ±63.08 ±59.40 ±42.99 ±45.91 ±35.90 ±37.81 ±32.52 ±59.06 ±42.25 ±57.02 ±38.64 ±50.33 ±43.24 ±39.61 ±110.43<br />

14 6.96 14.44 13.35 11.80 7.35 15.07 4.29 -0.24 -3.77 2.13 2.19 4.47 1.92 0.43 2.54 -0.82 2.11 4.10 3.72 3.76 4.21 0.203<br />

±26.38 ±30.71 ±29.00 ±27.30 ±15.98 ±47.04 ±63.28 ±59.40 ±43.86 ±45.91 ±37.45 ±55.30 ±33.70 ±59.41 ±42.26 ±70.72 ±100.13 ±50.59 ±43.25 ±39.68 ±15.45<br />

15 10.51 20.10 16.29 14.69 8.87 3.17 1.92 -0.73 -0.42 2.63 -0.07 4.38 2.42 0.84 1.87 2.37 -3.56 4.27 3.12 4.44 2.88 0.158<br />

±41.45 ±57.67 ±39.66 ±38.09 ±21.55 ±105.78 ±66.37 ±59.45 ±50.97 ±46.15 ±41.91 ±55.46 ±34.15 ±59.57 ±42.54 ±74.96 ±105.64 ±50.61 ±43.38 ±40.25 ±20.75<br />

16 0.92 24.22 18.61 15.83 10.13 0.78 1.20 -0.26 -0.05 2.53 4.48 2.42 2.66 1.50 1.71 0.46 -1.14 3.22 4.09 4.12 2.57 0.132<br />

±119.02 ±72.88 ±46.58 ±39.65 ±25.23 ±108.84 ±66.78 ±59.63 ±51.14 ±46.17 ±67.21 ±60.67 ±34.20 ±59.97 ±42.58 ±78.09 ±108.17 ±51.75 ±44.63 ±40.48 ±130.94<br />

17 -0.04 24.70 18.37 15.81 10.04 0.93 1.49 -0.28 -0.10 2.51 3.01 3.59 3.06 1.44 1.70 0.79 -1.29 3.48 4.10 3.87 2.81 0.131<br />

±147.90 ±81.28 ±52.44 ±40.04 ±27.24 ±109.85 ±71.87 ±59.71 ±51.34 ±46.24 ±138.55 ±111.76 ±47.12 ±60.26 ±42.60 ±82.69 ±110.36 ±57.41 ±44.63 ±46.47 ±135.45<br />

18 1.32 29.88 13.76 14.37 8.90 1.58 1.21 -0.22 -0.34 2.31 3.59 2.52 3.45 1.54 1.77 0.20 -0.64 2.80 2.80 6.03 3.19 0.129<br />

±155.10 ±242.34 ±219.35 ±80.96 ±61.07 ±114.95 ±72.42 ±59.72 ±52.56 ±47.40 ±140.27 ±122.15 ±50.13 ±60.31 ±42.69 ±86.66 ±111.51 ±63.02 ±74.51 ±103.97 ±140.43<br />

19 -0.28 27.99 13.49 15.88 9.84 1.82 1.64 -0.27 -0.34 2.44 1.47 -0.68 9.16 1.23 1.75 -0.66 -0.62 3.71 -1.98 11.57 2.84 0.126<br />

±167.24 ±274.73 ±222.10 ±130.64 ±89.73 ±114.98 ±74.20 ±59.72 ±52.63 ±48.67 ±176.26 ±198.02 ±300.12 ±61.70 ±42.69 ±96.12 ±114.33 ±76.14 ±248.34 ±299.95 ±148.34<br />

20 -2.69 24.88 27.08 8.84 7.78 1.49 1.43 0.34 -0.18 1.87 1.65 6.05 0.83 1.34 2.01 0.19 0.13 3.41 -18.84 28.32 4.08 0.113<br />

±174.97 ±275.13 ±322.96 ±256.37 ±126.55 ±115.37 ±74.33 ±60.42 ±52.64 ±53.24 ±181.12 ±279.70 ±422.36 ±61.84 ±43.09 ±101.13 ±115.93 ±78.22 ±384.20 ±402.88 ±150.31<br />

21 -4.56 21.97 19.30 21.79 9.23 0.88 1.81 0.31 -0.05 2.01 4.02 10.23 -6.51 1.29 2.06 0.92 -0.34 3.48 -22.25 30.66 3.76 0.111<br />

±201.89 ±316.76 ±529.54 ±743.27 ±148.89 ±119.97 ±77.04 ±60.43 ±53.12 ±53.79 ±221.83 ±359.37 ±578.90 ±61.90 ±43.17 ±108.44 ±118.62 ±78.32 ±425.93 ±422.10 ±155.34<br />

22 -4.24 21.28 20.90 28.26 -2.10 0.63 2.14 0.40 -0.07 2.26 3.55 7.22 -1.76 1.21 1.94 0.51 0.20 3.84 -20.78 29.75 4.87 0.11<br />

±201.8 ±319.01 ±571.38 ±828.78 ±1111.9 ±119.98 ±81.60 ±61.05 ±53.54 ±53.80 ±223.11 ±370.89 ±590.25 ±61.99 ±43.77 ±108.49 +-118.64 +-78.83 +-427.38 +-422.77 ±156.18<br />

Tabelle 9: Berechnete Stoffkonzentrationen in Abhängigkeit von der Anzahl der verwendeten Eigenrichtungen EV (Stoffnummern laut Sortierung in Tabelle 2)<br />

In den jeweiligen Zeilen unter den Konzentrationsangaben sind die dazugehörigen Unsicherheiten<br />

S σ j<br />

aus (27) angegeben. Die Zeile „Max“ enthält die durch die<br />

Probenzusammensetzung determinierten maximal möglichen Stoffkonzentrationen. In der Fehlerspalte ist die Länge des Differenzvektors zwischen der analysierten<br />

Elementkonzentration <strong>und</strong> der Konzentration, die dem berechneten Gemisch entsprechen angegeben (Wert χ der Fehlerfunktion (11)).<br />

46


Variation der Lösung für jeweils einen Stoff<br />

80<br />

70<br />

Plot1<br />

Plot1<br />

78<br />

In Abbildung 12 bis Abbildung 32 sind die<br />

berechneten Stoffkonzentrationen (Ordinate) in<br />

Abhängigkeit von der Anzahl der verwendeten<br />

Eigenrichtungen (Abszisse) dargestellt. Die<br />

Fehlerbalken sind <strong>mit</strong> 0.05 skaliert. Die<br />

waagerechte Linien zeigt die maximal mögliche<br />

Stoffkonzentration.<br />

60<br />

50<br />

40<br />

30<br />

20<br />

10<br />

0<br />

-10<br />

-20<br />

0 5 10 15 20 25<br />

Abbildung 15: Stoff 4 (Teer)<br />

60<br />

Plot1<br />

Plot1<br />

42.5<br />

40<br />

20<br />

15<br />

Plot1<br />

Plot1<br />

16.7<br />

20<br />

0<br />

10<br />

5<br />

-20<br />

0<br />

-40<br />

-5<br />

-60<br />

0 5 10 15 20 25<br />

-10<br />

-15<br />

0 5 10 15 20 25<br />

Abbildung 16: Stoff 5 (Heizöl - leicht)<br />

Abbildung 12: Stoff 1 (Pflanzendetritus)<br />

20<br />

Plot1<br />

Plot1<br />

4.33<br />

45<br />

40<br />

Plot1<br />

Plot1<br />

19.5<br />

15<br />

10<br />

35<br />

30<br />

5<br />

25<br />

20<br />

0<br />

15<br />

-5<br />

10<br />

5<br />

-10<br />

0 5 10 15 20 25<br />

0<br />

0 5 10 15 20 25<br />

Abbildung 13: Stoff 2 (Diesel)<br />

50<br />

Plot1<br />

Plot1<br />

47<br />

Abbildung 17: Stoff 6 (Bremsabrieb I)<br />

20<br />

15<br />

Plot1<br />

Plot1<br />

3.77<br />

40<br />

30<br />

10<br />

20<br />

5<br />

10<br />

0<br />

0<br />

-10<br />

0 5 10 15 20 25<br />

-5<br />

0 5 10 15 20 25<br />

Abbildung 14: Stoff 3 (Reifen)<br />

Abbildung 18: Stoff 7 (Benzin)<br />

47


14<br />

30<br />

12<br />

Plot1<br />

Plot1<br />

0.39<br />

25<br />

Plot1<br />

Plot1<br />

10.87<br />

10<br />

20<br />

8<br />

15<br />

6<br />

10<br />

4<br />

5<br />

2<br />

0<br />

0<br />

-5<br />

-2<br />

-10<br />

-4<br />

0 5 10 15 20 25<br />

-15<br />

0 5 10 15 20 25<br />

Abbildung 19: Stoff 8 (Heizöl - schwer)<br />

Abbildung 23: Stoff 12 (Zementabrieb)<br />

30<br />

Plot1<br />

Plot1<br />

15.6<br />

25<br />

20<br />

Plot1<br />

Plot1<br />

0.37<br />

20<br />

10<br />

0<br />

15<br />

10<br />

-10<br />

5<br />

-20<br />

-30<br />

0<br />

-5<br />

-40<br />

0 5 10 15 20 25<br />

-10<br />

0 5 10 15 20 25<br />

Abbildung 24: Stoff 13 (Kalk)<br />

Abbildung 20: Stoff 9 (Bremsabrieb 2)<br />

15<br />

Plot1<br />

Plot1<br />

0.33<br />

10<br />

8<br />

Plot1<br />

Plot1<br />

5.22<br />

6<br />

10<br />

4<br />

2<br />

5<br />

0<br />

-2<br />

0<br />

-4<br />

-5<br />

-6<br />

-8<br />

-10<br />

0 5 10 15 20 25<br />

Abbildung 21: Stoff 10 (Reingasstaub Stahl)<br />

20<br />

Plot1<br />

Plot1<br />

18<br />

-10<br />

0 5 10 15 20 25<br />

Abbildung 25: Stoff 14 (Reingasstaub Zement)<br />

15<br />

12<br />

10<br />

Plot1<br />

Plot1<br />

1.1<br />

10<br />

8<br />

5<br />

6<br />

4<br />

0<br />

2<br />

0<br />

-5<br />

-2<br />

-10<br />

0 5 10 15 20 25<br />

-4<br />

-6<br />

Abbildung 22: Stoff 11 (Braunkohle)<br />

-8<br />

0 5 10 15 20 25<br />

Abbildung 26: Stoff 15 (Müllverbrennung)<br />

48


10<br />

60<br />

Plot1<br />

Plot1<br />

2.33<br />

Plot1<br />

Plot1<br />

17.5<br />

8<br />

50<br />

6<br />

40<br />

4<br />

30<br />

2<br />

20<br />

0<br />

10<br />

-2<br />

-4<br />

0<br />

-6<br />

0 5 10 15 20 25<br />

-10<br />

0 5 10 15 20 25<br />

Abbildung 27: Stoff 16 (Meersalz)<br />

Abbildung 31: Stoff 20 (kont. Oberkruste)<br />

8<br />

12<br />

6<br />

Plot1<br />

Plot1<br />

1.35<br />

10<br />

Plot1<br />

Plot1<br />

6<br />

4<br />

8<br />

2<br />

6<br />

0<br />

4<br />

-2<br />

2<br />

-4<br />

-6<br />

0<br />

-8<br />

-2<br />

-10<br />

0 5 10 15 20 25<br />

-4<br />

0 5 10 15 20 25<br />

Abbildung 28: Stoff 17 (Chlor)<br />

Abbildung 32: Stoff 21 (Schwefel)<br />

20<br />

Plot1<br />

Plot1<br />

6.5<br />

15<br />

10<br />

5<br />

0<br />

-5<br />

0 5 10 15 20 25<br />

Abbildung 29: Stoff 18 (Steinkohle)<br />

20<br />

Plot1<br />

Plot1<br />

16.2<br />

10<br />

0<br />

-10<br />

-20<br />

-30<br />

-40<br />

-50<br />

0 5 10 15 20 25<br />

Abbildung 30: Stoff 19 (Ziegelabrieb)<br />

49


90<br />

80<br />

70<br />

60<br />

50<br />

40<br />

30<br />

20<br />

10<br />

0<br />

2 4 6 8 10 12 14 16 18 20 22<br />

VerwendeteEigenrichtunge<br />

Abbildung 33:<br />

Veränderung der Lösungen von einer zur andere Eigenrichtung. Die Ziffer i auf Abszisse bedeutet i.<br />

Lösung - (i-1). Lösung. Um das Minimum besser grafisch besser erkennen zu können wurde statt<br />

euklidische Vektorlänge die absolute Koordinatensumme geplottet.<br />

1.2<br />

Plot1<br />

Plot2<br />

1<br />

0.8<br />

0.6<br />

0.4<br />

0.2<br />

0<br />

0 5 10 15 20 25<br />

Verwendete Eigenrichtungen<br />

Abbildung 34: Fehler (fett) - Unsicherheit (normal). Beide Kurven sind auf das Maximum 1 skaliert worden.<br />

50


Mittelwerte für die Zeilen 12..14:<br />

Stoff 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21<br />

Mittelwert 6.79934 14.6668 13.5704 12.0141 7.4208 15.8761 4.11537 0.122204 -4.11003 2.18088 2.25449 4.02844 1.93884 0.810573 2.5958 0.213829 0.977664 3.90902 3.88678 3.96187 2.7667<br />

Varianz 0.039478 0.062823 0.056152 0.059838 0.003280 0.39453 0.015447 0.17968 0.077570 0.001524 0.023100 0.128862 0.024354 0.126516 0.004770 0.615246 0.689595 0.057408 0.024301 0.035555 5.7783<br />

Mittelwerte für die Zeilen 11..14:<br />

Stoff 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21<br />

Mittelwert 6.54527 13.9997 13.0615 11.5316 7.14484 15.0505 6.09239 1.10349 -3.71379 2.25826 2.07902 3.89418 1.79237 0.762928 2.57175 0.389269 0.611545 2.50201 5.13413 5.12137 2.0676<br />

Varianz 0.223278 1.38212 0.818963 0.743323 0.230922 2.34061 11.7374 3.02353 0.529202 0.019103 0.109705 0.150726 0.082626 0.101697 0.005313 0.553773 0.919327 5.98208 4.6859 4.06002 5.8000<br />

Mittelwerte für die Zeilen 10..14:<br />

Stoff 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21<br />

Mittelwert 6.41771 13.6065 12.766 11.25 6.98634 14.5641 7.28373 1.71562 -3.48082 2.27349 2.07348 3.94089 1.80411 0.6815 2.59175 0.34774 0.260788 1.62442 5.85178 5.79147 1.6494<br />

Varianz 0.243706 1.72426 1.0045 0.911812 0.285221 2.81901 15.067 3.91764 0.640467 0.016211 0.087886 0.129307 0.066652 0.10788 0.005850 0.449917 1.22758 7.86633 5.80879 5.04415 5.3395<br />

Tabelle 10: Mittelwerte von Lösungen aus Tabelle 9 (Stoffnummer laut Sortierung in Tabelle 2). Angegeben ist außerdem die Varianz der Werte, über die ge<strong>mit</strong>telt wurde.<br />

51


4.6 Erweiterte Untersuchung<br />

4.6.1 Bildung von Stoffgruppen<br />

Die Ergebnisse des vorigen Kapitels wurden Prof. Dr. Brumsack zur Begutachtung zur Verfügung<br />

gestellt. Die Stoffkonzentrationen die bestimmt wurden lagen in dem Rahmen, der erwartet wurde.<br />

Weiterhin wurde festgestellt, daß durch die numerischen Korrelationsuntersuchungen berechnete<br />

Sortierung der Stoffe <strong>und</strong> die gef<strong>und</strong>enen Stoffgruppen genau die bekannten chemischen<br />

Zusammenhänge widerspiegeln.<br />

Daraufhin wurde beschlossen, durch das Einbringen chemischer Zusammenhänge eine Modifikation der<br />

Untersuchung vorzunehmen. Diese betrifft die Stoffarten sowie die für die Berechnung verwendeten<br />

Elemente, auf die im nächsten Abschnitt eingegangen wird. Die Modifikationen lassen sich teilweise<br />

numerisch begründen. Zum besseren Verständnis der Modifikationen wird die neue Stoffsortierung in<br />

Tabelle 11 eingeführt. Die Korrelationsmatrix für diese Sortierung ist in Abbildung 35 zu sehen.<br />

Modifikationen:<br />

1. Stoff 20 (Bremsabrieb II) <strong>und</strong> 21 (Chlor) werden aus der Analyse entfernt.<br />

2. Stoff 3 (Rückstand Heizöl leicht) <strong>und</strong> Stoff 4 (Dieselfeststoffemission) werden zusammengefaßt<br />

3. Stoffe 10 & 11 (Zementabrieb & Kalk) sowie 17 & 18 (Ziegelabrieb <strong>und</strong> kont. Oberkruste) werden<br />

zusammengefaßt<br />

4. Stoff 15 & 16 (Reingasstaub Braun- <strong>und</strong> Steinkohle) werden zusammengefaßt<br />

zu 1: Bremsabrieb II ergab numerisch eine negative Konzentration <strong>und</strong> wird auf Konzentration 0 gesetzt<br />

bzw. fällt aus der Analyse raus. Chlor wurde von den Geochemikern nur aus numerischen Gründen<br />

eingefügt <strong>und</strong> wird nicht beachtet.<br />

zu 2: Aufgr<strong>und</strong> der chemischen Ähnlichkeit, die auch in der Korrelationsmatrix zu erkennen ist, werden<br />

die Stoffe nicht separiert. Stoff 2 (Reifenabrieb) könnte wie in der Abbildung 35 ersichtlich <strong>mit</strong><br />

einbezogen werden, bleibt aber aufgr<strong>und</strong> seiner Wichtigkeit als Schadstoff separiert.<br />

zu 3: Chemisch <strong>und</strong> durch ihre Korrelationen gut begründet.<br />

zu 4: Die Stoffe könnten aufgr<strong>und</strong> ihrer Korrelation getrennt bestimmt werden, dieses ist aber praktisch<br />

wenig interessant.<br />

Bei der Zusammenfassung zweier Stoffe wird davon ausgegangen, daß sie im Verhältnis 1:1 in jeder<br />

Probe vorliegen. D.h. die Konzentrationsmatrix wird so reduziert, daß die entsprechenden Spalten in der<br />

Konzentrationsmatrix durch den Mittelwert der Spalten ersetzt werden.<br />

52


Stoffnr.<br />

Stoffnr. in<br />

alter<br />

Sortierung<br />

Stoffnr. incl.<br />

Zusammenfassung<br />

Stoff<br />

1 4 1 Teer<br />

2 3 2 Reifenabrieb<br />

3 5 3 Rückstand Heizöl leicht<br />

4 2 Dieselfeststoffemission<br />

5 6 4 Bremsabrieb I<br />

6 1 5 Pflanzendetritus<br />

7 7 6 Benzinfeststoffemission<br />

8 8 7 Rückstand Heizöl schwer<br />

9 10 8 Reingasstaub Stahl<br />

10 12 9 Zementabrieb<br />

11 13 Kalk<br />

12 14 10 Reingasstaub Zement<br />

13 15 11 Reingasstaub Müllverbrennung<br />

14 16 12 Meersalz<br />

15 11 13 Reingasstaub Braunkohle<br />

16 18 Reingasstaub Steinkohle<br />

17 19 14 Ziegelabrieb<br />

18 20 Kontinentale Oberkruste<br />

19 21 15 Schwefel<br />

20 9 16 Bremsabrieb II<br />

21 17 17 Chlor<br />

Tabelle 11: Neue Stoffsortierung - Die Stoffgruppen sind durch dicke Linie separiert. Die Stoffe, die<br />

kombiniert werden sollen, sind grau unterlegt.<br />

Matrix with Scaling =0.5<br />

20<br />

15<br />

10<br />

5<br />

0<br />

0 5 10 15 20<br />

Abbildung 35: Stoffkorrelationen bzgl. der Sortierung in Tabelle 11<br />

53


Man erkennt in Abbildung 36, daß durch die Stoffzusammenfassung gut separierbare<br />

Stoffe/Stoffgruppen entstehen, für die die Konzentrationen berechnet werden (Tabelle 12). Bei dieser<br />

Untersuchung ist nicht eindeutig, wieviele Eigenrichtungen für die Lösungsbestimmung verwendet<br />

werden sollen, da die Lösungen für einige Stoffe teilweise stark <strong>mit</strong> der Anzahl der Eigenrichtungen<br />

variieren. Die Stabilitätsuntersuchung (analog Abschnitt 4.5) liefert ein Minimum der Lösungsvariation<br />

im Bereich 8-10 Eigenrichtungen. Dieses würde allerdings eine sehr starke Informationsreduktion<br />

bedeuten. Es ergeben sich auch sehr unterschiedliche Lösungen bzgl. der vorigen Untersuchung. Daher<br />

werden auch für diese Untersuchung wieder die Eigenrichtungen bis 12 <strong>und</strong> 14 verwendet.<br />

Die Mittelwertbildung über die Eigenrichtungen (Tabelle 13) ergibt ähnliche Ergebnisse wie die<br />

vorherige Untersuchung (Tabelle 10). Allerdings unterscheidet sich die Konzentration des Stoffes 4<br />

(Bremsabrieb I) sehr. Die Ursache liegt in dem Sprung dieser Konzentration von 13.7 auf 4.06 beim<br />

Übergang von der 11. zu 12. Eigenrichtung. Bei der anderen Untersuchung (Tabelle 9) trat ein Sprung<br />

von 15.07 auf 3.17 beim Übergang von der 14. zur 15. Eigenrichtung auf, so daß die Anzahl der<br />

Eigenrichtungen der beiden Analysen als nicht kompatibel anzusehen ist. Es ist daher nicht klar welches<br />

Ergebnis besser ist. Leider tritt diese Unsicherheit bei einem so wichtigen Schadstoffverursacher wie<br />

dem Autoverkehr auf.<br />

16<br />

Matrix with Scaling =0.5<br />

14<br />

12<br />

10<br />

8<br />

6<br />

4<br />

2<br />

0<br />

0 2 4 6 8 10 12 14 16<br />

Abbildung 36: Stoffkorrelationen der reduzierten Stoffmenge<br />

Die Stoffnummern entsprechen denen in Spalte 3 der Tabelle 11.<br />

54


EV\Stoffnummer<br />

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Summe Fehler<br />

2 0.47 1.43 4.76 4.23 1.58 7.08 3.40 14.19 6.70 6.18 12.52 2.28 22.87 12.09 0.22 100 1.36<br />

±0.01 ±0.03 ±0.10 ±0.09 ±0.03 ±0.15 ±0.07 ±0.31 ±0.15 ±0.14 ±0.27 ±0.05 ±0.50 ±0.26 ±0.01 2.19<br />

3 0.65 1.73 5.55 4.75 1.41 8.24 3.87 18.10 4.59 5.16 17.80 1.75 18.65 7.54 0.21 100 1.33<br />

±0.03 ±0.06 ±0.17 ±0.13 ±0.04 ±0.25 ±0.11 ±0.69 ±0.31 ±0.18 ±0.86 ±0.08 ±0.72 ±0.66 ±0.01 4.30<br />

4 3.05 4.59 12.16 14.05 2.75 14.43 10.69 24.72 2.87 -0.64 -4.43 -0.95 15.75 0.66 0.29 100 1.08<br />

±0.15 ±0.20 ±0.49 ±0.63 ±0.10 ±0.53 ±0.47 ±0.93 ±0.32 ±0.34 ±1.39 ±0.16 ±0.72 ±0.74 ±0.02 7.18<br />

5 5.15 7.10 18.85 7.67 4.22 27.35 10.51 -1.27 1.76 4.73 1.96 2.80 10.84 -2.64 0.97 100 0.704<br />

±0.26 ±0.34 ±0.87 ±0.63 ±0.19 ±1.28 ±0.52 ±1.44 ±0.32 ±0.46 ±1.41 ±0.27 ±0.72 ±0.77 ±0.05 9.53<br />

6 5.23 6.64 15.69 16.91 3.66 21.89 -1.53 0.66 6.50 6.91 1.55 11.37 2.93 1.44 0.15 100 0.568<br />

±0.30 ±0.36 ±0.87 ±1.39 ±0.19 ±1.28 ±1.26 ±1.45 ±0.65 ±0.59 ±1.41 ±1.10 ±1.02 ±0.85 ±0.09 12.81<br />

7 5.31 6.39 14.12 19.57 3.23 14.92 7.48 -2.29 6.84 1.53 4.30 12.49 2.61 3.03 0.47 100 0.511<br />

±0.32 ±0.37 ±0.87 ±1.67 ±0.19 ±1.52 ±1.94 ±1.56 ±0.69 ±1.00 ±1.51 ±1.23 ±1.03 ±0.91 ±0.12 14.93<br />

8 5.55 6.64 14.28 21.15 3.23 14.59 7.45 -2.75 5.84 2.83 4.62 9.88 2.09 4.12 0.47 100 0.508<br />

±0.37 ±0.41 ±0.88 ±1.97 ±0.19 ±1.53 ±1.94 ±1.59 ±0.94 ±1.31 ±1.52 ±2.06 ±1.09 ±1.15 ±0.12 17.07<br />

9 5.06 5.95 12.80 19.98 3.14 13.73 9.22 -1.96 5.77 6.63 3.81 10.38 1.71 2.99 0.78 100 0.501<br />

±0.39 ±0.47 ±1.03 ±1.97 ±0.19 ±1.56 ±2.23 ±1.62 ±0.94 ±2.38 ±1.55 ±2.15 ±1.13 ±1.26 ±0.21 19.08<br />

10 5.08 6.11 13.72 14.63 2.63 15.65 10.75 0.86 4.08 5.38 2.93 10.58 -3.31 10.50 0.42 100 0.477<br />

±0.40 ±0.48 ±1.09 ±2.27 ±0.22 ±1.67 ±2.32 ±1.76 ±1.00 ±2.38 ±1.57 ±2.18 ±1.85 ±2.40 ±0.22 21.81<br />

11 4.96 5.89 13.46 13.70 3.29 15.95 10.98 1.01 9.73 4.97 3.18 7.59 -4.58 9.90 -0.03 100 0.471<br />

±0.40 ±0.49 ±1.09 ±2.29 ±0.44 ±1.69 ±2.34 ±1.76 ±3.30 ±2.39 ±1.58 ±2.61 ±2.04 ±2.41 ±0.30 25.13<br />

12 9.82 11.36 24.84 4.06 4.39 1.03 1.59 2.72 6.05 3.12 2.08 2.61 0.97 5.26 20.11 100 0.249<br />

±0.92 ±1.03 ±2.19 ±2.41 ±0.53 ±2.29 ±2.38 ±1.77 ±3.31 ±2.41 ±1.58 ±2.61 ±2.04 ±2.42 ±2.69 30.58<br />

13 12.65 14.45 30.31 2.06 5.59 -3.57 1.45 3.08 6.20 4.99 1.95 3.30 1.15 4.45 11.93 100 0.219<br />

±1.28 ±1.42 ±2.77 ±2.50 ±0.65 ±2.74 ±2.38 ±1.78 ±3.31 ±2.47 ±1.58 ±2.61 ±2.04 ±2.44 ±4.02 33.99<br />

14 14.73 16.14 21.93 1.46 19.59 -2.10 0.30 3.19 2.67 2.86 2.03 2.54 2.56 4.20 7.91 100 0.176<br />

±1.91 ±1.91 ±3.56 ±2.51 ±6.09 ±2.74 ±2.38 ±1.78 ±3.38 ±2.49 ±1.58 ±2.62 ±2.04 ±2.44 ±4.04 41.47<br />

15 26.93 32.82 9.99 0.09 2.17 0.94 0.29 3.42 3.93 2.30 1.81 1.67 4.38 3.03 6.24 100 0.135<br />

±94 ±7.63 ±6.16 ±2.58 ±7.70 ±2.96 ±2.39 ±1.79 ±3.43 ±2.49 ±1.58 ±2.62 ±2.09 ±2.46 ±4.04 55.87<br />

16 49.52 11.75 10.72 -0.08 0.07 1.79 0.03 3.66 3.62 1.90 1.94 1.42 4.99 2.97 5.71 100 0.128<br />

±25.53 ±21.68 ±6.16 ±2.60 ±7.87 ±3.13 ±2.39 ±1.82 ±3.44 ±2.52 ±1.59 ±2.62 ±2.15 ±2.46 ±4.04 90.01<br />

Tabelle 12: Lösung für die Stoffgruppenbildung. Die Stoffnummern entsprechen denen in Spalte 3 der<br />

Tabelle 11. Im umrandeten Bereich findet ein krassen Sprung der Lösung von der 12. zum 11 Eigenrichtung<br />

statt.<br />

Stoff -> 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15<br />

Mittelwert 12.4 14.0 25.7 2.5 9.9 -1.5 1.1 3.0 5.0 3.7 2.0 2.8 1.5 4.6 13.3<br />

Varianz 4.1 3.9 12.1 1.2 47.9 3.7 0.3 0.0 2.7 0.9 0.0 0.1 0.5 0.2 25.8<br />

Stoff/-gruppen in<br />

alter Sortierung<br />

Lösung: ohne<br />

Stoffreduktion<br />

(EV 12-14)<br />

1 2 3+4 5 6 7 8 9 10+<br />

11<br />

12 13 14 15+<br />

16<br />

12.0 13.6 22.1 15.9 6.8 4.1 0.1 2.2 5.9 0.8 2.6 0.2 6.1 7.9 2.7<br />

17+<br />

18<br />

19<br />

Tabelle 13: Ge<strong>mit</strong>telte Lösung über Eigenrichtung 12 bis 14. Die Stoffnummern entsprechen denen in Spalte 3<br />

der Tabelle 11. Angegeben ist außerdem die Lösung die ohne die Stoffgruppenbildung sich ergab. Die<br />

Konzentrationen für zusammengefaßte Stoffe wurden dabei summiert.<br />

55


4.6.2 Bestimmung der Elementgruppen<br />

Die Elementgruppen lassen läßt sich analog den Stoffgruppen durch die Korrelation der Zeilen der<br />

Konzentrationsmatrix untersuchen. Durch die Sortierung der Elemente analog Abschnitt 4.4.1 ergibt<br />

sich <strong>mit</strong> Tabelle 14 die Kreuzkorrelationsmatrix in Abbildung 37. In der Grafik sind die<br />

Elementgruppen, also die Elemente, die häufig gemeinsam in den Stoffen des Staubgemisches<br />

vorkommen, zu erkennen. Wie bei der Stoffgruppenuntersuchung spiegeln hier die numerisch<br />

gewonnenen Untersuchungsergebnisse die bekannten chemischen Zusammenhänge wieder: Z. B. folgen<br />

die drei Erdalkalimetalle Sr, Mg, Ca aufeinander. Hg, Cd <strong>und</strong> Ag als edle Metalle bilden ebenso ein<br />

Gruppe wie Na <strong>und</strong> Cl (Kochsalz).<br />

Matrix with Scaling =1<br />

40<br />

35<br />

30<br />

25<br />

20<br />

15<br />

10<br />

5<br />

0<br />

0 5 10 15 20 25 30 35 40<br />

Abbildung 37: Skalarprodukte der Elemente <strong>mit</strong> den Elementnummern nach Tabelle 14.<br />

Man erkennt Gruppen stark korrelierter Elementen, wie z.B. Na (41) <strong>mit</strong> Cl (42) <strong>und</strong> Co (37), Ni (38) <strong>mit</strong> V<br />

(39).<br />

56


Elementgruppen<br />

Nr.<br />

Originale<br />

Nummer<br />

Element<br />

1 37 Ti<br />

2 2 Al<br />

3 33 Si<br />

4 19 La<br />

5 31 Sc<br />

6 36 Th<br />

7 39 U<br />

8 5 Be<br />

9 3 As<br />

10 32 Se<br />

11 26 P<br />

12 35 Sr<br />

13 20 Mg<br />

14 8 Ca<br />

15 18 K<br />

16 38 Tl<br />

17 28 Rb<br />

18 27 Pb<br />

19 41 Zn<br />

20 17 Hg<br />

21 9 Cd<br />

22 1 Ag<br />

23 6 Bi<br />

24 34 Sn<br />

25 16 Ga<br />

26 14 F<br />

27 24 Nb<br />

28 21 Mn<br />

29 15 Fe<br />

30 12 Cr<br />

31 22 Mo<br />

32 30 Sb<br />

33 13 Cu<br />

34 42 Zr<br />

35 4 Ba<br />

36 7 OC+EC<br />

37 11 Co<br />

38 25 Ni<br />

39 40 V<br />

40 29 S<br />

41 23 Na<br />

42 10 Cl<br />

Tabelle 14: Sortierung der Elemente nach ihren Korrelationen zueinander.<br />

Elemente, die von den Geochemikern als wichtig für die Stoffbestimmung eingeordnet wurden, sind grau<br />

unterlegt. Elemente, die in der Kreuzkorrelationsmatrix in Abbildung 37, eine Gruppe bilden, sind durch dicke<br />

Linien getrennt.<br />

57


4.6.3 Reduktion der Elementanzahl<br />

Die Konzentrationsbestimmung der 41 chemischen Elemente in der Staubprobe stellt einen großen<br />

chemischen Analysenaufwand dar. Deshalb soll im folgenden versucht werden, ob auch <strong>mit</strong> der<br />

Kenntnis von weniger Elementkonzentrationen die Stoffe ausreichend genau zu bestimmen sind. Dieser<br />

Versuch könnte Erfolg haben, da viele Elemente in Gruppen auftreten - wie im vorigen Abschnitt<br />

gezeigt - <strong>und</strong> es daher eventuell ausreicht, nur ein Element einer Gruppe zu bestimmen. Außerdem<br />

könnten einige Elemente generell nur einen geringen Einfluß auf die Konzentrationsbestimmung haben.<br />

Es stellt sich jetzt die Frage, welche Elemente wichtig sind <strong>und</strong> auf welche verzichtet werden kann.<br />

Aus dem chemischen Wissen ist bekannt, daß einige Elemente besonders wichtig für die Identifizierung<br />

einiger Stoffe sind. Eine pragmatisches Auswahlkriterium für eine Element ist außerdem, wie einfach<br />

<strong>und</strong> genau es chemisch zu bestimmen ist. Die so ausgewählten Elemente sind in Tabelle 16 markiert.<br />

Man kann aber auch rein mathematische Argumente für die Elementauswahl finden. Es wurde die<br />

Elementzusammensetzung, die sich aus den berechneten Stoffkonzentrationen ergibt, <strong>mit</strong> der<br />

analysierten Elementzusammensetzung 32 in der Probe verglichen. In Abbildung 38 ist der prozentuale<br />

Fehler der berechneten Elementkonzentrationen grafisch dargestellt. Man erkennt, daß nach der PCA-<br />

Reduktion einige Elemente extrem schlecht getroffen werden. Speziell für Zr (42), Sb (30), Mo (22) <strong>und</strong><br />

Cu (13) trifft dies zu. Ein Gr<strong>und</strong> dafür ist das geringe Gewicht im Least-Square-Fit, wie man an den<br />

umskalierten Elementkonzentrationen in Tabelle 3 erkennen kann. Viele andere Elementkonzentrationen<br />

werden auch sehr schlecht reproduziert. Da diese Elemente nicht richtig bestimmt werden, könnte man<br />

sie von der Untersuchung ausschließen. Im mathematischen Sinne würde man dadurch eine bessere<br />

Lösung erhalten (Fehlerfunktion). Leider entfernt man dabei aber auch chemisch wichtige Elemente, so<br />

daß dieser Weg nicht eingeschlagen wird.<br />

Eine andere Möglichkeit ergibt sich, wenn man eine Lösung (Stoffkonzentrationsvektor) als „richtig“<br />

ansieht <strong>und</strong> versucht, eine ähnliche Lösung <strong>mit</strong> weniger Elementen zu reproduzieren. Die<br />

Referenzlösung ist das Ergebnis, das sich unter der Verwendung aller Elemente ergibt. Diese Lösung<br />

<strong>und</strong> alle folgenden Lösungen werden dabei durch Reduktion <strong>und</strong> Mittelung von 12 bis 14<br />

Eigenrichtungen bestimmt.<br />

32 Diese Analyse beruht auf der kompletten Analyse aller 21 Stoffe für die Reduktion auf die Eigenrichtungen 12..14 wie<br />

oben durchgeführt.<br />

58


1200<br />

500<br />

A lle E R .<br />

20. ER.<br />

13. ER.<br />

400<br />

Prozentualer Fehler<br />

300<br />

200<br />

100<br />

0<br />

-100<br />

-200<br />

0 5 10 15 20 25 30 35 40 45<br />

Elementindex<br />

Abbildung 38: Prozentualer Fehler in den Elementkonzentrationen für verschiedene Anzahl von<br />

Eigenrichtungen. Die Elementindizes liegen in alphabetische Originalsortierung vor.<br />

Dünne Plots: Alle <strong>und</strong> bis zur 20. Eigenrichtung, dicker Plot bis zur 13. Eigenrichtung<br />

In einem ersten Schritt wird immer nur ein Element eliminiert <strong>und</strong> die Lösung verglichen. In Tabelle 38<br />

im Anhang wird die prozentuale Änderung der Stoffkonzentrationen beim Fortlassen eines Elementes<br />

gezeigt. Man kann an dieser Tabelle einige Zusammenhänge erkennen. Betrachten wir z.B. zum Beispiel<br />

Spalte 6 <strong>und</strong> 7 / Zeile 27 (Bremsabrieb I <strong>und</strong> Benzin / Blei). Benzin ist der Stoff <strong>mit</strong> der höchsten<br />

Bleikonzentration, daher wird beim Nichtbeachten der Bleikonzentration die Benzinkonzentration nicht<br />

mehr eingeschränkt <strong>und</strong> steigt um 133 % auf Kosten von Bremsabrieb I <strong>mit</strong> sehr wenig Bleigehalt.<br />

Als Kriterium für die Ähnlichkeit von Lösungen wurde die Länge des Differenzvektors zwischen der<br />

Lösung <strong>mit</strong> allen Elementen <strong>und</strong> der Lösung <strong>mit</strong> weniger Elementen verwendet. Die Elemente wurden<br />

nach dem Einfluß auf die Lösung sortiert (Tabelle 15). Man erkennt als empfindlichstes „Element“<br />

OC+EC, was aufgr<strong>und</strong> des großen Gewichtes in der Fehlerfunktion zu erwarten war. Dann folgen einige<br />

Elemente die nur ein kleines Gewicht im Fit haben. Im oberen Teil der Tabelle häufen sich tatsächlich<br />

die chemisch relevanten Elemente, aber auch in der Mitte <strong>und</strong> am Ende treten einige auf, so daß sich ein<br />

nicht einheitliches Bild ergibt.<br />

Nach dieser Sortierung wurden die Elemente sukzessiv vom unteren Teil der Tabelle her eliminiert. An<br />

dem Ergebnis in der Tabelle 39 im Anhang erkennt man, daß sich bei der Verwendung von nur 25<br />

Elementen noch ähnliche Ergebnisse erzielen lassen.<br />

Das chemische Wissen über die Bedeutung der Elemente soll jetzt verwendet werden. Dazu wird die<br />

Tabelle 16 in Tabelle 17 umsortiert, so daß die chemisch wichtigen Elemente zuletzt entfernt werden,<br />

indem diese Elemente an die Spitze der Tabelle verschoben werden. Die Sortierordnung der relevanten<br />

<strong>und</strong> nicht relevanten untereinander wird dabei beibehalten. Man erkennt durch Vergleich von Tabelle 39<br />

<strong>mit</strong> Tabelle 40 an dem Abstand zur Lösung <strong>mit</strong> allen Elementen, daß diese Methode bei gleich großer<br />

59


Elementanzahl ab dem 5. entfernten Elementen besser abschneidet. Z.B. ergibt sich für 20 Elemente eine<br />

Abweichung von 19.07 bei der ersten Sortierung gegenüber 9.11 bei der zweiten Sortierung. D.h. bei<br />

Entfernen von Elementen nach der zweiten Sortierung würde man weniger Elemente benötigen um<br />

Ergebnisse gleicher Sicherheit zu erhalten.<br />

Laufnum<br />

mer<br />

Elementnum<br />

mer<br />

weggelassen<br />

es Element<br />

Abstand. zur<br />

Lsg. <strong>mit</strong><br />

allen<br />

Elementen<br />

umskalierter<br />

Input<br />

(Wichtung in<br />

der<br />

Fehlerfuktion)<br />

1 7 OC+EC 38.2387 0.604<br />

2 27 Pb 7.61248 0.037<br />

3 8 As 6.77847 0.108<br />

4 29 S 6.40033 0.060<br />

5 10 Cl 4.61565 0.013<br />

6 28 Rb 4.15355 0.052<br />

7 23 Na 2.61326 0.025<br />

8 20 Mg 2.58752 0.174<br />

9 5 Be 2.56652 0.200<br />

10 13 Cu 2.29328 0.015<br />

11 14 F 2.28528 0.180<br />

12 30 Sb 2.12957 0.003<br />

13 15 Fe 1.93825 0.045<br />

14 4 Ba 1.90667 0.035<br />

15 33 Si 1.69713 0.170<br />

16 12 Ga 1.6758 0.071<br />

17 11 Co 1.51231 0.070<br />

18 22 Mo 1.4707 0.006<br />

19 42 Zr 1.39897 0.028<br />

20 39 U 1.36822 0.065<br />

21 38 Tl 1.24318 0.068<br />

22 32 Se 1.24266 0.208<br />

23 26 P 1.22951 0.06<br />

24 2 Al 0.91147 0.183<br />

25 18 K 0.818325 0.161<br />

26 35 Sr 0.679311 0.163<br />

27 3 As 0.673266 0.164<br />

28 40 V 0.555189 0.003<br />

29 31 Sc 0.552989 0.092<br />

30 36 Th 0.532147 0.088<br />

31 6 Bi 0.501837 0.012<br />

32 21 Mn 0.491995 0.033<br />

33 19 La 0.449231 0.161<br />

34 17 Hg 0.434589 0.077<br />

35 25 Ni 0.410324 0.015<br />

36 24 Nb 0.386594 0.086<br />

37 1 Ag 0.369962 0.023<br />

38 34 Sn 0.319443 0.011<br />

39 9 Cd 0.282414 0.030<br />

40 37 Ti 0.263967 0.135<br />

41 41 Zn 0.164343 0.058<br />

42 16 Zr 0.0623055 0.113<br />

Tabelle 15: Elemente nach dem Einfluß auf die Lösungen sortiert.<br />

Die chemisch relevanten Elemente sind hier grau unterlegt. In der vierten Spalte ist die Veränderung<br />

der berechneten Stoffkonzentrationen, die sich bei Fortlassen des entsprechenden Elementes ergibt,<br />

dargestellt.<br />

60


Laufnum<br />

mer<br />

Elementnum<br />

mer<br />

weggelassen<br />

es Element<br />

Abstand. zur<br />

Lsg. <strong>mit</strong> allen<br />

Elementen<br />

1 7 OC+EC keine Angabe<br />

2 27 Pb keine Angabe<br />

3 8 As keine Angabe<br />

4 29 S keine Angabe<br />

5 10 Cl 291.48<br />

6 23 Na 303.11<br />

7 20 Mg 230.67<br />

8 5 Be 39.26<br />

9 13 Cu 87.32<br />

10 15 Fe 33.75<br />

11 11 Co 37.04<br />

12 38 Tl 21.48<br />

12 26 P 16.93<br />

14 2 Al 16.80<br />

15 18 K 10.92<br />

16 3 As 10.33<br />

17 40 V 9.09<br />

18 34 Sn 10.18<br />

19 9 Cd 10.80<br />

20 41 Zn 9.11<br />

21 28 Rb 6.61<br />

22 14 F 8.51<br />

23 30 Sb 8.24<br />

24 4 Ba 6.36<br />

25 33 Si 5.26<br />

26 12 Ga 4.55<br />

27 22 Mo 4.24<br />

28 42 Zr 4.29<br />

29 39 U 3.65<br />

30 32 Se 3.50<br />

31 35 Sr 2.41<br />

32 31 Sc 2.20<br />

33 36 Th 1.68<br />

34 6 Bi 1.39<br />

35 21 Mn 0.88<br />

36 19 La 0.96<br />

37 17 Hg 0.72<br />

38 25 Ni 0.92<br />

39 24 Nb 0.87<br />

40 1 Ag 0.58<br />

41 37 Ti 0.25<br />

42 16 Zr 0.06<br />

Tabelle 16: Elemente nach dem Einfluß auf die Lösungen <strong>und</strong> chemischer Relevanz sortiert<br />

Die chemisch relevanten Elemente sind hier grau unterlegt. In der vierten Spalte ist die Veränderung<br />

der berechneten Stoffkonzentrationen dargestellt, die sich ergeben, wenn aller Elemente die unterhalb<br />

einer Zeile einschließlich der jeweiligen Zeile stehen fortgelassen werden.<br />

61


4.7 Ergebnisse <strong>und</strong> Diskussion<br />

Hier ist das Ergebnis für die Stoffgruppenzusammenfassung ohne Elementreduktion angegeben:<br />

Stoff Anteil in %<br />

Rückstand Heizöl leicht + Dieselfeststoffemission 25.7<br />

Reifenabrieb 14.0<br />

Teer 12.4<br />

Pflanzendetritus 9.9<br />

Zementabrieb + Kalk 5.0<br />

Ziegelabrieb + Kontinentale Oberkruste 4.6<br />

Reingasstaub Zement 3.7<br />

Reingasstaub Stahl 3.0<br />

Meersalz 2.8<br />

Bremsabrieb I 2.5<br />

Reingasstaub Müllverbrennung 2.0<br />

Reingasstaub Braunkohle + Steinkohle 1.5<br />

Rückstand Heizöl schwer 1.1<br />

Benzinfeststoffemission -1.5 (?)<br />

Tabelle 17: Endergebnis - bestimmte Soffkonzentrationen<br />

Der Großteil der Stäube wird durch die Diesel- bzw. Heizölverbrennung in die Luft gebracht. Speziell<br />

der hohe Anteil des Reifenabriebes wurde erwartet. Inclusive dem Teeranteil trägt der Autoverkehr<br />

so<strong>mit</strong> <strong>mit</strong> r<strong>und</strong> 50% zur gesamten Luftverschmutzung durch Stäube bei.<br />

Die meisten Konzentrationen liegen im dem Rahmen, der von den Geochemikern erwartet wurde. Die<br />

Benzinfeststoffemissionen stimmen allerdings nicht überein <strong>und</strong> sind auch sensibel bzgl. der<br />

Analysenmethode. In der Analyse ohne die Stoffkomposition ergaben sich Konzentrationen um 5%.<br />

Ebenso verhält es sich <strong>mit</strong> dem Bremsabrieb (andere Analyse 15.9%).<br />

Der chemische Analysenaufwand kann drastisch durch eine Reduktion der Elementbasis reduziert<br />

werden. Durch die Auswahl von r<strong>und</strong> 50% der wichtigen Elementkonzentrationen, lassen sich Resultate<br />

erreichen, die sich nicht wesentlich von denen <strong>mit</strong> großer Elementbasis bestimmen. Dieses ist eine sehr<br />

wichtiges <strong>und</strong> für die Praxis auswertbares Ergebnis.<br />

In nächster Zeit stellt Prof. Dr. Brumsack eine umfangreichere <strong>und</strong> wesentlich präzisere Datenbasis zur<br />

Verfügung, <strong>mit</strong> der diese Untersuchung wiederholt werden soll.<br />

62


5 Detektion der Milankovitchzyklen im Kirchroder Bohrkern<br />

5.1 Einleitung<br />

Während der Unterkreide waren weite Gebiete des heutigen Norddeutschlands von Meer, das nach<br />

Norden hin in direkter Verbindung zum Arktischen Becken stand, bedeckt. In dieser Zeit sind große<br />

Mengen von Tonmergelsedimenten, in einer Wassertiefe von mehreren h<strong>und</strong>ert Metern, <strong>mit</strong> hohen<br />

Sedimentationsraten von ca. 12 m pro 100.000 Jahre abgelagert worden. In diesen Ablagerungen<br />

wurden die Inhaltsstoffe des Meerwassers eingeschlossen <strong>und</strong> haben den damals herrschenden<br />

chemischen Zustand des Meeres bis heute konserviert.<br />

Durch aufwendige Tiefenbohrungen kann dieses „Geschichtsbuch der Urzeit“ geborgen <strong>und</strong> nach einer<br />

chemischen <strong>und</strong> physikalischen Analyse „gelesen“ werden. Die hier durchgeführte Untersuchung bezieht<br />

sich auf einen Bohrkern, der in Kirchrode bei Hannover gewonnen wurde. Er stammt aus dem Ober-Alb<br />

<strong>und</strong> wurde von V.E. Rachold [25] chemisch analysiert. Der Kern wurde im Abstand von 0.5 m beprobt<br />

<strong>und</strong> der Gehalt an 26 chemischen Elementen <strong>und</strong> Stoffen bestimmt.<br />

Die numerische Untersuchung der Analyseergebnisse konzentriert sich auf die sogenannten<br />

Milankovitch-Zyklen. Der Geophysiker M. Milankovitch konnte nachweisen, daß sich die Form der<br />

Umlaufbahn, die die Erde um die Sonne beschreibt, zyklisch ändert ([23], [24]). Er fand dabei<br />

ausgeprägte Perioden von 19, 23, 41, 100 <strong>und</strong> 400 ka (kilo-Jahre), die der Variation der Präzession, der<br />

Neigung der Erdachse, der Exzentrizität sowie der Stellung der Erdbahn im Raum <strong>und</strong> deren<br />

Überlagerungsfrequenzen entsprechen. Diese Zyklen bewirken eine Schwankung der Sonneneinstrahlung<br />

über die Jahrtausende. Die daraus resultierende globale Klimaänderung sollten sich auch in den<br />

Sedimentschichten nachweisen lassen.<br />

Ein Teil der Arbeit von V.E. Rachold beschäftigt sich <strong>mit</strong> der Identifizierung dieser Zyklen im<br />

Hannoverschen Bohrkern. Ein Problem der Untersuchung ist die Transformation der Längenskala<br />

(Bohrtiefe) in die Zeitskala, da nicht genau bekannt ist, wie groß die Sedimentationsraten zu den<br />

Zeitpunkten waren <strong>und</strong> wie gleichmäßig der Schichtaufbau erfolgte. Allerdings befindet sich in einer<br />

Bohrtiefe von -40 m bis -100 m eine Abschnitt <strong>mit</strong> relativ gleichmäßiger Zusammensetzung (ohne<br />

Trend). Da die Zyklen nur in einem stabilen Sedimentationsraum erkennbar sind, beschränkt sich die<br />

Untersuchung daher auf diesen Abschnitt. Die Zeitskaleneichung findet über den in den Zeitreihen sehr<br />

ausgeprägten Zyklus von r<strong>und</strong> 12.5 m statt, von dem angenommen wird, daß dieser dem 100-Jahres-<br />

Milankovitch-Zyklus entspricht. Auf dieser Basis wurden in der Arbeit von V.E. Rachold die anderen<br />

Zyklen auf 46 ka <strong>und</strong> 24 ka bestimmt. Durch eine feinere Beprobung eines speziellen Abschnittes <strong>mit</strong><br />

Schrittweiten von 0.1 m ist ein 38 ka <strong>und</strong> ein 19 ka Zyklus bestimmt worden. Der 400 ka Zyklus wurde<br />

nicht gef<strong>und</strong>en. Von V.E. Rachold wurde die Frequenzanalyse <strong>mit</strong> einer einfachen Fast-Fourier-<br />

Transformation durchgeführt.<br />

63


In der hier durchgeführten Untersuchung sollen die Frequenzen <strong>mit</strong> erweiterten Methoden genauer<br />

bestimmt werden. Weiterhin war es geplant, die Meßdaten an den Milankovitch-Zyklen zeitlich zu<br />

eichen. Dieses ist im Prinzip möglich, da die Zyklen keine exakten Konstanten sind, sondern über die<br />

Jahrtausende, bedingt durch die Komplexität unseres Sonnensystems, schwanken. Falls die genaue<br />

Variation der Sonneneinstrahlung für die vergangenen Zeiten bekannt wäre, könnte durch einen<br />

Vergleich <strong>mit</strong> den gemessenen Werten ein genaue Einordnung des Zeitabschnittes erfolgen. Dieses<br />

könnte grob, aufgr<strong>und</strong> der Quasiperiodizität durch einen Frequenzvergleich, oder genauer durch eine<br />

direkte Korrelation der Phase erfolgen. Die Milankovitch-Zyklen lassen sich aber für die Vergangenheit<br />

nicht einfach bestimmen. Von J. Laskar ([26] [7]), wurde eine Simulation der Erddynamik entwickelt<br />

<strong>mit</strong> der sich die Schwankung der Erdbahnparameter zurückrechnen lassen. Es stellte sich aber heraus,<br />

daß das Programm „nur“ eine Extrapolation 20 Millionen Jahre zurück in die Vergangenheit erlaubt. Es<br />

läßt sich daher nicht auf die Kirchrode-Zeitreihen (100 Millionen Jahre alt) anwenden. Für spätere<br />

Untersuchungen sollte geprüft werden, ob eine Erweiterung des Programmes möglich ist <strong>und</strong> wie<br />

zuverlässig die produzierten Daten dann sind. Für eine Simulation 20 Ma zurück hat sich gezeigt, daß<br />

die Variation des nicht genau bestimmbaren Erdparameters - die Eisbedeckung an den Polen - eine<br />

Phasenverschiebung um fast 180 0 bewirkt, wogegen die Frequenzen sich nur leicht verschieben.<br />

5.2 Sichtung des Datenbestandes<br />

Die 26 Zeitreihen wurden zuerst nach visuellen Ähnlichkeiten grob sortiert. Es wurde dabei auf das<br />

Vorhandensein des stationären Intervalles (-40 bis -100 m Tiefe) geachtet <strong>und</strong> ob sich Strukturen<br />

(Zyklen) erkennen lassen.<br />

Die Zeitreihen ließen sich in folgende verschiedene Formationen einordnen:<br />

1. Gruppe: viel Struktur <strong>mit</strong> stationärem Intervall<br />

Rb, K 2 O, Ti 2 0, Cr, V, Al 2 O 3 Si0 2<br />

2. Gruppe: viel Struktur ohne stationäres Intervall<br />

MgO, Pb, Zr, Sr<br />

3. Gruppe: zu Gruppe 1 antikorreliert, aber kein stationäres Intervall<br />

CaO<br />

4. Gruppe: zu Gruppe 1 im vorderen Zeitbereich antikorreliert, danach unklar, stationäres<br />

Intervall<br />

TOC 33<br />

5. Gruppe: wenig Struktur<br />

Fe 2 O 3 , Na 2 O, P 2 O 5 , S, CO 2 , Sc, Co, Ni, Zn, Ga, Y, Nb, Ba, Ce, Th<br />

Exemplarisch wird im folgenden jeweils eine Zeitreihe einer Gruppe gezeigt.<br />

33 Total organic carbon: Der organische <strong>und</strong> der anorganische Kohlenstoff läßt sich separat analysieren. TOC dient als<br />

Indikator für die biologische Aktivität.<br />

64


0.7<br />

P1<br />

0.65<br />

0.6<br />

Anteil<br />

0.55<br />

0.5<br />

0.45<br />

0.4<br />

-250 -200 -150 -100 -50 0<br />

Abbildung 39: TiO 2 (Gruppe 1)<br />

Tiefe[m]<br />

1200<br />

P1<br />

1100<br />

1000<br />

900<br />

Anteil<br />

800<br />

700<br />

600<br />

500<br />

400<br />

300<br />

-250 -200 -150 -100 -50 0<br />

Tiefe [m]<br />

Abbildung 40: Sr (Gruppe 2)<br />

28<br />

P1<br />

26<br />

24<br />

22<br />

20<br />

Anteil<br />

18<br />

16<br />

14<br />

12<br />

10<br />

-250 -200 -150 -100 -50 0<br />

Tiefe [m]<br />

Abbildung 41: CaO (Gruppe 3)<br />

0.65<br />

P1<br />

0.6<br />

0.55<br />

0.5<br />

0.45<br />

Anteil<br />

0.35<br />

0.4<br />

0.3<br />

0.25<br />

0.2<br />

0.15<br />

-250 -200 -150 -100 -50 0<br />

Tiefe [m]<br />

Abbildung 42: TOC (Gruppe 4)<br />

65


300<br />

P1<br />

250<br />

200<br />

Anteil<br />

150<br />

100<br />

50<br />

0<br />

-250 -200 -150 -100 -50 0<br />

Abbildung 43: Zn (Gruppe 5)<br />

Tiefe[m]<br />

5.3 Untersuchung der Korrelationen <strong>und</strong> Hauptkomponentenanalyse<br />

Die Korrelationen der einzelnen Elemente zueinander werden über die Zeit ge<strong>mit</strong>telt bestimmt. Durch<br />

eine Hauptkomponentenanalyse (PCA) <strong>und</strong> Projektion sollen die einzelnen Zeitreihen zu einer<br />

zusammengefaßt werden. Dazu wird für die Zeitreihen aus Gruppe 1 bis 4 die Kreuzkorrelationsmatrix<br />

(KKM) bestimmt. Die Form der grafischen Darstellung einer Matrix ist analog der Grafik im Kapitel<br />

über die Staubanalyse auf Seite 35 zu interpretieren. Auch wurde ein Umsortierung der Matrixzeilen<br />

<strong>und</strong> Matrixspalten durchgeführt. Mit Blei (Pb) als ersten Stoff ergab sich die Sortierung gemäß Tabelle<br />

18.<br />

1. Pb<br />

2. Rb<br />

3. K20<br />

14<br />

12<br />

ME=1 PS=2 LS=1<br />

4. Al 2 O 2<br />

5. TiO2<br />

6. Cr<br />

7. V<br />

8. Zr<br />

9. MgO<br />

10. SiO 2<br />

11. TOC<br />

12. Sr<br />

13. CaO<br />

Tabelle 18:<br />

Bedeutung der Koordinatenachsen<br />

10<br />

8<br />

6<br />

4<br />

2<br />

0<br />

0 2 4 6 8 10 12 14<br />

Abbildung 44: Kreuzkorrelationsmatrix der Stoffe<br />

Zusätzlich wurde die KKN, eingeschränkt auf das stationäre Tiefenintervall, bestimmt. Wie man durch<br />

Vergleich von Abbildung 44 <strong>und</strong> Abbildung 45 erkennt, sind die Korrelationen im stationären Intervall<br />

66


ähnlich wie die im kompletten Intervall. D.h. auf langen <strong>und</strong> kurzen Zeitskalen verhalten sich die<br />

Stoffkonzentrationen ähnlich zueinander. Nur SiO 2 fällt heraus <strong>und</strong> ist in dem eingeschränkten Intervall<br />

<strong>mit</strong> fast allen anderen Stoffen korreliert.<br />

14<br />

12<br />

10<br />

8<br />

6<br />

4<br />

2<br />

0<br />

0 2 4 6 8 10 12 14<br />

Abbildung 45:<br />

KKM für das Tiefenintervall [-100, -40] m<br />

8<br />

7<br />

6<br />

5<br />

4<br />

3<br />

2<br />

1<br />

0<br />

0 1 2 3 4 5 6 7 8<br />

Abbildung 46: PCA-Grafik der 1. Korrelationsgruppe<br />

Die in der sortierten KKM erkennbaren Korrelationsgruppen bestätigen die im vorigen Abschnitt durch<br />

Kurvenvergleich durchgeführte Einteilung. Die starke Korrelationsgruppe 1 (Al 2 O 3 , V, Cr, TiO 2 , K 2 0,<br />

Rb, SiO 2 ) eignet sich für eine PCA. Dazu wird die KKM separat für diese Gruppe auf das stationäre<br />

Intervall beschränkt bestimmt. Die PCA dieser Matrix (Abbildung 46) ist wieder analog zum Kapitel<br />

über die Hauptkomponentenzerlegung des LGS (Seite 40) zu lesen. Da die linke Spalte (1.<br />

Hauptkomponente), zu (fast) gleichen Teilen aus allen Komponenten besteht, entspricht die Projektion<br />

auf die 1. Hauptkomponente (fast) einer Mittelwertbildung. Die Projektion auf die 1. Hauptrichtung<br />

liefert die Zeitreihe in Abbildung 47.<br />

8<br />

6<br />

4<br />

2<br />

Anteil<br />

0<br />

-2<br />

-4<br />

-6<br />

-8<br />

-160 -140 -120 -100 -80 -60 -40<br />

Tiefe[m]<br />

Abbildung 47: 1. Hauptkomponente von (Al 2 O 3 , V, Cr, TiO 2 , K 2 0, Rb, Si0 2 )<br />

67


5.4 Angewandte Methoden zur Frequenzanalyse<br />

Es wurden drei verschiedene Methoden angewendet, um die Milankovitch-Frequenzen in den Zeitreihen<br />

zu detektieren:<br />

1. Peaksuche im Fourierspektrum (FSM)<br />

2. Hauptfrequenzanalyse (MFA)<br />

3. Peaksuche im Maximum-Entropie-Spektrum (MEM)<br />

Zu 1: Die Zeitreihe wird fouriertransformiert <strong>und</strong> lokale Maxima im Leistungsspektrum gesucht. Um<br />

die Frequenzen genauer auflösen zu können wird die Fouriertransformation [20] kontinuierlich 34 über<br />

die Integralformel bestimmt 35 .<br />

Zu 2: Bei der Hauptfrequenzanalyse von J. Laskar et al [7] wird im FFT-Leistungsspektrum die<br />

Frequenz <strong>mit</strong> der größten Amplitude detektiert. Anschließend wird ein Suchverfahren gestartet, das in<br />

der Umgebung dieser Frequenz das lokale Maximum (bzgl. einer definierten Auflösung) im<br />

kontinuierlichen Leistungsspektrum bestimmt. Eine Zeitreihe <strong>mit</strong> exakt dieser Frequenz (<strong>und</strong> der<br />

richtigen Phase) wird generiert <strong>und</strong> von der originalen Zeitreihe abgezogen. Mit dieser reduzierten<br />

Zeitreihe startet die nächste Frequenzbestimmung nach derselben Methode. Dieser Vorgang wird so<br />

lange iteriert, bis die gewünschte Anzahl von Hauptfrequenzen gef<strong>und</strong>en wurde.<br />

Zu 3: Beim sogenannten Maximum-Entropie-Spektrum (MEM) [20] wird die Zeitreihe an einen<br />

autoregressiven Prozeß gefittet. Aus den Koeffizienten wird das Leistungsspektrum bestimmt, wobei<br />

keine Information über die Phase gewonnen wird. Daher ist es besonders für quasiperiodische Prozesse<br />

geeignet. Das MEM hat weiterhin die Eigenschaft, glatte Spektren zu erzeugen (je nach Polanzahl),<br />

gerade die Hauptfrequenzen stark hervorzuheben <strong>und</strong> ist visuell gut zu interpretieren. Das Spektrum<br />

kann kontinuierlich für jede Frequenz bestimmt werden, wodurch eine genaue Suche lokaler Maxima<br />

möglich ist<br />

5.5 Durchführung der Frequenzanalysen<br />

Die Frequenzanalyse wurde für drei verschiedene Datensätze durchgeführt:<br />

1. Datensatz: Hauptkomponente der 1. Gruppe im Tiefenintervall [-100..-40]<br />

2. Datensatz: Hauptkomponente der 1. Gruppe im Tiefenintervall [-150..-43]<br />

3. Datensatz: TOC im Tiefenintervall [-100 bis -50]<br />

Zu 1: Dieser Tiefenabschnitt wurde von V.E. Rachold als ein Intervall sehr konstanter<br />

Sedimentationsrate eingestuft <strong>und</strong> von ihm untersucht.<br />

34 Bzw. <strong>mit</strong> genügend kleiner Sampling-Rate<br />

68


Zu 2: Der tiefenmäßig erweiterte Datensatz wird zusätzlich untersucht, da er für die ausgewählten<br />

Stoffe durch die reine visuelle Betrachtung als gleichmäßig einzustufen ist. Falls im diesem Intervall<br />

auch tatsächlich konstante Sedimentationsrate herrschte, würde die größere Datenmenge eine bessere<br />

Frequenzbestimmung ermöglichen.<br />

Zu 3: Die TOC Datenreihe wird separat untersucht, da sie nur wenig zu den anderen Datensätzen<br />

korreliert ist, aber ein Indikator für biologische Aktivität <strong>und</strong> so<strong>mit</strong> für die Sonneneinstrahung ist.<br />

Bei allen Analysen wird zur Eichung der Zeit bzgl. der Bohrtiefe angenommen, daß die Perioden um<br />

12.5 m in der Tiefenskala (detektiert durch einen Peak in Spektrum) einer Periode von 100 ka in der<br />

Zeitskala entsprechen.<br />

5.5.1 Untersuchung von Datensatz 1<br />

0.8<br />

Power(Frequenz)<br />

0.7<br />

0.6<br />

Po<br />

we<br />

r<br />

0.5<br />

0.4<br />

0.3<br />

0.2<br />

0.1<br />

0<br />

0 0.2 0.4 0.6 0.8 1<br />

Frequenz<br />

Abbildung 48: Fourierleistungsspektrum von Datensatz 1<br />

200<br />

Power(Frequenz)<br />

180<br />

160<br />

140<br />

120<br />

Power<br />

100<br />

80<br />

60<br />

40<br />

20<br />

0<br />

0 0.2 0.4 0.6 0.8 1<br />

Frequenz<br />

Abbildung 49: ME-Leistungsspektrum <strong>mit</strong> 50 Polen von Datensatz 1<br />

35 Die Fast-Fourier-Transformation würde bei 128 Datenpunkten eine Auflösung r<strong>und</strong> 0.7 ka bei der 19 ka-Periode <strong>und</strong><br />

16 ka bei der 100 ka-Periode liefern.<br />

69


Frequenz<br />

[1/m]<br />

FSM MEM MFA<br />

Periode Periode Frequenz Periode Periode Frequenz Periode<br />

[m] [ka] (1/m) [m] [ka] [1/m] [m]<br />

Periode<br />

[ka]<br />

0.083 12.047 100.0 0.078 12.800 100.0 0.083 12.110 100.0<br />

0.027 36.571 303.6 0.033 30.118 235.3 0.029 34.380 283.9<br />

0.043 23.273 193.2 0.117 8.533 66.1 0.114 8.792 72.6<br />

0.117 8.533 70.8 0.172 5.818 45.5 0.178 5.622 46.4<br />

0.171 5.851 48.6 0.295 3.391 26.5 0.041 24.232 200.1<br />

0.062 16.254 134.9 0.426 2.349 18.4 0.294 3.404 28.1<br />

0.009 113.778 944.4 0.926 1.080 8.4 0.125 7.983 65.9<br />

0.295 3.391 28.1 0.479 2.090 16.4 0.165 6.062 50.1<br />

0.315 3.170 26.3 0.566 1.766 13.8 1.000 1.000 8.3<br />

0.275 3.631 30.1 0.818 1.222 9.5 keine weiter brauchbaren Frequenzen<br />

0.146 6.872 57.0 0.762 1.313 11.4<br />

0.474 2.111 17.5 0.682 1.467 10.3<br />

0.256 3.908 32.4 0.328 3.048 23.9<br />

0.431 2.322 19.3 0.729 1.373 10.7<br />

0.996 1.004 8.3 0.637 1.571 12.3<br />

0.495 2.020 16.8 0.377 2.653 20.8<br />

0.565 1.769 14.7 0.873 1.145 9.0<br />

0.921 1.086 9.0 0.949 1.054 8.2<br />

0.369 2.709 22.5<br />

0.218 4.592 38.1<br />

0.347 2.885 23.9<br />

0.395 2.535 21.0<br />

0.661 1.513 12.6<br />

<strong>und</strong> noch mehr<br />

Tabelle 19: Peaks der Frequenzleistungsspektren von Datensatz 1 nach Leistung sortiert. Die grau unterlegten<br />

Felder enthalten die Perioden, die den Milankovitch-Perioden entsprechen.<br />

5.5.2 Untersuchung von Datensatz 2<br />

0.4<br />

Power(Frequenz)<br />

0.35<br />

0.3<br />

0.25<br />

Power<br />

0.2<br />

0.15<br />

0.1<br />

0.05<br />

0<br />

0 0.2 0.4 0.6 0.8 1<br />

Frequenz<br />

Abbildung 50: Fourierleistungsspektrum von Datensatz 2<br />

70


80<br />

70<br />

60<br />

Power(Frequenz)<br />

P1<br />

50<br />

Power<br />

40<br />

30<br />

20<br />

10<br />

0<br />

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1<br />

Frequenz [1/1]<br />

Abbildung 51: MEM-Leistungsspektrum <strong>mit</strong> 50 Polen von Datensatz 2<br />

Frequenz<br />

[1/m]<br />

FSM MEM MFA<br />

Periode Periode Frequenz Periode Periode Frequenz Periode<br />

[m] [ka] [1/m] [m] [ka] [1/m] [m]<br />

Periode<br />

[ka]<br />

0.085 11.770 100.0 0.080 12.488 100.0 0.085 11.763 100.0<br />

0.066 15.059 127.9 0.115 8.678 69.5 0.031 31.865 270.9<br />

0.031 32.000 271.9 0.034 29.257 234.3 0.009 114.111 970.1<br />

0.097 10.343 87.9 0.175 5.721 45.8 0.067 15.017 127.7<br />

0.010 102.400 870.0 0.335 2.985 23.9 0.122 8.181 69.6<br />

0.108 9.225 78.4 0.953 1.049 8.4 0.095 10.568 89.8<br />

0.121 8.258 70.2 0.516 1.939 15.5 0.168 5.958 50.6<br />

0.045 22.261 189.1 0.288 3.471 27.8 0.042 23.990 203.9<br />

0.167 5.988 50.9 0.712 1.405 11.2 0.329 3.036 25.8<br />

0.190 5.251 44.6 0.436 2.296 18.4 0.190 5.272 44.8<br />

0.330 3.030 25.7 0.560 1.787 14.3 0.056 17.960 152.7<br />

0.204 4.900 41.6 0.918 1.089 8.7 0.110 9.077 77.2<br />

0.508 1.969 16.7 0.651 1.535 12.3 0.019 52.488 446.2<br />

0.441 2.265 19.2 0.819 1.221 9.8 0.508 1.968 16.7 ?<br />

0.521 1.921 16.3 0.776 1.288 10.3 1.000 1.000 8.5<br />

0.294 3.402 28.9 0.475 2.107 16.9<br />

0.717 1.395 11.9 0.392 2.554 20.4<br />

0.181 5.535 47.0<br />

<strong>und</strong> noch mehr<br />

Tabelle 20: Peaks der Frequenzleistungsspektren von Datensatz 2 nach Leistung sortiert<br />

5.5.3 Untersuchung von Datensatz 3<br />

0.16<br />

0.14<br />

Power(Frequenz)<br />

Plot 1<br />

Plot 2<br />

0.12<br />

0.1<br />

0.08<br />

Power<br />

0.06<br />

0.04<br />

0.02<br />

0<br />

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1<br />

Frequenz [1]<br />

Abbildung 52: Fourierleistungsspektrum von Datensatz 3<br />

71


70<br />

60<br />

Power(Frequenz)<br />

Plot 1<br />

Plot 2<br />

Plot 3<br />

50<br />

40<br />

Power<br />

30<br />

20<br />

10<br />

0<br />

0 0.2 0.4 0.6 0.8 1<br />

Frequenz [1/m]<br />

Abbildung 53: MEM-Leistungsspektrum für 50, 60, 70 Pole von Datensatz 3. Man erkennt, daß die durch die<br />

Erhöhung der Polanzahl, mehr Peaks entstehen, die Hauptpeaks aber nur unwesentlich verschoben werden.<br />

FSM MEM (50 Pole) MFA<br />

Frequenz<br />

[1/m]<br />

Periode<br />

[m]<br />

Periode<br />

[ka]<br />

Frequenz<br />

[1/m]<br />

Periode<br />

[m]<br />

Periode<br />

[ka]<br />

Frequenz<br />

[1/m]<br />

Periode<br />

[m]<br />

Periode<br />

[ka]<br />

0.199219 5.01961 40.2 0.201171 4.9709 39.8 0.1988 5.0306 40.8<br />

0.0175781 56.8889 455.6 0.021484 46.5456 372.7 0.0170 58.7303 309.7<br />

0.226562 4.41379 35.3 0.263671 3.7926 30.4 0.0418 3.8733 32.1<br />

0.263672 3.79259 30.4 0.392577 2.54727 20.4 0.2582 4.3794 35.6<br />

0.0800781 12.4878 100.0 0.232421 4.30254 34.5 0.2283 8.8769 56.1<br />

0.109375 9.14286 73.2 0.714842 1.39891 11.2 0.1127 12.5611 100.0<br />

0.136719 7.31429 58.6 0.080077 12.4878 100.0 0.0796 6.9468 74.4<br />

0.388672 2.57286 20.6 0.136718 7.31433 58.6 0.1440 2.5571 30.2<br />

0.84375 1.18519 9.5 0.66992 1.49272 121.0 0.3911 3.0636 267.0<br />

0.554688 1.80282 14.4 0.839842 1.1907 9.5 0.3264 1.1877 24.6<br />

0.310547 3.22013 25.8 0.910154 1.09872 8.8 0.8420 1.0956 15.7<br />

0.910156 1.09871 8.8 0.552733 1.80919 14.5 0.9127 2.3195 172.2<br />

0.169922 5.88506 47.1 0.626952 1.59502 12.8 0.4311 1.9883 20.6<br />

0.470703 2.12448 17.0 0.433593 2.30631 18.5 0.5029 1.7986 11.2<br />

0.984375 1.01587 8.1 0.322265 3.10304 24.8 0.5560 4.7431 9.5<br />

0.714844 1.39891 11.2 0.974607 1.02605 8.2 0.2108 1.4071 14.6<br />

0.669922 1.49271 12.0 0.509764 1.96169 15.7 0.7107 1.0171 18.7<br />

0.498047 2.00784 16.1 0.76367 1.30947 10.5 0.9832 3.3807 27.1<br />

0.292969 3.41333 27.3 0.880857 1.13526 9.1 0.2958 1.1590 393.5<br />

0.363281 2.75269 22.0 0.478514 2.0898 16.7 0.8628 12.0106<br />

0.339844 2.94253 23.6<br />

<strong>und</strong> noch mehr<br />

Tabelle 21: Peaks der Frequenzleistungsspektren von Datensatz 3 nach Leistung sortiert<br />

72


5.6 Ergebnisse <strong>und</strong> Diskussion<br />

Zu Datensatz 1 <strong>und</strong> 2:<br />

Die drei verschiedenen Methoden zum Auffinden der Milakovitch-Perioden liefern ähnliche Ergebnisse.<br />

Die 400, 41 <strong>und</strong> 100 ka-Zyklen können eindeutig identifiziert werden. Sie liegen meistens unter den 5<br />

leistungsstärksten. Die Detektion der 21 <strong>und</strong> 19 ka Zyklen ist nicht ganz eindeutig. Speziell bei Methode<br />

1, ist dieses der Fall: Es werden zwar sehr viele Frequenzen gef<strong>und</strong>en, so daß die Wahrscheinlichkeit<br />

steigt, daß einige den Milankovitch-Frequenzen entsprechen. Sie stehen aber in der Leistungsskala weit<br />

hinten, so daß die Ergebnisse nicht zuverlässig sind. Die Methode 2, die letztendlich auch auf einer<br />

Fourieranalyse beruht, findet die hohen Frequenzen nicht. Bei Datensatz 1 hängt der Algorithmus ab der<br />

9. Frequenz in einer Programmschleife fest <strong>und</strong> liefert immer wieder dieselben Frequenzen. Bei<br />

Datensatz 2 werden die kleinen Milakovitch-Frequenzen ebenfalls nicht gef<strong>und</strong>en: Das Suchen von<br />

weiteren Peaks lieferte eine Ansammlung von vielen nicht passenden Frequenzen. Schon bei der 2.<br />

Hauptfrequenz fällt auf, daß sie anders ist als die 2. gef<strong>und</strong>e Hauptfrequenz der Methode 1. Das<br />

Subtrahieren der Zeitreihe beeinflußt offensichtlich auch die anderen Frequenzen.<br />

Bei MEM besitzen die kleinen Milankovitch-Perioden größere Leistung <strong>und</strong> sind auch schon in der<br />

Grafiken des Spektrums klarer zu erkennen. Da beide Datensätze fast übereinstimmende Ergebnisse<br />

ergeben, ist die Vermutung bestätigt, daß auch der längere Datensatz (2) einen Tiefenintervall <strong>mit</strong><br />

konstanter Sedimentation 36 ist. Im längeren Datensatz ist der 23 ka Zyklus allerdings stärker ausgeprägt<br />

als der 19 ka Zyklus. Im 1. Datensatz ist es umgekehrt. Der 400 ka Zyklus wird von allen Methoden<br />

viel zu kleiner Periode detektiert.<br />

theoretische Perioden [ka]<br />

detektierte Perioden [ka]<br />

Datensatz 1 Datensatz 2<br />

100.0 100.0 (per. Definition) 100.0 (per. Definition)<br />

400 235.3 234.3<br />

41 45.5 45.8<br />

19 18.4 18.4<br />

23 23.9 23.9<br />

Tabelle 22: Frequenzen für Datensatz 1 <strong>und</strong> 2 nach MEM<br />

36 bzw. dasselbe Sedimentationsmuster wie das kurze Tiefenintervall besitzt<br />

73


Zu Datensatz 3:<br />

Die drei Methoden liefern wieder sehr ähnliche Ergebnisse. Speziell der 100 ka Milankovitch-Zyklus<br />

wird ziemlich übereinstimmend in einer 12.5 m, 12.6 m bzw. 12.5 m Periode gef<strong>und</strong>en. In der TOC<br />

Zeitreihe liegen die Frequenzen in anderen Amplitudenverhältnissen vor als in den anorganischen<br />

Zeitreihen. Der leistungsstärkste Zyklus ist hier der <strong>mit</strong> 41 ka, gefolgt von dem 400 ka Zyklus, der in<br />

diesem Datensatz wesentlich besser <strong>mit</strong> 372 ka (durch MEM) detektiert wird. Der 23 ka <strong>und</strong> der 19 ka<br />

Zyklus ist nicht ganz eindeutig zu finden. Beim MEM könnten die Zyklen an der 14. <strong>und</strong> 15. Stelle in<br />

der Leistungsskala stehen.<br />

theoretische Perioden [ka] detektierte Perioden [ka]<br />

43 39.8<br />

400 372.7<br />

23 20.4<br />

100.0 100.0 (per. Definition)<br />

19 18.5<br />

Tabelle 23: Frequenzen für Datensatz 3 nach MEM<br />

Resümee<br />

Die Milankovitch-Frequenzen lassen sich in den Datenreihen identifizieren. Die vielen anderen<br />

detektierten Frequenzen könnten -wie J. Laskar in seiner Simulation der Erdbahnparameter [26] gezeigt<br />

hat- erklärt werden. Leider reicht seine Simulation nicht zu dem Zeitabschnitt des Kirchrode-Bohrkernes<br />

zurück, so daß nicht bekannt ist, welche Zyklen genau vor 100 Millionen Jahren herrschten.<br />

Als beste der getesteten Methode zur Frequenzbestimmung erscheint die MEM. Durch die Anzahl der<br />

Pole läßt sich die Komplexität der Spektrumstruktur <strong>und</strong> so<strong>mit</strong> die Anzahl der Peaks einstellen. Das<br />

Spektrum liefert stabile Ergebnisse <strong>und</strong> ist eindeutig zu interpretieren.<br />

5.7 Liapunov-Exponent der TOC-Zeitreihe<br />

Die meisten statistischen Methoden zur Schätzung eines Liapunov-Exponenten [19] aus Observablen<br />

dynamischer <strong>Systeme</strong> benötigen große Datenmengen. Der Datenbestand muß genügend dicht den<br />

Phasenraum ausfüllen um die Evolution nahe benachbarter Trajektorien verfolgen zu können. Die Daten<br />

die für die TOC-Zeitreihe zur Verfügung stehen, erfüllt dieses Kriterium bei weitem nicht.<br />

Daher wird eine andere Methode angewendet, die das RBFS benutzt: Es wird ein RBFS an den<br />

gemessenen Daten gefittet. Das RBFS wird als eine Approximation der Dynamik des System, welches<br />

die Daten erzeugt hat, aufgefaßt. Da<strong>mit</strong> ist eine Vorhersage der Evolution des Systems an jedem<br />

Phasenraumpunkt möglich. Diese Vorhersage ist für Punkte außerhalb des Attraktion natürlich i.a.<br />

74


falsch, kann aber für Punkte zwischen den gemessenen Datenpunkten durch die<br />

Interpolationseigenschaft des RBFS als eine gute Approximation angesehen werden.<br />

Die Untersuchung wird auf das stationäre Intervall [-100..-40] m Tiefe eingeschränkt. Die Zeitreihe<br />

wird als eine 3-dimensionale Phasenraumdynamik aufgefaßt:<br />

yt<br />

x , t x , t−1 xt−2<br />

(33) ( ) T<br />

=<br />

Ein RBFS wird auf die Vorhersage einen Zeitschritt in die Zukunft trainiert. Das Ergebnis ist in<br />

Abbildung 54 dargestellt. Es ergibt sich eine gute Übereinstimmung <strong>mit</strong> einem <strong>mit</strong>tleren quadratischen<br />

Fehler von 1.8e-2.<br />

0.5<br />

P1<br />

P2<br />

0.45<br />

0.4<br />

0.35<br />

0.3<br />

0.25<br />

-110 -100 -90 -80 -70 -60 -50 -40<br />

Tiefe [m]<br />

Abbildung 54: fetter Plot 1: TOC; dünner Plot 2: Vorhersage<br />

Die vom RBFS gelernte Dynamik wird in einer iterierten Vorhersage ab dem letzen Zeitpunkt der<br />

verwendeten Trainingszeitreihe (-40 m) getestet. Man erkennt in Abbildung 55, daß die komplexe<br />

Dynamik nicht vollständig approximiert wird, sondern nur ein 5-Meter-Zyklus (41 ka) zu erkennen ist 37 .<br />

Eine Frequenzanalyse der iterierten Vorhersage (Abbildung 56) liefert unter der Annahme, daß 12.4 m<br />

100 ka entsprechen für die leistungsstärkste Periode 43.4 ka. Allerdings ist auch eine 21 ka-Periode<br />

(entspricht der 23 ka Milankovitch-Frequenz) als drittstärkster Peak im Spektrum zu finden.<br />

Da die Iteration der RBFS-Vorhersage nicht eine Zeitreihe, ähnlich der originalen Zeitreihe erzeugt, ist<br />

es nicht sinnvoll eine Trajektorie über mehrere Zeitschritte zu verfolgen <strong>und</strong> daraus den Liapunov-<br />

Exponenten zu bestimmen. Allerdings liefert das RBFS gute Ergebnisse bei der 1-Schrittvorhersage<br />

(Abbildung 54). Daher wird über die Liapunov-Exponenten der 1-Schrittvorhersage ge<strong>mit</strong>telt: Hierzu<br />

wird für zwei Punkte P 1 <strong>und</strong> P 2 <strong>mit</strong> Abstand ε um den ersten Phasenpunkt P der gemessenen Zeitreihe<br />

herum (bei -99.5 m) die Vorhersage <strong>mit</strong> dem RBFS berechnet <strong>und</strong> der Abstand der vorhergesagten<br />

Phasenraumpunkte bestimmt. In den nächsten Rechenschritten wird <strong>mit</strong> den folgenden<br />

37 Der 400 ka Zyklus (r<strong>und</strong> 50 m)kommt nur einmal im ganzen Datensatz vor <strong>und</strong> kann so<strong>mit</strong> nicht moduliert werden<br />

(statistisches Gewicht). Für den 100 ka Zyklus (ca. 13 Datenpunkte) gilt dieses entsprechend. Außerdem werden durch die<br />

kleine Einbettungsdimension von 3 hohe Frequenzen bevorzugt.<br />

75


Phasenraumpunkten der gemessenen Zeitreihe nach demselben Verfahren fortgefahren. D.h., die<br />

Vorhersage wird nicht iteriert, sondern in jedem Schritt auf einen gemessenen Datenpunkt bezogen<br />

(Vorhersage bleibt auf dem Attraktor). Iteriert wird allerdings die Richtung R in der P 1 <strong>und</strong> P 2 <strong>mit</strong><br />

Abstand ε von P im jedem Schritt bestimmt werden. Gestartet wird <strong>mit</strong> einer willkürlichen Richtung<br />

beim ersten Rechenschritt. In jedem folgendem Schritt wird R, aus der Vektordifferenz der zwei<br />

vorhergesagten Punkt bestimmt. Dadurch dreht sich R in die Richtung des größten Liapunov-<br />

Exponenten.<br />

Diese Analyse liefert einen Wert von λ = 0. 22 für einen Zeitschritt (0.5 m). Eine Untersuchung für<br />

einen 4-dimensionale Einbettung liefert einen Liapunov-Exponenten von 0.18. Die Frequenzanalyse der<br />

iterierten Vorhersage hat hier die Hauptfrequenz 40.5. Die anderen Frequenzen sind nicht eindeutig.<br />

0.44<br />

P1<br />

0.43<br />

0.42<br />

0.41<br />

0.4<br />

0.39<br />

0.38<br />

-40 -30 -20 -10 0 10 20<br />

Tiefe [m]<br />

Abbildung 55: Iterierte Vorhersage<br />

1000<br />

100<br />

10<br />

43.4 ka<br />

21.0 ka<br />

Power(Frequenz)<br />

P1<br />

P2<br />

1<br />

Power<br />

0.1<br />

0.01<br />

0.001<br />

0.0001<br />

1e-05<br />

0 0.2 0.4 0.6 0.8 1<br />

Frequenz [1/m]<br />

Abbildung 56: Maximum Entropie Leistungsspektrum <strong>mit</strong> 40 Polen von TOC (fett) <strong>und</strong> der iterierten<br />

Vorhersage (dünn). Die Zeitreihen sind vor der Frequenzanalyse auf Mittelwert 0 <strong>und</strong> Varianz 1 normiert<br />

worden.<br />

76


6 Untersuchung des Ökosystems Peruanisches Auftriebsgebiet<br />

6.1 Einleitung<br />

Auftriebsgebiete sind Meeresregionen, die kontinuierlich <strong>mit</strong> Tiefenwasser versorgt werden. Dieses<br />

Wasser strömte lange Zeit ohne Oberflächenkontakt in den unteren Meeresschichten <strong>und</strong> ist teilweise<br />

h<strong>und</strong>erte von Jahren "alt". In dieser Zeit ist es stark <strong>mit</strong> organischen Sinkstoffen aus den höheren<br />

(biologisch aktiveren) Schichten angereichert worden. In Küstennähe tritt dieses Wasser i.a. wieder an<br />

die Oberfläche. Ablandiger Wind treibt das Oberflächenwasser ins Meer hinaus. Die Erhöhung der<br />

Wassersäule draußen im Meer bewirkt einen Druckgradienten <strong>und</strong> da<strong>mit</strong> eine Strömung des<br />

Tiefenwassers zum Land. Dieser Prozeß stabilisiert sich <strong>und</strong> setzt eine Förderschnecke in Gang, die<br />

schon Jahrtausende läuft.<br />

Die Nährstoffe an der Oberfläche werden wieder vom biologischen Kreislauf aufgenommen <strong>und</strong> steuern<br />

über das Planktonwachstum den Bestand der höheren Tiere in der Nahrungskette. Der Mensch nutzt<br />

diese enorme biologische Aktivität - ca. 40 % des Weltfischfangertrages stammen aus den<br />

Auftriebsgebieten.<br />

Die Region vor der Küste von Peru gehört <strong>mit</strong> Abstand zu den produktivsten Auftriebsgebieten [17].<br />

Der Hauptertrag der Fischerei wird hier <strong>mit</strong> einer kurzlebigen Heringsart (Anchoveta) erbracht. Der<br />

Anchovetabestand ist <strong>mit</strong> schweren wirtschaftlichen <strong>und</strong> sozialen Folgen 1972/73 in Verbindung <strong>mit</strong><br />

einem El Nino 38 <strong>und</strong> durch die starke Überfischung zusammengebrochen <strong>und</strong> hat sich bis heute nicht<br />

wieder erholt.<br />

In verschiedenen Projekten wurden Forschungsvorhaben durchgeführt, um aus dem Verständnis der<br />

Dynamik des Ökosystems ein besseres Konzept zur Bewirtschaftung zu erarbeiten. Zur Analyse des<br />

Systems liegt ein über 30 Jahre reichender Datensatz der Anchoveta-Art seit 1953 in monatlicher<br />

Auflösung vor. Mit weiteren biologischen <strong>und</strong> physikalischen Parametern (insgesamt 47 die<br />

zusammengetragen worden sind), liegt ein Datenbestand vor, der weit über den hinaus geht, der<br />

normalerweise für die Modellierung eines Ökosystems zur Verfügung steht [18]. Trotzdem ist das<br />

Kernproblem, die Vorhersage der Biomasse der Schlüsselart Anchoveta, die eine zentrale Stellung im<br />

Nahrungsnetz einnimmt, nicht gelungen.<br />

In Zusammenarbeit <strong>mit</strong> Dr. A. Jarre-Teichmann <strong>und</strong> Dr. Thomas Brey (Alfed-Wegener-Institut in<br />

Bremerhaven) soll untersucht werden, ob die Algorithmen im DSN (im Schwerpunkt neuronale Netze)<br />

geeignet sind, um diese Datensätze zu analysieren <strong>und</strong> eine Vorhersage des Anchovetabestandes über<br />

drei Monate zu ermöglichen, um fischerei-regulatorische Maßnahmen davon abzuleiten.<br />

38 Übersetzt: Das Christkind. Spezielle Wettererscheinung zur Weihnachtszeit, welche die Förderschnecke zu stillstand<br />

bringt <strong>und</strong> ein Fischsterben verursacht.<br />

77


6.2 Frequenzanalyse der Anchoveta-Zeitreihe<br />

In einer Frequenzanalyse soll untersucht werden, ob die Anchovetazeitreihe (Abbildung 57) periodische<br />

Strukturen enthält. Die Fouriertransformation (Abbildung 58) liefert ein sehr strukturloses Spektrum, in<br />

dem selbst der Jahreszyklus sehr schlecht zu erkennen ist. Allerdings läßt sich durch eine<br />

Spektrumsberechnung nach der Maximum-Entropie-Methode (MEM) [20] der Jahrespeak deutlicher<br />

hervorheben. Selbst eine Quasiperiodizität würde aber ein ausgeprägteres Spektrum liefern, so daß<br />

angenommen werden muß, daß die Dynamik wenig Periodizität besitzt oder durch einen sehr großen<br />

Rauschanteil überlagert wird. Daher ist zu erwarten, daß eine Vorhersage sehr schwer sein wird.<br />

2.5e+07<br />

2e+07<br />

1.5e+07<br />

Value<br />

1e+07<br />

5e+06<br />

0<br />

50 55 60 65 70 75 80 85 90<br />

Time [year]<br />

Abbildung 57: Anchovetabestand<br />

Power<br />

1e+14<br />

1e+13<br />

1e+12<br />

1e+11<br />

1e+10<br />

1e+09<br />

1e+08<br />

1e+07<br />

1e+06<br />

Power(Frequenz)<br />

P1<br />

100000<br />

0 1 2 3 4 5 6<br />

Frequenz [1/year]<br />

Abbildung 58: Fourierleistungsspektrum der Anchovetazeitreihe<br />

1e+17<br />

1e+16<br />

1e+15<br />

Power(Frequenz)<br />

P1<br />

Power<br />

1e+14<br />

1e+13<br />

1e+12<br />

1e+11<br />

1e+10<br />

0 1 2 3 4 5 6<br />

Frequenz [1/year]<br />

Abbildung 59: Maximum Entropie Leistungsspektrum (50 Pole) der Anchovetazeitreihe<br />

78


6.3 Vorhersage des Anchoveta-Bestandes<br />

Es soll versucht werden, aus dem Anchoveta-Datensatz ein Vorhersagesystem für diesen Fischbestand<br />

über 3 Monate zu entwickeln. Diese Zeitreihe (Abbildung 57), ist <strong>mit</strong> einem Trend zwischen 1955 <strong>und</strong><br />

1972 sowie einer Steigung von r<strong>und</strong> 1 / 5 stark nichtstationär. Jedes Jahr erhöhte sich der Fischbestand um<br />

20% <strong>und</strong> fiel dann innerhalb von 2 Jahren auf r<strong>und</strong> ¼ des Maximalwertes ab. Nach diesem<br />

Zusammenbruch hat der Kurvenverlauf nur wenig Ähnlichkeit <strong>mit</strong> dem vorderen Teil der Zeitreihe. Es<br />

ist anzunehmen, daß ein Phasenüberganges des Ökosystem stattfand, der zu einer veränderten Dynamik<br />

führte.<br />

Für die rein statistische Vorhersage <strong>mit</strong> <strong>neuronalen</strong> Netzwerken sind stationäre Daten nötig. Für jeden<br />

Dynamikzustand müssen mehrere (am besten sehr viele) benachbarte Phasenraumpunkte zur<br />

Auswertung zur Verfügung stehen. Daraus folgt, daß die beiden Zeitabschnitte getrennt untersucht<br />

werden müssen. Zusätzlich müssen die Zeitreihen gefiltert werden, da sie auch einzeln nicht stationär<br />

sind. Es stellt sich die Frage, welcher Filter verwendet werden soll.<br />

Eine einfache Elimination des Trends im vorderen Teil der Zeitreihe reicht nicht aus: Es entstehen r<strong>und</strong><br />

3½ Schwingungen <strong>mit</strong> einer Periode von ca. 5 Jahren. In der Zeitskala von drei Monaten in der<br />

vorhergesagt werden soll, ist das nicht als stationär anzusehen. Eine statistische Auswertung ist<br />

unmöglich: Nur drei mal liegen dieselben Systemzustände vor.<br />

In den folgenden Kapiteln wurden drei verschiedene Filter angewendet 39 :<br />

1. Differenz zur linearen Regressionsvorhersage<br />

2. Differenz zum gleitenden Mittelwert<br />

3. Frequenzfilter <strong>mit</strong> einem Radial-Basis-Funktionen-System (RBFS)<br />

6.3.1 Lineare Regressions-Vorhersage<br />

Die Zeitreihe enthält viele kleine Trendabschnitte, so daß sich eine Vorhersage durch eine lineare<br />

Regression (LRV) anbietet: Aus den Daten über 12 Monate wird auf den Wert drei Monate später linear<br />

extrapoliert (Abbildung 60). Die Differenz zwischen der originalen <strong>und</strong> der extrapolierten Vorhersage<br />

ist nicht varianzstationär <strong>und</strong> wird durch die rückwärtige Varianz über 10 Monate drei Monate vorher<br />

geteilt. Nach dieser Skalierung (Abbildung 61) bildet sich ein Muster <strong>mit</strong> einer Periode von zwei Jahren<br />

heraus. Dieses Muster tritt in den Jahren 1955 bis 1962 dreimal klar ausgeprägt <strong>und</strong> anschließend nur<br />

stark deformiert auf. Erstaunlicherweise taucht es in den Jahren 1976-1980 wieder auf. Offensichtlich<br />

hat das Filter die Eigenschaft, gewisse stationäre Teile der Zeitreihe zu extrahieren. Dieses würde auch<br />

bedeuten, daß der hintere Teil der Zeitreihe (nach dem Zusammenbruch des Anchovetabestandes) doch<br />

eine ähnliche Dynamik (nur <strong>mit</strong> kleinerer Amplitude) aufweist wie der vordere Teil.<br />

39 Bei allen Filter muß auf echte Vorhersagebedingungen geachtet werden: Nur Information von vergangenen Zeitpunkten<br />

dürfen für die Berechnung verwende werden. Durch diese Einschränkung wird die Effizienz der Filter zur Erhöhung der<br />

Stationärität teilweise stark eingeschränkt.<br />

79


4<br />

P1<br />

P2<br />

3<br />

2<br />

1<br />

0<br />

-1<br />

-2<br />

50 55 60 65 70 75 80 85 90<br />

Time [year]<br />

Abbildung 60:<br />

Plot1: Anchoveta, Plot2: Lineare Regressionsvorhersage<br />

Aus 12 Monaten Vergangenheit wird drei Monate in die Zukunft linear extrapoliert.<br />

5<br />

4<br />

P1<br />

3<br />

2<br />

1<br />

0<br />

-1<br />

-2<br />

-3<br />

-4<br />

-5<br />

50 55 60 65 70 75 80 85 90<br />

Time [year]<br />

Abbildung 61: Differenz zwischen Anchoveta-Zeitreihe <strong>und</strong> LRV <strong>und</strong> anschließender Varianzskalierung<br />

Die Differenzzeitreihe wird <strong>mit</strong> einem RBFS (Clustertiefe 5, lineare lokale Funktionen) vorhergesagt.<br />

Die Zeitreihe wird als Ergebnis einer 4-dimensionalen Phasenraumdynamik aufgefaßt, indem aus den<br />

Daten vier aufeinanderfolgende Monate der Anchovetabestand drei Monate später bestimmt werden soll.<br />

Die Datenpunkte von 1954 bis 1970 wurden als Informationsbasis zum Training des RBFS benutzt. In<br />

Abbildung 62 sieht man daß, die Dynamik recht gut approximiert wird. In Abbildung 63 ist die<br />

wesentlich bessere 1-Schrittvorhersage zu erkennen.<br />

80


4<br />

3<br />

P1<br />

P2<br />

P3<br />

2<br />

1<br />

0<br />

-1<br />

-2<br />

-3<br />

-4<br />

54 56 58 60 62 64 66 68 70 72<br />

Time [year]<br />

Abbildung 62: 3-Schrittvorhersage. Um das Ergebnis besser beurteilen zu können, wurden Linien zwischen<br />

gemessenem Anchoveta-Bestand <strong>und</strong> vorhergesagtem drei Monate später eingefügt. Ohne diese<br />

Vorgehensweise kann schon die Persistenzvorhersage optisch gute Ergebnisse vorspiegeln.<br />

4<br />

3<br />

P1<br />

P2<br />

P3<br />

2<br />

1<br />

0<br />

-1<br />

-2<br />

-3<br />

-4<br />

54 56 58 60 62 64 66 68 70<br />

Time [year]<br />

Abbildung 63: Einschrittvorhersage<br />

In Abbildung 64 ist eine Aufteilung in Lerndaten (bis1962) <strong>und</strong> Testdaten durchgeführt worden. Es<br />

ergibt sich ein schlechteres Ergebnis, da die benutzten Daten offensichtlich nicht ausreichen, um die<br />

Dynamik der Zeitreihe komplett zu erfassen. In einem weiteren Test wurden auch die Daten bis 1970<br />

benutzt, um das Intervall von 1973 bis1979 vorherzusagen. Es ergibt sich aber ein ähnliches Ergebnis.<br />

3<br />

2<br />

Value-Time-Plot<br />

P1<br />

P2<br />

P3<br />

1<br />

0<br />

Value<br />

-1<br />

-2<br />

-3<br />

-4<br />

64 65 66 67 68 69<br />

Time [1]<br />

Abbildung 64: Vorhersage für Lerndaten bis 1964<br />

81


6.3.2 Differenzfilter<br />

Ein weiteres Filter zur Erhöhung der Stationärität ist der Differenzfilter. In dem vorliegen Fall wird der<br />

aktuellen Wert der Zeitreihe der rückwärtige Mittelwert über 12 Monate drei Monate vorher subtrahiert.<br />

Anschließend wird zur Varianzstabilisierung, <strong>mit</strong> der rückwärtige Varianz der originalen Zeitreihe über<br />

12 Monate drei Monate vorher geteilt. Da<strong>mit</strong> ergibt sich die Zeitreihe in Abbildung 65. Dieses Filter<br />

erzeugt eine Zeitreihe <strong>mit</strong> wenig Regelmäßigkeiten. Daher lieferten die Vorhersageversuche nur wenig<br />

brauchbare Ergebnisse für unabhängige Testset. Die Ergebnisse werden daher hier nicht gezeigt.<br />

25<br />

Value-Time-Plot<br />

P1<br />

20<br />

15<br />

10<br />

Value<br />

5<br />

0<br />

-5<br />

-10<br />

50 55 60 65 70 75 80 85 90<br />

Time [year]<br />

Abbildung 65: Differenzzeitreihe <strong>mit</strong> Varianzstabilisierung<br />

Trotzdem extrahiert das RBFS aus den Daten einen gewissen regelmäßigen Teil. Die Vorhersage wurde<br />

iteriert, indem der vorhergesagte Wert dazu benutzt wurde, um einen neuen Phasenpunkt zu generieren.<br />

Dadurch kann die Vorhersage beliebig in die Zukunft fortgesetzt werden <strong>und</strong> man erhält eine Zeitreihe,<br />

die der ungestörten inneren Dynamik des RBFS entspricht. In Abbildung 66 ist zu erkennen, daß der<br />

jahreszeitliche Zyklus nachgebildet wird, aber wie durch eine Dämpfung allmählich abklingt.<br />

1.35<br />

Value-Time-Plot<br />

P1<br />

1.3<br />

1.25<br />

1.2<br />

1.15<br />

Value<br />

1.1<br />

1.05<br />

1<br />

0.95<br />

0.9<br />

84 86 88 90 92 94 96 98 100 102 104<br />

Time [1]<br />

Abbildung 66: Iterierte Vorhersage<br />

82


6.3.3 Radialfunktionen-System-Interpolation<br />

Das RBFS kann als Interpolator benutzt werden, um verschiedene Frequenzbereiche einer Zeitreihe zu<br />

trennen. Dieser Filter ist nicht für eine Vorhersage erlaubt, da hier Information über zukünftige <strong>und</strong><br />

vergangene Werte vermischt wird. Er wird hier trotzdem verwendet, um zu überprüfen, ob der<br />

hochfrequente Teil der Anchoveta-Zeitreihe regelmäßige Strukturen enthält. In Abbildung 67 ist die<br />

Anchoveta-Zeitreihe <strong>und</strong> deren Interpolation dargestellt <strong>und</strong> in Abbildung 68 die Differenz dieser beiden<br />

Zeitreihen zu sehen.<br />

3.5<br />

3<br />

Value-Time-Plot<br />

Plot 1<br />

Plot 2<br />

Plot 2<br />

2.5<br />

2<br />

1.5<br />

Value<br />

1<br />

0.5<br />

0<br />

-0.5<br />

-1<br />

-1.5<br />

50 55 60 65 70 75 80 85 90<br />

Time [1]<br />

Abbildung 67 : Original Anchveta-Zeitreihe (zackig) <strong>und</strong> interpolierte Zeitreihe (glatt)<br />

1<br />

0.8<br />

Value-Time-Plot<br />

Plot 1<br />

Plot 1<br />

0.6<br />

0.4<br />

0.2<br />

Value<br />

0<br />

-0.2<br />

-0.4<br />

-0.6<br />

-0.8<br />

-1<br />

50 55 60 65 70 75 80 85 90<br />

Time [year]<br />

Abbildung 68 : Differenz zwischen Anchoveta Zeitreihe <strong>und</strong> Interpolation<br />

83


Mit diesem hochfrequenten Teil wird ein RBFS auf 1-Schrittvorhersage trainiert. Dabei ergaben sich<br />

<strong>mit</strong> der Phasenraumkodierung (time-delay) nach folgender Formel die besten Ergebnisse:<br />

y<br />

(<br />

i<br />

+ xi− 1)/<br />

2,( xi−2<br />

+ xi−3)/<br />

2, ( xi−4<br />

+ xi−5)/<br />

2, ( xi−6<br />

+ xi−7<br />

+ xi−8<br />

(34) ( ) T<br />

t<br />

=<br />

x )/ 3<br />

In Abbildung 69 ist für einen kleine Zeitabschnitt das Original <strong>und</strong> das Vorhersageergebnis dargestellt.<br />

Die Kurven stimmen relativ gut überein. An der iterierte Vorhersage (Abbildung 70) erkennt man, daß<br />

auch hier der Jahreszyklus (ein wenig verkürzt) gut approximiert wird. Nach einem Einschwingvorgang<br />

stabilisiert sich dieser.<br />

0.4<br />

0.3<br />

Value-Time-Plot<br />

Plot 1<br />

Plot 2<br />

Plot 2<br />

0.2<br />

0.1<br />

Value<br />

0<br />

-0.1<br />

-0.2<br />

-0.3<br />

-0.4<br />

76 78 80 82 84<br />

Time [1]<br />

Abbildung 69 : fetter Plot1: Vorhersage, dünner Plot 2: Original<br />

0.15<br />

Value-Time-Plot<br />

Plot 1<br />

Plot 1<br />

0.1<br />

0.05<br />

Value<br />

0<br />

-0.05<br />

-0.1<br />

-0.15<br />

80 85 90 95 100<br />

Time [year]<br />

Abbildung 70: Iterierte Vorhersage<br />

84


6.4 Korrelationen<br />

Es soll untersucht werden, ob die bekannten biologischen Zusammenhänge in den Datenreihen<br />

wiederzufinden sind. Da das Hauptinteresse in Zusammenhängen über kürzere Zeiträume (drei Monate)<br />

liegt <strong>und</strong> nicht in den Korrelationen über viele Jahre, werden als Datenbasis die Differenzen zu dem<br />

jeweilige zentrierten Mittelwerten über 12 Monate benutzt. Von diesen Zeitreihen wird die<br />

Kreuzkorrelationsmatrix berechnet.<br />

Folgende Tierbestände wurden<br />

untersucht:<br />

1. Seeh<strong>und</strong><br />

2. Sardelle<br />

3. Tölpel<br />

4. Kormorane<br />

5. Pelikane<br />

6. Seelöwen<br />

10<br />

8<br />

6<br />

4<br />

2<br />

ME=1 PS=0.5 LS=1<br />

7. Makrelen<br />

8. Horse-Makrelen<br />

9. Seehecht<br />

0<br />

0 2 4 6 8 10<br />

Abbildung 71: Kreuzkorrelationsmatrix der Tierbestände<br />

Die hier verwendete grafische Darstellung einer Matrix (Abbildung 71) ist übersichtlicher als eine<br />

Zahlentabelle <strong>und</strong> wird folgendermaßen interpretiert: Die Größe des Matrixelementes wird durch die<br />

Kantenlänge der Quadrate (die zu Rechtecke verzerrt sind) repräsentiert. Das Vorzeichen wird durch ein<br />

Kreuz (entsprechend plus für positive) <strong>und</strong> durch eine horizontale Linie (entsprechend minus für<br />

negativ) im Quadrat dargestellt. Das Zentrum eines Rechteckes hat die Koordinaten der entsprechenden<br />

Zeile (Abszisse) bzw. Spalte (Ordinate) der zugr<strong>und</strong>eliegenden Matrix.<br />

Aus dieser Abbildung erkennt man, daß die Seeh<strong>und</strong>e <strong>und</strong> die Sardellen positiv <strong>mit</strong>einander korreliert<br />

sind <strong>und</strong> daß beide zu den beiden Makrelenarten (Raubfische) antikorreliert sind. Im Falle der Sardelle<br />

läßt sich diese Antikorrelation dadurch erklären, daß sie durch die Raubfische vermehrt gefressen<br />

werden. Genauso bilden die Vögel (Tölpel, Kormorane <strong>und</strong> die Pelikane) eine Korrelationsgruppe, die<br />

wahrscheinlich aus demselben Gr<strong>und</strong> zu den beiden Makrelenarten antikorreliert ist. Die Makrelenarten<br />

hingegen, sind in der KKM nicht zu unterscheiden, zeigen also dieselben Beziehungen zu den anderen<br />

Arten. Sie bilden <strong>mit</strong> dem Seehecht <strong>und</strong> ebenfalls <strong>mit</strong> dem Seelöwen zusammen eine weitere<br />

Korrelationsgruppe, die stark <strong>mit</strong> den Tölpel <strong>und</strong> den Kormoranen sowie schwächer <strong>mit</strong> der Sardelle<br />

<strong>und</strong> dem Seeh<strong>und</strong> antikorreliert ist. Die Beziehung zu der Sardelle ließe sich als Beute <strong>und</strong> die zu den<br />

anderen als Freßfeind erklären.<br />

85


Es wurden versucht durch Ausnutzung dieser Korrelationen die Vorhersage des Anchoveta-Bestandes<br />

zu verbessern. Die zahlreichen Versuche <strong>mit</strong> den unterschiedlichsten Methoden sind alle fehlgeschlagen.<br />

6.5 Ergebnisse <strong>und</strong> Diskussion<br />

Diese oben vorgestellten Verfahren liefern gute Ergebnisse, solange sie <strong>mit</strong> den Lerndatenmenge getestet<br />

werden <strong>und</strong> zeigen, daß das RBFS gut geeignet sind, um unregelmäßige Funktionen zu approximieren.<br />

Sobald aber versucht wird, unbekannte Teile einer Zeitreihe vorherzusagen, verschlechtert sich das<br />

Ergebnis drastisch. Daraus läßt sich folgern, daß die Anchoveta-Zeitreihe alleine zu kurz bzw. zu<br />

unregelmäßig ist, um statistische Verfahren zur Vorhersage anzuwenden.<br />

Durch die Anwendung des lineare Regressionsfilter wird eine regelmäßige Komponenten der Anchoveta-<br />

Zeitreihe sichtbar. Dieses Muster <strong>mit</strong> einer Länge von zwei Jahren tritt dreimal im vorderen Teil der<br />

Zeitreihe auf <strong>und</strong> findet sich teilweise im <strong>mit</strong>tleren <strong>und</strong> auch im hinteren Teil stark transformiert wieder.<br />

Da dieses Muster zu unregelmäßig ist <strong>und</strong> nur dreimal ausgeprägt vorkommt, läßt es sich für eine<br />

Vorhersage, spezielle der 3-Monatsvorhersage nicht nutzen.<br />

Das RBFS extrahiert aus der Zeitreihe bei den iterierten Vorhersagen einen Jahreszyklus, der im<br />

Fourierspektrum nur schwach zuerkennen ist.<br />

86


7 Downscaling <strong>und</strong> Vorhersage von Wetterdaten in Potsdam<br />

7.1 Einleitung<br />

In diesem Abschnitt werden die entwickelten Methoden auf das sogenannte “Downscaling“ angewendet.<br />

Unter diesem Begriff wird in der Meteorologie das Abbilden von Wetterobservablen, in räumlich<br />

großskaligen Auflösung (global), auf Observablen, die das Wettergeschehen an einem begrenzten Ort<br />

(lokal) beschreiben, verstanden. Dabei wird angenommen, daß die globalen Variablen G<br />

Wetterszenarios beschreiben, die spezifische Auswirkungen in Abhängigkeit von den lokalen<br />

Gegebenheiten R des Ortes (Gebirge, Wasserflächen, etc.) haben. Es wird also folgende Abbildung<br />

gesucht:<br />

(35) L = f<br />

R( G)<br />

Bei der klassischen Definition des Downscalings werden immer Daten derselben Zeitpunkte <strong>mit</strong>einander<br />

verglichen, d.h. es sollen nur räumliche Korrelationen untersucht <strong>und</strong> nicht aus vergangenen Daten in<br />

die Zukunft extrapoliert werden. Der verwendete übliche Begriff „Vorhersage“ bezieht sich in diesem<br />

Abschnitt daher auf die räumliche Vorhersage, falls nicht anders erwähnt.<br />

Trotzdem ist das Verfahren für eine zeitliche Vorhersage auf sehr großen Zeitskalen nützlich. Das<br />

globale Wettergeschehen läßt sich in sogenannten Global Circulation Models (GCM) über Jahre bis<br />

Jahrzehnte simulieren. Diese “Welt-Simulationen“ liefern Wetterdaten in Gittern sehr geringer<br />

Auflösung. Die lokalen Auswirkungen, die von Ort zu Ort sehr stark variieren können, lassen sich<br />

daraus daher nicht erhalten. Eine Abbildung (35) hätte so<strong>mit</strong>, falls sie auch für die Zukunft zuverlässig<br />

wäre, eine sehr große Bedeutung für die Klimavorhersage. Da<strong>mit</strong> ließen sich die konkreten <strong>und</strong><br />

spürbaren Auswirkungen von Klimaveränderungen deutlich machen. Ein großes Interesse spielen hierbei<br />

die verschiedenen CO 2 -Emissionsszenarien <strong>und</strong> deren Einfluß auf den Wasserhaushalt. Das<br />

Hauptinteresse liegt deshalb auf der Vorhersage der Feuchtigkeitsgrößen.<br />

Ein Weg, um diese Abbildung zu finden, ist ein direkter dynamischer Ansatz, bei dem die lokalen<br />

wetterformenden Elemente R durch physikalische Modellierung einfließen. Dieser Weg ist aber<br />

aufgr<strong>und</strong> der komplexen hydrologischen <strong>und</strong> chaotischen Wechselwirkungen sehr schwierig. In dieser<br />

Arbeit wird daher versucht, aus den beobachteten globalen <strong>und</strong> lokalen Meßwerten der Vergangenheit<br />

<strong>mit</strong> Hilfe statistischer Methoden die Abbildung zu schätzten.<br />

Zu diesem Zweck ist von Dr. G. Bürger (Potsdamer Institut für Klimafolgenforschung, PIK) eine 9770<br />

Punkte lange Zeitreihe <strong>mit</strong> täglichen Wetterbeobachtungen ab dem 1.10.1962 als Datenbasis zur<br />

Verfügung gestellt worden. Die darin enthaltenen globalen Wetterzustände sind aus Meßpunkten über<br />

Europa <strong>und</strong> dem Nordatlantik gewonnen worden. Durch die Anpassung eines GCM an diese Meßwerte<br />

ist daraus ein Druck- <strong>und</strong> Temperaturfeld in Gitterform bestimmt worden. Da der Umfang dieser Daten<br />

87


<strong>mit</strong> jeweils 213 Zeitreihen für Druck <strong>und</strong> Temperatur (pT-Zeitreihen) enorm ist, wurde zur<br />

Vereinfachung der Analyse, <strong>und</strong> um die darin enthaltenen Korrelationen auszunutzen, die Datenbasis<br />

vom PIK <strong>mit</strong> Hilfe einer Komponentenanalyse (PCA) komprimiert. Dabei wurden nach Eliminierung<br />

des <strong>mit</strong>tleren Jahresganges durch die Projektion auf die 41 größten Hauptrichtungen schon 90% der<br />

Varianz erfaßt [21].<br />

In dem zur Verfügung gestellten Datensatz sind neben den transformierten pT-Reihen 14<br />

Wetterobservablen für jeden Tag, lokal in Potsdam gemessenen, enthalten. Die hier durchgeführte<br />

Analyse konzentriert dabei auf die Observablen in Tabelle 24. Bei allen Analysen ist die Datenbasis in<br />

zwei Teile zerlegt worden. Die ersten 6000 Datenpunkte werden benutzt, um die Verfahren zu<br />

entwickeln <strong>und</strong> die Parameter zu optimieren (Trainingsdatensatz). Die Daten ab 6001 bis 9770 dienen<br />

zur Überprüfung des Systems (Testdatensatz).<br />

Observable<br />

Niederschlag<br />

Maximaltemperatur<br />

Wasserdampfdruck<br />

Abkürzung<br />

PRC<br />

TMAX<br />

HPR<br />

Tabelle 24: Untersuchte lokale Observablen<br />

7.2 Untersuchung des Niederschlages<br />

7.2.1 Untersuchung des Jahresganges<br />

Ein Ausschnitt der Niederschlagszeitreihe, die wichtigste hydrologische Größe, ist in Abbildung 72 zu<br />

sehen. Er enthält die ersten 365 Tage des Analysezeitraumes <strong>und</strong> kann von der zeitlichen Verteilung<br />

sowie den Amplituden als typisch angesehen werden. Deutlich ist eine gewisse zeitliche Clusterung der<br />

Trocken- <strong>und</strong> Regentage erkennbar. Es fällt auf, daß es viele Regentage <strong>mit</strong> kleinen<br />

Niederschlagsamplituden <strong>und</strong> nur wenige <strong>mit</strong> sehr starken gibt.<br />

Der Niederschlag unterliegt bekanntermaßen einem Jahresrythmus. Läßt sich dieser in den Daten<br />

erkennen <strong>und</strong> ausnutzen? Um dieses zu untersuchen, wurden die Jahresgänge über 16 Jahre <strong>mit</strong>einander<br />

verglichen (Abbildung 73). Es ist klar zu erkennen, daß zwar eine Häufung des Regens im Herbst<br />

vorhanden ist, allerdings die Schwankungen bzgl. Amplitude <strong>und</strong> Position der Maxima über die Jahre<br />

sehr variabel sind. Daher ist es nicht möglich, hieraus verwertbare Informationen für die Vorhersage zu<br />

erhalten, so daß eine Jahresgangmodelierung nicht durchgeführt wird.<br />

88


25<br />

20<br />

15<br />

10<br />

5<br />

0<br />

0 50 100 150 200 250 300 350 400<br />

Time [d]<br />

Abbildung 72: Niederschlagswerte für ein Jahr ab dem 1.10.1962<br />

4<br />

P1<br />

3.5<br />

3<br />

2.5<br />

2<br />

1.5<br />

1<br />

0.5<br />

0<br />

0 50 100 150 200 250 300 350 400 450<br />

Time [d]<br />

Abbildung 73: Die Regenamplituden wurden zuerst durch eine 60-Tage <strong>und</strong> anschließend eine 30-Tage<br />

gleitende Mittelung geglättet. Diese zweifache Mittelung entspricht einem trapezförmigen Filter <strong>mit</strong> einem<br />

einfachen Mittelwert über 31 Tage <strong>und</strong> linearem Abfall über 30 Tage zu beiden Seiten hin. Die Zeitreihe ist<br />

dann in 16 Jahresabschnitte geteilt worden.<br />

7.2.2 Downscaling der Niederschlagsamplituden<br />

Die Relation der globalen pT-Daten zu den Regenamplituden soll bestimmt werden. In einem ersten<br />

Untersuchungsschritt werden verschieden große RBFS <strong>mit</strong> konstanten lokalen Funktionen verwendet.<br />

Optimiert wurde nach dem <strong>mit</strong>tleren quadratischen Fehler des Trainingsdatensatzes. An den<br />

Ergebnissen in Tabelle 25 sieht man, daß bei ca. 60 Cluster die Grenze zum overfitting liegt, denn eine<br />

noch feinere Auflösung erhöht den Fehler im Testdatensatz.<br />

Um die Ergebnisse zu verbessern, wurde eine komplexere Netzwerkform <strong>mit</strong> affin-linearen<br />

Radialfunktionen getestet. Wegen der hohen Dimension der Eingabedaten von 41 wird hier schon bei<br />

recht kleinen Netzwerken enorm viel Computerspeicher <strong>und</strong> lange Rechenzeiten benötigt. Nach einigen<br />

Probeläufen ergab sich aber ein recht erstaunliches Ergebnis: Es ist nicht nötig, große Netzwerke zu<br />

generieren, die besten Ergebnisse werden <strong>mit</strong> einem simplen “Netzwerk“ aus nur einem Cluster erhalten<br />

(Tabelle 25). Zusätzlich wurde die Radialfunktion für dieses eine Cluster ausgeschaltet<br />

89


(Reichweitenskalierung unendlich), so daß diese Form des RBFS eine einfache lineare Abbildung<br />

darstellt.<br />

Das 57-clusterige RBFS <strong>mit</strong> konstanten lokalen Funktionen generiert da<strong>mit</strong> ein Abbildung ähnlich einer<br />

linearen Funktion. Diese beiden Verfahren sind aber offensichtlich nicht ganz gleichzusetzen, da bei den<br />

mehr-clusterigen durch die feinere Justiermöglichkeiten der Clusteranzahl die Grenze zu overfitting<br />

besser austariert werden kann <strong>und</strong> sich ein um ca. 1% besseres Ergebnis ergibt.<br />

Die Anwendung der beiden RBFS auf die ersten 365 Tage des Testdatensatzes ist in Abbildung 74 <strong>und</strong><br />

Abbildung 75 zu sehen. Es ist zu erkennen, daß beide Verfahren auch als Zeitreihe recht ähnliche<br />

Ergebnisse liefern. Bei beiden Verfahren stimmen auch die gemessenen <strong>und</strong> die berechneten<br />

Regenereignisse stellenweise gut überein <strong>und</strong> dieses, obwohl für die Berechnung der Vorhersage nur die<br />

globale pT-Daten zur Verfügung standen. Speziell im hinteren Teil der Zeitreihe ist die Clusterung der<br />

Regentage sehr gut modelliert worden. Trotzdem findet man viele falsch getroffenen Trocken- <strong>und</strong><br />

Regentage. Ebenso scheint das System die Amplituden, speziell die hohen, nicht sehr gut abbilden zu<br />

können.<br />

25<br />

P1<br />

P2<br />

20<br />

15<br />

10<br />

5<br />

0<br />

-5<br />

6000 6050 6100 6150 6200 6250 6300 6350 6400<br />

Time [d]<br />

Abbildung 74: RBFS <strong>mit</strong> 63 konstanten lokalen Funktionen angewendet auf die ersten 365 Tage des<br />

Testdatensatzes. dünner Plot 1: gemessen, fetter Plot 2: vorhergesagt<br />

25<br />

P1<br />

P2<br />

20<br />

15<br />

Val<br />

ue<br />

10<br />

5<br />

0<br />

-5<br />

6000 6050 6100 6150 6200 6250 6300 6350 6400<br />

Time [d]<br />

Abbildung 75: RBFS <strong>mit</strong> einer affin-linearen Funktion angewendet auf die ersten 365 Tage des Testdatensatzes<br />

90


25<br />

Value-Time-Plot<br />

P1<br />

P2<br />

25<br />

Value-Time-Plot<br />

P1<br />

P2<br />

20<br />

20<br />

15<br />

15<br />

Value<br />

10<br />

Value<br />

10<br />

5<br />

5<br />

0<br />

0<br />

-5<br />

6000 6050 6100 6150 6200 6250 6300 6350 6400<br />

Time [d]<br />

-5<br />

6000 6050 6100 6150 6200 6250 6300 6350 6400<br />

Time [d]<br />

Abbildung 76: RBFS <strong>mit</strong> zwei affin-linearen<br />

Funktionen angewendet auf die ersten 365 Tage des<br />

Testdatensatzes<br />

Abbildung 77: RBFS <strong>mit</strong> vier affin-linearen<br />

Funktionen angewendet auf die ersten 365 Tage des<br />

Testdatensatzes<br />

Methode<br />

Mittlerer quadratischer Fehler<br />

des Testdatensatzes<br />

Mittlerer quadratischer Fehler<br />

des Trainingsdatensatzes<br />

Simple Mittelwertvorhersage 3.574 3.805<br />

konstante lokale Fkt., 39 Cluster (100) 3.457 3.696<br />

konstante lokale Fkt., 52 Cluster (90) 3.426 3.668<br />

konstante lokale Fkt., 57 Cluster (80) 3.421 3.664<br />

konstante lokale Fkt., 63 Cluster (60) 3.421 3.656<br />

konstante lokale Fkt., 74 Cluster (50) 3.422 3.651<br />

konstante lokale Fkt., 113 Cluster (40) 3.423 3.62<br />

lineare lokale Fkt., 1 Cluster 3.436 3.679<br />

lineare lokale Fkt., 2 Cluster 3.451 3.627<br />

lineare lokale Fkt., 3 Cluster<br />

(Alle 3 Cluster von oben, gleichzeitig gefittet)<br />

3.475 3.608<br />

Tabelle 25: Übersicht über die Ergebnisse bzgl. Clusteranzahl <strong>und</strong> Form der lokalen Funktionen. Die<br />

modellierten negativen Niederschlagswerte wurden vor der Bestimmung des Fehler auf 0 gesetzt.<br />

Außerdem ist auffällig, daß der Fehler im Testdatensatz um ca. 7% geringer als der im<br />

Trainingsdatensatz ist, was darauf schließen läßt, daß der Testdatensatz eine andere Datenverteilung<br />

oder stärkere Korrelationen <strong>mit</strong> den globalen pT-Daten besitzt <strong>und</strong> leichter vorherzusagen ist. Eine<br />

Bestimmung der Streuung beider Datensätze (Tabelle 25, Mittelwertvorhersage) zeigt, daß die Streuung<br />

des Testdatensatzes um ca. 7% geringer ist als die des Trainingsdatensatzes. Da die Streuung dem<br />

<strong>mit</strong>tleren quadratischen Fehler der Mittelwertvorhersage entspricht, sieht man außerdem, daß aus dem<br />

Datenbestand durch das aufwendige Verfahren der Radial-Basis-Funktionen ein nur ca. 4% besseres<br />

Ergebnis erzielt wird. Dieses ist erstaunlich, da die einfache konstante Mittelwertvorhersage überhaupt<br />

keine Information über den täglichen Regenverlauf enthält. In der Abbildung 74 ist aber offensichtlich<br />

eine Korrelation zwischen den beobachteten <strong>und</strong> den modulierten Regenereignissen vorhanden. Daraus<br />

muß man schließen, daß das verwendete <strong>mit</strong>tlere Quadrat der Differenzzeitreihe für diesen<br />

Zeitreihenvergleich als Maß für den Fehler ungeeignet ist. Dies wird deutlicher, wenn man sich die<br />

Verteilung der logarithmierten Regenamplituden in Abbildung 78 <strong>mit</strong> dem sehr langsamen Abfall bei<br />

91


hohen Niederschlagsmengen betrachtet. Da die vorhergesagten maximale Niederschlagsmengen ca. 5 ist<br />

(entspricht ca. 1.3 in der logarithmierten Skala), wird klar, daß der Großteil der Fehler durch die hohen<br />

Regenamplituden verursacht wird <strong>und</strong> so<strong>mit</strong> die Unterschiede bei den kleinen Amplituden verdeckt<br />

werden. Noch deutlicher ist dieses in Abbildung 79, in der die Verteilung der Fehler dargestellt ist, zu<br />

sehen.<br />

Es ist z.B. an Abbildung 74 zu erkennen, daß bei dieser Analyse offensichtlich die<br />

Niederschlagsmengen, zumindest die <strong>mit</strong> Amplituden über 3, nicht erfaßt werden. Um diese<br />

Beobachtung genauer zu quantifizieren, wird eine andere Vergleichsmethode von Zeitreihe, die<br />

Korrelation verwendet. In Abbildung 80, in der die beobachteten Amplituden gegen die modellierten<br />

aufgetragen sind, läßt sich <strong>mit</strong> dem bloßen Auge eine Korrelation im Bereich der kleinen<br />

Niederschlagsmengen vermuten. Eine lineare Regression ergibt einen Korrelationskoeffizient von<br />

0.0849±0.0047. Wenn diese Untersuchung nur auf die Regentage beschränkt wird, indem aus dem<br />

Datensatz die Tage, an denen die beobachtete Zeitreihe Trockenheit liefert, entfernt werden, sinkt der<br />

Korrelationskoeffizient auf 0.0427±0.0047. Das heißt, schon r<strong>und</strong> 50% der Korrelationen werden nur<br />

dadurch erzeugt, daß die Trockentage niedriger als die Regentage modelliert wurden. Die reine<br />

Detektion von Trockentagen <strong>und</strong> so<strong>mit</strong> natürlich auch von Nichttrockentagen scheint da<strong>mit</strong> möglich.<br />

0.52<br />

0.1<br />

0.09<br />

0.08<br />

0.07<br />

0.06<br />

0.05<br />

0.04<br />

0.03<br />

0.02<br />

0.01<br />

0<br />

0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5<br />

Abbildung 78: Histogramm der logarithmierten Regenamplitude+1:<br />

Die Einteilung der Abszisse ist so gewählt, daß der erste Balken die Tage <strong>mit</strong> der Niederschlagsmenge 0<br />

enthält. Er ist zur besseren Skalierung der Grafik von 0.52 auf 0.1 abgeschnitten worden.<br />

92


1.8<br />

1.6<br />

(Quadratischer Fehler)*Häufigkeit<br />

1.4<br />

1.2<br />

1<br />

0.8<br />

0.6<br />

0.4<br />

0.2<br />

0<br />

0 50 100 150 200 250<br />

Quadratischer Fehler<br />

Abbildung 79: Histogramm der quadratischen Fehler:<br />

Zur Berechnung dieser Grafik wurden die Differenzen zwischen gemessener <strong>und</strong> modellierter Regenzeitreihe<br />

(RBFS <strong>mit</strong> 63 konstanten lokalen Funktionen) im Testdatensatz berechnet. Diese Fehler wurden quadriert <strong>und</strong><br />

deren Verteilung in Form eines Histogramms bestimmt. Jede Häufigkeit wurde <strong>mit</strong> dem dazugehörigen Fehler<br />

multipliziert <strong>und</strong> die Summe der Balkenhöhen auf 1 normiert. Durch diese Auftragung ist zu erkennen, wo das<br />

„größte Gewicht“ der Fehler liegt: Bei den großen Fehlern <strong>und</strong> so<strong>mit</strong> bei den hohen Regenamplituden.<br />

Die Korrelation der Amplituden von r<strong>und</strong> 4% ist sehr gering. Es ist daher zu vermuten, daß die zur<br />

Verfügung stehenden Daten, die globalen pT-Werte, nicht ausreichen, um eine gute Modellierung der<br />

lokalen Amplituden zu ermöglichen. Da es sich bei dem Regenphänomen, um einen Phasenübergang<br />

handelt, erscheint dieses physikalisch plausibel. Die Kondensation des Wasser ist stark von lokalen<br />

Gegebenheiten (Kondensationskeimen etc.) abhängig <strong>und</strong> da<strong>mit</strong> nur durch globale Information nicht zu<br />

erfassen.<br />

5<br />

4<br />

x-y-Plot<br />

P1<br />

3<br />

Modulierte Regenamplitude<br />

2<br />

1<br />

0<br />

-1<br />

-2<br />

-3<br />

0 2 4 6 8 10<br />

Gemessene Regenamplitude<br />

Abbildung 80: Korrelation von modellierter Regenamplitude <strong>und</strong> beobachteter Regenamplitude.<br />

Man erkennnt: Das Modell liefert nur für wenige Regentage eine negative Amplitude. Einige Trockentage<br />

werden als negative Regenamplitude modelliert.<br />

93


7.2.3 Übergang zu Trefferquoten<br />

Es hat sich im letzen Kapitel ergeben, daß der <strong>mit</strong>tlere quadratische Fehler nicht geeignet ist, um die<br />

Vorhersage zu bewerten <strong>und</strong> die hohen Regenamplituden nicht gut moduliert werden können. Wie läßt<br />

sich trotzdem eine sinnvolle Analyse der Daten durchführen?<br />

Am wichtigsten ist es, die hohen Niederschlagsmengen in der Bewertung weniger zu wichten. Dieses<br />

läßt sich z.B. durch ein einfaches Abschneiden der hohen Werte erreichen. Es ist aber nicht eindeutig,<br />

bei welcher Schwelle dieses geschehen soll. Die Problematik dieser Schwellwerte wird in dem Kapitel<br />

7.2.5 über die Schwellwertvariation wieder aufgegriffen.<br />

Ein anderer Weg wird in einer gemeinsamen Arbeit <strong>mit</strong> Dr. G. Bürger [22] eingeschlagen. Dort wurde<br />

vorgeschlagen, die Verteilung der Regenamplituden in eine Normalverteilung zu transformieren <strong>und</strong><br />

da<strong>mit</strong> eine transformierte Fehlerfunktion zu verwenden. Auch in dieser Untersuchung zeigt sich, daß die<br />

Vorhersage der richtigen Niederschlagsmengen ein schwieriges Problem ist.<br />

Andererseits ist an den Grafiken ab Abbildung 74 zu erkennen, daß durchaus eine Ähnlichkeit zwischen<br />

Modell <strong>und</strong> Natur besteht. Um die oben genannten Probleme zu vermeiden, wird daher dazu<br />

übergegangen, reine Trefferquoten für die richtig erkannten Tage als Performanceindikator zu<br />

verwenden. Gestützt wird dieser Ansatz durch die Tatsache, daß schon 50% der Amplitudenkorrelation<br />

durch die Detektion der richtigen Trockentage erreicht wird.<br />

Es stellt sich dabei das Problem, daß die Modellzeitreihe sehr wenige wirkliche Trockentage <strong>mit</strong><br />

Amplitude exakt oder kleiner als 0, enthält. Dieses liegt daran, daß nie kleinere Regenwerte als 0 ins<br />

Netzwerk eingespeist werden <strong>und</strong> durch die nicht eindeutige Relation zwischen globalen <strong>und</strong> lokalen<br />

Daten <strong>und</strong> durch den Fit des RBFS in Form der Minimierung des <strong>mit</strong>tleren quadratischen Fehlers, nie<br />

oder nur für uncharakteristische Phasenraumpunkte (Ausreißer), Werte exakt oder kleiner als Null<br />

geliefert werden können. Es müssen daher schon Daten unterhalb einer positiven Grenze L als<br />

Trockentage definieren werden. Im Sinne einer echten Vorhersage, bei der keine Information aus der<br />

Zukunft des Prädiktors benutzt werden darf, wird diese Grenze L aus dem Trainingsdatensatz bestimmt<br />

<strong>und</strong> zwar so, daß sich hierbei maximale Treffer ergeben. Dieser gef<strong>und</strong>en Wert L wird dann auch für<br />

den Testdatensatz verwendet. Doch zuvor eine exakte Definition des Performanceindikators.<br />

Die Trefferquote TQ für eine Vorhersage ist <strong>mit</strong> T T <strong>und</strong> T R , der Anzahl der richtig modellierten Trocken<br />

T T bzw. Regentage T R , definiert als:<br />

(36) TQ T T +<br />

=<br />

Tage<br />

R<br />

Die Trefferquoten für die im letzten Abschnitt effektivsten RBFS sind in Tabelle 26 zu sehen. Beide<br />

Methoden liefern nicht nur ähnliche <strong>mit</strong>tlere quadratische Fehler wie oben bestimmt, sondern auch<br />

ähnliche Trefferquoten. Sie liegt <strong>mit</strong> ca. 66% ca. 1% über der, die am PIK <strong>mit</strong> der Expanded-<br />

Downscaling-Methode (EDS) nach [21] bestimmt wurden.<br />

94


Methode Testdatensatz Trainingsdatensatz<br />

TQ [%]<br />

Optimaler<br />

Schwellwert L<br />

TQ [%]<br />

konstante lokale Funktionen, 63 Cluster 66.145 1.6143 65.811<br />

lineare lokale Funktionen, 1 Cluster 66.065 1.77959 65.711<br />

Tabelle 26: Trefferquoten<br />

Die berechneten kontinuierlichen Regenamplituden wurden <strong>mit</strong> Schwellwert L binärisiert.<br />

7.2.4 Downscaling der binären Niederschlagsereignisse<br />

Rückblickend läßt sich die bis jetzt durchgeführte Analyse folgendermaßen zusammenfassen:<br />

Das RBFS wurde als gewöhnlicher Datenfit verwendet, indem die Beziehung zwischen den globalen<br />

Zirkulationsmuster <strong>und</strong> den Potsdamer Regenamplituden <strong>mit</strong> einer kontinuierlichen Abbildung gefittet<br />

wurde. In einem zweiten Schritt ist der kontinuierliche RBFS-Output <strong>und</strong> ebenso die Originalzeitreihe<br />

durch eine Schwellwertanwendung binärisiert <strong>und</strong> anschließend <strong>mit</strong>einander verglichen worden. In<br />

dieser Vorgehensweite steckt implizit die Annahme, daß große Regenamplituden große<br />

Regenwahrscheinlichkeiten bedeuten. Diese trifft aber wie oben schon angeführt i.a. nicht zu. Speziell<br />

für großen Amplituden erscheint diese Annahme unsinnig <strong>und</strong> beeinflußt daher in einer ungünstigen<br />

Weise die Ausbildung des RBFS.<br />

Aus diesem Gr<strong>und</strong> wird im folgenden auf die Amplitudeninformation ganz verzichtet <strong>und</strong> <strong>mit</strong> reinen<br />

Regen/Trocken-Aussagen gearbeitet. Zu diesem Zweck wird die Zeitreihen schon vor dem Einspeisen in<br />

das RBFS binärisiert, indem die Amplituden größer 0.05 (Meßgenauigkeit ist 0.1) auf 1 gesetzt werden.<br />

Nach dem Training des Netzes <strong>mit</strong> diesen Daten liefert das berechnete RBFS durch seine<br />

Interpolationseigenschaft natürlich wieder eine kontinuierliche Vorhersagezeitreihe im Bereich 0 bis 1.<br />

Diese wird nach der im vorigen Abschnitt erklärten Schwellwertmethode binärisiert.<br />

Diese Vorgehensweise entspricht einer Bayes-optimalen Klasseneinteilung, bei der eine kontinuierliche<br />

Variable (Regenamplitude) zwei Klassen (Trockenheit, Regen) zugeordnet werden soll. Der Fehler wird<br />

durch den Schwellwert minimiert, bei dem sich die Verteilungen (Abbildung 81) schneiden <strong>und</strong><br />

entspricht der Schnittfläche beider Verteilungen (schraffierte Fläche). Die Grafik dient hier nur zur<br />

Visualisierung, der optimale Schwellwert wurde wegen der geringen Auflösung des Histogramms nicht<br />

aus diesem, sondern präziser direkt aus den Daten bestimmt.<br />

In Abbildung 82 ist dargestellt, wie die Lage des Schwellwertes die Trefferquote beeinflußt. Die Wahl<br />

des Schwellwertes ist nicht sehr kritisch: Obwohl die Kurve nicht monoton ist, sind die Sprünge<br />

aufgr<strong>und</strong> des 6000 Punkte langen Datensatzes nur sehr klein im Verhältnis zur groben Form der Kurve.<br />

Außerdem ist das Maximum sehr flach, so daß eine robuste Schwellwertbestimmung möglich ist. Es<br />

ergibt sich beim Trainingsdatensatz eine Trefferquote von r<strong>und</strong> 70% bei einem Schwellwert 0.48.<br />

95


In Tabelle 27 sind die Ergebnisse für einige Netzwerkstrukturen dargestellt. Es ergibt sich ein ganz<br />

ähnliches Bild wie bei der oben durchgeführten Analyse der kontinuierlichen Zeitreihe: Die einfachen<br />

Netzwerke liefern wieder die besten Ergebnisse.<br />

Sehr deutlich zeigt sich bei der Verwendung von lokal linearen Funktionen, wie gut sich RBFS Daten<br />

anpassen können. Bei der Verwendung von 16 Clustern steigt die Trefferquote beim Trainingsdatensatz<br />

auf 76%. Durch diese genaue Anpassung an die Trainingsdaten, wird allerdings nicht mehr Information<br />

über den generellen Zusammenhang zwischen globalen Daten <strong>und</strong> lokalem Regenereignis extrahiert, da<br />

sich der Fehler des Trainingsdatensatzes vergrößert. Diese Tatsache macht den Effekt des Overfittings<br />

deutlich <strong>und</strong> zeigt, daß der Zusammenhang - so wie er in der zur Verfügung stehenden Datenbasis<br />

vorliegt - keine komplizierte Struktur hat. D. h. nicht, daß der Zusammenhang wirklich einfach sein<br />

muß, sondern daß die eventuell regulären Beziehungen der Daten durch starke Irregularitäten<br />

(Rauschen, Nichtstationärität) überlagert sind, die nur effektiv durch Mittelung <strong>mit</strong> einfachen<br />

Netzwerkstrukturen herausgefiltert werden können.<br />

0.035<br />

0.03<br />

Regentage<br />

Trockentage<br />

0.025<br />

Häufigkeit<br />

0.02<br />

0.015<br />

0.01<br />

0.005<br />

0<br />

-0.4 -0.2 0 0.2 0.4 0.6 0.8 1 1.2 1.4<br />

Modullierte Amplitude<br />

Abbildung 81: Verteilung des Outputs vom RBFS <strong>mit</strong> 61 konstanten linearen Funktionen.<br />

Die Ausgabewerte des RBFS wurden für den Trainingsdatensatz nach den bekannten (gemessenen)<br />

Regen/Trockenereignissen in zwei Mengen geteilt. Für beide Mengen wurde getrennt ein<br />

Verteilungshistogramm des Outputs bestimmt. Die Balkensumme wurde auf 1 normiert.<br />

Bei den linearen RBFS liefern zwei lokale Funktionen <strong>mit</strong> einem Fehler von 70.5% eine kleine<br />

Verbesserung um r<strong>und</strong> 1% gegenüber einer einfachen lineare Funktion. Viele konstante lokalen<br />

Funktionen liefern kein wesentlich besseres Ergebnis (71% bei 61 Clustern). Da<strong>mit</strong> wird durch die<br />

Binärisierung der Zeitreihe vor dem Fit eine relative Verbesserung der Trefferquote um r<strong>und</strong> 7%<br />

gegenüber der direkten Analyse der kontinuierlichen <strong>Zeitreihenanalyse</strong> von 66.1% erhalten.<br />

96


70<br />

Value-Time-Plot<br />

P1<br />

65<br />

Trefferquote<br />

60<br />

55<br />

50<br />

45<br />

-0.4 -0.2 0 0.2 0.4 0.6 0.8 1 1.2 1.4<br />

Schwellwert<br />

Abbildung 82: Trefferquote des Trainingsdatensatzes in Abhängigkeit vom Schwellwert der Binärisierung<br />

(RBFS <strong>mit</strong> konstanten lokalen Funktionen <strong>und</strong> 63 Cluster)<br />

Methode Testdatensatz TQ [%] Trainingsdatensatz TQ [%]<br />

konstante lokale Funktionen<br />

52 Cluster 69.90 69.17<br />

57 Cluster 70.05 69.13<br />

61 Cluster (*) 71.01 70.07<br />

63 Cluster 70.37 69.90<br />

94 Cluster 69.71 70.62<br />

128 Cluster 69.60 71.31<br />

lineare lokale Funktionen<br />

1 Cluster 69.47 69.77<br />

2 Cluster (*) 70.50 70.75<br />

4 Cluster 70.00 71.47<br />

8 Cluster 67.96 72.92<br />

16 Cluster 66.23 76.33<br />

hierarchische lineare lokale Funktionen<br />

1 + 2 Cluster 70.58 70.75<br />

2 + 4 Cluster 69.97 71.43<br />

1 + 2 + 4 Cluster 70.00 71.43<br />

Tabelle 27: Trefferquoten für verschiedene Netzwerktypen<br />

7.2.5 Schwellwertvariation<br />

Im letzten Abschnitt wurde die Trefferquote um r<strong>und</strong> 5% durch den Verzicht auf die Regenamplituden<br />

verbessert. D.h. letztendlich wurde durch die Verwendung von weniger, aber offensichtlich der<br />

entscheidenden Information, ein besseres Ergebnis erzielt. Dies bestätigt, daß über die Amplitude wenig<br />

ausgesagt werden kann. Um diesen Sachverhalt genauer zu überprüfen, wird jetzt untersucht, wie gut<br />

die verschiedenen Regenamplituden separiert werden können. Zu diesem Zweck wird die gemessene<br />

Regenzeitreihe <strong>mit</strong> höheren Schwellwerten S binärisiert, d.h. zusätzliche Regenamplituden unter dem<br />

Schwellwert S auf Null gesetzt. Dies entspricht einer Erhöhung der Anzahl der Trockentage im<br />

Datensatz, wodurch sich die Verteilung der Regen/Trocken-Ereignisse vom schwierigsten Fall der 50:50<br />

Verteilung entfernt <strong>und</strong> die Vorhersage einfacher werden müßte.<br />

Um dieses zu kompensieren <strong>und</strong> ein Kriterium für die wirklich mehr extrahierte Information zu erhalten,<br />

wird die Trefferquote auf die Schwierigkeit der Aufgaben normiert. Es wird ein Performanceindikator,<br />

97


der als „true skill statistics“ bezeichnet wird, verwendet. Bei ihm werden die Trefferquoten separat für<br />

Trockenheit <strong>und</strong> Regen betrachtet <strong>und</strong> auf die Anzahl der Trockentage N T bzw. Regentage N R normiert.<br />

T TR<br />

(37) TSS = + −1<br />

N N<br />

TSS von 0 entspricht einem zufälligem Raten im Verhältnis N<br />

eine Antikorrelation hin.<br />

Schwelle Testdatensatz Trainingsdatensatz<br />

Regenhäufigkeit TQ TSS Regenhäufigkeit TQ TSS<br />

0.05 49.15 70.37 0.408 46.95 69.9 0.395<br />

0.15 45.91 69.01 0.372 42.35 70.25 0.377<br />

0.25 43.45 68.91 0.355 39.57 70.67 0.360<br />

0.35 40.82 69.20 0.347 37.52 71.47 0.365<br />

0.45 38.91 69.02 0.319 35.55 71.82 0.336<br />

0.55 36.87 68.70 0.309 34.17 72.28 0.342<br />

0.65 35.62 68.86 0.295 32.95 72.58 0.333<br />

0.75 34.46 69.28 0.300 31.67 72.85 0.329<br />

0.85 32.92 69.66 0.274 30.52 73.25 0.305<br />

0.95 31.72 70.85 0.199 29.47 73.77 0.216<br />

1.05 30.74 71.49 0.208 28.37 74.17 0.224<br />

1.15 29.68 72.10 0.204 27.53 74.72 0.223<br />

1.25 28.73 72.81 0.190 26.85 74.85 0.196<br />

1.35 27.96 73.05 0.176 26.13 75.30 0.194<br />

1.45 27.11 73.50 0.186 25.25 75.83 0.203<br />

1.55 25.89 74.62 0.105 24.28 76.62 0.113<br />

1.65 25.25 74.93 0.097 23.63 77.05 0.107<br />

1.75 24.27 75.92 0.106 22.92 77.75 0.115<br />

1.85 23.55 76.58 0.104 22.30 78.20 0.109<br />

1.95 22.86 76.98 0.113 21.82 78.68 0.125<br />

2.05 22.15 77.93 0.087 21.25 79.12 0.093<br />

Tabelle 28: Variation der Schwelle bei der Binärisierung der Regenzeitreihe<br />

T<br />

R<br />

T<br />

: N , <strong>und</strong> negative Werte deuten auf<br />

Die Ergebnisse der Schwellwertvariation sind in Tabelle 28 zu sehen. Beim Trainingsdatensatz steigt die<br />

normale Trefferquote, da sich die Aufgabe durch das Ungleichgewicht der Regen/Trockentage<br />

vereinfacht. Die TSS hingegen sinkt fast monoton. Beim Trainingsdatensatz fällt sogar die normale<br />

Trefferquote bis zum Schwellwert 0.95. Aus diesen Ergebnissen läßt sich schließen, daß die Separation<br />

von höheren Regenamplituden schwieriger ist als die bei 0.05 -oder physikalisch interpretiert- daß die<br />

Unterschiede im globalen Wettergeschehen bei Regenwetter geringer sind, als die zwischen Trockenheit<br />

<strong>und</strong> Regen (egal ob viel oder wenig). Dieses numerisch erhaltene Ergebnis ist im Einklang <strong>mit</strong> den<br />

Erfahrungen der Meteorologen. Aus diesen Überlegungen scheint es nicht sinnvoll zu sein, weitere<br />

Untersuchungen für mehr als zwei Klassen durchzuführen.<br />

R<br />

7.2.6 Informationsgehalt der pT-Daten<br />

Es hat sich in den vorigen Untersuchungen ergeben, daß die Amplituden nur ungenügend vorhergesagt<br />

werden können, es aber durchaus möglich ist, Aussagen über die Regenwahrscheinlichkeit zu erhalten.<br />

Diese Bestimmung des lokalen Wettergeschehens erhält man, wie noch einmal hingewiesen werden muß,<br />

nur durch die Verwendung von Informationen über globale, weit entfernten gemessenen pT-Muster. Der<br />

Zusammenhang zwischen den pT-Daten <strong>und</strong> den Regenwahrscheinlichkeiten ist zwar nicht sehr<br />

kompliziert, da ein oder zwei lineare Funktionen ausreichen um gute Ergebnisse zu liefen, trotzdem aber<br />

98


ist die Tatsache, daß hier eindeutige Korrelationen der unterschiedlichen physikalischen Größen über so<br />

große räumliche Skalen vorliegen bemerkenswert.<br />

In diesem Abschnitt sollen diese Korrelationen genauer untersucht werden. Insbesondere ist es wichtig<br />

zu wissen, ob tatsächlich der komplette Informationsgehalt der globalen Daten für eine Regenvorhersage<br />

nötig ist. Um diesen Sachverhalt zu klären, werden die 41-Kanäle, die schon durch Datenkompression<br />

erhalten wurden, durch eine erneute Hauptkomponentenanalyse <strong>und</strong> Projektion auf die größten<br />

Komponenten weiter reduziert. Für die so erhaltenen Datensätze wird wie oben die binäre Trefferquote<br />

bestimmt. Um die sich eventuell ergebenen Nichtlinearitäten besser erfassen zu können, wird hier das<br />

RBFS <strong>mit</strong> 63 lokalen konstanten Funktionen benutzt.<br />

Die Ergebnisse sind in Tabelle 29 dargestellt. Die Verwendung von nur einer Komponente liefert sehr<br />

wenig Information. Es wird fast immer Trockenheit vorhergesagt <strong>und</strong> es ergibt sich die geringe<br />

Trefferquote von r<strong>und</strong> 51% bei ca. 49% Regentagen im Testdatensatz. Bei 2 Komponenten erhöht sich<br />

die Trefferquote schon auf 58% <strong>und</strong> steigt dann weiter bis sie bei 33 Komponenten 70.9% erreicht, was<br />

bis zu dieser Stelle das beste Ergebnis darstellt. Die Verwendung weiterer Komponenten bringt keine<br />

verwertbare Information mehr ins System, sondern “irritiert“ im Gegenteil sogar das RBFS <strong>und</strong><br />

verschlechtert da<strong>mit</strong> das Ergebnis.<br />

Aus diesem Gr<strong>und</strong> <strong>und</strong> der Sprünge in den Trefferquoten kann vermutet werden, daß einige<br />

Komponenten für die Regenvorhersage wichtiger sind als andere. Indem nur die wichtigen verwendet<br />

werden, könnte daher die Vorhersage verbessert werden. Allerdings ist die PCA nicht die richtige<br />

Methode, um diese Komponenten zu finden, da hier nur bzgl. der Richtungen <strong>mit</strong> den höchsten<br />

Streuungen analysiert wird. Diese Richtungen sind aber nicht unbedingt die Komponenten <strong>mit</strong> dem<br />

größten Informationsgehalt bzgl. einer guten Regenvorhersage. Daher werden die Korrelationen der 41<br />

Kanäle <strong>mit</strong> dem Regen direkt bestimmt. Dabei hat sich gezeigt, daß eine Korrelationsuntersuchtung <strong>mit</strong><br />

der binärisierten Regenzeitreihe die besten Ergebnisse liefert. In Abbildung 83, in der die Korrelationen<br />

der Größe nach sortiert aufgetragen sind, ist eine Variation von 0.185 bis -0.094 zu erkennen.<br />

Die Kanäle sind dann nach dem Absolutbetrag der Korrelation umsortiert worden. In Tabelle 30 sind<br />

die Ergebnisse zu sehen, die sich ergeben, wenn mehr <strong>und</strong> mehr Kanäle in dieser Reihenfolge benutzt<br />

werden. Es ist zu erkennen, daß schon durch den Kanal 5 eine Trefferquote von ca. 61% erreicht wird.<br />

Sie steigt dann sehr schnell bis auf 69.5% bei erst 17 Kanälen. Durch den Vergleich von Tabelle 30 <strong>mit</strong><br />

Tabelle 29 wird deutlich, daß sogar bis r<strong>und</strong> zur 30. Zeitreihe die Trefferquoten durch diese Sortierung<br />

höher liegen, also richtig nach Informationsgehalt sortiert worden ist.<br />

99


Anzahl der<br />

verwendeten<br />

Komponenten<br />

Trefferquoten<br />

für den<br />

Testdatensatz [%]<br />

Trefferquoten<br />

für den<br />

Trainingsdatensatz [%]<br />

1 51.31 53.79<br />

2 58.13 60.16<br />

3 59.27 61.16<br />

4 58.50 61.46<br />

5 59.17 61.76<br />

10 64.74 66.53<br />

15 65.43 66.77<br />

20 67.05 67.98<br />

25 67.53 67.51<br />

30 69.62 68.56<br />

31 69.67 69.36<br />

32 70.47 69.46<br />

33 70.87 69.11<br />

34 70.22 69.45<br />

35 70.71 69.46<br />

37 69.57 69.51<br />

40 70.44 69.66<br />

41 70.36 69.88<br />

Direkt ohne PCA 70.36 69.88<br />

Tabelle 29: Trefferquoten für verschiedene Hauptkomponenten<br />

0.2<br />

0.15<br />

0.1<br />

Korrelation<br />

0.05<br />

0<br />

-0.05<br />

-0.1<br />

0 5 10 15 20 25 30 35 40 45<br />

Nummer der Zeitreihe<br />

Abbildung 83: Korrelationen der binärisierten Regenzeitreihe <strong>mit</strong> den 41 pT-Zeitreihen sortiert nach fallender<br />

Korrelation. (Umsortierung nach Tabelle 30)<br />

100


Anzahl der<br />

Kanäle<br />

Zusätzlich<br />

benutzter Kanal<br />

Trefferquote<br />

(Testdatensatz)<br />

Trefferquote<br />

(Trainingsdatensatz)<br />

Clusteranzahl<br />

1 5 61.2629 62.7919 58<br />

2 2 60.9976 63.7091 56<br />

3 25 63.3324 64.3429 59<br />

4 21 63.6243 64.5931 60<br />

5 3 64.4203 65.0659 63<br />

6 12 64.9774 66.7278 64<br />

7 15 66.0653 67.1781 64<br />

8 33 67.1266 66.8446 64<br />

9 19 66.1714 67.1614 63<br />

10 36 65.8265 67.3616 64<br />

11 40 67.5511 67.7785 64<br />

12 17 67.3919 67.6951 64<br />

13 10 67.6572 67.1114 64<br />

14 29 67.2858 67.495 63<br />

15 1 68.3205 67.962 62<br />

16 6 68.294 68.1955 64<br />

17 4 69.4614 68.3456 64<br />

18 32 69.0634 68.3122 64<br />

19 14 69.3553 68.8125 64<br />

20 27 69.1695 69.3129 63<br />

21 24 69.3287 69.8299 62<br />

22 20 68.6389 69.5464 63<br />

23 41 69.0634 69.7131 63<br />

24 22 69.7267 69.2295 63<br />

25 18 69.9124 69.1294 61<br />

26 39 69.0369 69.7965 62<br />

27 8 69.0899 69.4963 63<br />

28 16 68.2144 69.0794 63<br />

29 26 69.1695 69.463 61<br />

30 23 68.692 69.4963 62<br />

31 9 68.9838 69.2795 62<br />

32 35 68.9573 69.5297 63<br />

33 31 68.9573 69.9133 62<br />

34 34 69.4349 69.7298 62<br />

35 7 69.1961 69.8299 62<br />

36 13 69.7533 69.6798 63<br />

37 38 70.0716 69.0127 62<br />

38 11 69.7002 69.7131 61<br />

39 30 69.7798 70.0634 62<br />

40 37 69.8328 70.6471 63<br />

41 28 70.3635 69.8799 63<br />

Tabelle 30:<br />

Trefferquoten bei Benutzung einer steigenden Anzahl der pT-Zeitreihen. Die globalen pT-Zeitreihen wurden<br />

nach Absolutbetrag der Korrelationen <strong>mit</strong> der binären Regenzeitreihe sortiert.<br />

7.2.7 Zeitliche Vorhersage<br />

Im vorigen Abschnitten wurde gezeigt, daß eine Korrelation zwischen dem momentan herrschenden pT-<br />

Muster <strong>und</strong> dem aktuellen Wetter in Potsdam besteht. Dieser Zusammenhang ist so stark, daß er<br />

ausgenutzt werden konnte, um das Auftreten des Regens in Potsdam <strong>mit</strong> ein Trefferquote von r<strong>und</strong> 70%<br />

zu prognostizieren. Diese räumliche Vorhersage (Downscaling) soll jetzt um die zeitliche Komponente<br />

erweitert werden. Es soll untersucht werden, ob allein aus den Wetterdaten der Vergangenheit auf die<br />

lokale Wetterentwicklung in der Zukunft geschlossen werden kann. Der Erfolg wird <strong>mit</strong> der<br />

Persistenzvorhersage verglichen, deren Ergebnisse in Tabelle 31 zu ersehen sind. Hierbei fällt die relativ<br />

hohe Trefferquote der 1-Schrittvorhersage von 64% auf, die durch die starke zeitliche Clusterung der<br />

Regen- <strong>und</strong> Trockenereignisse, speziell beim Trainingsdatensatz, verursacht wird.<br />

101


Vorhersageschritt<br />

[Tage]<br />

TQ des<br />

Testdatensatzes [%]<br />

TQ des<br />

Trainingsdatensatzes [%]<br />

1 64.5452 67.2721<br />

2 57.8738 59.0127<br />

3 54.5065 55.3557<br />

4 54.1335 53.7642<br />

5 53.7748 53.5387<br />

10 50.9259 52.3461<br />

Tabelle 31: Trefferquoten für die Persistenzvorhersage<br />

Bei der Vorhersage durch ein RBFS ergaben sich wieder für 2 lineare Funktionen die besten Ergebnisse<br />

(Tabelle 32). Für den Testdatensatz sind alle Ergebnisse besser als die der Persistenzvorhersage, wobei<br />

speziell die 3-Schrittvorhersage hierbei <strong>mit</strong> einem r<strong>und</strong> 5% besseren Ergebnis herausragt. Aber auch der<br />

hohe Wert der 1-Schrittvorhersage, der nur r<strong>und</strong> 3 % niedriger ist als die Trefferquote des reinen<br />

Downscaling, überrascht auf den ersten Blick.<br />

Physikalisch plausibel ist dieses Phänomen durchaus, da die globale Zirkulation der Vergangenheit die<br />

globale Situation der nächsten Tage bestimmt <strong>und</strong> so<strong>mit</strong> das lokale Wetter in Potsdam verursacht. Das<br />

Wetter muß gewissermaßen erst in Potsdam “ankommen“. Diese zeitliche Korrelation reicht aber<br />

offensichtlich nicht weit, da die Trefferquoten bei der 2-Schrittvorhersage schon um 4.5% abfallen.<br />

Andererseits unterscheiden sich die Trefferquoten nicht extrem von denen der Persistenz, was sich in<br />

den Ähnlichkeiten der RBFS verschiedener Vorhersageschritte widerspiegeln sollte. In den letzen Zeilen<br />

der Tabelle 32 sind deshalb RBFS für die Berechnung anderer Vorhersageschritte als trainiert benutzt<br />

wurden. Es ist zu erkennen, daß ein 0-Schritt-RBFS (reines Downscaling) sich auch für die 1-<br />

Schrittvorhersage (bzgl. des Testsets) eignet. Allerdings ist ein 1-Schritt-RBFS wesentlich schlechter für<br />

die 0-Schrittvorhersage als das reine Downscaling-RBFS geeignet.<br />

Eine Kombination der verschiedenen Vorhersagesysteme durch die Benutzung mehrerer Tage der<br />

Vergangenheit (time-delay) erbrachte für den Testdatensatz nicht wesentlich bessere Ergebnisse. So<br />

ergab sich z.B. bei der 2-Schrittvorhersage <strong>und</strong> der Verwendung von zwei vergangenen Tagen:<br />

Trainingssatz 62.79%, Testsatz 64.48%.<br />

Vorhersageschritt [Tage] Trfferquote des Testsets [%] Trefferquote des Trainingssets [%]<br />

1 67.17 66.42<br />

2 62.61 63.32<br />

3 60.34 61.44<br />

4 59.03 60.66<br />

5 55.27 60.13<br />

10 53.35 59.42<br />

0 als 1 benutzt 66.96 64.68<br />

1 als 0 benutzt 68.83 68.78<br />

1 als 2 benutzt 63.90 62.41<br />

Tabelle 32: Trefferquoten für verschiedene Vorhersageschritte aus den pT-Mustern (RBFS <strong>mit</strong> 2. linearen<br />

Funktionen)<br />

102


Die Persistenzvorhersage liefert gute Ergebnisse, daher sollte die Verwendung der Information der<br />

vergangenen lokalen Regenwerte eine weitere Verbesserung bringen.<br />

Mit dieser Idee entfernt sich die Untersuchung weiter von der reinen Form des Downscalings, in dem<br />

auch die lokalen Observablen für die Vorhersage benutzt werden. In unserem Fall wird die 41-<br />

dimensionale pT-Zeitreihe durch den binären Regenereignisvektor ergänzt. Dabei kodiert 0 wieder<br />

Trockenheit, hingegen die 4 ein Regenereignis. Durch die Wahl diese Kodierung ergaben sich die besten<br />

Trefferquoten. Der Wert der Regenkodierung beeinflußt stark die Ausführung der Clusterung <strong>und</strong> da<strong>mit</strong><br />

die Positionierung der lokalen Funktionen im Phasenraum. Es bilden sich insbesondere bei der<br />

nichtlinearen Form <strong>und</strong> der Verwendung vieler Cluster, andere Subvorhersagesyteme für die<br />

verschiedenen Phasenraumbereiche. Durch einen großen Wert für Regen wird stärker bzgl. der<br />

vergangenen Regentage oder Trockentage separiert. Die Codierung der Regenereignisse bestimmt daher<br />

die Wichtung zwischen Persistenzvorhersage <strong>und</strong> der Vorhersage aus den globalen Daten.<br />

Durch diese Benutzung der lokalen Vergangenheit verbessern sich die Trefferquoten, speziell für die<br />

kurzen Vorhersageschritte, bei denen schon die Persistenz effektiv ist, erheblich <strong>und</strong> erreichen bei der 1-<br />

Schrittvorhersage fast das reine Downscaling, wie in Tabelle 33 sehen ist.<br />

Vorhersageschritt [Tage] TQ des Testdatensatzes [%] TQ des Trainingsdatensatzes [%]<br />

1 69.639 68.60<br />

2 63.562 64.53<br />

3 59.86 61.83<br />

4 59.21 60.83<br />

5 55.11 60.23<br />

10 53.86 59.35<br />

Tabelle 33: Trefferquoten für verschiedene Vorhersageschritte aus den pT-Mustern <strong>und</strong> den vergangenen<br />

binären Regenwerten (RBFS <strong>mit</strong> 2. linearen Funktionen)<br />

7.3 Untersuchung der Maximaltemperatur<br />

7.3.1 Untersuchung des Jahresganges<br />

Der grobe Verlauf der Lufttemperaturen in Potsdam wird von den Schwankungen der<br />

Sonneneinstrahlung geprägt (Abbildung 89). Diese unterliegt einem Jahreszyklus <strong>und</strong> ermöglicht die<br />

grobe Form der Temperaturzeitreihe vor einer detaillierteren Downscaling-Untersuchung abzuschätzen.<br />

Da<strong>mit</strong> wird einerseits durch die Vereinfachung der Vorhersage das RBFS “entlastet“ 40 <strong>und</strong> andererseits<br />

die rein statistische Untersuchung durch eine physikalisch begründete Modellierung ergänzt.<br />

In der Abbildung 84, in der die gleitenden 60 Tage Mittelwerte (MA60) der Trainingszeitreihe<br />

aufgetragen sind, können die Ähnlichkeit der Jahresgänge überprüfen werden. Die Verläufe variieren<br />

über die Jahre nicht sehr stark. Der Mittelwert des Trainingsdatensatzes (Abbildung 85) kann deshalb<br />

als Grobabschätzung des Jahresganges für den Trainingsdatensatz <strong>und</strong> den Testdatensatz verwendet<br />

103


werden. Diese Schätzung liefert eine <strong>mit</strong>tlere quadratische Abweichung von der tatsächlich gemessenen<br />

Temperaturzeitreihe von 4.48 beim Testsatz <strong>und</strong> 4.43 beim Trainigssatz.<br />

30<br />

25<br />

Value-Time-Plot<br />

P1<br />

30<br />

25<br />

P1<br />

P2<br />

P2<br />

20<br />

20<br />

15<br />

15<br />

Value<br />

10<br />

10<br />

5<br />

5<br />

0<br />

0<br />

-5<br />

0 50 100 150 200 250 300 350 400<br />

Time [d]<br />

-5<br />

0 50 100 150 200 250 300 350 400<br />

Abbildung 84: Alle MA60-Jahresgänge des<br />

Trainingsdatensatzes<br />

Abbildung 85: Mittlerer Jahresgang des<br />

Trainingsdatensatzes <strong>mit</strong> Streuungen<br />

7.3.2 Downscaling<br />

Für die TMAX-Zeitreihe sind verschiedene Methoden zum Downscaling getestet worden, deren<br />

Ergebnisse in der Tabelle 34 zu ersehen sind. Die Effizienz der Jahresgangmodellierung tritt beim<br />

Vergleich der Ergebnisse sehr deutlich zu Tage: Durch diese Vorverarbeitung wird der Fehler für den<br />

Netzwerktyp <strong>mit</strong> den besten Ergebnissen (211 Cluster) noch um ca. 30% verringert.<br />

Außerdem ist zu erkennen, daß die besten Ergebnisse wieder von einfachen Netzwerktypen geliefert<br />

werden. Das Optimum liegt bei den linearen Netzwerktypen bei 3 linearen Funktionen, <strong>mit</strong> einer in der<br />

ersten Schicht <strong>und</strong> zwei in der 2. Schicht, die sukzessiv gefittet werden. Durch Verwendung von mehr<br />

linearen Clusterfunktionen oder der gleichzeitigen Parameteroptimierung über alle Schichten wird der<br />

Fehler im Trainigsdatensatz weiter verringert. Dieses geschieht sehr effektiv <strong>und</strong> spricht wieder für die<br />

Fähigkeit der RBFS sich Daten anzupassen. Es wird aber zuviel an Information extrahiert, so daß sich<br />

die Vorhersage des unabhängigen Datensatzes verschlechtert.<br />

Allerdings kann der Fehler durch eine sehr feine Clusterung (211) <strong>und</strong> die Verwendung konstanter<br />

lokaler Funktionen, d.h. eine Erhöhung der Nichtlinearität des RBFS, auch im Trainigssatz leicht<br />

verringert werden. Allerdings steuert eine weitere Erhöhung der Auflösung wieder in Richtung<br />

Overfitting.<br />

Der Fehler der sich durch die Verwendung eines RBFS <strong>mit</strong> 211 Cluster ergibt (2.7021), ist um ca. 6%<br />

geringer, als der, den eine einfache lineare Funktion liefert (2.8640). Der Fehler ist um ca. 18% kleiner,<br />

als der <strong>mit</strong> EDS [21] erreichte.<br />

40 Große Variabilität ist nur durch viele Cluster zu erreichen.<br />

104


Jahresgangmod.<br />

Verfahren:<br />

Mittlerer quadratischer Fehler<br />

Testdatensatz<br />

Trainingsdatensatz<br />

Ergebnisse vom PIK <strong>mit</strong> EDS 3.2912 3.3105<br />

Jahresgangmodullierung 4.7513 4.4307<br />

Lokale<br />

Funktionen<br />

Clusteranzahl<br />

Hierarchie<br />

ohne konstant 211 Blätter 3.2810 3.0451<br />

-MA60 konstant 128 Blätter 2.7032 2.6924<br />

-MA60 konstant 159 Blätter 2.7138 2.6544<br />

-MA60 konstant 211 Blätter 2.6900 2.5991<br />

-MA60 konstant 263 Blätter 2.7021 2.5625<br />

-MA60 konstant 422 Blätter 2.7029 2.4610<br />

-MA60 linear 1 1. Schicht 2.8640 2.9830<br />

-MA60 linear 2 2. Schicht 2.7228 2.7575<br />

-MA60 linear 4 3. Schicht 2.8089 2.6735<br />

-MA60 linear 3 1, 2. Schicht* 2.7207 2.7557<br />

-MA60 linear 5 2., 3. Schicht 2.8050 2.6670<br />

-MA60 linear 6 1, 2., 3. Schicht 2.8386 2.6061<br />

-MA60 linear 3 1 & 2. Schicht ** 2.7767 2.7121<br />

-MA60 linear 5 2 & 3. Schicht 2.8180 2.6191<br />

Tabelle 34: Mittlere quadratische Fehler der TMAX-Zeitreihe für verschiedene Verfahren.<br />

Das markierte Feld enthält den kleinsten Fehler im Testdatensatz.<br />

* 1. <strong>und</strong> 2. Schicht sukzessiv gefittet<br />

** 1. <strong>und</strong> 2. Schicht gleichzeitig gefittet<br />

35<br />

30<br />

Value-Time-Plot<br />

P1<br />

P2<br />

25<br />

20<br />

Value<br />

15<br />

10<br />

5<br />

0<br />

-5<br />

-10<br />

6000 6050 6100 6150 6200 6250 6300 6350 6400<br />

Time [d]<br />

Abbildung 86: TMAX <strong>und</strong> Vorhersage (RBFS <strong>mit</strong> 211 konstante lokale Funktionen)<br />

105


7.3.3 Informationsgehalt der pT-Daten<br />

Wie bei der Untersuchung der Regenzeitreihe wird die Relevanz der einzelnen Komponenten der pT-<br />

Reihen für die Vorhersage bestimmt. An der Abbildung 87 ist zu erkennen, daß bis zur Komponente 20<br />

ein Großteil der Information erfaßt wird, aber die folgenden Komponenten den Fehler zwar langsam<br />

aber weiter verringern, so daß für eine optimale Vorhersage alle zur Verfügung stehenden Komponenten<br />

benutzt werden sollten. Der Fehler ist bei 41 benutzen Kanälen nahe an der Konvergenz, aber einige<br />

weitere Komponenten würden doch kleine Verbesserungen erbringen. Für die Untersuchung standen<br />

aber nicht mehr Datenreihen zur Verfügung.<br />

In Abbildung 88 ist die erste Hauptkomponente zusammen <strong>mit</strong> der TMAX-Zeitreihe aufgetragen. Es ist<br />

die wesentlich größeren Abweichungen gegenüber dem RBFS-Downscaling <strong>mit</strong> allen Komponenten zu<br />

erkennen, was deutlich macht, daß das RBFS vieler Eingabekanäle verrechnet.<br />

Bei der direkten Korrelationsuntersuchung ergab sich kein so klares Bild wie bei der Regenzeitreihe. Die<br />

erste Hauptkorrelierte (Abbildung 89) liefert zwar ein besseres Ergebnis als die 1. Hauptkomponente,<br />

aber für die Verwendung der weiteren Kanäle ist aber die PCA-Sortierung die bessere.<br />

4.6<br />

4.4<br />

P1<br />

4.2<br />

4<br />

Mitll. quadratischer Fehler<br />

3.8<br />

3.6<br />

3.4<br />

3.2<br />

3<br />

2.8<br />

2.6<br />

0 5 10 15 20 25 30 35 40 45<br />

Hauptkomponente<br />

Abbildung 87: Fehler in Abhängigkeit von der Anzahl der verwendeten Hauptkomponenten<br />

106


2.5<br />

2<br />

Value-Time-Plot<br />

P1<br />

P2<br />

1.5<br />

1<br />

0.5<br />

Value<br />

0<br />

-0.5<br />

-1<br />

-1.5<br />

-2<br />

-2.5<br />

6000 6050 6100 6150 6200 6250 6300 6350 6400<br />

Time [d]<br />

Abbildung 88: TMAX <strong>und</strong> die 1. Hauptkomponente der pT-Reihen<br />

3<br />

2<br />

Value-Time-Plot<br />

P1<br />

P2<br />

1<br />

Value<br />

0<br />

-1<br />

-2<br />

-3<br />

0 50 100 150 200 250 300 350 400<br />

Time [d]<br />

Abbildung 89: Über das erste Jahr des Trainingsdatensatzes sind TMAX (dicke Linie) <strong>und</strong> die am stärksten<br />

Korrelierte Zeitreihe der globale pT-Daten aufgetragen. Die Geradenstücke sind durch lineare Interpolation<br />

wegen der hier fehlenden Datenpunkten aus den umgebenden Werten berechnet worden.<br />

7.4 Untersuchung Wasserdampfdruckes<br />

7.4.1 Untersuchung des Jahresganges<br />

Sie erfolgt analog zur Untersuchung der Maximaltemperaturen durch Subtrahieren des gleitenden<br />

Mittelwertes über 60 Tage. Diese Vorverarbeitung ist hier nicht ganz so effizient, wie man an Tabelle<br />

35 ersehen kann. Speziell beim Trainingsdatensatz ist der Unterschied gering.<br />

107


7.4.2 Downscaling<br />

Auch hier zeigen wieder die einfachen linearen RBFS die besten Ergebnisse. Ein Optimum wird <strong>mit</strong> 3<br />

linearen Funktionen <strong>und</strong> einem <strong>mit</strong>tleren quadratischen Fehler von 1.62 erreicht. Allerdings liefert hier<br />

der nichtlineare Ansatz <strong>mit</strong> 211 konstanten Funktionen das um r<strong>und</strong> 4% bessere Ergebnis von 1.56. Die<br />

Unterschiede der beiden Verfahren sind exemplarisch durch den Vergleich von Abbildung 90 <strong>mit</strong><br />

Abbildung 91 zu erkennen. Nichtlineare RBFS scheinen einige Extremausschläge (große Abweichungen<br />

vom Jahresgang) besser zu erfassen.<br />

Der Fehler der sich durch die Verwendung eines RBFS <strong>mit</strong> 211 Cluster ergibt (1.5594), ist um ca. 5%<br />

geringer, als der, den eine einfache lineare Funktion liefert (1.64). Der Fehler ist um ca. 12% kleiner, als<br />

die <strong>mit</strong> EDS erreichte.<br />

20<br />

18<br />

Value-Time-Plot<br />

P1<br />

P2<br />

16<br />

14<br />

Value<br />

12<br />

10<br />

8<br />

6<br />

4<br />

6000 6050 6100 6150 6200<br />

Time [d]<br />

Abbildung 90: HPR beobachtet (fett) & Vorhersage <strong>mit</strong> 211 konstanten RBF.<br />

20<br />

18<br />

Value-Time-Plot<br />

P1<br />

P2<br />

16<br />

14<br />

Value<br />

12<br />

10<br />

8<br />

6<br />

4<br />

6000 6050 6100 6150 6200<br />

Time [d]<br />

Abbildung 91: HPR beobachtet (fett) <strong>und</strong> Vorhersage <strong>mit</strong> 2 linearen Funktionen<br />

108


Jahresgang<br />

Verfahren<br />

Mittlerer quadratischer Fehler<br />

Testdatensatz<br />

Trainingsdatensatz<br />

Ergebnisse vom PIK <strong>mit</strong> EDS 1.779 1.705<br />

Lokale<br />

Funktionen<br />

RFS (Probit) 1.666 1.609<br />

Nur Jahresgang 2.2047 2.1520<br />

Clusteranzahl<br />

Hierarchie<br />

ohne konstant 211 Blätter 1.5859 1.3918<br />

-MA60 konstant 94 Blätter 1.5789 1.4767<br />

-MA60 konstant 115 Blätter 1.5623 1.4539<br />

-MA60 konstant 124 Blätter 1.5646 1.4410<br />

-MA60 konstant 128 Blätter 1.5678 1.4380<br />

-MA60 konstant 159 Blätter 1.5706 1.4246<br />

-MA60 konstant 211 Blätter 1.5594 1.4080<br />

-MA60 konstant 263 Blätter 1.5704 1.3804<br />

-MA60 konstant 422 Blätter 1.5864 1.3312<br />

-MA60 konstant 211 alle global 1.5865 1.2215<br />

-MA60 linear 1 1. Schicht 1.6443 1.6003<br />

-MA60 linear 2 2. Schicht 1.6415 1.4840<br />

-MA60 linear 4 3. Schicht 1.8384 1.4949<br />

-MA60 linear 3 1, 2. Schicht* 1.6254 1.4837<br />

-MA60 linear 5 2., 3. Schicht 1.6418 1.4391<br />

-MA60 linear 6 1, 2., 3. Schicht 1.6425 1.4393<br />

-MA60 linear 3 1 & 2. Schicht ** 1.6361 14636<br />

-MA60 linear 5 2 & 3. Schicht 1.6766 1.4067<br />

-MA60 linear 5 1&2&3. Schicht 1.6862 1.3955<br />

Tabelle 35: Mittlere quadratische Fehler der HPR-Zeitreihe für verschiedene Verfahren<br />

Das markierte Feld enthält den kleinsten Fehler im Testdatensatz.<br />

* 1. <strong>und</strong> 2. Schicht sukzessiv gefittet<br />

** 1. <strong>und</strong> 2. Schicht gleichzeitig gefittet<br />

7.4.3 Zeitliche Vorhersage<br />

Die Wasserdamfdruckzeitreihe soll zeitlich vorhergesagt werden. Dabei wird wieder von der<br />

Vormodellierung des Jahresganges ausgegangen, da diese, bei dem reinen Downscaling gute Resultate<br />

lieferte.<br />

In der Tabelle 36 sind die Ergebnisse für verschieden Verfahren zusammengefaßt. Verglichen wird <strong>mit</strong><br />

der Persistenzvorhersage. Ab dem zweiten Vorhersageschritt ist diese allerdings durch die starken<br />

109


Mittlerer quadratischer Fehler<br />

des Testdatensatzes<br />

Mittlerer quadratischer Fehler<br />

des Trainingsdatensatzes<br />

Fluktuationen dieser Observablen schlechter ist als die reine Jahresgangmodullierung, so das hier<strong>mit</strong><br />

verglichen werden muß.<br />

Bei den lineare RBFS zeigen sich bei der Verwendung von 2 linearen lokalen Funktionen die besten<br />

Ergebnisse. Sie liefern ab dem 2. Vorhersageschritt wesentlich bessere Resultate als die<br />

Persistenzvorhersage. Durch die Verwendung sehr vieler konstanter lokaler Funktionen (422) läßt sich<br />

auch bei der 1-Schrittvorhersage die Persistenz übertreffen. Bei allen untersuchten Vorhersageschritten,<br />

ergeben sich bessere Ergebnisse als die Jahresgangsabschätzung liefert.<br />

In der vierten Fehlerspalte der Tabelle 36 sind für die Vorhersage auch die vergangenen lokalen HPR-<br />

Daten aus Potsdam benutzt worden. Der Fehler verringert sich dadurch speziell für die kleine<br />

Vorhersageschritte (1 <strong>und</strong> 2) erheblich <strong>und</strong> ist wesentlich kleiner als der der Persistenzvorhersage. D.h.,<br />

gerade die Kombination der lokalen Daten (ermöglicht Persistenz) <strong>und</strong> der globalen Daten (liefert<br />

dynamische Zusammenhänge) <strong>und</strong> die Ausnutzung deren Korrelationen liefert eine viel bessere<br />

Prädiktionsbasis als diese Daten für sich alleine. Dieser Vorteil wird speziell beim Vorhersageschritt 1<br />

deutlich (Abbildung 92).<br />

Bei den größeren Vorhersageschritten gleichen sich die drei Verfahren an, das RBFS geht fast in eine<br />

Null-Abbildung über <strong>und</strong> die Vorhersage mündet in einer Jahresgangsmodullierung <strong>mit</strong> kleinen<br />

Ausschlägen, die oft in die falsche Richtung zeigen (Abbildung 93).<br />

Vorhersage<br />

-schritt<br />

Persistenzvorhersage<br />

RBFS <strong>mit</strong><br />

2 linearen.<br />

Funktionen<br />

RBFS <strong>mit</strong><br />

konst. Fkt.<br />

(Clusteranzahl)<br />

RBFS <strong>mit</strong> konst.<br />

Funktionen *<br />

(Clusteranzahl)<br />

Persistenzvorhersage<br />

RBFS <strong>mit</strong><br />

2 linearen<br />

Funktionen<br />

RBFS <strong>mit</strong><br />

konst. Fkt.<br />

(Clusteranzahl)<br />

RBFS <strong>mit</strong> konst.<br />

Funktionen *<br />

(Clusteranzahl)<br />

[Tage]<br />

1 1.7411 1.80 1.72 (422) 1.48 (422) 1.60 1.64 1.46 (422) 1.25 (422)<br />

2 2.34 1.93 1.90 (422) 1.84 (263) 2.22 1.80 1.63 (422) 1.66 (263)<br />

3 2.57 2.04 2.02 (94) 2.00 (211) 2.49 1.91 1.91 (94) 1.83 (211)<br />

4 2.68 2.09 2.08 (94) 2.06 (94) 2.65 1.97 1.97 (94) 1.96 (94)<br />

5 2.76 2.13 2.13 (94) 2.11 (63) 2.74 2.01 2.01 (94) 2.03(63)<br />

Tabelle 36: Mittlerer quadratischer Fehler der HPR-Vorhersage für verschiedene Vorhersageschritte <strong>und</strong><br />

Verfahren<br />

Bei allen Verfahren wurde aus dem Trainingsdatensatz der Jahresgang abgeschätzt. Ausgehend von dieser<br />

Vormodellierung wurden nur die Differenzen zum Jahresgang trainiert. Die Persistenzvorhersage bezieht sich<br />

auch auf diese Differenzen. Der Fehler ist aber für Differenzen der tatsächlichen Zeitreihen inclusive<br />

Jahresgang bestimmt worden. Die Jahresgangsabschätzung ergibt einen Fehler von 2.20 beim Test- bzw. 2.15<br />

beim Trainingsdatensatz für die 0-Schrittvorhersage. Die Verwendung dieser Abschätzung als die 1-5-<br />

Schrittvorhersage liefert annähernd den gleichen Fehler.<br />

* Hier wurden zusätzlich die lokalen HPR-Werte für die Vorhersage benutzt.<br />

110


20<br />

18<br />

Value-Time-Plot<br />

P1<br />

P2<br />

16<br />

14<br />

HPR<br />

12<br />

10<br />

8<br />

6<br />

4<br />

6000 6050 6100 6150 6200<br />

Time [d]<br />

Abbildung 92: HPR beobachtet (fett) <strong>und</strong> die 1-Schrittvorhersage unter Benutzung der vergangenen pT-Daten<br />

<strong>und</strong> dem vergangenen HPR-Wert <strong>mit</strong> 422 konstanten lokalen Funktionen.<br />

20<br />

18<br />

Value-Time-Plot<br />

P1<br />

P2<br />

16<br />

14<br />

HPR<br />

12<br />

10<br />

8<br />

6<br />

4<br />

6000 6050 6100 6150 6200<br />

Time [d]<br />

Abbildung 93: HPR beobachtet (fett) <strong>und</strong> 5-Schrittvorhersage unter Benutzung der vergangenen pT-Daten <strong>und</strong><br />

dem vergangenen HPR-Wert <strong>mit</strong> 63 konstanten lokalen Funktionen. Der <strong>mit</strong>tlere quadratische Fehler von 2.11<br />

liegt nahe den dem der Jahresgangmodullierung von 2.20.<br />

111


7.5 Ergebnisse <strong>und</strong> Diskussion<br />

Untersuchung des Niederschlages:<br />

• Das Downscaling der Amplituden ist fast nicht möglich.<br />

• Die Bestimmung der Regen/Trockenereignisse aus der kontinuierlichen Regenzeitreihe liefert <strong>mit</strong><br />

einer Trefferquoten von r<strong>und</strong> 66% ein um 1% besseres Ergebnis als das vom PIK <strong>mit</strong> EDS<br />

bestimmte.<br />

• Das Downscaling der reinen Regen/Trockenereignisse erreicht eine Trefferquote von 70%.<br />

• Nichtlineare Funktionen liefern nicht wesentlich bessere Ergebnisse als eine lineare Funktionen.<br />

• R<strong>und</strong> 20, der <strong>mit</strong> dem Regen stark korrelierten globalen Zeitreihen, enthalten ausreichende<br />

Information für das Downscaling.<br />

• Die zeitliche Vorhersage unter Verwendung der globalen Daten liefert bessere Ergebnisse als die<br />

Persistenzvorhersage.<br />

• Die 1-Schrittvorhersage unter Mitbenutzung der lokalen Regenvergangenheit erreicht fast die<br />

Ergebnisse des Downscalings.<br />

• Die zeitliche Vorhersage wird durch die Verwendung von globalen Daten, die länger als einen Tag<br />

zurückliegen, nicht verbessert.<br />

Untersuchung der Maximaltemperatur:<br />

• Durch nichtlineare Funktionen läßt sich das Downscalingergebnis um r<strong>und</strong> 6 % verbessern.<br />

• Die Ergebnisse sind um r<strong>und</strong> 18% besser, als die die <strong>mit</strong> EDS erreicht wurden.<br />

• Alle 41 Hauptkomponenten enthalten für das Downscaling wichtige Information. Die Zeitreihen <strong>mit</strong><br />

den größten Varianzen sind am wichtigsten.<br />

Untersuchung des Wasserdampdruckes:<br />

• Durch nichtlineare Funktionen läßt sich das Downscalingergebnis um r<strong>und</strong> 5 % verbessern.<br />

• Die Ergebnisse sind um r<strong>und</strong> 12% besser, als die die <strong>mit</strong> EDS erreicht wurden.<br />

• Die zeitliche Vorhersage des RBFS unter Verwendung der globalen Daten ist ab dem zweiten Tag<br />

besser als die Persistenzvorhersage.<br />

• Die zeitliche 1-Schrittvorhersage unter Mitbenutzung der lokalen Regenvergangenheit ist um ca.<br />

34% besser als die Persistenzvorhersage.<br />

112


8 Zusammenfassung<br />

In dieser Arbeit wurde <strong>mit</strong> statistischen Methoden die Dynamik von vier natürlichen dynamischen<br />

<strong>Systeme</strong>n durch die Auswertung ihrer beobachtbaren Systemgrößen untersucht. Die in dieser Arbeit<br />

verwendeten Observablen stellen nur einen Teil der am ganzen System beteiligten Größen dar, sie<br />

bildeten jedoch die Basis für die statistische Analyse, wodurch sich die Qualität der Daten 41 wesentlich<br />

auf die Ergebnisse auswirkt. Dieses zeigt sich darin, daß bereits bei dem Einsatz einfacher Methoden die<br />

Grenze der Auswertung erreicht war, da die Definition komplexerer Zusammenhänge nur dazu führte,<br />

daß die Trainingsdaten besser approximiert wurden (vgl. Kap. 6 zum Peruansiche Auftriebsgebiet <strong>und</strong><br />

Kap. 7 zur Analyse der Wetterdaten). Es ist daher nicht zu erwarten, daß <strong>mit</strong> rein statistischen<br />

Methoden wesentlich bessere Ergebnisse zu erreichen sind.<br />

Bei der Untersuchung des Kirchroder Bohrkernes (Kap. 5) wurden Frequenzen, die <strong>mit</strong> den typischen<br />

Milankovitch-Frequenzen übereinstimmen, gef<strong>und</strong>en. Eine genauere Bewertung der Ergebnisse war<br />

nicht möglich, da die Milankovitch-Frequenzen schwanken <strong>und</strong> nicht bekannt ist, welche exakten<br />

Frequenzen zu der Zeit in der der untersuchten Bohrkernabschnitt entstand, vorlagen.<br />

Die detaillierten Ergebnisse der einzelnen Untersuchungen sind in den einzelnen Kapiteln nachzulesen.<br />

Die Gemeinsamkeiten <strong>und</strong> die Unterschiede der vier Analysen lassen sich wie folgt beschreiben:<br />

A: Bewertung des Datenumfangs für die einzelnen Untersuchungen:<br />

1. Der Datenbestand für die Staubanalyse kann um r<strong>und</strong> ca. 50% reduziert werden. Mit der Analyse<br />

von 20 Elementen lassen sich Ergebnisse erreichen, die denen <strong>mit</strong> 41 Elementen entsprechen.<br />

2. Der Datenbestand des Kirchroder Bohrkernes ist bzgl. seines Umfanges <strong>und</strong> seiner Qualität<br />

ausreichend um die Milankovitch-Zyklen zu finden. Durch die Einschränkung der Untersuchung auf<br />

das Tiefenintervall [-100..-40] m, das in der Arbeit von V.E. Rachold bearbeitet wurde, erhält man<br />

einen Abschnitt <strong>mit</strong> konstanter Sedimentationsrate <strong>und</strong> so<strong>mit</strong> die notwendige Bedingung für eine<br />

Frequenzanalyse. Eine Erweiterung der Untersuchung auf das Tiefenintervall [-150..-43] lieferte<br />

ähnliche Frequenzen, so das daraus geschlossen werden kann, das auch in dem erweiterten Intervall<br />

konstante Sedimentation herrschte.<br />

3. Der Datenbestand für das peruanische Auftriebsgebiet, ist für eine statistische Analyse nicht<br />

ausreichend. Er ist nicht Mittelwert-, Varianz- <strong>und</strong> Korrelationsstationär. Mit verschieden Filtern<br />

lassen sich zwar in der Zeitreihe einige wenige regelmäßige Strukturen erkennen, diese treten aber<br />

zu selten auf, um sie statistisch auswerten zu können. Durch den Phasenübergang des Biosystems in<br />

41 genügend großer Datenumfang, große Korrelationen in den Daten, geringer Rauschanteil, Stationärität der Zeitreihen<br />

113


den Jahren 1972/73 liegen außerdem vor <strong>und</strong> nach diesem Ereignis zwei voneinander abweichenden<br />

Datensätze vor.<br />

4. Für die Downscalinguntersuchung standen Daten von täglichen Werten über 27 Jahre zur<br />

Verfügung. Für das Downscaling der Regenereignisse genügen nur 20 der 41 pT-Zeitreihen. Für die<br />

anderen untersuchten Observablen ergaben sich <strong>mit</strong> 41 Zeitreihen die besten Resultate. Noch mehr<br />

Zeitreihen könnten eventuell die Ergebnisse verbessern.<br />

In der zeitlichen 1-Tagesvorhersage, kann diese hier durchgeführte Untersuchung<br />

(Regentrefferquote von 70%) nicht <strong>mit</strong> den Vorhersagen der Meteorologen (Regentrefferquote von<br />

90%) konkurrieren. Diese hohen Trefferquoten werden von den Meteorologen allerdings <strong>mit</strong> einer<br />

anderen Datenbasis erreicht. Es werden z.B. aus Satellitenbildern die Bewölkungsfelder ausgewertet<br />

<strong>und</strong> viele andere aktuelle meteorologische Größen von Wetterstationen benutzt. Der hier benutzte<br />

Datensatz enthielt dagegen lediglich (komprimierte) Druck- <strong>und</strong> Temperaturwerte, die aus einem<br />

Modell gefittet wurden.<br />

B. Korrelationen, Hauptkomponenten, Kompression in den einzelnen Untersuchungen<br />

1. Bei der Staubanalyse wurde versucht, Komponenten zu entkorrelieren, d.h. die Daten in eine Basis<br />

zu transformieren, in der sie möglichst orthogonal zueinander stehen. Außerdem wurden fast<br />

parallele Vektoren zusammengefaßt. Die PCA diente dazu, die Lösung robuster gegenüber<br />

Meßfehlern zu machen. Korrelationsuntersuchungen der Stoffe oder der Elemente untereinander<br />

spiegeln die bekannten chemischen Zusammenhänge wieder.<br />

2. Mit der Projektion von 7 chemischen Komponenten des Kirchrodebohrkernes auf die erste<br />

Haupkomponente wurden bessere Ergebnisse bei der Detektion der Milankovitch-Zyklen erreicht.<br />

Allerdings lieferte auch alleine die TOC-Zeitreihe (Indikator für die biologische Aktivität) gute<br />

Übereinstimmungen <strong>mit</strong> den Milankovitch-Zyklen.<br />

3. Die Korrelationsuntersuchung der Tierbestände von der peruanischen Küste spiegelt die<br />

biologischen Zusammenhänge teilweise wieder. Diese Korrelationen konnten jedoch nicht genutzt<br />

werden, um die Vorhersage zu verbessern, da die anderen Zeitreihen ebenso wie die Anchoveta-<br />

Zeitreihe nicht stationär ist.<br />

4. Für die Downscaling-Untersuchung lagen komprimierte Daten vor. Eine weitere Kompression<br />

verschlechterte das Ergebnis. Bei der Regenvorhersage ergaben die ersten 30 Hauptkomponenten<br />

schon Trefferquoten von 69%. Die 20 Hauptkorrelierten lieferten allerdings auch schon 69%<br />

Treffer. Die Verwendung aller Komponenten erhöhte die Trefferquote nur um ein 1%.<br />

114


C. Beurteilung der Methoden<br />

1. Bei der Staubanalyse erbrachte die aufwendige Transformation der Daten <strong>und</strong> die des LGS eine<br />

Robustheit der Lösung gegenüber Meßfehlern.<br />

2. Bei der Bestimmung der Milankovitch-Zyklen stellte sich die Frequenzbestimmung nach der<br />

Maximum-Entropie-Methode als das beste Verfahren heraus.<br />

3. Bei der Analyse der peruanischen Daten wurden sehr viele Versuche unternommen um gute<br />

Vorhersagen zu erreichen. Verbesserte Filter <strong>und</strong> große RBFS lieferten jedoch immer nur bessere<br />

Ergebnisse im Trainingsdatensatz.<br />

4. Beim Downscaling der Regenereignisse ergab die nichtlineare Modellierung nicht wesentlich bessere<br />

Ergebnisse als die lineare Modellierung. Die Modellierung des Jahresganges war bei der<br />

Untersuchung der Maximaltemperatur <strong>und</strong> dem Wasserdampfdruck effektiv. Bei der<br />

Maximaltemperatur- <strong>und</strong> der Wasserdampfdruckuntersuchung ergaben sich r<strong>und</strong> 5% bessere<br />

Ergebnisse durch nichtlineare Methoden.<br />

Die Ergebnisse lassen sich wie folgt zusammenfassen:<br />

1. Die Zusammensetzung der Stäube ist in Tabelle 17 nachzulesen. Es fällt auf, daß r<strong>und</strong> 50% Prozent<br />

der Luftstäube vom Autoverkehr verursacht werden. Die Ergebnisse für Bremsabrieb <strong>und</strong><br />

Benzinfeststoffemission sind nicht eindeutig. Es ergeben sich unterschiedliche Konzentrationen bei<br />

der Analyse <strong>mit</strong> <strong>und</strong> ohne Stoffkomposition.<br />

2. Die Milankovitch-Zyklen sind bis auf den 400-ka-Zyklus sehr gut detektiert worden. Es ist<br />

anzunehmen, daß auch im erweiterten Tiefenintervall von -150 m bis -43 m konstante<br />

Sedimenationsrate herrschte.<br />

3. Die Vorhersage des Ökosystems Peruanisches Auftriebsgebiet ist nicht gelungen. Durch die<br />

Anwendung eines Filters lassen sich jedoch wiederkehrenden Strukturen <strong>mit</strong> einer Periode von 2<br />

Jahren finden, die sich sogar im hinteren Teil der Zeitreihe nach dem El Nino-Ereignis wiederholen.<br />

Zur Bearbeitung dieses Problems müssen entweder mehr Daten zur Verfügung stehen oder das<br />

Modell muß um biologisches Wissen erweitert werden.<br />

4. Das Downscaling der Regenereignisse liefert ein r<strong>und</strong> 5% besseres Ergebnis, als das <strong>mit</strong> EDS<br />

bestimmte. Die Verwendung des RBFS liefert für die Maximaltemperatur- <strong>und</strong><br />

Wasserdampfdruckuntersuchung bessere Ergebnisse als das Downscaling <strong>mit</strong> einer einfachen<br />

linearen Funktion. Diese Ergebnisse sind wesentlich besser als die, welche <strong>mit</strong> EDS bestimmt<br />

wurden.<br />

Die Vorhersage der Regenereignisse <strong>und</strong> des Wasserdampfdruckes sind insbesondere für kleine<br />

Vorhersageschritte wesentlich besser als die Persistenzvorhersage.<br />

115


9 Anhang<br />

9.1 Arbeiten <strong>mit</strong> „Data-Stream-Network“<br />

In diesem Abschnitt wird an drei Anwendungsbeispielen der Umgang <strong>mit</strong> dem Programm <strong>und</strong> einigen<br />

Algorithmen erklärt. Die Menübefehle sind durch folgenden Schriftstil hervorgehoben: 0HQ SXQNW<br />

Beispiel 1: Sonnenfleckendaten<br />

1. Start<br />

In Abhängigkeit von der Konfiguration sind nach dem Start des Programmes 1-3 Fenster zu<br />

sehen. Das Script- <strong>und</strong> das Debugfenster benötigen Sie jetzt noch nicht. Mit :LQGRZ'HEXJ bzw.<br />

:LQGRZ6FULSW lassen sie sich entfernen (Fenster bitte nicht <strong>mit</strong> dem Windowmanager schließen).<br />

Diese Einstellungen sowie Fenstergröße <strong>und</strong> -position können Sie für den nächsten<br />

Programmstart <strong>mit</strong> 2SWLRQV6DYH *HRPHWU\ speichern.<br />

2. Einfügen eines Algorithmus<br />

Wählen Sie /RDG7LPVHULH. Durch ein Klicken <strong>mit</strong> der Maus auf die Arbeitsfläche werden zwei<br />

Icons eingefügt. Das große stellt den Zeitreihenlade-Algorithmus <strong>und</strong> das kleine die Zeitreihe<br />

dar. Sie können die Icons <strong>mit</strong> der Maus nach der üblichen tag-move-and-drop-Methode beliebig<br />

auf dem Desktop anordnen.<br />

3. Laden einer Zeitreihe<br />

Jeder Algorithmus besitzt Parameter, die eingestellt werden können. Für den Zeitreihenlade-<br />

Algorithmus muß der Dateiname angegeben werden. Klicken Sie <strong>mit</strong> der rechen Maustaste auf<br />

das Icon <strong>und</strong> stellen Sie in der Dialogbox den Dateinamen „tsa/data/sunspot/sonne.ts“ ein.<br />

Durch einen Doppeklick <strong>mit</strong> der Maus auf eines der beiden Icons wird die Datei symbolisch von<br />

der Festplatte in das kleine Zeitreihen-Icon geladen. Sie erkennen dieses daran, daß sich die<br />

Schattenfarben des Icons zu grün verändert.<br />

4. Löschen von Dateninhalten<br />

Markieren sie den Datenknoten <strong>und</strong> drücken Sie auf die Space-Taste. Die Zeitreihe wird<br />

gelöscht <strong>und</strong> der Schatten färbt sich grau. Dieser Schritt ist normalerweise nicht nötig. Nur<br />

wenn Sie das Netzwerk speichern wollen <strong>und</strong> z.B. zum Transport die Dateigröße verringern<br />

wollen ist er sinnvoll. Aktualisieren Sie den Datenknoten wieder <strong>mit</strong> einem Doppelklick.<br />

5. Standardgrafik<br />

Wenn Sie den Datenknoten markieren <strong>und</strong> 1RGH*UDSKLFV wählen, wird ein Grafikfenster <strong>mit</strong> der<br />

Darstellung der Zeitreihe geöffnet: Sie erkennen die periodischen Strukturen der Zeitreihe.<br />

6. Verknüpfen von Algorithmen<br />

Sie möchten jetzt das Frequenzspektrum in der Zeitreihe untersuchen. Fügen Sie dazu den<br />

116


Algorithmus )UHTXHQF\))7 ein. Schieben Sie den Input-Datenknoten (auf der linken Seite) auf die<br />

Zeitreihe des anderen Algorithmus. Die Datenknoten werden dadurch <strong>mit</strong>einander verb<strong>und</strong>en.<br />

7. Frequenzanalyse<br />

Wenn Sie jetzt auf auf den Ausgabeknoten der FFT doppelklicken, wird die Berechnung<br />

gestartet. Drücken Sie die Taste „g“ als Abkürzung für 1RGH*UDSKLFV <strong>und</strong> das Leistungsspektrum<br />

der Sonnenfleckenzeitreihe wird dargestellt. Für viele Menübefehle existieren Shortcuts in Form<br />

von Buttons am linken Fensterrand oder Tastaturkürzel. Die Bedeutung der Buttons wird am<br />

unteren Fensterrand angezeigt, wenn Sie <strong>mit</strong> der Maus auf den Button zeigen. Die<br />

Tastaturkürzel sind in den Menüs zu sehen.<br />

8. Plotalgorithmus des Frequenzspektrums<br />

Fügen Sie *UDSKLFV)RXULHUVSHF ein <strong>und</strong> verbinden Sie die beiden Fourierspektren. Mit dem neuen<br />

Algorithmus können Sie die grafische Darstellung des Spektrums genau an Ihre Bedürfnisse<br />

anpassen. Durch ein Klicken <strong>mit</strong> der rechen Maustaste auf den Plotalgorithmus wird eine<br />

Dialogbox geöffnet in der Sie die Parameter einstellen können. Durch den Hilfeknopf werden<br />

Einstellungsmöglichkeiten erklärt.<br />

Stellen Sie z.B. yLogsScale=0 <strong>und</strong> Powerplot=0 ein. Schließen Sie die Dialogbox <strong>mit</strong> OK ab<br />

(oder Taste Return) <strong>und</strong> doppelklicken Sie auf das Icon (oder Taste Return) <strong>und</strong> Sie erhalten<br />

eine Grafik des Spektrums <strong>mit</strong> Real- <strong>und</strong> Imaginärdarstellung.<br />

9. Inverse FFT<br />

Fügen Sie )UHTXHQF\))7A ein <strong>und</strong> verbinden Sie die Spektren-Icons.<br />

10. Plotalgorithmus einer Zeitreihe<br />

Sie wollen jetzt die originale Zeitreihe <strong>und</strong> die rücktransformierte <strong>mit</strong>einander vergleichen.<br />

Fügen Sie *UDSKLFV7LPHVHULH ein <strong>und</strong> verbinden Sie die originale Zeitreihe <strong>mit</strong> der Inputzeitreihe<br />

des Plotalgorithmus. Der Plotalgorithmus arbeitet <strong>mit</strong> einer einstellbaren Anzahl von<br />

Eingabedatenknoten. Markieren Sie ihn <strong>und</strong> wählen Sie 1RGH$GG ,QSXWGDWDQRGH (oder Taste Insert).<br />

Der Algorithmus enthält ein zusätzliches Input-Icon, das Sie jetzt <strong>mit</strong> der rücktransformierten<br />

Zeitreihe verbinden sollten. Durch einen Doppelklick auf den Plotalgorithmus werden beide<br />

Zeitreihen grafisch ausgegeben. Sie liegen übereinander, so daß sie nur eine Kurve erkennen.<br />

Um Sie zu unterscheiden, können Sie im Plotalgorithmus Format=0 2 setzen, wodurch die<br />

zweite Zeitreihe im Stil „Linien <strong>mit</strong> Punkten“ gedruckt wird. Diese Formatvariable ist ein<br />

Integerarray aus dem die Elemente zyklisch gewählt werden. Falls mehr Zeitreihen geplottet<br />

werden als Formate angegeben sind wird wieder <strong>mit</strong> dem ersten Arrayelement begonnen. Fast<br />

alle Stilformate werden zyklisch benutzt. (Æ Hilfetext)<br />

11. Trennen von Verbindungen<br />

Markieren Sie die Verbindung zwischen dem FFT^-1- <strong>und</strong> seinem Input-Icon. Drücken Sie die<br />

117


Delete-Taste. Die Verbindung wird gelöscht <strong>und</strong> der Algorithmus wieder <strong>mit</strong> einen Input-Icon<br />

versehen.<br />

12. Bandfilter<br />

Fügen Sie )UHTXHQF\%DQGILOWHU ein <strong>und</strong> bauen Sie diesen Algorithmus zwischen die erzeuge Lücke<br />

im Datenfluß ein. Falls zu wenig Platz ist, können Sie mehre Icons gleichzeitig verschieben,<br />

indem Sie sie <strong>mit</strong> einen Fangrechteck markieren (linke Maustaste auf leere Stelle des Desktops<br />

<strong>und</strong> Maus bewegen). Stellen Sie im Filter MaxFreq=0.05 <strong>und</strong> schauen Sie sich <strong>mit</strong><br />

Zeitreihenplotalgorithmus das Ergebnis an.<br />

13. Speichern des Netzes<br />

Durch )LOH6DYH DV können Sie das Netz speichern falls es noch keinen Dateinamen hat, durch<br />

)LOH6DYH $OO im anderen Fall. Geben Sie bitte immer einen Datenamen <strong>mit</strong> der Endung „.net“ ein.<br />

Beispiel 2: Phasenraumplot der Henon-Abbildung<br />

1. Neue Datei anlegen<br />

Mit )LOH1HZ können Sie den Desktop vollständig leeren.<br />

2. Erzeugung der Henon-Zeitreihe<br />

Fügen Sie *HQHUDWH+HQRQ ein <strong>und</strong> schauen Sie sich die Zeitreihe an. Der Algorithmus generiert in<br />

der Standardeinstellung eine 1-dimensionale Zeitreihe.<br />

3. Timedelay<br />

Fügen Sie 3KDVHVSDFH7LPHGHOD\ ein <strong>und</strong> verbinden Sie die Zeitreihen. Aktualisieren Sie den letzen<br />

Datenknoten <strong>und</strong> schauen Sie sich die grafische Ausgabe an. Sie sehen zwei Zeitreihen, die um<br />

einen Zeitschritt verschoben sind. Durch die Parameter des Timedelay-Algorithmus können<br />

viele Varianten der Timedelay-Methode eingestellt werden.<br />

4. Phasenraumplot<br />

Verbinden Sie die 2-dimensionale Zeitreihe <strong>mit</strong> einem Zeitreihenplotalgorithmus <strong>und</strong> stellen Sie<br />

dort ein:<br />

GeneralStyle 2 x(t)-y(t)-Plot (statt x(t)-Plot)<br />

xTimeser 1<br />

Die Daten für die x-Achse werden aus 1.Inputzeitreihe des<br />

Plotalgorithmus genommen. (In diesem speziellen Fall gibt es nur eine<br />

Inputzeitreihe)<br />

yTimeser 1 Daten für y-Achse auch aus 1. Inputzeitreihe<br />

xChannel 1 Daten für x-Achse aus Kanal 1 (der xTimeser)<br />

yChannel 1 Daten für y-Achse aus Kanal 2 (der yTimeser)<br />

Format 1 Nur Punkte ohne Verbindungslinien<br />

Sie erhalten die 2-dimensionale Darstellung des Henon-Attraktor. Wenn Sie jetzt im<br />

118


Henongenerator z.B Size=10000 <strong>und</strong> im Zeitreiheplot, Point=0 (nur Pixel) einstellen, erhalten<br />

Sie eine dichte Darstellung des Attraktors.<br />

5. Histogramme<br />

Wählen Sie 7LPHVHU+LVWRJUDP <strong>und</strong> verbinden Sie die Inputzeitreihe <strong>mit</strong> der generierten Henon-<br />

Zeitreihe. Die Verteilung der Daten können Sie durch Markierung des Histogramms <strong>und</strong><br />

drücken der Taste „g“ erhalten. Sie können durch die Parameter auch Histogramme <strong>mit</strong> höherer<br />

Auflösung einstellen.<br />

Beispiel 3: Vorhersage der Henon-Abbildung <strong>mit</strong> einem <strong>neuronalen</strong> Netzwerk<br />

1. Zeitverschiebung<br />

Sie wollen jetzt ein neuronales Netzwerk an einem Datensatz der Henon-Zeitreihe trainieren <strong>und</strong><br />

das Netz anschließend für eine Vorhersage benutzen. Sie können dazu das Netz des vorigen<br />

Beispiels wieder verwenden. Fügen Sie 7LPHVHU6KLIW 7LPH ein <strong>und</strong> verbinden Sie den Input <strong>mit</strong> der<br />

generierten 1-dim Henonzeitreihe. In der Standarteinstellung des Algorithmus wird die Zeitreihe<br />

einen Zeitschritt nach vorne verschoben.<br />

2. Pick Overlap<br />

In unser vorigen Untersuchung haben Sie durch den Timedelay-Algorithmus eine 2-<br />

dimensionale Zeitreihe <strong>mit</strong> den Daten y[t]=(x[t],x[t-1]) erzeugt. Mit der zeitverschobenen<br />

Zeireihe z=x[i+1] zusammen liegen die Beispielpaare vor, um ein Netzwerk auf die Abbildung<br />

y[t]Æz[t] zu trainieren. Allerdings existiert durch den Zeitversatz an den Enden der Zeitreihen<br />

nicht für jedes t von y[t] ein z[t] <strong>und</strong> umgekehrt. Um reguläre Beispielpaare zu erzeugen müssen<br />

<strong>mit</strong> 7LPHVHU3LFN 2YHUODSS die Zeitreihen an den Enden „zurechtgeschnitten“ werden. Verbinden Sie<br />

die beiden Inputknoten <strong>mit</strong> den zwei Zeitreihen. An der Ausgabenseite erhalten Sie die gekürzten<br />

Zeitreihen.<br />

3. Clustering<br />

Als Vorstufe des <strong>neuronalen</strong> Netzes benötigen Sie das „Cluster-Set“, das <strong>mit</strong> 1HXUDO 1HW&OXVWHULQJ<br />

erzeugt wird. Dazu muß die Input-Zeitreihe <strong>mit</strong> der (gekürzten) 2-dimensionalen Zeitreihe<br />

verb<strong>und</strong>en werden. Setzen Sie vorher Size=3000 im Generate-Henon-Algorithmus. In der<br />

grafischen Darstellung des Cluster-Sets erkennen Sie die berechnete Einteilung des<br />

Phasenraumes.<br />

4. Fit des Radialen-Basis-Funktionen-Systems<br />

1HXUDO 1HW? 5)6)LWWLQJ muß eingefügt <strong>und</strong> die Cluster-Sets <strong>mit</strong>einander verb<strong>und</strong>en werden. Die<br />

Input-Zeitreihe als Ziel des Fits wird <strong>mit</strong> der (gekürzten) 1-dimensionalen Henon-Zeitreihe<br />

verb<strong>und</strong>en. In dem Ausgabeknoten der RFS-Fits liegt das RBFS vor, was einem komplettem<br />

<strong>neuronalen</strong> Netzwerk entspricht.<br />

119


5. Anwendung des RBFS<br />

Das Netzwerk wird jetzt <strong>mit</strong> 1HWZRUN5)6&DOFXODWLQJ auf die Argumente, die in der 2-dimensionalen<br />

Zeitreihe vorliegen, angewendet. In einer Grafik sollten Sie die berechnete <strong>und</strong> die originale<br />

Zeitreihe visuell vergleichen. Setzen Sie dazu vorher im TSPlot-Algorithmus: SetxRange=1,<br />

xfrom=0 <strong>und</strong> xto=50. Mit 7LPHVHU&RPSDULVLRQ erhalten Sie den genauen numerischen Vergleich.<br />

6. Trainings- <strong>und</strong> Testset<br />

Für eine echte Vorhersage ist die bisherige Vorgehensweise nicht erlaubt, da das Netzwerk an<br />

den Trainigsdaten getestet wurde. Generieren Sie jetzt eine 3000 Punkte lange Zeitreihe <strong>und</strong><br />

teilen diese <strong>mit</strong> 7LPHVHU6SOLW bei SplitPos=2000 in zwei Teile. Dazu trennen Sie das Netz hinter<br />

dem Timedelay-Algorithmus auf <strong>und</strong> fügen den Algorithmus ein. Das Netz wird nun <strong>mit</strong> dem<br />

vorderen Teil der Zeitreihe (Output-Verbindungslinie Nummber 1) trainiert <strong>und</strong> an dem hinteren<br />

Teil getestet.<br />

7. Variation<br />

Sie können nun verschiede Variationen des Netzes oder der Daten untersuchen. Sinnvoll ist z.B.<br />

in Timedelay die Dimension zu verändern oder größere Vorhersageschritte in Shift-Time <strong>mit</strong><br />

größerer Beispielzahl einzustellen.<br />

Das gr<strong>und</strong>sätzliche Arbeiten <strong>mit</strong> dem Programm ist an Hand dieser Beispiele erklärt. Den vollständigen<br />

Überblick über die implementierten Algorithmen <strong>und</strong> die Möglichkeiten von sinnvollen Verknüpfung<br />

erhalten Sie beim Durcharbeiten der Hilfedateien.<br />

120


9.2 Tabellen<br />

Element<br />

mg/kg<br />

Elem.-<br />

Nummer<br />

Reifenabrieb Teer Dieselfeststoffemission<br />

Benzinfeststoffemission<br />

Zementabrieb<br />

Ziegelabrieb Kalk Reingasstaub<br />

Steinkohle<br />

Reingasstaub<br />

Braunkohle<br />

Stoffnum. -> 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 21 20<br />

Ag 1 0,025 0,02 6 20 0,02 0,03 0,06 12 0,3 240 7 60 0,5 0,5 0,2 0,8 0 0,1 0 0,06 5,7 0<br />

Al 2 370 430 3300 2200 32000 90000 10000 90000 40000 44000 10000 800 1100 10000 900 6300 0 840 0 78000 16500 0<br />

As 3 6 5 180 370 10 5 1 480 60 200 11 225 5 60 25 90 0 0,6 0 2,5 79 0<br />

Ba 4 530 65 200 2500 1000 500 120 1300 1300 1600 1200 150 16000 20000 75 270 0,6 30 0 730 710 0<br />

Be 5 1,1 0,1 2 1 2 3 0,3 18 2 3,2 1 6 1 1 0,1 0,1 0 0,06 0 4 3,6 0<br />

Bi 6 0,012 0,01 3 2 0,03 0,04 0,05 15 0,8 280 2 65 1 1 0,03 0,5 0 0,06 0 0,13 3,5 0<br />

OC + EC 7 6E+05 6E+05 7E+05 6E+05 600 600 2300 7000 9000 30000 6000 22000 7E+05 5E+05 3E+05 3E+05 0 3E+05 0 320 4E+05 0<br />

Ca 8 3400 32 8000 4400 5E+05 20000 3E+05 19000 3E+05 75000 2E+05 55000 800 7800 4000 2100 12000 36000 0 29000 50000 0<br />

Cd 9 9 0,02 27 45 0,05 0,07 0,1 35 2,5 820 22 300 1 2 0,8 4 0 0,75 0 0,1 25 0<br />

Cl 10 6300 7300 9900 28000 140 100 150 8000 3000 1E+05 43000 10000 600 700 400 700 6E+05 0,3 0 320 13500 1E+06<br />

Co 11 1,8 1 15 4 15 20 2 140 20 22 12 120 40 60 2 200 0 0,9 0 12 14 0<br />

Cr 12 46 12 220 220 45 90 11 460 70 750 48 1400 140 2100 2 180 0 6 0 60 150 0<br />

Cu 13 630 130 4000 4600 20 40 4 450 80 1900 34 900 100 49000 30 850 0 15 0 25 780 0<br />

F 14 220 200 1700 80 800 200 330 2400 1100 1600 1100 5000 100 1000 100 10 30 20 0 720 900 0<br />

Fe 15 3600 37 5700 3300 35000 43000 15000 60000 60000 26000 20000 4E+05 2E+05 1E+05 800 3500 0 720 0 35000 18000 0<br />

Ga 16 2 0,2 6 8 10 20 4 150 50 270 27 20 5 40 0,5 2 0 0,09 0 17 18 0<br />

Hg 17 0,27 0,02 5 3 0,01 0,01 0,04 3 4 70 4 35 0,1 0,1 0,5 0,8 0 0,2 0 0,05 5,4 0<br />

K 18 740 22 730 1700 3500 26000 4700 24000 4000 74000 2E+05 700 350 21000 100 1000 12000 17000 0 28000 9000 0<br />

La 19 4,1 0,1 11 9 20 50 4 60 20 3,8 19 10 4 4 1 0,6 0 0,6 0 44 9,7 0<br />

Mg 20 660 15 5200 15000 20000 11000 26000 9500 34000 11000 5100 13000 9300 9300 2500 1200 39000 3300 0 14000 6800 0<br />

Mn 21 150 2 220 3100 1500 700 700 500 450 850 500 24000 1300 1600 25 50 0 2100 0 690 800 0<br />

Mo 22 1,3 0,1 18 11 2 3 0,4 90 20 35 10 280 220 3200 10 40 0,3 0,21 0 1 19 0<br />

Na 23 1500 140 2100 9300 1100 15000 13000 8500 12000 57000 11000 6000 1500 1200 700 1200 3E+05 1100 0 25000 8000 0<br />

Nb 24 0,5 0,1 2 2 10 20 0,3 20 20 15 11 100 8 10 1 2 0 0,03 0 20 8,6 0<br />

Ni 25 57 4 370 220 30 70 15 500 40 210 36 150 20 120 180 13000 0 5,4 0 30 200 0<br />

P 26 140 10 320 2400 1200 400 300 4400 1000 1000 440 2000 30 160 100 1000 2 3000 0 700 500 0<br />

Pb 27 420 21 340 69000 10 4,5 10 1800 100 26000 2100 26000 2 8000 20 180 0 21 0 20 2600 0<br />

Rb 28 3,2 2 9 625 50 150 11 130 70 130 900 60 4 3 5 3 3,6 30 0 140 47 0<br />

S 29 7100 4300 7600 45000 12000 1000 1200 45000 80000 60000 1E+05 12000 3000 11000 65000 1E+05 27000 7500 1E+06 320 60000 0<br />

Sb 30 56 0,1 36 31 0,2 0,5 0,3 70 15 1800 3 40 30 20000 0,5 280 0 0,12 0 0,6 74 0<br />

Sc 31 0,4 0,1 1 1 5 15 1 27 3 3,3 10 6 1 1 2 0,2 0 0,09 0 14 2,5 0<br />

Se 32 27 0,03 30 120 0,03 0,05 0,08 100 70 34 15 90 0,2 0,3 15 14 0 0,06 0 0,11 25 0<br />

Si 33 1800 170 3800 2500 98000 3E+05 35000 2E+05 70000 59000 47000 17000 3200 15000 800 4400 60 39000 0 3E+05 52000 0<br />

Sn 34 1,2 0,1 12 15 2 6 1 15 7 5800 2 350 10 600 0,5 11 0 0,3 0 3 64 0<br />

Sr 35 52 12 95 460 400 200 450 1100 1000 270 610 50 190 500 50 140 240 150 0 290 180 0<br />

Th 36 2 0,2 2 0,5 5 10 1,3 27 6 5 7 5 1 2 0,2 0,2 0 0,2 0 10 2,4 0<br />

Ti 37 310 3 320 200 1900 5000 400 6000 1200 2400 520 300 70 400 10 50 0 120 0 4100 810 0<br />

Tl 38 0,01 0,01 2 0,6 0,05 0,23 0,15 27 0,6 15 50 10 1 2 0,03 0,3 0 0,6 0 0,75 3,4 0<br />

U 38 0,2 0,1 1 0,2 2 4 1,1 20 6 5 2 5 2 2 0,02 0,7 0 0,2 0 2,5 1,3 0<br />

V 40 6,5 3 100 140 50 130 20 660 60 90 63 400 30 10 400 44000 0 6 0 85 170 0<br />

Zn 41 10000 62 1400 4100 110 90 3 2400 300 58000 610 80000 1400 8900 70 1200 0 105 0 70 4700 0<br />

Zr 42 1 0,2 19 7 150 200 19 100 30 110 95 200 970 1500 0,3 3 0 3 0 160 42 0<br />

Summe 7E+05 6E+05 7E+05 8E+05 7E+05 5E+05 4E+05 5E+05 6E+05 7E+05 6E+05 7E+05 9E+05 9E+05 4E+05 5E+05 1E+06 4E+05 1E+06 5E+05 1E+06<br />

Rest 3E+05 4E+05 3E+05 2E+05 3E+05 5E+05 6E+05 5E+05 4E+05 3E+05 4E+05 3E+05 89463 1E+05 6E+05 5E+05 9664 6E+05 0 5E+05 0<br />

Reingasstaub<br />

Zement<br />

Reingasstaub<br />

Stahl<br />

Tabelle 37: Mischungsmatrix <strong>und</strong> Probenzusammensetzung. Die Konzentrationen sind in mg/kg angegeben.<br />

Bremsabrieb I<br />

Bremsabrieb<br />

II<br />

Rückstand<br />

Heizöl leicht<br />

Rückstand<br />

Heizöl schwer<br />

Meersalz<br />

Schwefel<br />

(S)<br />

Kontinentale<br />

Oberkruste<br />

Reingasstaub<br />

Müllverbrennung<br />

Pflanzendetritus<br />

Staubprobe<br />

Chlor<br />

(Cl)<br />

121


Stoffnummer-><br />

Entferntes<br />

Element<br />

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21<br />

ohne 1 0.00 0.07 0.16 0.14 0.06 -0.26 -0.07 5.82 0.54 -2.67 -0.39 -0.02 0.23 -8.07 13.12 -23.02 -5.25 -1.59 -0.08 -0.32 -1.01 0.37<br />

ohne 2 0.24 0.87 0.63 0.57 0.67 0.86 -3.26 -55.40 1.35 8.33 2.05 -1.95 1.58 38.42 -6.48 53.74 20.45 1.79 -13.78 -12.25 3.12 0.91<br />

ohne 3 -4.18 2.12 -1.07 0.05 -0.21 0.43 -3.94 5.89 0.51 1.23 -12.15 6.37 9.34 13.27 -0.78 13.14 -6.57 -3.62 2.21 1.57 -0.51 0.67<br />

ohne 4 -1.31 1.46 0.98 1.30 0.99 1.77 -12.94 -365.67 -36.27 -16.47 1.78 -6.12 -0.21 14.23 -0.52 59.90 -65.14 5.02 -4.75 -4.67 -4.65 1.91<br />

ohne 5 -0.79 -3.09 -2.06 -1.83 -1.60 -2.79 24.88 462.55 -5.13 -5.17 2.87 6.68 9.83 39.38 6.24 -101.81 -31.55 -46.56 18.35 15.90 -4.35 2.57<br />

ohne 6 -0.06 0.28 0.29 0.30 0.13 -0.18 -2.30 1.63 0.81 -3.66 -0.48 0.30 0.93 -11.94 17.55 -25.59 -6.47 -1.11 -0.77 -1.07 -1.15 0.50<br />

ohne 7 -70.94 -96.10 -95.37 -98.79 -75.59 -94.61 97.90 3892.21 -142.80 164.20 194.92 71.66 91.65 168.48 -46.68 2141.55 969.73 -56.73 57.74 53.13 748.89 38.24<br />

ohne 8 5.90 13.64 7.79 8.25 8.48 -20.43 -6.92 -98.59 -24.80 12.48 -93.14 -57.49 -76.69 -6.67 -12.57 1413.78 -217.39 14.62 14.31 19.93 26.89 6.78<br />

ohne 9 -0.06 0.09 0.15 0.17 0.06 -0.16 -0.75 -1.29 0.67 -0.01 -0.63 0.02 -0.01 -5.80 9.99 -17.38 -4.26 -1.38 -0.06 -0.25 -0.85 0.28<br />

ohne 10 19.30 9.93 5.45 6.30 4.72 -22.23 -13.31 -141.22 -24.91 5.42 -35.25 9.47 11.71 0.31 -6.94 194.60 -100.00 1.37 -5.64 3.53 -20.11 4.62<br />

ohne 11 -2.75 -1.32 -1.41 -1.08 -1.38 1.05 -10.00 1048.93 -0.36 10.06 -4.30 -2.28 -1.66 4.36 -4.82 57.19 -7.83 8.46 -3.74 -5.18 -6.54 1.51<br />

ohne 12 3.80 5.28 3.94 4.34 3.69 -4.84 -9.05 -122.01 13.38 -14.90 -3.26 3.21 11.95 13.41 -2.20 54.56 -41.21 4.10 -2.87 -2.96 -6.55 1.68<br />

ohne 13 4.31 7.93 5.16 4.97 4.35 -7.70 -19.55 -164.44 11.02 10.50 -6.71 2.91 6.32 14.27 -2.90 53.04 -42.59 4.23 -5.23 -2.56 -11.18 2.29<br />

ohne 14 1.05 -6.24 -1.86 -2.48 -1.36 1.07 29.72 490.81 -2.73 -53.85 -1.88 -3.89 -3.77 -41.07 11.63 98.08 -1.90 -10.97 14.75 8.27 7.40 2.29<br />

ohne 15 -0.36 2.56 1.64 1.31 0.86 -1.15 -18.70 -317.04 -5.34 65.25 -9.62 1.61 0.06 17.99 -21.72 37.62 -43.80 -5.07 1.15 4.22 -7.06 1.94<br />

ohne 16 0.30 0.15 0.07 0.08 0.06 -0.06 -0.53 -7.41 -0.02 0.20 -0.54 0.47 0.67 -0.25 -1.02 2.69 -0.47 0.34 -0.46 -0.34 -0.14 0.06<br />

ohne 17 0.14 -0.29 0.02 -0.08 -0.09 -0.07 1.94 6.49 -1.76 -3.49 -0.79 0.48 0.32 5.20 -14.67 32.04 5.87 2.70 0.28 0.33 1.75 0.43<br />

ohne 18 1.27 0.37 0.18 -0.01 0.31 -0.69 1.93 -38.02 -0.37 2.03 7.27 3.70 4.73 -87.85 -3.44 -40.86 9.63 2.27 -0.77 -0.74 6.94 0.82<br />

ohne 19 1.78 -1.21 -0.19 0.28 0.26 0.17 0.95 -67.16 0.55 0.31 -3.26 -1.35 -0.64 -0.17 -3.72 -30.67 -9.25 2.72 4.38 6.54 -2.87 0.45<br />

ohne 20 9.04 3.00 1.18 1.56 0.58 -10.84 -1.65 -139.59 -13.42 -0.14 -18.23 14.32 7.54 -18.62 -2.95 -409.90 118.56 2.05 -3.91 -1.98 -9.15 2.59<br />

ohne 21 -1.02 -0.01 -0.08 -0.24 -0.23 -0.09 0.65 -32.01 1.06 18.78 -0.90 0.20 -1.65 3.42 -5.57 -19.44 1.13 -3.94 2.04 2.21 -1.24 0.49<br />

ohne 22 4.63 3.71 3.83 3.85 3.95 -5.05 -9.04 -100.08 10.98 5.05 -3.57 1.19 3.48 4.22 -0.16 18.49 -31.83 2.12 -2.70 -0.96 -8.35 1.47<br />

ohne 23 16.13 3.33 1.99 2.62 0.99 -11.33 -3.03 -123.00 -13.62 2.18 -34.61 21.00 7.61 -13.10 -3.63 -184.31 -4.01 2.39 -4.83 -0.86 -8.24 2.61<br />

ohne 24 0.49 0.28 0.10 0.02 0.03 -0.08 1.36 24.61 -0.80 -14.49 -1.56 0.65 2.46 -4.02 3.58 14.57 2.84 2.68 -2.23 -2.05 0.83 0.39<br />

ohne 25 -2.52 0.72 0.40 -0.06 0.15 0.17 1.29 -24.87 0.29 0.38 4.41 -0.78 0.01 6.02 0.17 0.78 8.64 -2.68 1.54 2.00 -10.14 0.41<br />

ohne 26 -2.30 1.03 0.21 -0.27 0.18 -1.64 11.22 116.46 2.90 -0.13 14.64 3.45 6.62 -34.45 -4.50 -182.47 22.78 16.45 -9.14 -9.35 -6.42 1.23<br />

ohne 27 -8.15 -11.68 -9.81 -10.83 -7.89 -12.70 133.51 476.20 -20.53 5.79 -15.48 -6.10 -27.31 -94.22 4.57 -303.16 3.13 -58.57 49.32 42.48 55.38 7.61<br />

ohne 28 -5.54 -5.58 -4.31 -4.36 -4.37 -3.60 57.91 403.16 -3.63 3.23 -27.32 -12.43 -26.56 255.98 -10.18 -54.53 -7.95 -35.35 27.33 23.54 -17.81 4.15<br />

ohne 29 24.48 14.70 8.87 10.00 6.15 -26.71 -19.61 -200.26 -28.80 9.90 -48.15 16.28 20.58 5.36 -8.44 312.08 -54.00 -1.03 -4.53 6.58 -100.00 6.40<br />

ohne 30 6.15 5.63 5.65 5.46 5.27 -7.25 -14.51 -176.09 13.66 12.41 -4.97 1.18 3.17 10.41 -4.97 40.72 -43.37 3.51 -4.20 -1.38 -12.25 2.13<br />

ohne 31 0.35 0.33 0.13 0.01 -1.05 0.23 -4.13 -77.75 0.96 2.05 -2.47 -4.33 -10.82 25.80 -4.51 -19.88 12.00 6.21 3.94 3.42 -1.79 0.55<br />

ohne 32 -9.14 0.28 2.03 0.29 1.61 1.97 -16.35 97.50 -0.04 -5.98 19.48 -5.70 -6.70 25.96 3.66 -57.44 20.55 -6.41 5.18 2.22 0.63 1.24<br />

ohne 33 2.71 1.53 0.88 0.92 1.05 1.00 -9.35 -70.95 0.27 -1.59 7.82 -0.20 7.34 21.93 0.54 99.64 26.66 13.64 -26.88 -24.99 6.11 1.70<br />

ohne 34 -0.03 0.01 0.03 0.07 -0.01 -0.10 -0.55 12.34 -0.43 -4.88 -0.05 0.36 0.93 -7.96 10.91 -18.12 -3.31 -0.86 -0.29 -0.47 -0.49 0.32<br />

ohne 35 -0.43 -0.63 -0.10 -0.16 -0.08 0.36 -1.21 -6.16 -1.47 -7.25 23.92 -2.97 6.05 9.63 0.05 -31.89 -4.81 3.61 -5.60 -3.23 -1.32 0.68<br />

ohne 36 1.50 0.46 -0.33 0.07 0.17 0.63 -5.72 -98.33 0.80 -1.86 0.81 -1.60 -3.12 7.01 -1.53 -22.49 9.63 9.92 -1.09 -1.80 -1.68 0.53<br />

ohne 37 0.27 0.00 -0.24 -0.02 0.09 0.00 -0.53 -14.61 0.11 -2.41 1.96 -1.74 -2.58 -9.97 1.74 -23.24 -1.15 0.88 2.30 4.66 -1.09 0.26<br />

ohne 38 0.89 -0.60 -0.44 -0.62 -0.28 -1.50 8.05 -5.55 -2.50 -1.54 7.18 6.98 5.72 -118.29 0.52 -121.86 25.47 -5.16 4.96 4.23 9.82 1.24<br />

ohne 39 2.62 2.12 0.96 0.69 0.95 0.21 -15.60 -186.25 -0.25 -4.25 3.00 1.31 2.69 -14.85 0.37 43.47 8.78 22.12 -13.95 -10.04 -0.72 1.37<br />

ohne 40 -2.41 -0.21 0.03 -0.34 -0.31 0.09 2.40 240.95 0.38 -0.39 4.35 -0.96 -0.40 6.23 0.64 -5.44 6.27 -4.06 2.39 2.79 -12.38 0.56<br />

ohne 41 -0.27 0.33 -0.90 -0.06 -0.06 0.51 0.19 3.32 0.59 1.13 0.37 0.21 -1.06 -0.56 1.01 -0.04 0.86 -0.31 -0.21 0.01 0.14 0.16<br />

ohne 42 -2.08 -0.39 -0.29 -0.11 -0.50 2.40 -11.33 -227.17 -27.71 -0.18 -3.47 -3.36 -3.53 15.09 -3.24 5.96 -33.27 -1.57 3.02 2.65 -3.21 1.40<br />

Tabelle 38: Prozentuale Veränderungen der berechneten Stoffkonzentrationen beim Entfernen von jeweils einem Elementen.<br />

Die Elementindizes liegen in der alphabetischen originaler Sortierung laut Tabelle 37 vor. Alle Lösungen wurden durch Reduktion <strong>und</strong> Mittelung von 12 bis 14 Eigenrichtungen<br />

erhalten. Die Referenz Lösung wurde unter der Verwendung aller Elemente 42 bestimmt. Als Abstandsmaß wurde die Länge des Differenzvektors der beiden Lösungen definiert.<br />

Abstand zur<br />

Lösung <strong>mit</strong><br />

allen<br />

Elementen<br />

122


Stoffnummer -><br />

Entferntes Element<br />

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21<br />

Abstand. zur<br />

Lsg. <strong>mit</strong> allen<br />

Elementen<br />

Änderung des<br />

Abstandes zur Lsg.<br />

<strong>mit</strong> allen Elementen.<br />

ohne 5 -27.06 -176.64 20.34 -3.77 -20.87 177.91 -30.67 -6.37 110.87 23.88 -47.24 35.50 -11.37 6.95 34.80 1.06 0.00 3.71 -5.97 13.27 9.33 291.48 11.63 512.20<br />

ohne 6 -4.06 128.84 -61.16 153.23 -30.47 -82.54 -16.47 112.57 -86.33 41.90 -99.36 -15.43 59.14 69.10 31.59 -30.01 10.68 0.14 -3.03 -1.59 -6.33 303.11 -60.39 413.35<br />

ohne 7 -26.06 89.73 44.56 -135.52 63.10 -10.61 46.93 90.85 -54.25 -65.10 18.23 56.43 -48.02 -15.12 -33.75 -2.11 6.04 -4.12 -17.63 -24.23 -9.10 242.72 -124.03 253.79<br />

ohne 8 -5.83 41.50 50.76 34.63 -26.49 -55.84 1.89 22.27 13.36 7.15 -35.51 45.46 -25.78 4.88 -7.83 5.16 -1.95 -3.37 -3.33 6.76 6.21 118.69 10.22 164.36<br />

ohne 9 -21.63 30.57 26.36 -72.65 40.67 30.06 -2.92 26.85 19.57 16.97 1.60 46.33 -56.44 2.54 -6.44 3.71 -0.30 0.18 4.28 11.05 -1.06 128.91 -59.80 142.94<br />

ohne 10 -26.93 -12.07 5.14 32.92 22.15 12.65 9.72 15.26 21.52 -11.51 0.49 15.78 -0.35 -0.93 -12.61 4.74 -0.53 25.19 -2.91 -9.40 1.49 69.11 118.34 176.93<br />

ohne 11 -167.42 47.13 54.07 -2.62 5.17 37.65 -8.55 21.30 -3.62 8.45 8.70 8.38 0.21 11.87 22.67 -1.94 -1.24 2.86 -3.35 -5.56 0.22 187.45 -133.96 233.99<br />

ohne 12 54.42 8.64 5.14 6.12 4.75 11.14 -0.54 13.45 0.18 4.27 -2.33 5.89 -1.01 -0.16 6.49 0.81 -0.73 14.49 -1.08 0.80 1.77 53.49 -33.54 42.26<br />

ohne 13 15.27 16.07 12.91 10.51 5.24 10.84 2.55 7.04 -0.12 3.04 -2.05 8.62 0.80 -0.01 -0.55 2.10 -0.97 14.81 -1.18 -0.67 2.89 19.96 1.24 14.43<br />

ohne 14 5.87 23.03 14.09 11.90 6.78 5.08 3.03 6.03 -0.57 -0.61 -0.54 7.67 1.81 -0.52 2.56 1.75 -1.69 14.65 -2.58 0.08 2.16 21.20 -0.31 5.03<br />

ohne 15 6.59 22.01 14.80 13.03 7.72 3.41 2.36 6.44 -0.96 -0.49 1.06 5.65 1.99 -0.82 5.15 0.96 -2.15 13.48 -2.16 0.80 1.13 20.89 0.03 5.67<br />

ohne 16 6.95 19.71 15.15 13.01 8.02 3.24 3.32 6.80 -0.73 -0.92 2.30 4.51 2.63 -1.30 1.66 0.56 -2.23 15.64 -0.23 1.49 0.43 20.92 0.09 0.55<br />

ohne 17 6.97 19.83 15.15 13.04 8.05 2.96 3.24 6.83 -0.55 -0.73 2.43 4.30 2.62 -1.23 1.57 0.55 -2.27 15.43 -0.15 1.57 0.38 21.01 -2.67 13.23<br />

ohne 18 7.93 21.66 16.44 14.28 8.79 2.63 3.93 -3.65 -0.57 0.58 2.58 4.75 2.59 -3.09 2.80 -0.84 -0.43 10.40 1.95 4.73 2.54 18.34 0.24 0.33<br />

ohne 19 7.94 21.75 16.47 14.30 8.79 2.38 3.88 -3.61 -0.42 0.52 2.55 4.76 2.60 -3.09 2.90 -0.84 -0.46 10.36 1.95 4.73 2.50 18.58 0.49 1.84<br />

ohne 20 8.21 21.91 16.78 14.55 8.97 1.49 3.61 -3.25 -0.29 0.93 3.02 4.12 2.53 -2.62 2.30 -0.71 -0.72 9.74 2.12 5.07 2.24 19.07 -1.55 4.51<br />

ohne 21 8.20 20.55 16.26 14.29 8.87 2.90 5.24 -3.51 -0.63 0.82 4.10 4.49 3.13 -4.61 2.78 -1.79 0.86 8.14 2.36 4.46 3.09 17.52 -6.39 7.23<br />

ohne 22 7.52 18.32 14.92 13.12 8.15 7.52 4.85 -1.65 -1.81 0.95 3.65 3.90 2.39 -0.89 1.71 -1.21 1.14 7.95 2.58 4.19 2.71 11.13 -1.67 3.18<br />

ohne 23 7.29 17.19 14.38 12.51 7.85 8.98 4.70 -0.50 -1.99 0.76 3.74 4.37 2.34 -0.62 0.96 -1.89 2.68 7.28 3.05 4.48 2.45 9.46 -2.47 4.88<br />

ohne 24 6.83 17.35 14.25 12.73 7.87 10.62 3.44 -1.19 -2.50 2.51 2.89 3.50 1.88 0.79 0.87 -0.69 1.55 4.69 3.86 5.51 3.23 6.99 0.21 1.43<br />

ohne 25 6.05 17.48 14.35 12.84 7.93 10.37 3.46 -0.91 -2.48 2.26 3.17 3.39 1.72 0.59 1.56 -0.98 1.60 4.53 4.51 5.52 3.06 7.21 -0.80 1.20<br />

ohne 26 6.14 17.14 14.16 12.69 7.83 11.02 3.38 -0.72 -2.67 2.24 3.00 3.13 1.58 1.22 1.83 -0.75 1.30 4.42 4.58 5.55 2.95 6.41 -0.51 2.10<br />

ohne 27 6.68 16.70 13.85 12.49 7.65 11.10 3.66 0.31 -2.82 2.51 1.87 3.56 1.52 1.11 2.11 -0.35 0.72 3.97 4.93 5.73 2.70 5.90 0.02 0.38<br />

ohne 28 6.68 16.65 13.90 12.48 7.66 11.02 3.80 0.25 -2.77 2.40 1.98 3.45 1.45 1.03 2.10 -0.34 0.86 4.12 4.87 5.66 2.75 5.91 0.13 3.16<br />

ohne 29 7.83 16.69 14.03 12.75 7.78 11.73 3.21 -1.56 -2.92 2.59 1.40 3.40 1.33 1.05 1.66 0.41 -0.05 5.07 4.45 5.28 3.86 6.05 -0.04 1.21<br />

ohne 30 7.67 16.56 13.98 12.69 7.92 11.48 3.71 -1.27 -2.76 2.73 1.39 3.76 1.68 0.93 1.20 0.59 -0.06 4.57 4.19 4.98 4.04 6.00 0.02 0.76<br />

ohne 31 7.47 16.50 14.03 12.67 7.88 11.34 4.03 -1.04 -2.72 2.90 1.34 3.89 1.77 0.91 1.18 0.66 -0.12 4.03 4.21 5.00 4.08 6.02 -3.32 5.57<br />

ohne 32 6.55 14.93 13.34 11.99 7.52 15.22 4.14 -0.72 -3.93 1.97 2.07 3.82 1.77 0.24 3.72 -0.19 0.43 4.04 4.06 4.39 4.64 2.71 1.02 2.55<br />

ohne 33 6.76 15.39 13.65 12.32 7.61 15.20 3.51 -0.56 -3.98 1.08 2.12 4.13 2.10 -0.11 5.42 -0.30 0.29 4.32 3.56 3.84 3.67 3.73 -0.31 1.29<br />

ohne 34 6.81 15.44 13.65 12.33 7.53 15.28 3.65 -0.09 -4.03 1.18 1.99 4.23 2.15 0.05 5.44 -0.05 0.43 3.99 3.61 3.82 2.60 3.42 -0.49 0.88<br />

ohne 35 6.71 15.19 13.57 12.17 7.49 15.66 3.81 0.08 -4.12 1.27 2.29 4.02 2.02 0.20 5.15 -0.08 0.73 3.86 3.73 3.91 2.33 2.93 -0.01 0.46<br />

ohne 36 6.88 15.08 13.52 12.18 7.48 15.62 3.75 0.09 -4.10 1.25 2.21 4.04 2.02 0.14 5.15 -0.09 0.64 3.98 3.66 3.82 2.68 2.92 -0.33 0.64<br />

ohne 37 6.84 15.03 13.50 12.16 7.47 15.65 3.71 0.06 -4.16 1.76 2.19 4.03 1.96 0.21 4.94 -0.11 0.60 3.80 3.80 3.96 2.62 2.59 -1.45 1.47<br />

ohne 38 6.82 14.84 13.44 12.07 7.44 15.87 3.91 0.09 -4.14 1.97 2.25 4.02 1.92 0.51 3.61 0.05 0.83 3.90 3.88 4.05 2.69 1.15 -0.62 0.68<br />

ohne 39 6.82 14.78 13.43 12.04 7.43 15.92 4.01 0.08 -4.17 2.15 2.27 3.99 1.88 0.65 3.00 0.12 0.92 3.91 3.93 4.11 2.71 0.53 -0.23 0.37<br />

ohne 40 6.82 14.74 13.43 12.01 7.43 15.94 4.08 0.10 -4.13 2.14 2.29 3.99 1.89 0.72 2.65 0.17 0.97 3.95 3.94 4.13 2.74 0.30 -0.13 0.26<br />

ohne 41 6.80 14.74 13.46 12.01 7.42 15.95 4.10 0.12 -4.13 2.21 2.25 4.06 1.93 0.80 2.60 0.22 0.98 3.91 3.86 3.95 2.77 0.16 -0.10 0.16<br />

ohne 42 6.82 14.69 13.58 12.02 7.43 15.87 4.09 0.11 -4.11 2.19 2.24 4.05 1.95 0.81 2.57 0.22 0.97 3.92 3.87 3.95 2.76 0.06 -0.06 0.06<br />

alle 6.80 14.67 13.57 12.01 7.42 15.88 4.12 0.12 -4.11 2.18 2.25 4.03 1.94 0.81 2.60 0.21 0.98 3.91 3.89 3.96 2.77 0.00 0.00 0.00<br />

Tabelle 39: Lösungen für das sukzessives Entfernen von Elementen. Die Elemente wurden nach dem Einfluß auf die Lösung nach Tabelle 15 sortiert.<br />

Zeilenweise ist die Tabelle von unten nach oben zu lesen: In der untersten Zeile ist die Lösung für alle Elemente angegeben. In der Zeile darüber wurde das 42. Element entfernt So<br />

wird weiter fortgefahren bis in der obersten Zeile die Elemente 5-42 für die Analyse nicht mehr benutzt werden.<br />

Änderung zur<br />

vorigen Lösung<br />

123


Stoffnummer<br />

Entferntes Element<br />

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21<br />

Abstand. zur<br />

Gesamtlösung.<br />

Änderung des<br />

Abstandes zur<br />

Gesamtlösung.<br />

ohne 5 -27.06 -176.64 20.34 -3.77 -20.87 177.91 -30.67 -6.37 110.87 23.88 -47.24 35.50 -11.37 6.95 34.80 1.06 0.00 3.71 -5.97 13.27 9.33 291.48 11.63 512.20<br />

ohne 6 -4.06 128.84 -61.16 153.23 -30.47 -82.54 -16.47 112.57 -86.33 41.90 -99.36 -15.43 59.14 69.10 31.59 -30.01 10.68 0.14 -3.03 -1.59 -6.33 303.11 -72.44 339.80<br />

ohne 7 -17.12 51.44 -14.29 -66.87 148.05 -7.55 22.22 59.94 -30.05 -40.49 -50.94 -47.07 92.90 59.77 -5.02 -0.77 -0.33 3.34 -3.55 0.19 -12.72 230.67 -191.4 219.17<br />

ohne 8 -21.35 15.02 15.06 0.71 15.33 19.53 5.68 6.75 9.67 -0.26 -2.91 9.37 6.57 2.09 -8.30 3.50 -0.27 -1.98 -1.26 -1.41 4.04 39.26 48.06 104.89<br />

ohne 9 -3.35 -22.33 21.76 85.00 -5.89 10.21 -1.83 -15.48 -2.30 6.52 8.91 6.40 -0.90 -5.09 8.42 0.02 -0.05 14.06 2.22 4.34 6.65 87.32 -53.57 102.46<br />

ohne 10 -12.91 16.42 23.73 -1.40 5.64 20.03 2.88 13.70 -0.79 -1.76 1.89 10.38 -4.54 5.06 2.28 1.21 -0.33 13.94 0.07 0.46 1.93 33.75 3.30 52.84<br />

ohne 11 10.84 15.89 15.38 21.62 6.38 2.86 1.05 8.59 -0.54 0.17 -6.09 -10.24 21.74 14.26 4.46 -0.60 0.03 15.28 1.18 5.39 2.23 37.04 -15.56 33.51<br />

ohne 12 14.26 8.52 19.41 15.06 9.32 11.78 4.14 -6.34 0.23 -4.26 -0.71 3.87 3.04 6.42 1.18 0.89 -0.45 15.91 0.63 4.44 3.84 21.48 -4.55 16.62<br />

ohne 13 5.23 17.35 15.15 13.41 8.14 12.75 4.52 -6.03 -0.49 -4.48 -0.07 8.29 1.63 -1.76 1.01 0.59 0.02 15.05 1.59 3.31 4.57 16.93 -0.13 11.62<br />

ohne 14 -3.25 17.66 16.43 13.40 8.31 15.68 3.28 -4.54 -0.34 -5.07 2.62 4.63 3.49 0.95 1.24 -0.15 0.97 11.78 3.33 4.68 4.91 16.80 -5.89 7.68<br />

ohne 15 1.39 16.06 15.02 12.75 8.07 15.82 3.47 -1.87 -0.72 -4.00 3.18 3.19 2.64 3.31 0.78 0.13 0.64 8.07 3.71 4.37 3.98 10.92 -0.58 1.46<br />

ohne 16 2.12 15.79 14.74 12.75 8.08 15.82 3.60 -1.64 -0.84 -3.83 3.50 3.34 2.42 2.89 -0.05 0.04 0.87 7.87 4.14 4.41 3.97 10.33 -1.24 3.02<br />

ohne 17 4.66 15.53 14.00 12.25 7.90 15.12 3.90 -1.18 -0.53 -3.88 3.58 3.03 1.95 2.70 0.32 0.13 0.61 7.37 4.36 4.46 3.73 9.09 1.08 2.08<br />

ohne 18 4.84 15.83 14.09 12.39 7.99 15.12 3.15 -1.47 -0.01 -4.23 3.48 3.33 2.14 2.55 -0.14 0.61 0.40 8.42 3.64 3.66 4.21 10.18 0.63 5.37<br />

ohne 19 7.78 13.78 13.23 11.62 7.40 13.80 4.82 -0.83 1.67 -4.59 3.10 3.05 1.31 3.01 -0.56 0.49 0.39 7.02 4.88 4.84 3.78 10.80 -1.70 3.50<br />

ohne 20 7.80 13.66 13.32 11.71 7.36 14.00 4.20 -0.89 1.22 -3.85 2.90 3.63 1.36 1.91 1.78 -0.73 1.69 6.35 4.70 4.55 3.33 9.11 -2.50 3.38<br />

ohne 21 7.82 13.67 13.79 12.01 7.50 15.05 3.17 -1.43 -0.10 -1.52 2.75 3.28 1.12 1.57 2.59 -0.74 1.21 5.82 4.70 4.54 3.20 6.61 1.90 3.54<br />

ohne 22 8.62 14.29 13.88 12.11 7.63 14.73 1.68 -1.83 0.88 -2.28 2.73 3.85 1.70 0.69 3.32 -0.44 1.22 7.08 3.19 3.37 3.57 8.51 -0.28 3.02<br />

ohne 23 8.26 15.29 14.06 12.31 7.69 14.75 0.63 -2.84 0.59 -0.11 2.83 3.75 1.56 1.10 2.68 -0.55 1.05 7.40 2.81 3.34 3.40 8.24 -1.88 3.60<br />

ohne 24 6.87 15.30 14.01 12.31 7.65 15.60 1.34 -2.44 -0.50 0.80 3.00 2.86 1.12 1.34 2.12 -0.53 0.51 6.23 4.53 4.61 3.28 6.36 -1.09 3.74<br />

ohne 25 7.34 16.12 14.63 12.88 8.02 14.37 1.51 -1.86 -3.65 1.13 3.01 3.06 1.32 1.17 2.43 -0.36 0.62 6.29 4.22 4.38 3.37 5.26 -0.71 1.87<br />

ohne 26 7.41 15.73 14.36 12.63 7.84 14.06 2.20 -1.46 -3.53 1.60 2.58 3.10 1.27 1.19 2.05 -0.51 0.77 5.55 4.73 5.36 3.09 4.55 -0.32 1.73<br />

ohne 27 7.04 15.15 13.90 12.14 7.58 15.14 2.16 -1.59 -2.88 1.76 2.78 3.02 1.17 1.08 2.31 -0.57 0.88 5.79 4.51 5.19 3.43 4.24 0.06 0.89<br />

ohne 28 6.82 14.93 13.60 11.87 7.42 15.62 2.27 -1.57 -2.51 1.58 2.86 3.03 1.18 1.08 2.32 -0.55 0.94 5.89 4.49 5.12 3.64 4.29 -0.64 1.69<br />

ohne 29 7.02 15.00 13.60 11.87 7.46 15.27 2.82 -1.17 -3.71 1.39 2.94 3.23 1.34 0.80 2.74 -0.50 1.09 6.10 4.12 4.74 3.85 3.65 -0.15 1.52<br />

ohne 30 6.48 14.66 13.62 11.91 7.50 15.93 3.05 -1.10 -3.91 1.20 3.31 3.12 1.47 0.83 3.07 -0.60 0.95 5.37 4.14 4.48 4.51 3.50 -1.09 3.11<br />

ohne 31 7.18 14.75 13.54 12.06 7.32 15.91 3.61 -0.40 -4.05 1.27 2.80 3.61 1.82 0.92 3.16 -0.20 0.98 5.27 4.12 4.57 1.77 2.41 -0.21 0.90<br />

ohne 32 7.21 14.88 13.62 12.14 7.36 15.97 3.50 -0.49 -4.23 1.63 2.26 3.59 1.61 0.75 3.22 -0.22 1.09 5.01 4.35 4.75 1.99 2.20 -0.52 1.01<br />

ohne 33 7.08 14.85 13.66 12.17 7.52 15.82 3.74 -0.27 -4.15 1.57 2.23 3.90 1.94 0.51 3.47 -0.07 0.93 4.59 4.02 4.36 2.14 1.68 -0.29 0.64<br />

ohne 34 6.90 14.81 13.75 12.17 7.51 15.72 3.96 -0.12 -4.12 1.63 2.22 4.00 2.03 0.46 3.52 0.01 0.82 4.16 3.95 4.30 2.34 1.39 -0.51 1.34<br />

ohne 35 6.80 14.64 13.61 12.04 7.46 15.90 4.26 -0.09 -4.12 2.03 2.23 3.92 1.94 0.72 2.43 0.12 0.95 4.05 4.17 4.56 2.36 0.88 0.08 0.48<br />

ohne 36 6.90 14.63 13.62 12.07 7.48 15.87 4.25 -0.03 -4.07 1.65 2.25 3.91 1.96 0.68 2.59 0.15 0.95 4.19 4.10 4.47 2.38 0.96 -0.24 0.59<br />

ohne 37 6.74 14.83 13.66 12.03 7.45 15.79 4.23 0.12 -4.03 1.65 2.30 4.01 1.98 0.70 2.73 0.22 1.06 4.03 3.91 4.12 2.47 0.72 0.20 0.51<br />

ohne 38 6.72 14.88 13.64 12.04 7.46 15.82 4.14 0.10 -4.10 1.68 2.35 3.97 1.96 0.64 3.19 0.14 1.01 3.96 3.89 4.09 2.43 0.92 -0.05 0.44<br />

ohne 39 6.88 14.77 13.59 12.05 7.45 15.80 4.07 0.12 -4.09 1.65 2.27 3.99 1.96 0.59 3.20 0.14 0.93 4.08 3.81 3.99 2.74 0.87 -0.30 0.46<br />

ohne 40 6.85 14.72 13.58 12.04 7.44 15.81 4.03 0.09 -4.13 2.02 2.28 3.98 1.92 0.63 3.06 0.11 0.90 3.94 3.92 4.10 2.71 0.58 -0.33 0.47<br />

ohne 41 6.84 14.69 13.55 12.02 7.43 15.87 4.07 0.09 -4.11 2.13 2.29 3.98 1.90 0.72 2.63 0.17 0.96 3.96 3.95 4.13 2.73 0.25 -0.18 0.27<br />

ohne 42 6.82 14.69 13.58 12.02 7.43 15.87 4.09 0.11 -4.11 2.19 2.24 4.05 1.95 0.81 2.57 0.22 0.97 3.92 3.87 3.95 2.76 0.06 -0.06 0.06<br />

alle 6.80 14.67 13.57 12.01 7.42 15.88 4.12 0.12 -4.11 2.18 2.25 4.03 1.94 0.81 2.60 0.21 0.98 3.91 3.89 3.96 2.77 0.00 0.00 0.00<br />

Tabelle 40: Lösungen für sukzessives Entfernen von Elementen. Die Elemente wurden nach dem Einfluß auf die Lösung <strong>und</strong> chemischer Bedeutung nach Tabelle 16 sortiert.<br />

Zeilenweise ist die Tabelle von unten nach oben zu lesen: In der untersten Zeile ist die Lösung für alle Elemente angegeben. In der Zeile darüber wurde das 42. Element entfernt So<br />

wird weiter fortgefahren bis in der obersten Zeile die Elemente 5-42 für die Analyse nicht mehr benutzt werden.<br />

Änderung zur<br />

vorigen Lösung<br />

124


10 Abkürzungen<br />

DSN<br />

EDS<br />

EV<br />

EW<br />

FFT<br />

GCM<br />

HPR<br />

ICBM<br />

KKM<br />

LGS<br />

LRV<br />

Ma<br />

MA<br />

MEM<br />

PCA<br />

PIK<br />

PRC<br />

RBFS<br />

TMAX<br />

TOC<br />

Data-Stream-Network<br />

Expanded Downscaling<br />

Eigenvektor<br />

Eigenwert<br />

Fast-Fourier-Transformation<br />

Global Circulation Modell<br />

vapor pressure (Wasserdampfdruck)<br />

Institut für Chemie <strong>und</strong> Biologie des Meeres<br />

Kreuzkorrelationsmatrix<br />

Lineares Gleichungssystem<br />

Lineare Regressionsvorhersage<br />

Mega Jahre<br />

Moving Average<br />

Maximum Entropie Methode<br />

Principal Component Analysis<br />

Potsdam Institut für Klimafolgenforschung<br />

Precipitation (Niederschlag)<br />

Radiales Basis-Funktionen-System<br />

Maximaltemperatur<br />

Total Organic Carbon<br />

125


11 Literaturverzeichnis<br />

[1] TAKENS, F., (1981), Detecting strange attractors in turbulence, Lecture notes in Mathematics, Vol. 898,<br />

366.<br />

[2] FRÖHLINGHAUS, T., WEICHERT, A., RUJÁN, P., (1994), Hierarchical neural networks for time-series<br />

analysis and control, Network 6 101-116.<br />

[3] WELCH, B., (1995), Practical Programming in Tcl and Tk, Prentice Hall PTR.<br />

[4] OUSTERHOUT, J.K., (1995), Tcl <strong>und</strong> Tk (deutsche Übersetzung), Addison-Wesley.<br />

[5] STROUSTRUP, B., (1991), C++ - Die Programmiersprache, Addison-Wesley.<br />

[6] LIPPMAN, S.B., (1992), C++, Addison-Wesley.<br />

[7] LASKAR, J., FROESCHLÉ, C., CELLETTI, A., (1992), The measure of chaos by the numerical analysis of<br />

the f<strong>und</strong>amental frequencies, Physica D 56, 253.<br />

[8] SCHREIBER, T., (1993), Extremely simple nonlinear noise-reduction method, Phys. Rev. E 47 2401<br />

[9] BRAUSE, R., (1991), Neuronale Netze, B. G. Teubner Stuttgart.<br />

[10] RITTER, H., MARTINEZ, T., SCHULTEN, K., (1990), Neuronale Netze, Addison-Wesley.<br />

[11] HECHT-NIELSEIN, R., (1990), Neurocomputing, Addison-Wesley.<br />

[12] MODDY, J., DARKEN, C.H., (1989), Fast learning in networks of locally-tuned processing units, Neural<br />

Computation 1 281-294.<br />

[13] STOKBRO, K., UMBERGER, D.K., HERTZ, J.A., (1990), Exploiting neurons with localizied receptive fields<br />

to learn chaos, Complex Systems 4 603-22.<br />

[14] WATANABE, S., (1985), Patter Recognition: Human and Mechanical, New York: New York, Ch 6.<br />

[15] RACHOLD, V., HEINRICHS, H., BRUMSACK, H.-J., (1992), Spinnweben: Natürliche Fänger atmosphärisch<br />

transportierter Feinstäube, Naturwissenschaften 79 175.<br />

[16] HEINRICHS, H., BRUMSACK, H.-J., (1984), Emissionen von Stein- <strong>und</strong> Braunkohlekraftwerken der<br />

B<strong>und</strong>esrepublik Deutschland, Fortschr. Miner. 62 438.<br />

[17] PAULY, D.P., MUCK, J., TSUKAYAMA, M., TSUKAYAMA I., (1989), The Peruvian upwelling ecosystem:<br />

dynamics and interactions, ICLARM Comf. Proc 18, 438.<br />

[18] PALOMARES, M.L., JARRE, A., SAMBILAY V., (1989), Documentation of available 5 1/4 ' MSDOS data<br />

discs on the Peruvian upwelling ecosystem, 408 - 416. In D. Pauly, P. Muck, J. Mendo <strong>und</strong> I.<br />

Tsukayama (Hrsg.), The Peruvian upwelling ecosystem: dynamics and interactions. ICLARM<br />

Conference Proceedings 18, 438.<br />

[19] SCHUSTER, H.H., (1984), Deterministic Chaos, Weinheim: Physik Verlag.<br />

[20] PRESS, W.H., FLANNERY, B.P. TEUKOLKY, S.A., Vetterling, W.T., (1990), Numerical Recipes in C: The<br />

Art of Scientific Computing, Cambridge University Press.<br />

[21] BÜRGER G., (1996), Expanded downscaling for generating local weather scenarios, Clim. Res. 7 111-<br />

128.<br />

[22] BÜRGER G., WEICHERT A. (1998), Linear vs. nonlinear techniques in downscaling, To be published in<br />

Clim. Res<br />

[23] FISCHER, A.G., BOTTJER, D.J., (1991), Orbital forcing and sedimentary sequences, J. Sed. Petrol., 61<br />

1063<br />

[24] TORBETT, M.V., (1989) Solar system and galactic influendes on the stability of the earth,<br />

Palaeogeographie, Paleaoclimatology, Palaeoecology, 75 3.<br />

[25] RACHOLD, V.E., Dissertation: Geochemie der Unterkreide Nordwestdeutschlands: Zyeln <strong>und</strong> Events,<br />

Georg-August-Universität, Göttingen, 1994.<br />

[26] LASKAR, J., JOUNTEL, F., BOUDIN, F., (1993), Orbital precessional, and insolation quantities for the<br />

Earth from -20 Myr to +10 Myr, Astron. Astrophys. 270 522.<br />

[27] FARMER, J.D. SIDOROWICH, J.J., (1987), Predicting Chaotic Time Series, Phys. Rev. Lett. 59 845-449.<br />

[28] BENTLEY, J.L., (1979), Multidimensional binary search trees in database applications, IEEE<br />

Transactions on software engineering SE-5(4), 333<br />

[29] Salvino. L.W., Cawley. R.C., Grebogi, Yorge A.J., (1995). Predictability in time series, Physics Letters<br />

A 209 332<br />

126


Danksagung<br />

An dieser Stelle möchte ich allen danken, die mich bei der Erstellung dieser Arbeit unterstützt haben.<br />

Mein besonderer Dank geht an Prof. Bruno Eckhardt <strong>und</strong> Prof. Pal Ruján, die mir die Durchführung der<br />

Arbeit ermöglicht <strong>und</strong> mir in zahlreichen Gesprächen <strong>und</strong> Diskussionen weitergeholfen haben.<br />

Desweiteren danke ich Dr. Harry Urbschat, der immer für ein privates <strong>und</strong> informatives Gespräch Zeit<br />

gef<strong>und</strong>en hat. Ich danke auch Johannes Hausmann für die Tips bei der C++-Programmierung <strong>und</strong> in<br />

einem anderen Zusammenhang für die intensive Unterstützung bei der Erstellung des Poster zum Data-<br />

Stream-Network. Großer Dank gilt auch Bettina Heidenreich, Inge Scheunemann <strong>und</strong> Dörte Schlünzen<br />

für die Revision der Arbeit. Ich danke besonders Bettina Heidenreich für die sehr kritische <strong>und</strong><br />

gründliche Bearbeitung.<br />

127


Lebenslauf<br />

Persönliche Daten<br />

Name:<br />

Addresse:<br />

Andreas Weichert<br />

Hörneweg 121 a<br />

Geburtsdatum: 8.3.63<br />

26129 Oldenburg<br />

Geburtsort:<br />

Staatsangehörigkeit:<br />

Familienstand:<br />

Eltern:<br />

Bremen<br />

deutsch<br />

ledig<br />

Elektrotechniker Manfred Weichert<br />

Bürokauffrau Luise Weichert, geb. Schröder<br />

Werdegang<br />

27. 8.1969 - 10. 6.1975 Gr<strong>und</strong>schule Rablinghausen in Bremen<br />

27. 8.1975 - 10. 6.1983 Gymnasium am Leibnizplatz in Bremen<br />

19. 5.1983 Abitur<br />

1.10.1983 Immatrikulation in Chemie an der Universität Oldenburg<br />

1. 4.1985 Immatrikulation in Physik an der Universität Oldenburg<br />

26.10.1987 Vordiplom in Physik<br />

22.10.90 - 28.2.91 Zivildienst<br />

1.4.91 Wiederaufnahme des Physikstudiums nach dem Zivildienst<br />

13.9.93 Diplom in Physik<br />

1.9.94 - 31.8.96 Wissenschaftlicher Mitarbeiter an der Universität Oldenburg<br />

1.11.96 - 31.5.97 Wissenschaftlicher Mitarbeiter an der Universität Oldenburg<br />

Oldenburg, den 10. Dezember 1997<br />

128


Erklärung<br />

Hier<strong>mit</strong> versichere ich, daß ich diese Arbeit selbständig verfaßt <strong>und</strong> keine andere als die angegebenen<br />

Quellen <strong>und</strong> Hilfs<strong>mit</strong>tel benutzt habe.<br />

(Andreas Weichert)<br />

129

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!